国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

太瘋了!MIT博士在Transformer里造計(jì)算機(jī),攻破LLM終極缺陷

0
分享至


新智元報(bào)道

編輯:KingHZ Aeneas

【新智元導(dǎo)讀】炸裂!就在剛剛,一位MIT博士,在Transformer里造出個(gè)計(jì)算機(jī)?,F(xiàn)在,模型一舉洗刷「9.11與9.9哪個(gè)大」的恥辱,幾秒內(nèi)運(yùn)行數(shù)百萬步程序,世界最難數(shù)獨(dú)準(zhǔn)確率100%!大模型的能力邊界,從此徹底改變。

就在剛剛,AI圈被一項(xiàng)暴力美學(xué)般的突破,徹底震碎了三觀。

一位MIT博士,在Transformer里,直接造出了個(gè)計(jì)算機(jī)!

注意,不是外掛插件,不是調(diào)用工具(Tool Use),而是通過一種近乎瘋狂的硬編碼方式,將一個(gè)WebAssembly (WASM) 解釋器無損地(Losslessly)嵌入到了Transformer模型的權(quán)重之中。


這位博士老哥,是真的把LLM玩出硬件感了

這意味著,從此LLM不再是靠概率預(yù)測(cè)下一個(gè)智元(Token)的文字游戲機(jī),而是進(jìn)化成了一臺(tái)真正的數(shù)字計(jì)算機(jī)。

如果你以為,LLM現(xiàn)在還算不清「9.11與9.9哪個(gè)大」,現(xiàn)在,你的認(rèn)知將被徹底粉碎!

現(xiàn)在,這篇帖子已經(jīng)在X上熱轉(zhuǎn),引來眾多開發(fā)者大神的瘋狂點(diǎn)贊。

可以說,它一舉洗刷了大模型3年以來的「恥辱」。

「Vibe Coding」之父、大神Karpathy直接驚呼:這項(xiàng)研究太棒了,實(shí)在是令人深受啟發(fā)!


LLM終極弱點(diǎn),被徹底攻破

作為一種新類型的智能,大模型能解研究級(jí)難題,但不借助外部工具,卻幾乎不可能完成兩個(gè)數(shù)相乘或解個(gè)小數(shù)獨(dú)。

那么,如何讓LLM本身變得像計(jì)算機(jī)一樣可靠高效?

答案是:在Transformer內(nèi)部實(shí)實(shí)在在地構(gòu)建一臺(tái)計(jì)算機(jī)。

雅典大學(xué)副教授、MIT博士Christos Tzamos及其Percepta團(tuán)隊(duì)將任意C代碼轉(zhuǎn)化為智元(Token),讓模型自己能可靠執(zhí)行,在幾秒內(nèi)運(yùn)行數(shù)百萬步。


鏈接:https://www.percepta.ai/blog/can-llms-be-computers

通過匈牙利算法,它解決了一個(gè)多步優(yōu)化問題,即求解最小成本完美匹配,運(yùn)作方式如下。


在這個(gè)過程中,AI并不調(diào)用外部工具。

所有計(jì)算都是在Transformer內(nèi)部以自回歸的方式完成的!

這里的難點(diǎn)在于,對(duì)于任何實(shí)際計(jì)算來說,LLM的標(biāo)準(zhǔn)注意力機(jī)制太慢了。

為了繞過這一限制,他們發(fā)明了一種新的解碼路徑,實(shí)現(xiàn)了指數(shù)級(jí)加速的注意力機(jī)制,讓每智元(Token)生成所需的幾乎所有計(jì)算量智元(Token),并在CPU上以超過每秒3萬個(gè)智元(Token)的速度流式輸出結(jié)果。



要知道MacBook M2 Pro的解碼速度才每秒27個(gè)智元(token),每秒33000個(gè)智元(Token)堪稱火箭般的速度,讓人難以想象!


當(dāng)然,用LLM的計(jì)算速度無法與CPU相比,這項(xiàng)研究的關(guān)鍵意義在于賦予LLM內(nèi)在計(jì)算能力,真正教會(huì)AI算數(shù),讓它更聰明。


而這項(xiàng)能力與自動(dòng)研究相結(jié)合,未來探索空間更是遠(yuǎn)超想象。


網(wǎng)友贊嘆:這才是真正的原生智能!


傳統(tǒng)attention

可以退出歷史舞臺(tái)?

注意,這項(xiàng)工作,并不是讓模型更會(huì)算,而是讓模型在內(nèi)部真正執(zhí)行程序!

不靠外掛,不調(diào)用Python,所有計(jì)算,都發(fā)生在Transformer里。

更離譜的是,這臺(tái)「計(jì)算機(jī)」幾秒就能跑完百萬步的程序。連做最難的數(shù)獨(dú),正確率都是100%。


在3分鐘內(nèi),它就實(shí)現(xiàn)了100%的精確求解

這種方法不僅可用于速度,它可以用于執(zhí)行任意代碼——就像在AI腦子中塞入了一臺(tái)電腦。


按照大V「Rainier」的說法,這個(gè)思路有點(diǎn)類似于TI的dsp芯片:ARM負(fù)責(zé)邏輯思維,dsp專門負(fù)責(zé)高速數(shù)據(jù)計(jì)算,各取所長。


這也意味著,一種Hybrid LLM架構(gòu)的全新范式開始出現(xiàn),其中神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)推理和理解,嵌入式解釋器/計(jì)算引擎負(fù)責(zé)高精度計(jì)算。

于是可以同時(shí)兼顧推理能力和確定性計(jì)算精度,徹底解決「9.11和9.9哪個(gè)大」這個(gè)問題。

這個(gè)方向走通的話,數(shù)值計(jì)算、物理模擬、金融建模、密碼學(xué)運(yùn)算,都會(huì)發(fā)生極大變革。

傳統(tǒng)Attention太慢,根本不適合做計(jì)算,而這項(xiàng)研究,直接引爆了Transformer的范式躍遷!


AI最大的恥辱,如今被終結(jié)了

三年了。


三年來,每個(gè)頂級(jí)AI經(jīng)歷過同一個(gè)社死時(shí)刻:當(dāng)你在臺(tái)上信心滿滿地演示大模型的超強(qiáng)推理能力,臺(tái)下忽然有人舉手提問:「那請(qǐng)問,9.11和9.9哪個(gè)大?」

模型回答「9.11 > 9.9」,全場哄堂大笑。

這不是段子,這是真實(shí)發(fā)生過無數(shù)次的事。


2024年,在記者M(jìn)att Barnum測(cè)試中,基于ChatGPT的學(xué)習(xí)輔導(dǎo)工具Khanmigo,有時(shí)連算術(shù)題的答案都拿不準(zhǔn)

原因不難理解:Transformer本為理解語言設(shè)計(jì)的,并非為精確計(jì)算設(shè)計(jì)。

讓大模型做算術(shù),就像讓莎士比亞做會(huì)計(jì)——他能把財(cái)報(bào)寫成十四行詩,但數(shù)字八成對(duì)不上。

AI行業(yè)的補(bǔ)丁方案是「外掛工具」:算不了?那就調(diào)Python。


這相當(dāng)于給莎士比亞旁邊放了個(gè)計(jì)算器。雖然能用,但并不優(yōu)雅,而且每次調(diào)用都打斷推理鏈、增加延遲、引入安全風(fēng)險(xiǎn)。

現(xiàn)在,MIT博士說:別給莎士比亞放計(jì)算器了直接讓他天生就會(huì)算數(shù)!

他們把一臺(tái)完整的WebAssembly虛擬機(jī),硬編碼進(jìn)了Transformer的權(quán)重里。

也就是說,神經(jīng)網(wǎng)絡(luò)的前向傳播過程本身,就等價(jià)于執(zhí)行一臺(tái)計(jì)算機(jī)。

過去AI的恥辱,如今終結(jié)了。

不過,但就數(shù)獨(dú)問題而言,這不是LLM第一次突破。

工程師Aviraj認(rèn)為Percepta的方法很酷,但他們采取了不同的、更面向具體問題的路徑。

核心區(qū)別在于:不將通用編譯產(chǎn)物(如C->WASM)作為模型的學(xué)習(xí)目標(biāo),而是為特定任務(wù)設(shè)計(jì)一個(gè)極簡的、領(lǐng)域?qū)S玫闹噶罴≒SVM)。



不過,這次看看Christos Tzamos團(tuán)隊(duì)如何在Transformer內(nèi)部跑起來一臺(tái)電腦的。

這個(gè)過程的關(guān)鍵,就是找到一種方法,來編碼一臺(tái)可工作的計(jì)算機(jī)。

計(jì)算:一條只增不減的軌跡

要理解Transformer如何在內(nèi)部執(zhí)行程序,不妨用一種稍微不同的方式來思考計(jì)算。

想象一個(gè)筆記本,計(jì)算的每一步都寫在下一行。一旦寫下,前面的行就不能更改;筆記本只會(huì)越來越厚。

這驚人地接近自回歸Transformer的工作方式:提示詞是輸入,生成的智元形成不斷增長的軌跡,每個(gè)新智元都是通過注意力機(jī)制回看少量位置后產(chǎn)生的。

比如,給定一個(gè)句子,統(tǒng)計(jì)其中動(dòng)詞的數(shù)量是奇數(shù)還是偶數(shù)。每個(gè)軌跡智元恰好關(guān)注兩個(gè)位置:對(duì)應(yīng)的輸入詞(檢查它是否是動(dòng)詞)和前一個(gè)軌跡智元(讀取當(dāng)前的奇偶狀態(tài))。


請(qǐng)注意,無論句子有多長,每一步都只需要兩次回看(一次看提示詞,一次看軌跡)。

這正是其中的核心洞察:許多算法都可以表示成這種只增不減的軌跡,每一步只需讀取少量、固定數(shù)量的先前位置。

那么,計(jì)算能否被表示成一條只增不減的軌跡,且每一步只需回看少量次數(shù)呢?

答案是肯定的。

在Christos Tzamos的系統(tǒng)中,AI模型明確地生成了這樣的軌跡。

它生成的智元代表了一個(gè)虛擬機(jī)的動(dòng)態(tài)狀態(tài):指令指針、內(nèi)存和棧操作、算術(shù)運(yùn)算、控制流以及輸出。

AI只需通過回看相關(guān)的先前步驟,就能重構(gòu)出當(dāng)前狀態(tài)。

這幾乎就是圖靈機(jī)!


圖靈機(jī)是一種抽象的計(jì)算機(jī)模型,它通過在一個(gè)無限長的紙帶上進(jìn)行讀寫操作來執(zhí)行計(jì)算。

但即使Transformer能表示這種執(zhí)行軌跡,隨著軌跡變長,標(biāo)準(zhǔn)的解碼過程仍然會(huì)付出越來越高的成本。

然而,Christos Tzamos等提出了快速解碼路徑,消除了這一障礙,而二維注意力頭限制,正是實(shí)現(xiàn)這一快速路徑的關(guān)鍵。


總的來說,這件事真正有價(jià)值的地方,不在于「模型更會(huì)算了」,而有些能力,可以直接以「系統(tǒng)」的形式嵌入進(jìn)去。

當(dāng)Transformer內(nèi)部開始運(yùn)行真正的程序,LLM就不再只是一個(gè)概率模型,而更像一個(gè)由推理系統(tǒng)和計(jì)算引擎組成的混合體。

AI,正在變成一整套可以執(zhí)行、可以組合、可以擴(kuò)展的系統(tǒng)。

這,可能就是下一代AI的真正方向。

參考資料:

https://x.com/mtrainier2020/status/2033640996337291482

https://www.percepta.ai/blog/can-llms-be-computers

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
網(wǎng)易號(hào)平臺(tái)每日辟謠公告(三月二十六日)

網(wǎng)易號(hào)平臺(tái)每日辟謠公告(三月二十六日)

網(wǎng)易號(hào)官方平臺(tái)
2026-03-26 18:04:59
姐弟倆被繼母逼吃大便、熱水燙下體、垃圾桶覓食、渾身淤青......生父威脅鄰居別管閑事,已被逮捕!

姐弟倆被繼母逼吃大便、熱水燙下體、垃圾桶覓食、渾身淤青......生父威脅鄰居別管閑事,已被逮捕!

新民周刊
2026-03-26 19:12:17
跌光2500億!泡泡瑪特,股價(jià)崩塌

跌光2500億!泡泡瑪特,股價(jià)崩塌

財(cái)經(jīng)銳眼
2026-03-26 18:54:18
伊朗軍方:已擊中或擊落202架各類美以軍機(jī)

伊朗軍方:已擊中或擊落202架各類美以軍機(jī)

界面新聞
2026-03-26 15:29:15
41歲張雪峰去世后續(xù),其婚姻被扒,已離婚6年,前妻很低調(diào)

41歲張雪峰去世后續(xù),其婚姻被扒,已離婚6年,前妻很低調(diào)

180視角
2026-03-26 13:01:03
商務(wù)部:中方將自5月1日起對(duì)所有非洲建交國全面實(shí)施零關(guān)稅舉措

商務(wù)部:中方將自5月1日起對(duì)所有非洲建交國全面實(shí)施零關(guān)稅舉措

界面新聞
2026-03-26 16:08:24
大陸對(duì)全體臺(tái)胞發(fā)出邀請(qǐng):兩岸統(tǒng)一之時(shí),即可從臺(tái)島自駕直達(dá)北京

大陸對(duì)全體臺(tái)胞發(fā)出邀請(qǐng):兩岸統(tǒng)一之時(shí),即可從臺(tái)島自駕直達(dá)北京

小童歷史
2026-03-25 18:20:29
突發(fā)!以色列徹底失控!

突發(fā)!以色列徹底失控!

財(cái)經(jīng)要參
2026-03-26 21:58:11
萬科創(chuàng)始人妻子解除邊控

萬科創(chuàng)始人妻子解除邊控

地產(chǎn)微資訊
2026-03-26 20:23:02
48歲大叔每月9次夫妻生活,單位體檢結(jié)束后,結(jié)果讓他大吃一驚

48歲大叔每月9次夫妻生活,單位體檢結(jié)束后,結(jié)果讓他大吃一驚

飯小妹說歷史
2026-03-26 20:26:05
內(nèi)塔尼亞胡妻子:我兒子就因是以總理孩子被羞辱

內(nèi)塔尼亞胡妻子:我兒子就因是以總理孩子被羞辱

看看新聞Knews
2026-03-26 14:21:02
日本網(wǎng)民真怕了,呼吁嚴(yán)懲闖入中國使館的暴徒,防止226事件再現(xiàn)

日本網(wǎng)民真怕了,呼吁嚴(yán)懲闖入中國使館的暴徒,防止226事件再現(xiàn)

知法而形
2026-03-25 18:38:56
尺度大到曾下架!模特冠軍泳裝大雷出演影游即將發(fā)售

尺度大到曾下架!模特冠軍泳裝大雷出演影游即將發(fā)售

游民星空
2026-03-26 11:58:13
萬科高管被要求退還薪酬

萬科高管被要求退還薪酬

地產(chǎn)微資訊
2026-03-26 12:22:04
聯(lián)大通過決議,宣布“最嚴(yán)重反人類罪”

聯(lián)大通過決議,宣布“最嚴(yán)重反人類罪”

澎湃新聞
2026-03-26 11:03:06
張雪峰員工:辦公室已拆掉紅色錦旗,員工徹夜難眠,家長電話打爆

張雪峰員工:辦公室已拆掉紅色錦旗,員工徹夜難眠,家長電話打爆

每日人物
2026-03-26 13:34:51
張雪峰追悼會(huì)定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

張雪峰追悼會(huì)定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

未曾青梅
2026-03-26 22:48:49
到底有多無知,才能做出這樣的判決!

到底有多無知,才能做出這樣的判決!

槽三刀
2026-03-25 22:01:04
張雪峰前女友哭紅眼,喊話不要給他潑臟水,曝兩人分手原因

張雪峰前女友哭紅眼,喊話不要給他潑臟水,曝兩人分手原因

茶韻浮生
2026-03-26 20:26:51
中共中央批準(zhǔn),開除劉慧黨籍

中共中央批準(zhǔn),開除劉慧黨籍

新京報(bào)
2026-03-26 17:14:17
2026-03-27 01:04:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14821文章數(shù) 66721關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

數(shù)碼
本地
時(shí)尚
教育
公開課

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動(dòng),支持B70 / B65顯卡

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

400萬人愛過的女孩,被黃謠網(wǎng)暴180天后

教育要聞

精準(zhǔn)研判,提質(zhì)增效丨我校召開2026屆畢業(yè)生就業(yè)工作研判會(huì)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版