国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

上交大和輝羲把LLM刻進(jìn)ROM!推理性能沖2萬token/s,GPU時(shí)代終結(jié)?

0
分享至


新智元報(bào)道

編輯:犀牛

【新智元導(dǎo)讀】當(dāng)硅谷Taalas將大模型「物理焊死」進(jìn)芯片引爆全球半導(dǎo)體圈,來自上海交大、輝羲智能與微軟亞洲研究院的研究團(tuán)隊(duì)早已走得更遠(yuǎn)——他們用ROM+SRAM異構(gòu)架構(gòu),將端側(cè)LLM推理速度推至20,000 tokens/s,端側(cè)算力直接起飛。

近期,硅谷初創(chuàng)公司 Taalas 提出的「模型即芯片(Model-on-Chip)」方案引發(fā)了全球半導(dǎo)體業(yè)界對(duì)「硬核 AI」的深度反思。

他們繞開了所有熱門概念,直接把AI大模型,物理焊死在硅片里!

芯片運(yùn)行Llama 3.1 8B的速度達(dá)到了17,000tokens/秒。

足足比業(yè)界最頂端的英偉達(dá)GPU提升了將近10倍!


英偉達(dá)這邊也沒閑著,GTC 2026前夕,英偉達(dá)釋放明確信號(hào):即將發(fā)布的Feynman架構(gòu)將與Groq LPU技術(shù)實(shí)現(xiàn)深度融合。

LPU架構(gòu)通過預(yù)編排的固定指令流驅(qū)動(dòng)模型,摒棄傳統(tǒng)HBM主存,轉(zhuǎn)而采用片上SRAM存儲(chǔ)權(quán)重,大幅突破了原有的訪問速度與帶寬瓶頸。

這些都預(yù)示著,在Scaling Law驅(qū)動(dòng)的大模型時(shí)代,傳統(tǒng)的通用指令集正成為鎖死算力的枷鎖。

如何從物理層面徹底擊碎困擾大語言模型(LLM)部署的「內(nèi)存墻」,已成為定義生成式 AI 下半場(chǎng)的關(guān)鍵。


現(xiàn)有端側(cè)存儲(chǔ)方案不能同時(shí)滿足LLM推理的存儲(chǔ)容量和訪存帶寬需求

事實(shí)上,針對(duì) LLM 的訪存特性,來自上海交大、輝羲智能及微軟亞洲研究院的研究團(tuán)隊(duì)早已展開了一場(chǎng)存儲(chǔ)層次結(jié)構(gòu)的創(chuàng)新研究。

通過ROMA與TOM系列研究,團(tuán)隊(duì)展現(xiàn)了與 Taalas 不謀而合的架構(gòu)洞察:通過對(duì)只讀存儲(chǔ)(ROM)的顛覆性應(yīng)用與「算法-架構(gòu)」深度協(xié)同,成功將LLM 的端側(cè)推理速度推向 20,000 tokens/s的水平,這一突破性成果在具身智能等前沿領(lǐng)域展現(xiàn)了巨大的應(yīng)用潛力。


ROMA:打破傳統(tǒng)存儲(chǔ)層次

重塑端側(cè)能效

在大模型端側(cè)部署的實(shí)戰(zhàn)中,傳統(tǒng)的內(nèi)存層次結(jié)構(gòu)正面臨前所未有的挑戰(zhàn)。

研究團(tuán)隊(duì)提出的 ROMA(Read-Only-Memory-based Accelerator) 架構(gòu),針對(duì)端側(cè)場(chǎng)景的特殊需求,給出了一套系統(tǒng)的解法。


ROMA的計(jì)算架構(gòu),采用ROM+SRAM的方案

1.引入只讀存儲(chǔ)(ROM):從源頭解決訪存能效

研究團(tuán)隊(duì)發(fā)現(xiàn),大模型推理的能效瓶頸主要源于權(quán)重?cái)?shù)據(jù)在外部?jī)?nèi)存(如 LPDDR)與計(jì)算單元之間的頻繁搬運(yùn)。

ROMA 另辟蹊徑,利用高集成密度、低功耗的只讀存儲(chǔ)(ROM)作為權(quán)重的存儲(chǔ)載體,將模型參數(shù)從源頭上固化在芯片內(nèi)部,大幅度降低了訪存功耗。

2.QLoRA 賦能靈活性:在「固化」中尋找演進(jìn)空間

完全硬連線的芯片往往難以應(yīng)對(duì)算法的快速迭代。ROMA 巧妙地引入了 QLoRA 機(jī)制,通過ROM(基座模型)+ SRAM(LoRA 適配器)的混合設(shè)計(jì),確保了芯片在擁有「硬核」性能的同時(shí),依然保留了強(qiáng)大的應(yīng)用靈活性。

開發(fā)者只需下發(fā)極小規(guī)模的 LoRA 插件,即可讓固化的基座模型在不同垂直任務(wù)間快速切換。

3.架構(gòu)與物理設(shè)計(jì)協(xié)同:極致的物理實(shí)現(xiàn)

為了實(shí)現(xiàn)真正的片上全模型存儲(chǔ),團(tuán)隊(duì)進(jìn)行了深度的 架構(gòu)與物理設(shè)計(jì)協(xié)同優(yōu)化。

通過獨(dú)創(chuàng)的 B-ROM 設(shè)計(jì),將計(jì)算單元與存儲(chǔ)陣列進(jìn)行緊耦合的物理布局,極大地縮短了信號(hào)傳輸路徑。

這種協(xié)同設(shè)計(jì)讓 ROMA 在有限的芯片面積內(nèi),實(shí)現(xiàn)了對(duì)數(shù)億參數(shù)模型的高效容納與實(shí)時(shí)調(diào)度。

最終,ROMA的規(guī)格和指標(biāo)與Taalas非常接近:ROMA采用7nm工藝庫,芯片面積約 500 mm2,可以完整容納4bit LLaMA3.2-3B 或者 2bit LLaMA3-8B,推理性能達(dá)到20,000 tokens/s,而同樣采用ROM+SRAM的方案的Taalas是6nm工藝,面積約800mm2,可容下3-6bit llama3.1-8B,性能接近20,000 tokens/s。

TOM:深度挖掘三值化大模型

帶來的存儲(chǔ)紅利

在 ROMA 的基礎(chǔ)上,最新的TOM(Ternary-Oriented Memory)架構(gòu)進(jìn)一步將優(yōu)化的觸角延伸到了算法底層的存儲(chǔ)特征中,把ROMA擴(kuò)展到BitNet/Ternary量化這個(gè)場(chǎng)景,利用低比特權(quán)重的0值稀疏性,繼續(xù)提升了ROM的存儲(chǔ)密度。


低比特模型0值分布特征,帶來ROM存儲(chǔ)密度提升潛力

1.捕捉 BitNet 的硬件友好性:開啟「以邏輯代存儲(chǔ)」范式

研究團(tuán)隊(duì)發(fā)現(xiàn),以 BitNet-b1.58 為代表的三值化({-1, 0, 1})模型展現(xiàn)出了極佳的硬件友好性 。

基于這一發(fā)現(xiàn),TOM 摒棄了傳統(tǒng)的存儲(chǔ)陣列,通過邏輯合成技術(shù)直接利用標(biāo)準(zhǔn)邏輯門實(shí)現(xiàn)模型權(quán)重的固化存儲(chǔ) 。

在這種新范式下,硬件能夠直接識(shí)別并物理消除權(quán)重中「0」元素的存儲(chǔ)電路 。這一極致收益的實(shí)現(xiàn),得益于三值模型中零值參數(shù)本就占據(jù)絕大多數(shù)的天然稀疏特性,加上定制的編碼方法(使用「10」而非「11」來表示 -1),從而大幅拉高了 0-bit 的整體占比,從根本上降低了物理開銷 。

2.存儲(chǔ)邏輯的深度合并與復(fù)用:極限壓縮芯片面積

為了進(jìn)一步推高面積效率,TOM 引入了精細(xì)的邏輯優(yōu)化策略:通過識(shí)別并提取不同權(quán)重存儲(chǔ)邏輯中的公共子序列,對(duì)重復(fù)的邏輯門進(jìn)行深度合并與復(fù)用。

這種從物理層對(duì)存儲(chǔ)邏輯進(jìn)行的「極限去重」,使得 TOM 相比 ROMA 實(shí)現(xiàn)了片上存儲(chǔ)密度的數(shù)倍提升與芯片面積的大幅削減。

這也再次印證了算法-硬件聯(lián)合設(shè)計(jì)在突破 AI 算力邊界時(shí)的核心重要性。

具身智能與極端場(chǎng)景

ROM 架構(gòu)的「降維打擊」

「模型即芯片」方案的興起,精準(zhǔn)捕捉到了當(dāng)前端側(cè)應(yīng)用的兩大痛點(diǎn):

1.具身智能的「實(shí)時(shí)確定性」

在機(jī)器人、無人設(shè)備等具身智能場(chǎng)景中,毫秒級(jí)的響應(yīng)延遲往往決定了系統(tǒng)的物理安全性。

ROMA 提供的 20,000+ tokens/s 吞吐量,是為了提供一種高確定性的實(shí)時(shí)反饋。

這讓機(jī)器人能夠像擁有脊髓反射一樣,在感知到復(fù)雜的物理環(huán)境變化時(shí),瞬時(shí)做出語義理解與避障決策。

2.極端環(huán)境下的生存優(yōu)勢(shì):深海與火星

在深海探測(cè)器、火星漫游車等極端場(chǎng)景下,DRAM 等易失性存儲(chǔ)器不僅能耗高,且容易受到高能射線干擾產(chǎn)生軟錯(cuò)誤。

ROM 架構(gòu)具有天然的穩(wěn)定性和抗輻射性。

在能源匱乏、通信隔絕的極端環(huán)境下,搭載 ROMA/TOM 架構(gòu)的設(shè)備依然能獨(dú)立、穩(wěn)定地完成復(fù)雜的智能任務(wù),且待機(jī)功耗極低。

這使得大模型能夠真正走出實(shí)驗(yàn)室,進(jìn)入人類探索的「無人區(qū)」。

3.智能終端的隱私「防火墻」

對(duì)于手機(jī)端本地文本處理等場(chǎng)景,用戶對(duì)模型基座的頻繁更新需求并不高,但對(duì)隱私極其敏感。

將成熟、穩(wěn)定的模型能力固化在本地隔離電路中,不僅免去了頻繁聯(lián)網(wǎng)的能耗,更在物理層面上杜絕了數(shù)據(jù)外泄的風(fēng)險(xiǎn)。

結(jié)語

開啟端側(cè)內(nèi)存層次結(jié)構(gòu)的新紀(jì)元

從 Taalas 的破圈到研究團(tuán)隊(duì)ROMA與TOM系列工作的深度探索,我們正見證 AI 硬件架構(gòu)的一個(gè)重要轉(zhuǎn)向。

這種引入ROM+SRAM異構(gòu)存儲(chǔ)層次結(jié)構(gòu)的創(chuàng)新,結(jié)合對(duì)三值邏輯存儲(chǔ)特性的極致挖掘,為端側(cè)大模型部署提供了一條全新的進(jìn)路。

ROMA與TOM系列研究的誕生,植根于“模型即芯片”的設(shè)計(jì)思維。

團(tuán)隊(duì)的這種強(qiáng)調(diào)算法與硬件深度耦合的思維來源,最早可追溯至微軟亞洲研究院(MSRA)時(shí)期。

核心作者中,王文強(qiáng)與曹士杰曾先后作為MSRA實(shí)習(xí)生在徐寧儀老師指導(dǎo)下開展研究,積淀了深厚的工業(yè)界系統(tǒng)經(jīng)驗(yàn);張毅佳在上海交大攻讀博士期間師從徐老師,并先后在 MSRA 系統(tǒng)組與輝羲智能實(shí)習(xí)。

研究團(tuán)隊(duì)長期從事算法-芯片聯(lián)合設(shè)計(jì)的研究,在AI芯片架構(gòu)設(shè)計(jì)、大模型輕量化等方面有豐富經(jīng)驗(yàn)。

這種由資深架構(gòu)師、企業(yè)研究員與學(xué)術(shù)新生代構(gòu)成的多重紐帶,讓團(tuán)隊(duì)得以將前沿的實(shí)戰(zhàn)思維與學(xué)術(shù)界的理論創(chuàng)新高效結(jié)合,在大模型范式下實(shí)現(xiàn)了從通用計(jì)算向 LLM 原生架構(gòu)的協(xié)同突破。

團(tuán)隊(duì)介紹

關(guān)于上交大團(tuán)隊(duì):團(tuán)隊(duì)來自上海交通大學(xué)計(jì)算機(jī)學(xué)院定制計(jì)算中心(Customized Computing Center - CCC,ccc.sjtu.edu.cn),CCC聚焦于解決數(shù)據(jù)中心、邊緣設(shè)備和傳感器的所面臨的各種計(jì)算挑戰(zhàn)。

關(guān)于輝羲智能:輝羲智能致力于成為全球領(lǐng)先的具身智能AI計(jì)算平臺(tái)供應(yīng)商,以卓越算力促進(jìn)人工智能發(fā)展。成立三年,公司已實(shí)現(xiàn)大算力端側(cè)旗艦芯片R1的成功流片與量產(chǎn)交付,率先在具身智能領(lǐng)域走通“芯片-平臺(tái)-產(chǎn)品”的全棧自主國產(chǎn)化路徑。

參考資料:

ROMA:https://arxiv.org/pdf/2503.12988

TOM:https://arxiv.org/abs/2602.20662

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特朗普沒想到:哈梅內(nèi)伊雖然死了,但臨終前的一項(xiàng)安排會(huì)這么厲害

特朗普沒想到:哈梅內(nèi)伊雖然死了,但臨終前的一項(xiàng)安排會(huì)這么厲害

健身狂人
2026-03-01 13:53:47
伊朗允許外國留學(xué)生無需出境許可經(jīng)陸路口岸離境,中國駐伊朗大使館最新通報(bào):這些通道可撤離

伊朗允許外國留學(xué)生無需出境許可經(jīng)陸路口岸離境,中國駐伊朗大使館最新通報(bào):這些通道可撤離

每日經(jīng)濟(jì)新聞
2026-03-03 16:53:40
收評(píng):全體股民做好準(zhǔn)備!A股轉(zhuǎn)折點(diǎn)來了,不出意外明天將這樣走

收評(píng):全體股民做好準(zhǔn)備!A股轉(zhuǎn)折點(diǎn)來了,不出意外明天將這樣走

財(cái)經(jīng)大拿
2026-03-03 13:58:17
凌晨浦東機(jī)場(chǎng):四女孩險(xiǎn)飛泰國,兩分鐘生死一線

凌晨浦東機(jī)場(chǎng):四女孩險(xiǎn)飛泰國,兩分鐘生死一線

解鎖世界風(fēng)云
2026-03-02 10:04:08
沒想到這么快,幾個(gè)小時(shí)就舉了白旗,彈盡糧絕,不投降就沒命了!

沒想到這么快,幾個(gè)小時(shí)就舉了白旗,彈盡糧絕,不投降就沒命了!

科普100克克
2025-10-05 15:24:42
巴方總統(tǒng)警告中國!只要中國敢出手反制,巴拿馬就動(dòng)手,后果自負(fù)

巴方總統(tǒng)警告中國!只要中國敢出手反制,巴拿馬就動(dòng)手,后果自負(fù)

王姐懶人家常菜
2026-03-02 16:52:20
山姆如何“算計(jì)”中國中產(chǎn)?年輕人寧交260元,也不逛免費(fèi)超市?

山姆如何“算計(jì)”中國中產(chǎn)?年輕人寧交260元,也不逛免費(fèi)超市?

有范又有料
2026-03-03 15:53:15
迪麗熱巴被曝滯留迪拜,工作室發(fā)文:因不可抗力,確定無法抵達(dá)巴黎,不得不缺席時(shí)裝周

迪麗熱巴被曝滯留迪拜,工作室發(fā)文:因不可抗力,確定無法抵達(dá)巴黎,不得不缺席時(shí)裝周

極目新聞
2026-03-03 15:04:10
埃及被打醒了,蘇35和殲10都不買:就要一種4000萬美元中國新軍機(jī)

埃及被打醒了,蘇35和殲10都不買:就要一種4000萬美元中國新軍機(jī)

近史談
2026-01-17 21:44:06
中國女足2-0孟加拉國!球員評(píng)分:1人高分,6人不及格,揪出最差

中國女足2-0孟加拉國!球員評(píng)分:1人高分,6人不及格,揪出最差

侃球熊弟
2026-03-03 18:16:23
特朗普稱不擔(dān)心美國基地甚至美國領(lǐng)土遭受襲擊威脅,并稱“這是戰(zhàn)爭(zhēng)的一部分”;美國國會(huì)將就限制總統(tǒng)戰(zhàn)爭(zhēng)權(quán)力議案舉行投票

特朗普稱不擔(dān)心美國基地甚至美國領(lǐng)土遭受襲擊威脅,并稱“這是戰(zhàn)爭(zhēng)的一部分”;美國國會(huì)將就限制總統(tǒng)戰(zhàn)爭(zhēng)權(quán)力議案舉行投票

大風(fēng)新聞
2026-03-03 13:49:03
新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

南權(quán)先生
2026-01-26 15:41:26
28分輕取國王!東契奇生涯總分超越96.6%的NBA球員,他才25歲

28分輕取國王!東契奇生涯總分超越96.6%的NBA球員,他才25歲

大眼瞄世界
2026-03-03 01:25:03
12小時(shí)900次打擊!美軍戰(zhàn)力不復(fù)當(dāng)年:對(duì)比海灣戰(zhàn)爭(zhēng)差距太懸殊了

12小時(shí)900次打擊!美軍戰(zhàn)力不復(fù)當(dāng)年:對(duì)比海灣戰(zhàn)爭(zhēng)差距太懸殊了

達(dá)文西看世界
2026-03-02 11:46:29
“支付寶莫名其妙收到轉(zhuǎn)賬,對(duì)方態(tài)度不好,要求轉(zhuǎn)回”,需謹(jǐn)慎

“支付寶莫名其妙收到轉(zhuǎn)賬,對(duì)方態(tài)度不好,要求轉(zhuǎn)回”,需謹(jǐn)慎

夜深愛雜談
2026-03-03 17:38:59
美伊大戰(zhàn)的后果已經(jīng)出現(xiàn),中國早有應(yīng)對(duì),當(dāng)初有件事情做得很明智

美伊大戰(zhàn)的后果已經(jīng)出現(xiàn),中國早有應(yīng)對(duì),當(dāng)初有件事情做得很明智

Ck的蜜糖
2026-03-03 15:55:17
火箭探花謝潑德轟19+7+10+6+2:創(chuàng)歷史最年輕紀(jì)錄

火箭探花謝潑德轟19+7+10+6+2:創(chuàng)歷史最年輕紀(jì)錄

體壇周報(bào)
2026-03-03 11:57:11
熔斷!韓國股市暴跌

熔斷!韓國股市暴跌

證券時(shí)報(bào)e公司
2026-03-03 12:20:50
伊朗轉(zhuǎn)機(jī)來了!560人慘死,特朗普捂不住,關(guān)鍵時(shí)刻三盟友全反水

伊朗轉(zhuǎn)機(jī)來了!560人慘死,特朗普捂不住,關(guān)鍵時(shí)刻三盟友全反水

面包夾知識(shí)
2026-03-03 20:08:20
伊朗終于認(rèn)識(shí)到問題嚴(yán)重性:自己的王牌武器,被美軍看得一清二楚

伊朗終于認(rèn)識(shí)到問題嚴(yán)重性:自己的王牌武器,被美軍看得一清二楚

音樂時(shí)光的娛樂
2026-03-03 19:21:33
2026-03-03 20:36:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14632文章數(shù) 66648關(guān)注度
往期回顧 全部

科技要聞

擁抱AI的"牛馬":邊提效邊自嘲"自費(fèi)"上班

頭條要聞

有分析稱中方或采取更大膽行動(dòng)宣示領(lǐng)土主張 中方回應(yīng)

頭條要聞

有分析稱中方或采取更大膽行動(dòng)宣示領(lǐng)土主張 中方回應(yīng)

體育要聞

35輪后積分-7,他們?cè)庥鍪飞献钤绲慕导?jí)

娛樂要聞

謝娜霸氣護(hù)夫:喊話薛之謙給張杰道歉

財(cái)經(jīng)要聞

特朗普“不惜一切”!全球股債齊崩

汽車要聞

第一梯隊(duì)輔助駕駛加持 iCAR V27定檔3月13日上市

態(tài)度原創(chuàng)

房產(chǎn)
親子
藝術(shù)
時(shí)尚
公開課

房產(chǎn)要聞

狂銷13億!近百位三亞頂豪買家,都在All in超級(jí)地中!倫偅

親子要聞

猜猜這是什么?

藝術(shù)要聞

Nihad Aghazada:當(dāng)代阿塞拜疆畫家

普通人穿衣真的很簡(jiǎn)單!單品選對(duì)、搭配合理,大方舒適又得體

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版