国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上交大和輝羲把LLM刻進ROM!推理性能沖2萬token/s,GPU時代終結(jié)?

0
分享至


新智元報道

編輯:犀牛

【新智元導(dǎo)讀】當(dāng)硅谷Taalas將大模型「物理焊死」進芯片引爆全球半導(dǎo)體圈,來自上海交大、輝羲智能與微軟亞洲研究院的研究團隊早已走得更遠——他們用ROM+SRAM異構(gòu)架構(gòu),將端側(cè)LLM推理速度推至20,000 tokens/s,端側(cè)算力直接起飛。

近期,硅谷初創(chuàng)公司 Taalas 提出的「模型即芯片(Model-on-Chip)」方案引發(fā)了全球半導(dǎo)體業(yè)界對「硬核 AI」的深度反思。

他們繞開了所有熱門概念,直接把AI大模型,物理焊死在硅片里!

芯片運行Llama 3.1 8B的速度達到了17,000tokens/秒。

足足比業(yè)界最頂端的英偉達GPU提升了將近10倍!


英偉達這邊也沒閑著,GTC 2026前夕,英偉達釋放明確信號:即將發(fā)布的Feynman架構(gòu)將與Groq LPU技術(shù)實現(xiàn)深度融合。

LPU架構(gòu)通過預(yù)編排的固定指令流驅(qū)動模型,摒棄傳統(tǒng)HBM主存,轉(zhuǎn)而采用片上SRAM存儲權(quán)重,大幅突破了原有的訪問速度與帶寬瓶頸。

這些都預(yù)示著,在Scaling Law驅(qū)動的大模型時代,傳統(tǒng)的通用指令集正成為鎖死算力的枷鎖。

如何從物理層面徹底擊碎困擾大語言模型(LLM)部署的「內(nèi)存墻」,已成為定義生成式 AI 下半場的關(guān)鍵。


現(xiàn)有端側(cè)存儲方案不能同時滿足LLM推理的存儲容量和訪存帶寬需求

事實上,針對 LLM 的訪存特性,來自上海交大、輝羲智能及微軟亞洲研究院的研究團隊早已展開了一場存儲層次結(jié)構(gòu)的創(chuàng)新研究。

通過ROMA與TOM系列研究,團隊展現(xiàn)了與 Taalas 不謀而合的架構(gòu)洞察:通過對只讀存儲(ROM)的顛覆性應(yīng)用與「算法-架構(gòu)」深度協(xié)同,成功將LLM 的端側(cè)推理速度推向 20,000 tokens/s的水平,這一突破性成果在具身智能等前沿領(lǐng)域展現(xiàn)了巨大的應(yīng)用潛力。


ROMA:打破傳統(tǒng)存儲層次

重塑端側(cè)能效

在大模型端側(cè)部署的實戰(zhàn)中,傳統(tǒng)的內(nèi)存層次結(jié)構(gòu)正面臨前所未有的挑戰(zhàn)。

研究團隊提出的 ROMA(Read-Only-Memory-based Accelerator) 架構(gòu),針對端側(cè)場景的特殊需求,給出了一套系統(tǒng)的解法。


ROMA的計算架構(gòu),采用ROM+SRAM的方案

1.引入只讀存儲(ROM):從源頭解決訪存能效

研究團隊發(fā)現(xiàn),大模型推理的能效瓶頸主要源于權(quán)重數(shù)據(jù)在外部內(nèi)存(如 LPDDR)與計算單元之間的頻繁搬運。

ROMA 另辟蹊徑,利用高集成密度、低功耗的只讀存儲(ROM)作為權(quán)重的存儲載體,將模型參數(shù)從源頭上固化在芯片內(nèi)部,大幅度降低了訪存功耗。

2.QLoRA 賦能靈活性:在「固化」中尋找演進空間

完全硬連線的芯片往往難以應(yīng)對算法的快速迭代。ROMA 巧妙地引入了 QLoRA 機制,通過ROM(基座模型)+ SRAM(LoRA 適配器)的混合設(shè)計,確保了芯片在擁有「硬核」性能的同時,依然保留了強大的應(yīng)用靈活性。

開發(fā)者只需下發(fā)極小規(guī)模的 LoRA 插件,即可讓固化的基座模型在不同垂直任務(wù)間快速切換。

3.架構(gòu)與物理設(shè)計協(xié)同:極致的物理實現(xiàn)

為了實現(xiàn)真正的片上全模型存儲,團隊進行了深度的 架構(gòu)與物理設(shè)計協(xié)同優(yōu)化。

通過獨創(chuàng)的 B-ROM 設(shè)計,將計算單元與存儲陣列進行緊耦合的物理布局,極大地縮短了信號傳輸路徑。

這種協(xié)同設(shè)計讓 ROMA 在有限的芯片面積內(nèi),實現(xiàn)了對數(shù)億參數(shù)模型的高效容納與實時調(diào)度。

最終,ROMA的規(guī)格和指標(biāo)與Taalas非常接近:ROMA采用7nm工藝庫,芯片面積約 500 mm2,可以完整容納4bit LLaMA3.2-3B 或者 2bit LLaMA3-8B,推理性能達到20,000 tokens/s,而同樣采用ROM+SRAM的方案的Taalas是6nm工藝,面積約800mm2,可容下3-6bit llama3.1-8B,性能接近20,000 tokens/s。

TOM:深度挖掘三值化大模型

帶來的存儲紅利

在 ROMA 的基礎(chǔ)上,最新的TOM(Ternary-Oriented Memory)架構(gòu)進一步將優(yōu)化的觸角延伸到了算法底層的存儲特征中,把ROMA擴展到BitNet/Ternary量化這個場景,利用低比特權(quán)重的0值稀疏性,繼續(xù)提升了ROM的存儲密度。


低比特模型0值分布特征,帶來ROM存儲密度提升潛力

1.捕捉 BitNet 的硬件友好性:開啟「以邏輯代存儲」范式

研究團隊發(fā)現(xiàn),以 BitNet-b1.58 為代表的三值化({-1, 0, 1})模型展現(xiàn)出了極佳的硬件友好性 。

基于這一發(fā)現(xiàn),TOM 摒棄了傳統(tǒng)的存儲陣列,通過邏輯合成技術(shù)直接利用標(biāo)準(zhǔn)邏輯門實現(xiàn)模型權(quán)重的固化存儲 。

在這種新范式下,硬件能夠直接識別并物理消除權(quán)重中「0」元素的存儲電路 。這一極致收益的實現(xiàn),得益于三值模型中零值參數(shù)本就占據(jù)絕大多數(shù)的天然稀疏特性,加上定制的編碼方法(使用「10」而非「11」來表示 -1),從而大幅拉高了 0-bit 的整體占比,從根本上降低了物理開銷 。

2.存儲邏輯的深度合并與復(fù)用:極限壓縮芯片面積

為了進一步推高面積效率,TOM 引入了精細(xì)的邏輯優(yōu)化策略:通過識別并提取不同權(quán)重存儲邏輯中的公共子序列,對重復(fù)的邏輯門進行深度合并與復(fù)用。

這種從物理層對存儲邏輯進行的「極限去重」,使得 TOM 相比 ROMA 實現(xiàn)了片上存儲密度的數(shù)倍提升與芯片面積的大幅削減。

這也再次印證了算法-硬件聯(lián)合設(shè)計在突破 AI 算力邊界時的核心重要性。

具身智能與極端場景

ROM 架構(gòu)的「降維打擊」

「模型即芯片」方案的興起,精準(zhǔn)捕捉到了當(dāng)前端側(cè)應(yīng)用的兩大痛點:

1.具身智能的「實時確定性」

在機器人、無人設(shè)備等具身智能場景中,毫秒級的響應(yīng)延遲往往決定了系統(tǒng)的物理安全性。

ROMA 提供的 20,000+ tokens/s 吞吐量,是為了提供一種高確定性的實時反饋。

這讓機器人能夠像擁有脊髓反射一樣,在感知到復(fù)雜的物理環(huán)境變化時,瞬時做出語義理解與避障決策。

2.極端環(huán)境下的生存優(yōu)勢:深海與火星

在深海探測器、火星漫游車等極端場景下,DRAM 等易失性存儲器不僅能耗高,且容易受到高能射線干擾產(chǎn)生軟錯誤。

ROM 架構(gòu)具有天然的穩(wěn)定性和抗輻射性。

在能源匱乏、通信隔絕的極端環(huán)境下,搭載 ROMA/TOM 架構(gòu)的設(shè)備依然能獨立、穩(wěn)定地完成復(fù)雜的智能任務(wù),且待機功耗極低。

這使得大模型能夠真正走出實驗室,進入人類探索的「無人區(qū)」。

3.智能終端的隱私「防火墻」

對于手機端本地文本處理等場景,用戶對模型基座的頻繁更新需求并不高,但對隱私極其敏感。

將成熟、穩(wěn)定的模型能力固化在本地隔離電路中,不僅免去了頻繁聯(lián)網(wǎng)的能耗,更在物理層面上杜絕了數(shù)據(jù)外泄的風(fēng)險。

結(jié)語

開啟端側(cè)內(nèi)存層次結(jié)構(gòu)的新紀(jì)元

從 Taalas 的破圈到研究團隊ROMA與TOM系列工作的深度探索,我們正見證 AI 硬件架構(gòu)的一個重要轉(zhuǎn)向。

這種引入ROM+SRAM異構(gòu)存儲層次結(jié)構(gòu)的創(chuàng)新,結(jié)合對三值邏輯存儲特性的極致挖掘,為端側(cè)大模型部署提供了一條全新的進路。

ROMA與TOM系列研究的誕生,植根于“模型即芯片”的設(shè)計思維。

團隊的這種強調(diào)算法與硬件深度耦合的思維來源,最早可追溯至微軟亞洲研究院(MSRA)時期。

核心作者中,王文強與曹士杰曾先后作為MSRA實習(xí)生在徐寧儀老師指導(dǎo)下開展研究,積淀了深厚的工業(yè)界系統(tǒng)經(jīng)驗;張毅佳在上海交大攻讀博士期間師從徐老師,并先后在 MSRA 系統(tǒng)組與輝羲智能實習(xí)。

研究團隊長期從事算法-芯片聯(lián)合設(shè)計的研究,在AI芯片架構(gòu)設(shè)計、大模型輕量化等方面有豐富經(jīng)驗。

這種由資深架構(gòu)師、企業(yè)研究員與學(xué)術(shù)新生代構(gòu)成的多重紐帶,讓團隊得以將前沿的實戰(zhàn)思維與學(xué)術(shù)界的理論創(chuàng)新高效結(jié)合,在大模型范式下實現(xiàn)了從通用計算向 LLM 原生架構(gòu)的協(xié)同突破。

團隊介紹

關(guān)于上交大團隊:團隊來自上海交通大學(xué)計算機學(xué)院定制計算中心(Customized Computing Center - CCC,ccc.sjtu.edu.cn),CCC聚焦于解決數(shù)據(jù)中心、邊緣設(shè)備和傳感器的所面臨的各種計算挑戰(zhàn)。

關(guān)于輝羲智能:輝羲智能致力于成為全球領(lǐng)先的具身智能AI計算平臺供應(yīng)商,以卓越算力促進人工智能發(fā)展。成立三年,公司已實現(xiàn)大算力端側(cè)旗艦芯片R1的成功流片與量產(chǎn)交付,率先在具身智能領(lǐng)域走通“芯片-平臺-產(chǎn)品”的全棧自主國產(chǎn)化路徑。

參考資料:

ROMA:https://arxiv.org/pdf/2503.12988

TOM:https://arxiv.org/abs/2602.20662

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
木頭姐:英偉達的對手要來了

木頭姐:英偉達的對手要來了

IT之家
2026-03-02 18:09:17
86歲哈梅剛死,伊朗突然迎來救兵,中國使領(lǐng)館表態(tài),多國已選邊站

86歲哈梅剛死,伊朗突然迎來救兵,中國使領(lǐng)館表態(tài),多國已選邊站

悠悠寫故事
2026-03-02 19:14:43
英媒爆出猛料:中國或違反聯(lián)合國規(guī)定,運送超高音速導(dǎo)彈給伊朗!

英媒爆出猛料:中國或違反聯(lián)合國規(guī)定,運送超高音速導(dǎo)彈給伊朗!

始于初見見
2026-03-02 19:33:23
16GB+1TB!新機官宣:3月2日,正式全球首秀!

16GB+1TB!新機官宣:3月2日,正式全球首秀!

科技堡壘
2026-02-28 11:38:10
閃評|英國默許美國使用軍事基地 歐洲態(tài)度緣何轉(zhuǎn)變?

閃評|英國默許美國使用軍事基地 歐洲態(tài)度緣何轉(zhuǎn)變?

國際在線
2026-03-02 19:42:05
王某(女,37歲)寫字樓停車場駕駛小客車,因操作不當(dāng)撞到3車1人,天津警方:排除酒駕

王某(女,37歲)寫字樓停車場駕駛小客車,因操作不當(dāng)撞到3車1人,天津警方:排除酒駕

都市快報橙柿互動
2026-03-02 10:43:40
演員陳浩民夫婦滯留阿聯(lián)酋,妻子蔣麗莎:人生第二次收到轟炸警報,作為中國人真的很感恩現(xiàn)在和平的每一天

演員陳浩民夫婦滯留阿聯(lián)酋,妻子蔣麗莎:人生第二次收到轟炸警報,作為中國人真的很感恩現(xiàn)在和平的每一天

極目新聞
2026-03-02 12:35:35
惠英紅自曝元宵節(jié)邀請陳麗君來香港旅游被拒,原因引全場大笑

惠英紅自曝元宵節(jié)邀請陳麗君來香港旅游被拒,原因引全場大笑

娛最資訊
2026-03-02 11:38:25
美軍B2轟炸機空襲伊朗導(dǎo)彈設(shè)施

美軍B2轟炸機空襲伊朗導(dǎo)彈設(shè)施

財聯(lián)社
2026-03-02 01:22:05
嚴(yán)重違紀(jì)違法,李曉清被開除黨籍和公職

嚴(yán)重違紀(jì)違法,李曉清被開除黨籍和公職

都市快報橙柿互動
2026-03-01 20:50:00
中國光伏人出奇招,公路頂搭建光伏,效果或?qū)㈩嵏惨酝?>
    </a>
        <h3>
      <a href=三農(nóng)老歷
2026-02-23 01:39:40
逃離三亞大潰??!一萬四天價機票逼瘋打工人,中產(chǎn)游客已窮哭

逃離三亞大潰??!一萬四天價機票逼瘋打工人,中產(chǎn)游客已窮哭

烈史
2026-02-26 14:51:59
藥店變天了!2026年3月2日起,咱百姓買藥再不花冤枉錢

藥店變天了!2026年3月2日起,咱百姓買藥再不花冤枉錢

老特有話說
2026-03-01 22:03:12
3月30日起執(zhí)行!國務(wù)院824號令:農(nóng)村土葬老墳處置規(guī)則與權(quán)益保護

3月30日起執(zhí)行!國務(wù)院824號令:農(nóng)村土葬老墳處置規(guī)則與權(quán)益保護

三農(nóng)雷哥
2026-02-26 19:39:24
AI演員眼神空洞嚇退觀眾,流水線演技要被取代,唐國強的話說對了

AI演員眼神空洞嚇退觀眾,流水線演技要被取代,唐國強的話說對了

洲洲影視娛評
2026-03-02 14:27:17
朝陽多家店鋪一夜閉店!門頭全部罩上!

朝陽多家店鋪一夜閉店!門頭全部罩上!

朝陽通
2026-03-02 15:44:46
豆瓣就誤設(shè)“滿200減200”優(yōu)惠券致歉,稱無法承受損失將自動退款處理異常訂單,律師:自行認(rèn)定無效,需請法院或仲裁機構(gòu)撤銷

豆瓣就誤設(shè)“滿200減200”優(yōu)惠券致歉,稱無法承受損失將自動退款處理異常訂單,律師:自行認(rèn)定無效,需請法院或仲裁機構(gòu)撤銷

極目新聞
2026-03-02 16:17:52
受美伊以沖突影響 中國男籃8月賽程撲朔迷離

受美伊以沖突影響 中國男籃8月賽程撲朔迷離

體壇周報
2026-03-02 13:57:38
上海合作組織秘書處降半旗

上海合作組織秘書處降半旗

觀察者網(wǎng)
2026-03-01 18:14:11
布倫森打爆福克斯,文班25+13+4帽難救主,尼克斯終結(jié)馬刺11連勝

布倫森打爆??怂梗陌?5+13+4帽難救主,尼克斯終結(jié)馬刺11連勝

釘釘陌上花開
2026-03-02 05:22:30
2026-03-02 20:36:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14625文章數(shù) 66647關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

游戲
旅游
教育
親子
軍事航空

《王者榮耀世界》終于定檔!你會第一時間玩嗎?

旅游要聞

重慶市榮昌區(qū)清升鎮(zhèn)第二屆清升李花文化旅游節(jié)將于3月3日啟幕

教育要聞

26考研:理工專業(yè)成高分重災(zāi)區(qū),401分排名128位,390分只能調(diào)劑

親子要聞

阿寶和藏區(qū)老二居然就差一天的生日時間,今天我們給他們過生日哦

軍事要聞

美軍動用新型武器:山寨伊朗的

無障礙瀏覽 進入關(guān)懷版