国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

初創(chuàng)用3000萬造不可編程的AI芯片,推理速度是Nvidia最強GPU 50倍

0
分享至

2026 年 2 月 21 日,一家名為 Taalas 的芯片初創(chuàng)公司正式揭開面紗,發(fā)布了它的第一款產(chǎn)品:一顆將 Meta 的 Llama 3.1 8B 大語言模型幾乎完整“刻進”硅片的推理芯片 HC1。按照該公司公布的數(shù)據(jù),這顆芯片在單用戶場景下可以跑到 17,000 tokens/s 的輸出速度,大約是目前市面上最快競品 Cerebras 的近 9 倍,是 Nvidia Blackwell 架構(gòu) GPU 的近 50 倍。構(gòu)建成本據(jù)稱只有同等 GPU 方案的二十分之一,功耗低一個數(shù)量級。


圖丨TaalasHC1(來源:Taalas)

不過這顆芯片的局限也非常明顯,那就是它只能跑 Llama 3.1 8B。要想換個模型?就只能再造一顆芯片。

這是 AI 芯片行業(yè)迄今為止最激進的專用化嘗試,沒有之一。

當(dāng)前主流的推理部署依賴 GPU,尤其是 Nvidia 的 H100/H200 和最新的 Blackwell 系列。GPU 的優(yōu)勢在于通用性和成熟的軟件生態(tài),但它的架構(gòu)天然存在一個瓶頸:計算單元和存儲單元是分離的。模型的參數(shù)存儲在 HBM(High Bandwidth Memory,高帶寬內(nèi)存)中,計算核心每次運算都需要從 HBM 搬運數(shù)據(jù),這個搬運過程消耗大量能量和時間。

為了緩解這個問題,整個行業(yè)在先進封裝、3D 堆疊、液冷散熱、高速互聯(lián)等方向上投入了巨大的工程資源。Nvidia 的 GB200 NVL72 機柜級系統(tǒng)就是這種路線的極致體現(xiàn):72 顆 GPU 通過 NVLink 互聯(lián),單機柜功耗接近 120 kW,需要液冷支持,造價以百萬美元計。


(來源:Taalas)

Taalas 的做法是把這套復(fù)雜性連根拔掉。

他們的核心思路可以概括為三個詞:全面專用化、存算合一、極度簡化。HC1 芯片采用 Mask ROM(掩模只讀存儲器)工藝將模型權(quán)重直接編碼在芯片的金屬互連層中,和計算邏輯共存于同一塊硅片上,不再需要外部 DRAM 或 HBM。芯片上保留了一小塊 SRAM(Static Random-Access Memory,靜態(tài)隨機存取存儲器),用于存放 KV Cache(鍵值緩存,Transformer 推理時緩存歷史注意力信息的數(shù)據(jù)結(jié)構(gòu))和 LoRA(Low-Rank Adaptation,低秩適配)微調(diào)權(quán)重,提供有限的靈活性,但整體架構(gòu)的可編程性幾乎為零。

據(jù)報道,HC1 基于臺積電 N6 工藝制造,芯片面積 815 mm2,接近光罩極限(reticle limit),單顆芯片即可容納完整的 8B 參數(shù)模型。功耗約 250W,10 塊 HC1 板卡裝進一臺服務(wù)器總功耗約 2.5 kW,可以在標(biāo)準(zhǔn)風(fēng)冷機架中運行。這和動輒數(shù)十千瓦、必須上液冷的 GPU 服務(wù)器差別很大。

Taalas 的 CEO Ljubisa Bajic 是 Tenstorrent 的聯(lián)合創(chuàng)始人,曾擔(dān)任該公司的 CEO 和 CTO。Tenstorrent 是 AI 芯片領(lǐng)域另一家知名初創(chuàng)企業(yè),走的是基于 RISC-V 架構(gòu)的可編程 AI 加速器路線,后來由芯片行業(yè)傳奇人物 Jim Keller 接任 CEO 并繼續(xù)發(fā)展。Bajic 離開 Tenstorrent 后大約在 2023 年中創(chuàng)立了 Taalas,走了一條和 Tenstorrent 幾乎完全相反的路:不追求通用性,而是把專用化推到極端。目前,Taalas 團隊規(guī)模約 25 人,累計融資超過 2 億美元,但據(jù) Bajic 本人披露,第一款產(chǎn)品實際只花費了約 3000 萬美元。


圖丨LjubisaBajic(來源:Tenstorrent)

Taalas 的芯片定制流程借鑒了 2000 年代早期結(jié)構(gòu)化 ASIC(Application-Specific Integrated Circuit,專用集成電路)的思路。結(jié)構(gòu)化 ASIC 通過固化門陣列和硬化 IP 模塊,只修改互連層來適配不同工作負(fù)載,在成本和性能上介于 FPGA(Field-Programmable Gate Array,現(xiàn)場可編程門陣列)和全定制 ASIC 之間。

Taalas 的做法類似但更進一步:每次為新模型定制芯片時只需更換兩層掩模,這兩層掩模同時決定模型權(quán)重的編碼和數(shù)據(jù)在芯片內(nèi)部的流動路徑。Bajic 表示,從拿到一個新模型到生成 RTL(Register Transfer Level,寄存器傳輸級描述)大約只需要一周的工程工作量,整個從模型到芯片的周期目標(biāo)是兩個月。

這個兩個月的周轉(zhuǎn)速度如果能穩(wěn)定實現(xiàn),意味著什么?意味著當(dāng)一個模型在生產(chǎn)環(huán)境中被驗證有效、用戶粘性足夠高、預(yù)計至少運行一年時,Taalas 可以在較短時間內(nèi)為它制造專用硅片,以遠(yuǎn)低于 GPU 的成本和功耗來提供推理服務(wù)。Bajic 承認(rèn),這種模式要求客戶對某個特定模型做出至少一年的承諾,“肯定有很多人不愿意,但會有人愿意”。

那么,這種極端專用化能擴展到更大的模型嗎?Taalas 給出了他們對 DeepSeek R1 671B 的模擬數(shù)據(jù)。671B 參數(shù)的模型需要大約 30 顆芯片協(xié)同工作,每顆芯片承載約 20B 參數(shù)(采用 MXFP4 格式,并將 SRAM 分離到獨立芯片以提高密度)。30 顆芯片意味著 30 次增量流片,但 Bajic 指出由于每次只改兩層掩模,增量流片成本并不高。

模擬結(jié)果顯示,這套 30 芯片系統(tǒng)在 DeepSeek R1 上可以達到約 12,000 tokens/s/user,而當(dāng)前 GPU 最優(yōu)水平大約在 200 tokens/s/user。推理成本約 7.6 美分/百萬 token,不到 GPU 吞吐優(yōu)化方案的一半。

這些數(shù)字當(dāng)然還停留在模擬階段。實際多芯片系統(tǒng)面臨的互聯(lián)、同步、良率等工程挑戰(zhàn)不可小覷,30 顆大面積芯片協(xié)同工作的驗證復(fù)雜度也是指數(shù)級增長的。Bajic 自己也提到,因為芯片完全不可編程,“出錯的余地基本為零”,唯一能建立信心的方法就是在流片前對整個模型進行完整的仿真——如何在合理時間內(nèi)完成 30 顆芯片的聯(lián)合仿真,本身就是一個巨大的工程問題。Taalas 聲稱已經(jīng)建立了可以在大規(guī)模計算集群上運行的仿真流程來應(yīng)對。

還有一個值得關(guān)注的細(xì)節(jié)是,HC1 使用了自定義的 3-bit 基礎(chǔ)數(shù)據(jù)類型進行激進量化,結(jié)合 3-bit 和 6-bit 參數(shù),會帶來相對于標(biāo)準(zhǔn)量化模型的質(zhì)量損失。Taalas 對此并未回避,承認(rèn)模型在質(zhì)量基準(zhǔn)測試中會有退化。他們的第二代硅平臺 HC2 將采用標(biāo)準(zhǔn) 4-bit 浮點格式以改善這一問題。第二款產(chǎn)品預(yù)計是一個中等規(guī)模的推理模型,計劃今年春季在實驗室完成,隨后接入推理服務(wù)。基于 HC2 平臺的前沿大模型則計劃冬季部署。

當(dāng)前 AI 推理芯片市場大致可以按專用化程度排列成一個光譜:一端是 Nvidia GPU 這樣的高度通用方案;中間是 Groq、Cerebras、SambaNova 等,它們設(shè)計了針對 LLM 推理優(yōu)化的定制架構(gòu),但仍保留可編程性,能運行多種模型;Etched 更往前走一步,專門針對 Transformer 架構(gòu)設(shè)計芯片,犧牲部分靈活性換效率;而 Taalas 直接站在了最末端,把一個特定模型焊死在硅片里。


(來源:Gemini生成)

這種極端策略的風(fēng)險很明顯。AI 領(lǐng)域模型迭代速度極快,去年的前沿模型今年可能就被淘汰。如果一顆芯片只能跑一個模型,而那個模型在芯片壽命結(jié)束前就過時了,投資就打了水漂。這也是 Bajic 所說的“為什么之前沒人敢走到這個角落”。但他認(rèn)為隨著行業(yè)成熟,總有一些模型在實際業(yè)務(wù)中被長期使用。Taalas 產(chǎn)品副總裁 Paresh Kharya(此前曾在 Nvidia 長期任職)也對 EE Times 表示,對于在重要業(yè)務(wù)場景中運行的模型,用戶粘性可能持續(xù)一年甚至更久。

商業(yè)模式上 Taalas 還在摸索。Kharya 透露了幾種可能方向:自建基礎(chǔ)設(shè)施運行開源模型并提供 API 推理服務(wù);直接向客戶出售芯片;或者與模型開發(fā)者合作,為他們的模型定制專用芯片供其自有推理基礎(chǔ)設(shè)施使用。哪種模式最終能跑通,取決于市場對這種極端專用化方案的接受程度。

不過從純技術(shù)角度來說,Taalas 的方案確實觸及了一個被主流路線忽略的設(shè)計空間。存算分離帶來的帶寬墻(memory wall)是當(dāng)前推理硬件的核心瓶頸,而 Taalas 通過將權(quán)重以 Mask ROM 形式與計算邏輯同層集成,從根本上消除了這個瓶頸。代價是靈活性的徹底喪失,但如果應(yīng)用場景允許這種剛性,換來的性能和成本優(yōu)勢是實打?qū)嵉摹?/p>

Bajic 還透露,Taalas 能用單個晶體管同時存儲 4-bit 模型參數(shù)并完成乘法運算。他拒絕透露更多,但確認(rèn)計算仍然是全數(shù)字的。如果屬實,這意味著 Taalas 在電路層面實現(xiàn)了一種極為高效的存內(nèi)計算(Compute-in-Memory)機制,雖然不同于學(xué)術(shù)界討論較多的模擬存內(nèi)計算方案,但目標(biāo)一致:讓數(shù)據(jù)就地參與運算,不再搬來搬去。

硬接線芯片還帶來了一個意想不到的副產(chǎn)品:軟件棧的極度簡化。Bajic 說“軟件作為一個東西基本消失了”,公司只有一個工程師負(fù)責(zé)軟件棧,而且這人還兼顧其他工作。對比當(dāng)前 GPU 推理系統(tǒng)中 vLLM、TensorRT-LLM、PagedAttention 等復(fù)雜軟件優(yōu)化層的工程投入,這種簡化幾乎是降維式的。當(dāng)然,這種簡化是以極端硬件專用化為前提的,不具有一般性。

Bajic 在博客中用 ENIAC 到晶體管的演化做類比,暗示當(dāng)前以 GPU 數(shù)據(jù)中心為核心的 AI 基礎(chǔ)設(shè)施可能只是早期的“笨重原型”,未來終將被更高效的方案取代。這個類比有一定道理,但也不宜過度引申。GPU 數(shù)據(jù)中心的“暴力”不僅僅是硬件層面的,它背后是整個 CUDA 軟件生態(tài)、成熟的開發(fā)工具鏈和龐大的工程師社區(qū)。顛覆硬件容易,顛覆生態(tài)難。Taalas 的芯片或許在特定場景下?lián)碛袎旱剐缘男阅芎统杀緝?yōu)勢,但要成為主流路線的替代方案,需要的遠(yuǎn)不止一顆跑得快的芯片。

不過,Taalas 可能也從未打算成為“替代方案”。Kharya 表示:“模型最優(yōu)硅片不會取代滿是 GPU 的大型數(shù)據(jù)中心,但它會適合某些應(yīng)用?!?/p>

參考資料:

1.https://taalas.com/the-path-to-ubiquitous-ai/

2.https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
馬筱梅前夫鄭揚融底細(xì)曝光!家境優(yōu)渥卻留不住她,原因太現(xiàn)實!

馬筱梅前夫鄭揚融底細(xì)曝光!家境優(yōu)渥卻留不住她,原因太現(xiàn)實!

科學(xué)發(fā)掘
2026-02-25 15:01:45
比爾·蓋茨道歉!承認(rèn)與兩俄女子有婚外關(guān)系,“從未前往愛潑斯坦的私人島嶼”

比爾·蓋茨道歉!承認(rèn)與兩俄女子有婚外關(guān)系,“從未前往愛潑斯坦的私人島嶼”

上觀新聞
2026-02-25 15:37:09
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

八斗小先生
2025-12-26 09:33:27
突發(fā)!2026年全國第一巨額搶劫案在江蘇發(fā)生了,197萬,疑犯已捕

突發(fā)!2026年全國第一巨額搶劫案在江蘇發(fā)生了,197萬,疑犯已捕

離離言幾許
2026-02-26 11:10:22
100多斤的羅威納幫主人看車,趴滿整個坐墊,發(fā)現(xiàn)有人偷拍它的反應(yīng)笑噴了!

100多斤的羅威納幫主人看車,趴滿整個坐墊,發(fā)現(xiàn)有人偷拍它的反應(yīng)笑噴了!

愛寵物
2026-02-24 22:22:56
63歲穆帥拒前往伯納烏包廂!在停車場看比賽 沉默回應(yīng)皇馬被照顧

63歲穆帥拒前往伯納烏包廂!在停車場看比賽 沉默回應(yīng)皇馬被照顧

風(fēng)過鄉(xiāng)
2026-02-26 09:22:02
富保羅欲賣Klutch籌措資金 詹姆斯真的能成NBA球隊大老板?

富保羅欲賣Klutch籌措資金 詹姆斯真的能成NBA球隊大老板?

仰臥撐FTUer
2026-02-26 10:17:15
首都博物館垃圾桶內(nèi)發(fā)現(xiàn)當(dāng)天觀眾留言本?工作人員:正在調(diào)查中,平時都是收集上來,整理留檔

首都博物館垃圾桶內(nèi)發(fā)現(xiàn)當(dāng)天觀眾留言本?工作人員:正在調(diào)查中,平時都是收集上來,整理留檔

大象新聞
2026-02-25 16:45:05
哈登右手拇指骨折!今日缺陣仍計劃帶傷作戰(zhàn) 醫(yī)學(xué)專家詳解傷情

哈登右手拇指骨折!今日缺陣仍計劃帶傷作戰(zhàn) 醫(yī)學(xué)專家詳解傷情

羅說NBA
2026-02-26 05:53:33
男籃VS日本隊!郭士強想要贏球,需要少用2人,重用3人

男籃VS日本隊!郭士強想要贏球,需要少用2人,重用3人

體育哲人
2026-02-26 08:01:51
李嘉欣15歲兒子回香港過年,與父母外出拜年,身高近1.9米太矚目

李嘉欣15歲兒子回香港過年,與父母外出拜年,身高近1.9米太矚目

樹娃
2026-02-26 11:34:21
局部中到大雨 降雨明顯時段→

局部中到大雨 降雨明顯時段→

上海預(yù)警發(fā)布
2026-02-26 11:00:53
2月26日人民幣對美元中間價調(diào)升93個基點

2月26日人民幣對美元中間價調(diào)升93個基點

證券時報
2026-02-26 09:31:04
凱爾:沒注意到施洛特貝克被罰下的原因,很驚訝裁判出示紅牌

凱爾:沒注意到施洛特貝克被罰下的原因,很驚訝裁判出示紅牌

懂球帝
2026-02-26 05:40:15
評論 | 第三架光輝戰(zhàn)機報廢,印空軍25年自研夢碎?

評論 | 第三架光輝戰(zhàn)機報廢,印空軍25年自研夢碎?

南亞研究通訊
2026-02-25 22:31:48
可悲!已經(jīng)脫離中華百年的外蒙古,正在把中國人40年的努力毀掉!

可悲!已經(jīng)脫離中華百年的外蒙古,正在把中國人40年的努力毀掉!

墨蘭史書
2026-02-25 20:30:05
【觀察】亞特蘭大的遮羞布,遮不住意甲的羞恥

【觀察】亞特蘭大的遮羞布,遮不住意甲的羞恥

體壇周報
2026-02-26 13:05:12
iPhone 13 Pro這臺2021年登場的“老將”還能穩(wěn)坐主力機的位置嗎?

iPhone 13 Pro這臺2021年登場的“老將”還能穩(wěn)坐主力機的位置嗎?

小柱解說游戲
2026-02-26 13:10:33
新版《最終幻想7》Steam再發(fā)售翻車!評論全是差評

新版《最終幻想7》Steam再發(fā)售翻車!評論全是差評

3DM游戲
2026-02-26 09:53:08
褚時健到2002年才明白,原來當(dāng)年是得罪了惹不起的那幾位

褚時健到2002年才明白,原來當(dāng)年是得罪了惹不起的那幾位

阿柒的訊
2026-02-24 15:07:34
2026-02-26 13:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16322文章數(shù) 514657關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達再次炸裂

頭條要聞

賴清德改口稱“大陸”被指釋出善意 國民黨發(fā)言人表態(tài)

頭條要聞

賴清德改口稱“大陸”被指釋出善意 國民黨發(fā)言人表態(tài)

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財經(jīng)要聞

短劇市場風(fēng)云突變!有人投百萬賠得精光

汽車要聞

第五代宏光MINIEV煥新 四門玩趣代步車來襲

態(tài)度原創(chuàng)

健康
藝術(shù)
家居
數(shù)碼
旅游

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

藝術(shù)要聞

2025年百家金陵畫展 | 油畫作品選刊

家居要聞

歸隱于都市 慢享自由

數(shù)碼要聞

華碩靈耀14雙屏2026筆記本上市:Ultra X9 388H,14999元起

旅游要聞

水潤壽鄉(xiāng) 文旅煥新——眉山市彭山區(qū)擘畫現(xiàn)代化都市圈文旅融合新圖景

無障礙瀏覽 進入關(guān)懷版