AI芯片新貴，瘋狂融資，圍攻英偉達(dá)

AI芯片新貴瘋狂融資圍攻英偉達(dá)

2026-02-25 09:16:35　來源: 半導(dǎo)體行業(yè)觀察

上海舉報(bào)

分享至

公眾號記得加星標(biāo)??，第一時(shí)間看推送不會(huì)錯(cuò)過。

這些年的人工智能浪潮，讓英偉達(dá)成為當(dāng)之無愧的大贏家。如圖所示，英偉達(dá)的營收屢創(chuàng)新高，公司市值也一度突破五萬億美元。

從很多報(bào)道我們看到，英偉達(dá)能取得當(dāng)下的成績，除了得益于公司在GPU上的領(lǐng)先投入外，公司在CUDA和NVLINK上的布局也是公司能夠今天的必不可少的依仗。相關(guān)數(shù)據(jù)顯示，英偉達(dá)公司的硬件（特別是其GPU），已經(jīng)成為人工智能的代名詞。許多最先進(jìn)的程序都運(yùn)行在英偉達(dá)芯片上——事實(shí)上，數(shù)量之多，以至于英偉達(dá)的市場份額達(dá)到了85%。

如此強(qiáng)大的市場控制力，相當(dāng)于英偉達(dá)幾乎壟斷了整個(gè)行業(yè)，這也吸引了很多英偉達(dá)競爭對手拔地而起。尤其是現(xiàn)在隨著推理的崛起，英偉達(dá)的競對更是花樣百出。在這里我們列舉一下，

SambaNova卷土重來，發(fā)布新芯片

雖然在過去兩年屢經(jīng)波折，但SambaNova在最近又拿下了一輪融資，并獲得了Intel的加持。

SambaNova周二發(fā)布公告稱，公司已籌集 3.5 億美元，用于推進(jìn)其數(shù)據(jù)流架構(gòu)，該公司將其定位為基于 GPU 的 AI 系統(tǒng)的替代方案。

值得一提的是，本次融資的部分資金來自英特爾資本，這打破了芯片巨頭英特爾有意收購SambaNova的傳聞。本輪融資的其他參與者包括Vista Equity、Cambium Capital以及其他幾家風(fēng)險(xiǎn)投資基金，他們預(yù)期SambaNova最新一代可重構(gòu)數(shù)據(jù)流單元（RDU）上市后將帶來豐厚的回報(bào)。

英特爾將與這家初創(chuàng)公司展開一項(xiàng)“多年”合作，旨在為客戶提供生成式人工智能部署中GPU之外的替代方案。這自然意味著SambaNova的新型RDU將采用至強(qiáng)CPU，但除此之外，雙方的合作還將包括軟硬件協(xié)同設(shè)計(jì)。

SambaNova 首席執(zhí)行官 Rodrigo Liang 表示：“我們的產(chǎn)品非常有競爭力。他們有規(guī)模；他們有資金；他們有我們可以合作的客戶?！?/p>

英特爾不僅在生成式人工智能領(lǐng)域落后于時(shí)代——可以說，這家巨頭在數(shù)據(jù)中心 GPU 和 Gaudi 產(chǎn)品線屢次失誤后，已經(jīng)完全錯(cuò)失了良機(jī)。

英特爾數(shù)據(jù)中心集團(tuán)執(zhí)行副總裁凱沃爾克·凱奇奇安在一份聲明中表示：“隨著我們從邊緣到云端不斷發(fā)展和擴(kuò)展人工智能應(yīng)用，我們正在通過多種方式滿足這些需求，以保持我們在生態(tài)系統(tǒng)中的關(guān)鍵地位，并保護(hù)和擴(kuò)大市場份額?！?/p>

SambaNova 同時(shí)還披露，公司將于今年晚些時(shí)候交付其新一代加速器 SN50，日本軟銀集團(tuán)已簽約成為該初創(chuàng)公司的首批客戶之一。

據(jù)SambaNova 稱， SN50的速度是 Nvidia Blackwell 的五倍，吞吐量是后者的三倍，足以運(yùn)行參數(shù)超過 10 萬億的智能體 AI 模型。

與 SN40 類似，SN50 也采用了分層內(nèi)存架構(gòu)，結(jié)合了 64GB 高帶寬內(nèi)存 (HBM)、432MB 靜態(tài)隨機(jī)存取內(nèi)存 (SRAM) 以及 256GB 至 2TB 的 DDR5 內(nèi)存。SambaNova 表示，這種內(nèi)存架構(gòu)使其能夠承載規(guī)模最大的 AI 模型，包括參數(shù)量高達(dá) 10 萬億的模型。該公司在今天發(fā)布的一篇博文中寫道：“駐留在 HBM 和 SRAM 中的模型可以在幾毫秒內(nèi)進(jìn)行熱插拔，這對于需要在多個(gè)模型之間頻繁切換的智能體工作負(fù)載至關(guān)重要。 ”

SambaNova 表示，SN50 的單次加速器計(jì)算能力是 SN40 的五倍，網(wǎng)絡(luò)帶寬是 SN40 的四倍。該公司還表示，內(nèi)部基準(zhǔn)測試表明，與 Nvidia 的 Blackwell B200 GPU 相比，SN50 的最大速度是其五倍，在 Meta 的 Llama 3.3 70B 等模型上運(yùn)行的智能推理工作負(fù)載的吞吐量是其三倍以上。

SambaNova 以預(yù)配置機(jī)架（稱為 SambaRack）的形式銷售其芯片，每個(gè)機(jī)架最多可容納 16 個(gè)獨(dú)立的 SN50 芯片。該公司支持 SambaRack 的擴(kuò)展能力，可支持最多 256 個(gè) SN50 芯片組成的集群，這些芯片通過每秒數(shù) TB 的互連鏈路連接。每個(gè) SambaRack 的平均功耗為 20 kW，因此可以使用風(fēng)冷而非液冷。

SambaNova及其芯片的目標(biāo)應(yīng)用是人工智能推理工作負(fù)載，SN50也不例外。該公司表示，SN50能夠?qū)⑤斎雝okens緩存到內(nèi)存中，從而縮短了相對于主流GPU架構(gòu)的首次令牌響應(yīng)時(shí)間（TTFT）。此外，SN50還能在內(nèi)存中存儲(chǔ)多個(gè)AI模型，并以遠(yuǎn)低于Nvidia GPU所需的時(shí)間進(jìn)行交換。

SambaNova聯(lián)合創(chuàng)始人兼首席執(zhí)行官梁羅德里戈在一份新聞稿中表示：“人工智能不再是構(gòu)建最大模型的競賽。憑借SN50以及我們與英特爾的深度合作，真正的競爭在于誰能用即時(shí)響應(yīng)、永不卡頓的AI代理點(diǎn)亮整個(gè)數(shù)據(jù)中心，并且成本能夠?qū)⑷斯ぶ悄軓囊豁?xiàng)實(shí)驗(yàn)轉(zhuǎn)變?yōu)樵贫俗钯嶅X的引擎?！?/p>

歐洲AI芯片公司，不甘人后

在同一日，歐洲人工智能芯片初創(chuàng)公司Axelera AI成功完成2.5億美元的新一輪融資，這是迄今為止歐洲人工智能芯片制造公司獲得的最大一筆投資之一。根據(jù)周二發(fā)布的公告，本輪融資由Innovation Industries領(lǐng)投，知名新投資者貝萊德（BlackRock）和SiteGround Capital也參與其中。這筆巨額資金注入凸顯了投資者對歐洲人工智能芯片研發(fā)日益增長的信心，歐洲正努力在競爭激烈的半導(dǎo)體行業(yè)中占據(jù)一席之地。

Axelera AI是歐洲少數(shù)幾家專注于開發(fā)人工智能專用半導(dǎo)體技術(shù)的公司之一。該公司總部位于荷蘭埃因霍溫，致力于打造節(jié)能高效的工業(yè)應(yīng)用推理芯片。這些專用處理器旨在運(yùn)行人工智能模型，而非訓(xùn)練模型，從而滿足更廣泛的人工智能生態(tài)系統(tǒng)中特定細(xì)分市場的需求。

該公司專注于推理芯片，使其在不斷增長的市場中占據(jù)戰(zhàn)略優(yōu)勢，該市場要求企業(yè)提供經(jīng)濟(jì)高效的解決方案，以便在生產(chǎn)環(huán)境中部署人工智能模型。然而，與主導(dǎo)全球半導(dǎo)體市場的美國和亞洲競爭對手相比，歐洲人工智能芯片市場規(guī)模仍然小得多。

自2021年成立以來，Axelera AI展現(xiàn)了持續(xù)的融資能力，迄今已累計(jì)融資超過4.5億美元。最新一輪融資吸引了新老投資者的參與，體現(xiàn)了市場對該公司技術(shù)和市場策略的持續(xù)信心。

此前參與此輪融資的投資方包括Bitfury、Verve Investments、三星電子的Catalyst基金以及歐洲創(chuàng)新理事會(huì)基金。此外，比利時(shí)和荷蘭政府支持的基金也參與了投資，凸顯了歐洲各國對發(fā)展本土半導(dǎo)體能力的戰(zhàn)略重視。

Axelera AI 的旗艦產(chǎn)品是一款名為 Metis 的人工智能芯片，其每秒可執(zhí)行 214 萬億次計(jì)算。該處理器通常功耗約為 10 瓦，因此非常適合用于電池供電的聯(lián)網(wǎng)設(shè)備。例如，倉庫機(jī)器人可以使用嵌入式 Metis 處理器來運(yùn)行人工智能導(dǎo)航軟件。

Metis 采用 Axelera AI 稱之為數(shù)字內(nèi)存計(jì)算（簡稱 D-IMC）的架構(gòu)。它通過限制芯片內(nèi)部的數(shù)據(jù)傳輸來降低功耗。

人工智能處理器通常使用兩組不同的電路來存儲(chǔ)和處理數(shù)據(jù)。在處理過程中，數(shù)據(jù)需要定期在這些電路之間進(jìn)行交換，這會(huì)消耗電力。Axelera AI 的 D-IMC 架構(gòu)采用高速存儲(chǔ)器 SRAM，在同一位置存儲(chǔ)和處理信息。這減少了芯片不同部分之間數(shù)據(jù)傳輸?shù)男枨?，從而降低了功耗?/p>

D-IMC 將 SRAM 模塊排列成一種稱為交叉陣列的配置。這種陣列可以對向量和矩陣進(jìn)行計(jì)算，向量和矩陣是 AI 模型使用的兩種基本數(shù)據(jù)單元。向量是一行數(shù)字，而矩陣由多行數(shù)字組成。

Axelera AI聯(lián)合創(chuàng)始人兼首席執(zhí)行官Fabrizio Del Maffeo表示：“數(shù)據(jù)中心正面臨電力和冷卻方面的極限，隨著分析越來越靠近數(shù)據(jù)產(chǎn)生的地方，邊緣AI解決方案必須在嚴(yán)格的能源和帶寬限制下運(yùn)行。我們從零開始設(shè)計(jì)架構(gòu)，就是為了克服這些障礙?！?/p>

Axelera AI 將 Metis 作為兩款加速卡的一部分進(jìn)行銷售，客戶可將其連接到自己的聯(lián)網(wǎng)設(shè)備。第一款加速卡包含最多四個(gè)芯片，并通過 PCIe 端口連接到主機(jī)系統(tǒng)。另一款加速卡則包含一個(gè) Metis 單元，并采用 M.2 接口。M.2 接口是一種節(jié)省空間的 PCIe 替代方案，常用于低功耗設(shè)備。

企業(yè)可以使用名為 Voyager SDK 的軟件工具包在 Metis 芯片上運(yùn)行 AI 模型。該工具包依賴于名為 Apache TVM 的開源工具來優(yōu)化客戶針對該芯片的算法。此外，Axelera AI 還提供了一個(gè)名為 Model Zoo 的預(yù)封裝 AI 模型集合。

該公司目前正在研發(fā)第二代芯片 Europa。它的運(yùn)算速度高達(dá)每秒 629 萬億次，是 Metis 的兩倍多。該芯片包含 8 個(gè) AI 優(yōu)化核心、16 個(gè)中央處理器核心和 128 兆字節(jié)的內(nèi)存。

Axelera AI 表示，Europa 芯片的每瓦性能可達(dá)同類產(chǎn)品的三倍。該公司稱，該芯片尤其適用于運(yùn)行計(jì)算機(jī)視覺模型。Axelera AI 的內(nèi)部測試表明，其每秒可處理超過 13,168 幀的圖像。

谷歌TPU老兵，組團(tuán)對抗英偉達(dá)

由兩位前谷歌芯片工程師創(chuàng)立的MatX也在今天宣布：已籌集超過 5 億美元的新資金，用于開發(fā)旨在與NVIDIA 直接競爭的硬件。

據(jù)彭博社報(bào)道，本輪融資由Jane Street和 Situational Awareness 領(lǐng)投，后者是由前OpenAI研究員 Leopold Aschenbrenner創(chuàng)立的投資公司。其他投資者包括 Marvell Technology、風(fēng)險(xiǎn)投資公司 NFDG 和 Spark Capital，以及 Stripe 的聯(lián)合創(chuàng)始人 Patrick Collison 和 John Collison。

這筆新的資金將使這家初創(chuàng)公司能夠獲得生產(chǎn)空間并獲得重要零部件，特別是目前半導(dǎo)體行業(yè)短缺的存儲(chǔ)器。

資料顯示，MatX 由Reiner Pope和Mike Gunter創(chuàng)立，兩人都曾就職于谷歌半導(dǎo)體部門。他們于 2022 年離開谷歌，目標(biāo)明確：設(shè)計(jì)一款專為大型語言模型打造的芯片，而大型語言模型正是當(dāng)今人工智能聊天機(jī)器人背后的技術(shù)。

“這讓我們能夠與那些規(guī)模龐大的公司在相對公平的平臺上競爭，因?yàn)樗鼈兛梢匝杆贁U(kuò)張，”Gunter說。“這一輪融資讓我們幾乎與那些擁有巨額資金的公司站在了同一起跑線上?！?/p>

MatX是眾多試圖搶占人工智能芯片市場份額的初創(chuàng)公司之一，該市場長期以來一直由英偉達(dá)的圖形處理器主導(dǎo)。MatX專門為頂級人工智能模型設(shè)計(jì)硬件，專注于最大限度地提高大規(guī)模應(yīng)用的性能。

這家初創(chuàng)公司計(jì)劃在今年晚些時(shí)候推出其首款芯片——一款名為 MatX One 的 LLM 優(yōu)化加速器。雖然像 Groq、dMatrix 和 SambaNova 這樣的許多人工智能初創(chuàng)公司都將推理作為重點(diǎn)，但 Matx 表示其芯片將涵蓋所有功能：預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)以及推理預(yù)填充和解碼。

除此之外，關(guān)于這款芯片的具體細(xì)節(jié)仍然很少。該公司宣稱，該芯片的分離式脈動(dòng)陣列將提供最高的“每平方毫米浮點(diǎn)運(yùn)算性能”，并可擴(kuò)展至“數(shù)十萬個(gè)芯片”。

他們的技術(shù)提供了十倍的計(jì)算能力，使人工智能實(shí)驗(yàn)室能夠顯著提升模型性能。這套硬件可以訓(xùn)練像 GPT-4 這樣的高級模型，并運(yùn)行像 ChatGPT 這樣的應(yīng)用程序，即使是小型初創(chuàng)公司也能輕松使用。

說到規(guī)模，如果該公司想將最新的 LLM 集成到 SRAM 中，肯定需要大量的硅片。

與AMD或Nvidia使用的HBM相比，SRAM的速度要快幾個(gè)數(shù)量級。MatX預(yù)計(jì)其首款芯片能夠以每秒超過2000個(gè)tokens的速度處理包含100層專家模型的大型混合模型。

SRAM的缺點(diǎn)是空間利用率不高。目前最大的芯片也只能容納幾百兆字節(jié)的SRAM數(shù)據(jù)，而且還要留出計(jì)算空間。

據(jù)他們在官網(wǎng)所說，MatX One 芯片基于可分割的脈動(dòng)陣列，它兼具大型脈動(dòng)陣列聞名遐邇的能效和面積效率，同時(shí)在具有靈活形狀的小型矩陣上也能實(shí)現(xiàn)高利用率。該芯片融合了 SRAM 優(yōu)先設(shè)計(jì)的低延遲和 HBM 的長上下文支持。這些特性，加上對數(shù)值計(jì)算的全新詮釋，使得其在 LLM 上的吞吐量高于任何已發(fā)布的系統(tǒng)，同時(shí)延遲與 SRAM 優(yōu)先設(shè)計(jì)相當(dāng)。更高的吞吐量和更低的延遲，讓您以更少的訂閱費(fèi)用獲得更智能、更快速的模型。

MatX并非首家采用這種策略的公司。Cerebras通過制造晶圓級芯片繞過了這一限制，而Groq則通過數(shù)量取勝：想要運(yùn)行更大的模型？只需增加（數(shù)百個(gè)）芯片即可。MatX似乎也借鑒了同樣的策略。

然而，與 Groq 或 Cerebras 不同，MatX 也將使用 HBM——只是盡可能避免用它來存儲(chǔ)模型權(quán)重。MatX 表示，HBM 將用于存儲(chǔ)模型的鍵值 (KV) cache，用于跟蹤模型在不同會(huì)話中的狀態(tài)。（您可以將 KV cache理解為模型的短期記憶。）

MatX認(rèn)為，通過這種方式將SRAM和HBM結(jié)合起來，其芯片將能夠同時(shí)實(shí)現(xiàn)GPU的強(qiáng)大吞吐量和基于SRAM的設(shè)計(jì)的速度。現(xiàn)在，他們有了更多資金來驗(yàn)證這一想法。

將模型“刻”進(jìn)芯片，Taalas橫空出世

在最近融資的AI芯片初創(chuàng)公司中，Taalas無疑是其中最獨(dú)特的一個(gè)。

總部位于多倫多的芯片初創(chuàng)公司 Taalas 上周表示，該公司已籌集了 1.69 億美元，并開發(fā)出一種芯片，能夠比傳統(tǒng)方法更快、更便宜地運(yùn)行人工智能應(yīng)用程序。Taalas 已從 Quiet Capital、Fidelity 和芯片行業(yè)風(fēng)險(xiǎn)投資家 Pierre Lamond 等投資者那里籌集了總計(jì) 2.19 億美元的資金。

Taalas成立兩年半，已完成三輪風(fēng)險(xiǎn)投資，融資總額超過2億美元。公司總部位于多倫多，這里是人工智能研究的熱點(diǎn)地區(qū)之一，也是芯片技術(shù)人才的聚集地，包括Tenstorrent——Taalas的三位創(chuàng)始人均曾在此工作。Ljubisa Bajic是Taalas的聯(lián)合創(chuàng)始人兼首席執(zhí)行官，他同時(shí)也是Tenstorrent的創(chuàng)始人，廣為人知。

眾所周知，為了大幅提升 AI 推理能力，我們可以將大塊 SRAM 添加到 AI 張量引擎集合中，或者更好的是，添加到晶圓級的此類引擎集合中，AI 初創(chuàng)公司 Cerebras Systems、SambaNova Systems、Groq（剛剛被英偉達(dá)以 200 億美元收購）和 Graphcore（一年半前被軟銀以 6 億美元收購）在與英偉達(dá)和 AMD 的 GPU 進(jìn)行比較時(shí)，已經(jīng)一次又一次地證明了這一點(diǎn)。

但Taalas認(rèn)為，如果你真的想突破人工智能推理的極限，那么應(yīng)該做的就是停止瞎折騰，將完成的人工智能推理的權(quán)重直接編碼到芯片的晶體管中，并擺脫所有試圖使計(jì)算引擎可塑性強(qiáng)，以便公司可以不斷調(diào)整和優(yōu)化其模型而產(chǎn)生的軟件冗余。

通過這樣做，還可以從根本上簡化 AI 設(shè)備的架構(gòu)，并且像 Taalas 所做的那樣，可以消除困擾所有串行和并行計(jì)算引擎的計(jì)算和內(nèi)存之間的壁壘——尤其是那些不得不求助于 HBM 堆疊 DRAM 以獲得與其浮點(diǎn)和整數(shù)性能相稱的帶寬的 GPU 和 AI XPU。

目前，Taalas 對其硬編碼推理架構(gòu)的具體運(yùn)作機(jī)制仍秘而不宣，但 Bajic 和 Kharya 為我簡要概述了其工作原理。不過在此之前，Kharya 和我們一樣都是歷史愛好者，他展示了一張有趣的圖片，完美詮釋了“一切照舊”的道理。請看：

左上角是 1961 年 IBM 7030 Stretch 超級計(jì)算機(jī)的晶體管計(jì)算框架之間相互連接的大量銅纜，右下角是 1946 年 ENIAC 真空管超級計(jì)算機(jī)的機(jī)架，它最終催生了 Sperry Rand 計(jì)算機(jī)業(yè)務(wù)（現(xiàn)為 Unisys 的一部分）。

笑點(diǎn)在于，我們以前用的是巨型銅纜，每個(gè)機(jī)架要150千瓦的功率，而隨著GPU和XPU的發(fā)展，我們又回到了未來。

那么，硬編碼推理芯片究竟是什么，它是如何工作的呢？

Kharya是這樣解釋的：

“我們基本上采用了一種嵌入式架構(gòu)，將模型和權(quán)重硬編碼到我們稱之為掩模ROM調(diào)用架構(gòu)的結(jié)構(gòu)中，該架構(gòu)與SRAM調(diào)用架構(gòu)配合使用。它們共同能夠存儲(chǔ)模型并執(zhí)行KVcache的所有計(jì)算。我們提供適配器和定制方案——我們支持所有這些。這種設(shè)計(jì)使我們能夠在計(jì)算和存儲(chǔ)方面實(shí)現(xiàn)超高密度，并且我們可以在該存儲(chǔ)上進(jìn)行極快的計(jì)算，這正是提高密度和降低成本的關(guān)鍵所在。”

“在當(dāng)前一代產(chǎn)品中，我們芯片硬連線部分的參數(shù)密度為 80 億，再加上 SRAM，使我們能夠?qū)崿F(xiàn)鍵值緩存、微調(diào)等自適應(yīng)功能。在下一代產(chǎn)品中，我們能夠在一個(gè)芯片上實(shí)現(xiàn)高達(dá) 200 億個(gè)參數(shù)。即使參數(shù)數(shù)量達(dá)到數(shù)萬億，我們也只需要幾十個(gè)芯片，這與目前市場上任何其他產(chǎn)品相比，都是一個(gè)非常非常小的規(guī)模?！?/p>

Bajic沒有具體說明建筑結(jié)構(gòu)——Taalas 希望它目前保持某種程度的神秘感——他補(bǔ)充道：

“我們有一個(gè)用于掩模ROM調(diào)用結(jié)構(gòu)的方案——也就是硬連線部分——我們可以用一個(gè)晶體管存儲(chǔ)四個(gè)比特，并完成與之相關(guān)的乘法運(yùn)算——所有操作都用一個(gè)晶體管完成。所以密度簡直高得驚人。這可不是什么核物理——它是完全數(shù)字化的。這只是一個(gè)我們不想公開的巧妙技巧。但是一旦你把所有東西都硬連線，你就有機(jī)會(huì)以與處理可變數(shù)據(jù)截然不同的方式進(jìn)行數(shù)據(jù)填充。重要的是，我們可以在一個(gè)晶體管中設(shè)置權(quán)重并完成與之相關(guān)的乘法運(yùn)算。你知道，乘法器是計(jì)算機(jī)的核心部件。”

“我們發(fā)明的東西其實(shí)并不難。只是因?yàn)闆]人走過這條路，所以才顯得很巧妙。兩年前，我們開始著手解決這個(gè)問題，目標(biāo)是徹底打破內(nèi)存和計(jì)算之間的壁壘。這就是一切的起源。當(dāng)時(shí)，我們想到的第一個(gè)方法——也是我們當(dāng)時(shí)唯一能想到的、能在可預(yù)測的時(shí)間內(nèi)推出產(chǎn)品的辦法，因?yàn)槲覀儾幌氤蔀橹粫?huì)鉆研三年卻搞出個(gè)半成品的科研教授——就是迅速轉(zhuǎn)向基于ROM（只讀存儲(chǔ)器）的方法。我們開始深入研究，然后發(fā)現(xiàn)這實(shí)際上比我們想象的還要好?！?/p>

“實(shí)際上，所有這些東西都是我們內(nèi)部從零開始設(shè)計(jì)的。我們沒有使用任何現(xiàn)成的產(chǎn)品，我們做了很多晶體管級別的設(shè)計(jì)、手工布局——基本上，我們所有的努力最終都回到了20世紀(jì)70年代?！?/p>

從一些報(bào)道可以看到，Taalas提供了一款名為 HC1的 AI 加速器，它采用硬件硬連線（即在硬件中實(shí)現(xiàn)）Llama-3.1 8B 模型，AI 性能接近 17,000 個(gè)tokens/秒，優(yōu)于 NVIDIA B200 或 Cerebras 芯片等數(shù)據(jù)中心加速器。該芯片采用臺積電 (TSMC) 的 6nm 工藝制造，面積為 815mm2，包含 530 億個(gè)晶體管。

據(jù)Bajic稱，HC1卡的功耗約為200瓦，而一臺配備十張HC1卡的雙路X86服務(wù)器的功耗則高達(dá)2500瓦。

順便一提，由于 HC1 卡速度極快，無需批量處理查詢即可實(shí)現(xiàn)低延遲推理，這意味著 Taalas 設(shè)備的帶寬壓力很低。低到即使將多張卡并聯(lián)運(yùn)行更大的模型，PCI-Express 總線也完全夠用。Taalas 將在今年晚些時(shí)候允許客戶使用流水線并行技術(shù)將工作負(fù)載分配到多張 HC 卡上。事實(shí)上，到今年夏天，Taalas 將推出一款硬編碼到 HC 芯片中的 Llama 3.1 模型，該模型包含 200 億個(gè)參數(shù)。

Taalas HC1 的速度比 Cerebras 芯片快約 10 倍，制造成本低 20 倍，功耗也低 10 倍。其主要缺點(diǎn)是只能使用硬件中硬編碼的模型，目前是 Llama-3.1 8B，不過據(jù)稱它“通過可配置的上下文窗口大小和對低秩適配器 (LoRA) 微調(diào)的支持，保留了一定的靈活性”。

到今年年底，Taalas 將推出一款前沿的大型語言模型——可能是 Llama，也可能是 DeepSeek，或者兩者兼而有之——該模型將在多張 HC 卡上運(yùn)行推理。這種架構(gòu)將被命名為 HC2。

從SambaNova的數(shù)據(jù)流架構(gòu)，到Axelera AI的存內(nèi)計(jì)算，再到MatX的SRAM+HBM組合，以及Taalas將模型直接“刻進(jìn)芯片”的極端路線，可以看到，AI芯片的競爭已經(jīng)進(jìn)入了真正的百花齊放階段。

英偉達(dá)依然強(qiáng)大，但行業(yè)已經(jīng)不再滿足于單一GPU范式。推理時(shí)代的到來，正在打開新的窗口——新的架構(gòu)、新的內(nèi)存體系、新的系統(tǒng)設(shè)計(jì)，正在不斷挑戰(zhàn)傳統(tǒng)計(jì)算模式。

今天這些瘋狂融資的公司，未必都能活下來，但其中很可能會(huì)誕生下一代計(jì)算架構(gòu)的奠基者。

正如當(dāng)年的GPU并不是一開始就統(tǒng)治AI時(shí)代一樣，未來十年的算力格局，也未必只屬于英偉達(dá)。

AI芯片雖然經(jīng)歷了幾輪的洗禮，但新的戰(zhàn)爭，也才剛剛開始。

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4328期內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.