国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

推理專用芯片,火了

0
分享至

文 | 半導體產業(yè)縱橫,作者 | 鵬程

在AI技術從實驗室走向規(guī)?;涞氐倪M程中,推理(Inference)環(huán)節(jié)正成為決定體驗與成本的核心競爭——專門為推理優(yōu)化的芯片,已然成為科技行業(yè)的新風口。要理解這股熱潮,首先要厘清AI工作流中訓練與推理的本質差異。

在AI工作流中,訓練(Training)與推理(Inference)承擔著截然不同的角色。訓練階段通過大量帶標簽數據迭代優(yōu)化模型權重,使模型能夠學習復雜模式;而推理階段則使用已訓練好的模型對新輸入進行預測。從性能需求來看,訓練如同馬拉松,追求整體吞吐量與模型精度的持續(xù)提升;推理則如同百米沖刺,核心目標是降低單次預測延遲,實現實時響應。


訓練階段需要強大的通用計算平臺,通常需要調動成千上萬張頂級GPU,通過海量數據(如全互聯網文本、圖片)進行長時間(數月甚至數年)的計算,耗資巨大。訓練對算力的絕對性能要求極高,芯片需要具備強大的計算能力和全面的計算能力,能夠處理各種復雜的計算任務。目前,英偉達的GPU配合CUDA軟件生態(tài)幾乎處于壟斷地位,難以被其他廠商撼動。

然而,在推理階段,尤其是大語言模型(LLM)的實時交互場景中,情況發(fā)生了根本性轉變。LLM的推理過程具有"自回歸"特性,即生成第N+1個詞必須依賴上一輪第N個詞的結果。這種順序性導致GPU強大的并行計算能力在大多數時間處于"等待"狀態(tài),無法充分發(fā)揮其優(yōu)勢。

更為重要的是,隨著AI應用的廣泛落地,推理成本在AI總成本中的比重日益增加,已成為AI企業(yè)最大的單項支出。這促使業(yè)界開始探索專門的推理芯片解決方案。

為何推理芯片成為剛需?

專門的推理芯片是AI發(fā)展到規(guī)模化應用階段的必然產物。其主要有以下優(yōu)勢:

第一是性能精準優(yōu)化。推理任務的核心是高效執(zhí)行預訓練模型的前向計算,如矩陣乘法、卷積運算等。專門的推理芯片(如NPU、TPU)針對這些運算進行硬件級優(yōu)化,能大幅提高計算效率,相比通用CPU或GPU,可實現更高的吞吐量和更低的延遲。例如,推理芯片可通過定制化的乘加單元(MAC)和并行計算架構,加速神經網絡的推理過程,滿足自動駕駛、智能語音交互等實時性要求高的場景。

第二是能效比優(yōu)勢,推理場景對功耗敏感,尤其是邊緣設備和終端應用(如智能手機、可穿戴設備)。專門的推理芯片通過低精度計算(如INT8、INT4)和硬件級優(yōu)化,能在保證精度的前提下顯著降低功耗,延長設備續(xù)航時間。相比之下,通用芯片在低功耗模式下性能受限,難以兼顧性能與能效。

第三是成本效益顯著。推理芯片的規(guī)模化生產可降低單位成本,尤其在大規(guī)模部署場景(如數據中心、邊緣計算節(jié)點)中,其性價比優(yōu)勢明顯。與通用芯片相比,推理芯片無需支持復雜的訓練任務,可簡化硬件設計,減少芯片面積和制造成本,更適合高并發(fā)、低成本的推理需求。

第四是場景適配性靈活。不同應用場景對推理芯片的需求差異顯著。例如,云端推理需處理高并發(fā)請求,要求高吞吐量和可擴展性;邊緣設備則需緊湊設計、低功耗和實時響應。專門的推理芯片可通過靈活的架構設計(如存算一體、Chiplet技術)滿足多樣化場景需求,而通用芯片難以在所有場景中兼顧性能、功耗和成本。

最后,專用推理芯片能加速AI全民普及。推理芯片降低了AI應用的部署門檻,標準化的接口與工具鏈簡化了開發(fā)流程,讓更多企業(yè)與開發(fā)者能夠輕松落地預訓練模型,推動AI技術在各行業(yè)的滲透,助力AI生態(tài)持續(xù)繁榮。

可以說,推理芯片是AI從技術概念走向實際應用的關鍵支撐,通過性能、能效、成本與場景適配性的綜合優(yōu)化,成為AI規(guī)?;l(fā)展的核心引擎。

推理芯片賽道:百花齊放,群雄逐鹿

隨著需求爆發(fā),推理芯片賽道呈現出多元化競爭格局,一批創(chuàng)新產品憑借獨特技術優(yōu)勢脫穎而出。

首先是LPU,全稱 Language Processing Unitix,是一種專門為語言處理任務設計的硬件處理器。它與我們熟知的 GPU(Graphics Processing Unit,圖形處理器)有著本質的區(qū)別。GPU 最初是為處理圖形渲染任務而設計的,在并行計算方面表現出色,因此后來被廣泛應用于人工智能領域的模型訓練和推理。然而,LPU 則是專門針對語言處理任務進行優(yōu)化的,旨在更高效地處理文本數據,執(zhí)行諸如自然語言理解、文本生成等任務。LPU由前Google TPU團隊創(chuàng)立,專為大語言模型(LLM)推理設計,采用SRAM-only架構,無外部存儲延遲,單芯片集成230MB SRAM,帶寬高達80TB/s,延遲穩(wěn)定,適合流式生成和交互式應用。

另一家公司SambaNova SN40L則跳出了傳統(tǒng)GPU并行計算框架,自研可重構數據流單元(RDU)架構,創(chuàng)造性地將神經網絡圖直接映射到硬件執(zhí)行。通過將多步推理計算壓縮為單一操作,大幅減少數據在內存與計算單元間的往返傳輸——這正是AI推理中功耗與延遲的核心痛點。其第四代RDU產品SN40L,宣稱推理性能達到英偉達H100的3.1倍,訓練性能達到H100的2倍,而總體擁有成本(TCO)僅為H100的1/10。

此外,2024年發(fā)布的第六代TPU v6(代號Trillium),也標志著谷歌將主戰(zhàn)場從訓練轉向推理。面對推理成本成為全球AI公司最大單項支出的行業(yè)現狀,TPU v6從架構到指令集全面圍繞推理負載重構:FP8吞吐量暴漲、片上SRAM容量翻倍、KV Cache訪問模式深度優(yōu)化、芯片間帶寬大幅提升,能效比相比上一代提升67%。谷歌直言,這一代TPU的目標是成為“推理時代最省錢的商業(yè)引擎”。2025年推出的第七代TPU(TPU v7,代號Ironwood)更是聚焦超大規(guī)模在線推理場景,成為TPU系列首款專用推理芯片。與此前側重訓練的v5p、側重能效的v6e不同,Ironwood從第一天起就鎖定超大規(guī)模在線推理這一終極場景,并在多項關鍵指標上首次與英偉達Blackwell系列正面抗衡,成為全球AI基礎設施領域的焦點產品。

巨頭出手:英偉達200億“收編”推理黑馬

面對推理賽道的激烈競爭,芯片巨頭英偉達祭出重磅大招。

當地時間 12 月 24 日,AI 芯片初創(chuàng)企業(yè) Groq 宣布與英偉達達成非獨家推理技術許可協(xié)議。根據協(xié)議約定,Groq 創(chuàng)始人喬納森?羅斯、總裁桑尼?馬達拉及核心技術團隊將正式加盟英偉達,攜手推動授權技術的迭代升級與規(guī)模化落地。

值得注意的是,Groq 將繼續(xù)保持獨立運營地位,西蒙?愛德華茲已接任公司首席執(zhí)行官,旗下 Groq 云服務亦維持正常運轉,不受此次合作影響。英偉達首席執(zhí)行官黃仁勛在內部郵件中指出,此項合作將顯著拓寬公司技術版圖 —— 英偉達計劃將 Groq 低延遲處理器整合至NVIDIA AI 工廠架構,進一步增強平臺對各類 AI 推理及實時工作負載的服務能力。

這宗以非獨家技術許可為核心的交易,堪稱美國科技巨頭近年的“標準操作”。微軟、亞馬遜、谷歌等企業(yè)均曾通過類似模式,在不觸發(fā)全資收購的前提下,吸納頂尖 AI 人才、獲取關鍵技術壁壘。其核心邏輯在于,這種輕資產合作方式可有效規(guī)避當前美國嚴苛的反壟斷審查。盡管監(jiān)管機構已開始關注此類交易,但迄今為止,尚無任何一筆同類合作被裁定撤銷。

對于手握 606 億美元巨額現金儲備的英偉達而言,這無疑是一筆雙贏的戰(zhàn)略布局:既消解了潛在的市場競爭威脅,又進一步加固自身技術護城河。據悉,該交易涉及資金規(guī)模約 200 億美元,較 Groq 數月前融資時 69 億美元的估值溢價近三倍。這一數字,也標志著 Groq 作為獨立硬件挑戰(zhàn)者的征程暫告一段落,但其核心技術將在英偉達的生態(tài)體系中,獲得更廣闊的研發(fā)與應用平臺。

對 Groq 而言,200 億美元的現金流不僅極大緩解了公司財務壓力,也為現有投資者創(chuàng)造了豐厚回報。盡管核心團隊并入英偉達體系,但 Groq 憑借新 CEO 的到任與獨立運營架構的保留,得以繼續(xù)深耕 Groq Cloud 云服務業(yè)務。更重要的是,依托英偉達的資源優(yōu)勢,Groq 的技術有望觸達更豐富的應用場景,加速商業(yè)化落地進程;同時,這種 “非全資收購” 的合作模式,既規(guī)避了品牌滅失的風險,更為企業(yè)未來發(fā)展預留了充分的自主空間。

英偉達的推理芯片野心,如何通過LPU技術降低推理成本

顯然此次獲取到Groq的技術許可,將有利于降低英偉達未來推出的推理專用芯片的成本。

通過此次合作,NVIDIA 成功斬獲 Groq 核心知識產權,得以直接應用其 SRAM 架構技術,一舉繞開HBM 高帶寬內存與臺積電 CoWoS 先進封裝的雙重限制。不妨設想:依托這項技術,NVIDIA 有望打造一款專攻 AI 快速推理的芯片產品,憑借極致的運算速度,再搭配 NVLink 互聯技術,實現多顆 LPU 芯片的無縫協(xié)同,釋放更強勁的算力效能。

Groq LPU 芯片的核心優(yōu)勢,在于將 AI 模型的核心權重數據,從傳統(tǒng)方案依賴的外置 HBM,遷移至芯片內置的 SRAM 中。這一設計使得芯片無需頻繁與外部存儲交互調取數據,算力效率自然實現躍升。而且,SRAM的讀寫速度可達HBM的10倍。HBM方案的弊端則十分突出:不僅需要依托臺積電的CoWoS封裝技術,還受制于存儲廠商的產能限制,早已成為制約AI芯片大規(guī)模量產的關鍵瓶頸。

一旦跳過HBM與CoWoS,直接采用SRAM架構,芯片的生產效率將迎來質的飛躍。更值得一提的是,若在電路板中集成NVIDIA的NVLink C2C(芯片間直連技術),LPU芯片的擴展能力還將遠超當前水平,從而讓數據傳輸更迅捷、更穩(wěn)定。

如此一來,NVIDIA既無需依賴美光、三星、SK海力士等廠商的HBM產品,徹底擺脫內存供應瓶頸;又能規(guī)避臺積電CoWoS封裝的產能掣肘,實現供應鏈的自主可控。

此外,盡管Groq LPU芯片受限于內存容量,更適配輕量級AI模型,但在低延遲場景(如機器人實時控制、端側AI交互)中具備得天獨厚的優(yōu)勢。而這恰好與NVIDIA GPU擅長處理大模型的能力形成互補——LPU化身“高效快手”,GPU擔當“算力基石”,二者強強聯合,將進一步鞏固NVIDIA在AI領域的霸主地位。

恰逢CoWoS封裝產能緊張、HBM成本居高不下的行業(yè)背景,NVIDIA這套“SRAM+NVLink”的組合拳,堪稱破局關鍵。200億美元的合作對價看似不菲,但對于NVIDIA這樣的行業(yè)巨頭而言,無疑是一筆“花小錢辦大事”的劃算買賣。合作達成后,Groq可保持獨立運營,NVIDIA則收獲核心技術與頂尖人才,最終實現雙贏。

對于普通消費者而言,這場技術革新的紅利同樣觸手可及:未來的AI推理將更快速、更經濟,聊天機器人的響應會變得毫秒級迅捷,服務機器人的動作也將愈發(fā)流暢自然。與此同時,SRAM市場的熱度或將持續(xù)攀升,英特爾等相關產業(yè)鏈企業(yè)也有望從中分得一杯羹,推動整個行業(yè)生態(tài)的繁榮發(fā)展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
44歲林俊杰官宣戀情,帶女友為母親慶70大壽,女友緊挨未來婆婆

44歲林俊杰官宣戀情,帶女友為母親慶70大壽,女友緊挨未來婆婆

扒蝦侃娛
2025-12-29 22:22:09
350億,又一家中國車企宣布破產!

350億,又一家中國車企宣布破產!

大佬灼見
2025-12-27 12:10:19
臺專家:大陸今年兩次重大軍演,都與賴清德觸碰兩岸現狀有關

臺專家:大陸今年兩次重大軍演,都與賴清德觸碰兩岸現狀有關

海峽導報社
2025-12-29 17:32:02
新和成榮獲中國石油和化學工業(yè)聯合會科技獎科技進步獎一等獎

新和成榮獲中國石油和化學工業(yè)聯合會科技獎科技進步獎一等獎

新和成
2025-12-29 20:25:18
首批中國援柬埔寨緊急人道主義物資運抵金邊

首批中國援柬埔寨緊急人道主義物資運抵金邊

界面新聞
2025-12-28 16:09:12
主持人發(fā)聲指廣州停車費太貴應降價,引發(fā)不少車主跟評,發(fā)展改革委工作人員回應

主持人發(fā)聲指廣州停車費太貴應降價,引發(fā)不少車主跟評,發(fā)展改革委工作人員回應

極目新聞
2025-12-29 15:37:33
演員閆學晶“哭窮”引爭議!稱兒子年入不到40萬,卻需負擔家庭年開支80-100萬元,否則家庭無法運轉

演員閆學晶“哭窮”引爭議!稱兒子年入不到40萬,卻需負擔家庭年開支80-100萬元,否則家庭無法運轉

大象新聞
2025-12-29 16:45:02
西班牙媒體評新世紀最佳運動員:梅西僅第二!C羅無緣前三!

西班牙媒體評新世紀最佳運動員:梅西僅第二!C羅無緣前三!

氧氣是個地鐵
2025-12-29 18:48:57
回國后我才敢說:越南是我去過的所有國家中,最被低估的

回國后我才敢說:越南是我去過的所有國家中,最被低估的

阿纂看事
2025-12-29 09:43:52
暴跌99%虧損80億!中國市場200家全部關停,又一豪車巨頭扛不住了

暴跌99%虧損80億!中國市場200家全部關停,又一豪車巨頭扛不住了

財經八卦
2025-12-28 20:53:31
澤連斯基稱希望美國提供最長50年的安全保障

澤連斯基稱希望美國提供最長50年的安全保障

財聯社
2025-12-29 18:32:07
小米創(chuàng)始人套現140億,雷軍天塌了!

小米創(chuàng)始人套現140億,雷軍天塌了!

TOP電商
2025-12-29 17:17:57
欣旺達被吉利一拳砸懵了

欣旺達被吉利一拳砸懵了

蔚然先聲
2025-12-29 08:31:47
烏克蘭襲擊莫斯科

烏克蘭襲擊莫斯科

每日經濟新聞
2025-12-29 08:21:31
李曉旭賽季首秀!打潛力賽欲補強內線,張陳治鋒也出場為何被棄?

李曉旭賽季首秀!打潛力賽欲補強內線,張陳治鋒也出場為何被棄?

籃球資訊達人
2025-12-29 22:35:18
太突然了!解放軍做大動作了!宣布即行動,再次進行“圍臺”軍演

太突然了!解放軍做大動作了!宣布即行動,再次進行“圍臺”軍演

時時有聊
2025-12-29 10:13:57
羅晉攜任素汐去祈福后,唐嫣連發(fā)三文表態(tài),婚變傳聞終于真相大白

羅晉攜任素汐去祈福后,唐嫣連發(fā)三文表態(tài),婚變傳聞終于真相大白

瓜汁橘長Dr
2025-12-29 11:29:56
京東方同意支付三星49億專利費

京東方同意支付三星49億專利費

WitDisplay
2025-12-29 15:37:54
陜西渭南警方通報“45歲女子遭鄰居砍死”:嫌犯有精神病診療史,已刑拘

陜西渭南警方通報“45歲女子遭鄰居砍死”:嫌犯有精神病診療史,已刑拘

界面新聞
2025-12-29 19:55:04
25歲國足主力大婚!新娘氣質出眾 申花眾隊友出席 81歲徐根寶致辭

25歲國足主力大婚!新娘氣質出眾 申花眾隊友出席 81歲徐根寶致辭

我愛英超
2025-12-29 21:46:23
2025-12-29 23:23:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
128222文章數 861559關注度
往期回顧 全部

科技要聞

肉搏非洲,傳音不想只當個賣手機的

頭條要聞

福原愛首談離婚原因:婚后關系馬上破裂 ??拗スぷ?/h3>

頭條要聞

福原愛首談離婚原因:婚后關系馬上破裂 ??拗スぷ?/h3>

體育要聞

“史上最貴”的世界杯,球迷成了韭菜

娛樂要聞

張杰謝娜跨年風波升級!張杰被吐槽贅婿

財經要聞

翁杰明:宏觀數據與居民微觀感受存在差距

汽車要聞

“路”要越走越深,猛士的智能越野時代來了

態(tài)度原創(chuàng)

時尚
數碼
本地
藝術
親子

穿來穿去還是羽絨服最靠譜!配褲子裙子都合適,舒適自然保暖

數碼要聞

閃極和中國航母聯名新品發(fā)布,149元起

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠

藝術要聞

克里姆特風格的女性人物畫,太美了!

親子要聞

沒想到孕晚期才是孩子猛漲的時候!

無障礙瀏覽 進入關懷版