国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當千億參數(shù)撞上5毫米芯片

0
分享至

  1. 文 | 科技不許冷

過去兩年,全球科技界仿佛被卷入了一場名為Scaling Law的宗教狂熱。在OpenAI和NVIDIA的布道下,所有人的目光都鎖定在參數(shù)量的指數(shù)級增長上。從175B到萬億參數(shù),從H100到Blackwell,似乎算力就是正義,規(guī)模就是真理。投資人和媒體熱衷于討論GPT-5何時通過圖靈測試,仿佛只要堆足夠多的卡,硅基生命就會在云端的數(shù)據(jù)中心里自然涌現(xiàn)。

然而,在云端算力狂飆突進的背面,物理世界的工程界正面臨著一道嚴峻的高墻。

你一定有過這樣的體驗:對著智能音箱喊一聲“關(guān)燈”,它卻還要反應兩秒鐘,甚至因為Wi-Fi波動回你一句“網(wǎng)絡連接中,請稍后再試”。在那個尷尬的瞬間,所謂的人工智能,表現(xiàn)得還不如一個五塊錢的物理開關(guān)。

對于這種“云端依賴癥”,消費者頂多抱怨兩句。但對于自動駕駛、工業(yè)機器人、醫(yī)療急救設備這些“要命”的終端來說,完全依賴云端的“超級大腦”既不現(xiàn)實,也不安全。

想象一下,一輛時速100公里的自動駕駛汽車,在識別到前方有障礙物時,如果需要把數(shù)據(jù)上傳到千里之外的云計算中心,等待推理完成后再傳回剎車指令——光是數(shù)據(jù)在光纖里跑個來回的物理時間Latency,就足以釀成一場事故。更別提還有隱私泄露的風險:誰愿意把自己家里的攝像頭畫面、個人的醫(yī)療病歷,毫無保留地傳到公有云上?


于是,2025年的技術(shù)風向悄然逆轉(zhuǎn)。相比于云端那些遙不可及、每秒燒掉幾萬美金電費的“超級大腦”,工程界開始死磕一個更性感、也更艱難的命題:端側(cè)AI。

而這并不是一次簡單的“減配”,而是一場極度反人性的工程惡戰(zhàn)。我們要把那個吞噬幾千張顯卡算力的AGI,“暴力瘦身”塞進一顆面積僅數(shù)平方毫米、功耗僅幾瓦的端側(cè)芯片中,同時還要保持它的“智商”不掉線。

今天,我們剝離具體的商業(yè)包裝,從底層架構(gòu)視角,來復盤這場發(fā)生在芯片與算法上的“腦科學”革命。

當140GB撞上幾百兆的物理極限

在討論怎么做之前,我們必須先理解端側(cè)AI面臨的物理極限,那簡直是一種令人絕望的算力悖論。

目前的通用大模型LLM是一個十足的“富貴病”患者,它對資源的索取是貪得無厭的。讓我們看一組數(shù)據(jù):以一個70B即700億參數(shù)的模型為例,如果我們想要運行它,僅加載模型權(quán)重Weights就需要占用約140GB的顯存。這還只是“靜態(tài)”的占用,模型在推理過程中產(chǎn)生的KV Cache更是內(nèi)存吞噬獸,且隨著對話長度的增加呈線性增長。

而在端側(cè),現(xiàn)實是殘酷的。目前主流的車載芯片、智能家居SoC,甚至是你手中最新的旗艦手機,留給NPU的專用內(nèi)存往往只有幾GB,摳門一點的入門級芯片甚至只有幾百MB。

要把140GB的龐然大物,塞進幾百MB的狹小空間里,這不僅是“把大象裝進冰箱”,簡直是“把整個國家圖書館的藏書,強行塞進一個隨身攜帶的公文包里”。而且,用戶還提出了一個更變態(tài)的要求:你必須在0.1秒內(nèi),從這個公文包里精準地翻出任意一本書的第32頁。

這就是端側(cè)AI面臨的不可能三角:高智商、低延遲、低功耗,三者難以兼得。

為了打破這個悖論,行業(yè)目前普遍達成了一個共識:未來的AI架構(gòu)必須是“人格分裂”的——也就是“云-邊-端”三級分層架構(gòu)。

單一的云端不夠快,單一的端側(cè)不夠強。未來的智能系統(tǒng)會像人類的神經(jīng)系統(tǒng)一樣分工:云端是“大腦皮層”,部署千億級參數(shù)的Teacher Model,負責處理極其復雜的、不著急的長尾問題,比如寫一篇論文或者規(guī)劃一次長途旅行。端側(cè)是“脊髓”和“小腦”,直接運行在傳感器旁邊的芯片上,負責高頻、實時、隱私敏感的任務,比如語音喚醒、急救避障。

但問題來了:即便只做“脊髓”,現(xiàn)在的芯片也常常跑不動。如何在極小的參數(shù)規(guī)模下保留大模型的涌現(xiàn)能力?這成為了算法工程師面臨的頭號難題。

三把手術(shù)刀下的暴力美學

要在端側(cè)跑通大模型,算法工程師們不得不干起外科醫(yī)生的活,對模型進行一場精密的手術(shù)。這其實是一門關(guān)于“妥協(xié)”的藝術(shù),在精度和速度之間尋找那個微妙的平衡點。目前的行業(yè)主流路徑,主要包含三把手術(shù)刀。

第一把刀是知識蒸餾。 這是端側(cè)模型保持高智商的關(guān)鍵。我們不需要端側(cè)模型去閱讀所有的原始互聯(lián)網(wǎng)數(shù)據(jù),那需要海量算力,我們只需要它學會“怎么思考”。 所以,工程師讓云端的超大模型Teacher先學一遍,提煉出核心邏輯、特征分布和推理路徑,再“傳授”給端側(cè)的小模型Student。這就像是把一本百萬字的學術(shù)巨著,由教授濃縮成了一本幾千字的“學霸筆記”。行業(yè)內(nèi)的一線實踐表明,通過這種方式,一個0.5B參數(shù)的小模型,在特定的垂直場景如座艙控制、家電指令中,其表現(xiàn)甚至能逼近通用的百億參數(shù)模型。它也許不會寫詩,但它絕對聽得懂“把空調(diào)調(diào)高兩度”。


第二把刀是極致量化。 這可以說是工程界最“暴力”的美學。通用大模型通常使用FP16甚至FP32進行運算,精度極高,小數(shù)點后十幾位都保留著。但在端側(cè),每一比特的存儲和傳輸都消耗電量。 工程師們發(fā)現(xiàn),大模型其實極其“魯棒”,砍掉一些精度并不影響大局。于是,他們通過PTQ訓練后量化或QAT量化感知訓練,將模型權(quán)重從FP16直接壓縮到INT8甚至INT4。這意味著,原本需要16車道的高速公路,現(xiàn)在只需要4車道就能跑通。模型體積瞬間壓縮了4倍以上,推理速度成倍提升。但這其中的難點在于“校準”——如何在壓縮精度的同時,不破壞模型的語義理解能力?這需要極其精細的數(shù)學調(diào)優(yōu),防止某些關(guān)鍵的離群值被誤殺。

第三把刀是結(jié)構(gòu)剪枝。 神經(jīng)網(wǎng)絡中存在大量“冗余”的連接,就像人類大腦中有些神經(jīng)元并不活躍一樣。通過結(jié)構(gòu)化剪枝,可以直接剔除那些對輸出結(jié)果影響微乎其微的參數(shù),從而在物理層面減少計算量。

推倒那堵阻擋數(shù)據(jù)的內(nèi)存墻

軟件層面的“瘦身”只是第一步,真正的硬仗在于硬件,也就是芯片架構(gòu)。

如果你去問芯片設計師,大模型最讓他們頭疼的是什么?他們大概率不會說是“計算”,而是“訪存”。在傳統(tǒng)的馮·諾依曼架構(gòu)下,計算單元和存儲單元是分離的。大模型跑起來時,數(shù)據(jù)就像早高峰的車輛,在內(nèi)存DRAM和計算單元之間瘋狂往返。

這就好比一個廚師切菜速度極快,但他每切一刀,都要跑去隔壁房間的冰箱里拿一根蔥。結(jié)果就是,廚師大部分時間都在跑路,而不是在切菜。這就是著名的“內(nèi)存墻”危機。在端側(cè)大模型推理中,甚至有超過80%的功耗不是花在計算上,而是花在“搬運數(shù)據(jù)”的路上。


這種尷尬逼出了全新的架構(gòu)思路:DSA領(lǐng)域?qū)S眉軜?gòu)。

我們觀察到,像云知聲、地平線這些在端側(cè)深耕多年的硬科技企業(yè),之所以能把芯片出貨量做到上億顆,核心就是不再迷信通用的CPU或GPU架構(gòu),而是針對Transformer模型搞起了“特權(quán)設計”。

首先是存算一體化的探索。既然廚師跑路太累,那就把冰箱搬進廚房,甚至直接把案板裝在冰箱門上。通過盡可能拉近存儲單元與計算單元的物理距離,甚至在SRAM中直接進行計算,極大地減少了數(shù)據(jù)搬運的“過路費”。

其次是異構(gòu)計算調(diào)度。在SoC內(nèi)部,搞起了精細分工:CPU負責流程控制,DSP負責信號處理如降噪,而將最繁重的矩陣乘法運算交給高度定制的NPU。

最關(guān)鍵的是算子硬化。針對大模型核心的Attention機制算法,芯片設計團隊直接在硅片上“刻死”了加速電路。這種做法雖然犧牲了通用性,但在處理大模型推理時,效率高得嚇人。這種“算法定義芯片”的策略,使得端側(cè)方案在處理語音喚醒、指令識別時,能夠做到毫秒級響應。這不僅是某一家企業(yè)的技術(shù)選擇,更是整個端側(cè)AI芯片行業(yè)為了突破摩爾定律瓶頸而達成的“妥協(xié)后的最優(yōu)解”。

從全知上帝到熟練工匠

除了在硬件上死磕,另一個更務實的路徑是:承認AI的局限性,從“通用”走向“專用”。

通用大模型往往因為什么都懂,導致什么都不精。它容易產(chǎn)生“幻覺”,一本正經(jīng)地胡說八道。在寫科幻小說時這是創(chuàng)意,但在醫(yī)療診斷或工業(yè)控制中,這是災難。

這時候,像商湯醫(yī)療這類廠商的“平臺化”策略就顯得非常聰明。面對醫(yī)療行業(yè)數(shù)據(jù)復雜、算力受限的痛點,他們沒有試圖做一個全知全能的“AI醫(yī)生”,而是搭建了一個流水線,生產(chǎn)各種專精的“特種兵”。

通過將技術(shù)封裝為“模型生產(chǎn)平臺”,讓醫(yī)院基于自己的高質(zhì)量數(shù)據(jù),訓練出針對特定病種的專用模型。這種思路本質(zhì)上是將AI從“全能博士”變成了“熟練技工”。

這種“小而美”的垂直智能體,需要的算力更少,但給出的診斷建議卻更靠譜。醫(yī)生不需要一個能寫代碼、能畫圖的AI,他們需要一個能精準讀懂CT片子、能快速整理病歷的助手。

同樣的邏輯也發(fā)生在云知聲的產(chǎn)業(yè)路徑中:不在通用大模型的紅海里燒錢,而是通過在醫(yī)療、家居等垂直領(lǐng)域的深耕,打磨端側(cè)技術(shù)與芯片,賺取數(shù)據(jù)反饋,進而反哺基礎研究。

這殊途同歸的背后,是整個中國AI產(chǎn)業(yè)的集體覺醒:不再盲目追求參數(shù)規(guī)模的“大”,而是轉(zhuǎn)向追求應用落地的“實”。

最后

在媒體的聚光燈下,大家熱衷于討論OpenAI的Sora如何震驚世界,或者為GPT-5何時通過圖靈測試而爭論不休,并總將AGI與‘毀滅人類’的宏大敘事綁定。

但在聚光燈照不到的角落,在深圳的華強北,在蘇州的工業(yè)園,在上海的張江,成千上萬的工程師正在做著更枯燥、但或許更具顛覆性的工作:將AI的價格打下來,將AI的體積縮下去。

從云端到端側(cè),從通用到垂直,這不僅是技術(shù)架構(gòu)的演進,更是AI價值觀的回歸。

真正的“萬物智能”,不是每個人都必須要時刻連接到一個全知全能的上帝般的云端大腦。而是萬物——無論是你手邊的空調(diào)、車里的儀表盤,還是醫(yī)院里的CT機,都擁有一顆雖然微小、但足夠聰明、足夠獨立的“芯”。

當一顆幾十塊錢的芯片,能跑得動擁有邏輯推理能力的大模型,且不再依賴那根脆弱的網(wǎng)線時,智能時代的奇點才算真正到來。

科技不應該只是服務器里的幽靈,它應該以最硬核、最靜默的方式,嵌入我們生活的每一塊玻璃、每一顆芯片里,靜水流深。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
遠古病毒導致芬蘭出現(xiàn)變異貓

遠古病毒導致芬蘭出現(xiàn)變異貓

萬物雜志
2026-03-01 07:04:13
去年漲價3次,今年突然集體降價!多個品牌陸續(xù)宣布,網(wǎng)友:再等等,還會降……

去年漲價3次,今年突然集體降價!多個品牌陸續(xù)宣布,網(wǎng)友:再等等,還會降……

都市快報橙柿互動
2026-03-02 00:56:20
哈佛華西證實:咖啡真能續(xù)命!但90%的人都喝錯了

哈佛華西證實:咖啡真能續(xù)命!但90%的人都喝錯了

愛醫(yī)斯坦
2026-02-28 10:01:47
小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

林子說事
2026-03-02 14:41:57
汪小菲責怪母親發(fā)他和孩子的視頻,網(wǎng)友評價:不要繼承麻六記

汪小菲責怪母親發(fā)他和孩子的視頻,網(wǎng)友評價:不要繼承麻六記

萱小蕾o
2026-03-02 13:31:09
神似柳巖?新晉女神!天賦異稟啊…

神似柳巖?新晉女神!天賦異稟啊…

碧波萬覽
2026-01-11 00:24:54
比亞迪官宣2026年3月5日召開"顛覆性技術(shù)發(fā)布會",刀片電池、兆瓦閃充、智駕系統(tǒng)或迎全面升級

比亞迪官宣2026年3月5日召開"顛覆性技術(shù)發(fā)布會",刀片電池、兆瓦閃充、智駕系統(tǒng)或迎全面升級

金融界
2026-03-02 16:59:36
他們想讓這條視頻消失,結(jié)果全網(wǎng)都在看

他們想讓這條視頻消失,結(jié)果全網(wǎng)都在看

文立于塵
2026-03-01 18:16:43
李亞鵬與哥哥和解:沒有劇本,沒有眼淚,只有一條真心話短信

李亞鵬與哥哥和解:沒有劇本,沒有眼淚,只有一條真心話短信

溫柔娛公子
2026-03-02 17:25:03
年終盤點:速騰L連續(xù)十年細分市場銷冠,品牌護城河深不可測?

年終盤點:速騰L連續(xù)十年細分市場銷冠,品牌護城河深不可測?

汽車網(wǎng)評
2025-12-29 15:42:26
是追還是逃,明天迎來大決戰(zhàn)!

是追還是逃,明天迎來大決戰(zhàn)!

鴻牛
2026-03-02 15:46:14
中美戰(zhàn)爭可能有多大?22年前美學者已預測,就怕中國一項能力變強

中美戰(zhàn)爭可能有多大?22年前美學者已預測,就怕中國一項能力變強

今墨緣
2025-11-23 20:26:27
WTT新加坡大滿貫收官不到24小時,國乒傳來3大重磅消息,2大調(diào)整

WTT新加坡大滿貫收官不到24小時,國乒傳來3大重磅消息,2大調(diào)整

羅納爾說個球
2026-03-02 23:06:07
罕見!伯恩利為18歲張家鳴支付約31萬歐:即將獲得勞工證!

罕見!伯恩利為18歲張家鳴支付約31萬歐:即將獲得勞工證!

邱澤云
2026-03-02 18:04:24
中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預

中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預

似水流年忘我
2026-01-29 01:24:08
美以空襲伊朗,阿拉伯國家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級為全面地區(qū)戰(zhàn)爭的時刻”

美以空襲伊朗,阿拉伯國家聯(lián)盟發(fā)聲:“阿拉伯-以色列沖突升級為全面地區(qū)戰(zhàn)爭的時刻”

環(huán)球網(wǎng)資訊
2026-03-01 11:00:18
蘋果發(fā)布iPhone 17e,起售價4499元

蘋果發(fā)布iPhone 17e,起售價4499元

澎湃新聞
2026-03-02 22:26:26
河南一豫劇團冒雪堅持演出2小時,臺下觀眾寥寥,卻有3萬網(wǎng)友在線圍觀

河南一豫劇團冒雪堅持演出2小時,臺下觀眾寥寥,卻有3萬網(wǎng)友在線圍觀

環(huán)球網(wǎng)資訊
2026-03-02 17:46:01
第九波打擊!伊朗襲擊美航母,以軍司令部遭襲擊,特朗普惱羞成怒

第九波打擊!伊朗襲擊美航母,以軍司令部遭襲擊,特朗普惱羞成怒

烈史
2026-03-02 23:26:13
哈梅內(nèi)伊可能是中國短視頻刷太多了

哈梅內(nèi)伊可能是中國短視頻刷太多了

蔥哥說
2026-03-02 21:23:34
2026-03-03 02:00:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經(jīng)科技媒體
130103文章數(shù) 861853關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

旅游
本地
時尚
健康
數(shù)碼

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

本地新聞

津南好·四時總相宜

今年春天一定要擁有的4件衣服,太好看了!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

高通MWC 2026發(fā)布多項通信技術(shù),定檔2029年開啟6G商用

無障礙瀏覽 進入關(guān)懷版