国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

3B激活參數(shù)!商湯絕影Sage登頂PinchBench,端側(cè)第一

0
分享至


新智元報道

編輯:YHluck

【新智元導讀】一個3B激活參數(shù)的端側(cè)模型,在全球Agent權威評測中,以94%任務完成率,超越了Claude、GPT-5.4、Gemini等國際主流云側(cè)和端側(cè)大模型。商湯絕影Sage來了,它不是「更聰明的語音助手「,而是第一個真正能在車里「辦成復雜事「的智能體基座。

有人可能不信。

一個部署在車端的小模型,憑什么在Agent評測上贏過Claude、GPT-5.4?

數(shù)字擺在這里——在公開Agent評測基準PinchBench上,商湯絕影Sage端側(cè)大模型最佳任務完成率:94%。

同場較量的對手?Claude-Opus-4.6(93.3%)、GPT-5.4(90.5%)、Google-Gemini-3(87.0%)、Qwen3.5-27B(90.0%)……全部落后。



這不是一場「以大打大」的勝利。

Sage的激活參數(shù)只有3B,總參數(shù)量32B(MoE架構)。而小米MiMo-v2-Pro的激活參數(shù)是42B、總參數(shù)規(guī)模超1T——Sage所需激活算力僅為其1/14,顯存占用約為其1/31,但在PinchBench上的任務完成率仍高出6.6個百分點。


1/14的算力,多出6.6個百分點。

這是什么概念?

這意味著一件事被徹底證明了:「只有大模型才能做好Agent任務」,這個判斷,錯了。

從「聽懂指令「到「說到做到」

座艙缺的從來不是語音

先說說這個問題的背景。

今天的智能座艙,卡在哪兒?

不是沒有AI,是AI「太淺了」。

用戶說「幫我訂今晚回北京的高鐵,順便把車內(nèi)溫度調(diào)低兩度」——現(xiàn)有的語音助手,大概率會拆解成兩件事分開問你確認,甚至直接說「我不太明白您的意思」。

這叫「能聽懂指令」,但不叫「能辦成一件復雜的事」。

真正的Agent能力,需要模型跨越多個步驟、多個工具、多輪推理,最終完成任務閉環(huán)。這種能力,過去只存在于云端大模型里。

原因很直接:車端芯片算力有限,大參數(shù)模型跑不動;小模型又沒有足夠的推理深度。

智能座艙因此陷入兩難:

依賴云端:有延遲、有成本、有斷網(wǎng)風險; 堅守端側(cè):有響應速度,但沒有真正的智能體能力。

Sage的發(fā)布,第一次打破了這個僵局。

效果先看

Sage在車里能「干」什么

空談技術路線,不如先看能力。

場景一:復合指令一次解析,多系統(tǒng)自動聯(lián)動

用戶說:「今晚出門晚,車內(nèi)預熱一下,幫我把導航設回家,音樂切換到輕松一點的?!?/p>

Sage不需要用戶一句一句確認。

它一次性解析復合指令,自動聯(lián)動空調(diào)、導航、音樂三個系統(tǒng),完成任務閉環(huán)——整個流程,首字響應約0.5秒,用戶幾乎感覺不到「等待」。

場景二:主動感知,不等喚醒

后排坐著孩子,傳感器檢測到,Sage主動觸發(fā)兒童模式:鎖定車窗控制權、切換適齡內(nèi)容、調(diào)整音量上限。

沒有人喚醒它,它已經(jīng)做了。

場景三:實時路況判斷,主動提出方案

進入擁堵路段,結(jié)合實時路況感知,Sage主動問:「當前路段預計延誤23分鐘,是否切換到備選路線?」

不只是回答,而是主動發(fā)起。

這三個場景,指向同一個能力轉(zhuǎn)變:Sage不再是「被動喚醒、單次響應」的語音助手,而是一個真正懂場景、會主動思考的出行伙伴。

在OrinX平臺部署下,Sage可實現(xiàn)首字響應(TTFT)約0.5秒、單Token推理延遲(TPOT)低至0.03秒、生成吞吐達到80tk/s,平均任務時長優(yōu)于主流API模型,保證座艙體驗的穩(wěn)定性和實時感。

兩項黑科技

一個讓它「學得快」

一個讓它「做事不出錯」

Sage在PinchBench跑贏一眾大模型的背后,真正的功臣是商湯絕影自研的兩項后訓練技術:SCOUTERL

SCOUT:省60%算力,讓車載AI快速「學會」復雜出行任務

全稱:Sub-Scale Collaboration on Unseen Tasks(分級協(xié)同學習框架)。

它解決的是一個工程現(xiàn)實問題——讓大模型學習復雜任務,太貴了。

出行場景涉及空間規(guī)劃、多設備聯(lián)動、多步?jīng)Q策,直接讓大模型在真實任務中自己反復試錯,既慢又燒算力。

SCOUT的思路是「探路與吸收解耦」:先派一個輕量小模型快速跑一遍,把走得通的路徑篩出來,再把這些高價值經(jīng)驗喂給大模型學習。

用類比來說,就是「小模型先探路、踩雷、找通道,大模型再吸收精華、直接上手」。

結(jié)果是:在復雜任務能力注入過程中,GPU小時消耗節(jié)省約60%,同時快速掌握更多真實用車場景技能。

技術論文已上傳arXiv:https://arxiv.org/abs/2601.21754

ERL:讓模型「邊想邊糾錯」,任務完成率提升20%

全稱:Erasable Reinforcement Learning(可擦除強化學習)。

這項技術已被機器學習頂級會議ICLR 2026收錄。

它解決的核心問題是:復雜任務鏈路里,一步出錯,全盤崩。

用戶說一句話,模型可能需要10步推理和執(zhí)行。哪怕第7步偏了一點,前面6步的努力就白費,整個任務流程失效。

ERL讓模型能夠自動識別推理過程中的錯誤步驟,對錯誤內(nèi)容進行擦除并重新生成,從源頭阻斷偏差擴散——就像給推理過程裝上了「實時橡皮擦」。

這項技術讓Sage在多跳復雜推理基準上較此前SOTA取得顯著提升,裝車后復雜任務完成率提升20%。

技術論文已上傳arXiv:https://arxiv.org/abs/2510.00861

SCOUT負責學習效率,ERL負責執(zhí)行穩(wěn)定性,兩項技術前后協(xié)同,共同推動Sage從語言大模型演進為能獨立完成復雜任務的智能體。

能力天花板

Sage和同級端側(cè)旗艦的差距有多大

PinchBench上的94%是綜合結(jié)果,具體能力維度上,Sage和行業(yè)參照點的差距更直觀。

對比對象:Google-Gemma4——本月最新發(fā)布的同量級端側(cè)旗艦。

跨學科專業(yè)知識(MMLUPro)Sage 76分,領先同級端側(cè)模型約10%。端側(cè)模型,已具備云端級通用知識密度。

研究生級專業(yè)推理(GPQA Diamond):Sage 77分,提升33%。這是考察深度推理的維度,也是Agent能否應對復雜決策的關鍵。

座艙語義與視覺理解(Human Semantic Understanding):Sage 91分,提升32%。依托原生車載數(shù)據(jù)建立的差異化優(yōu)勢,直接影響真實座艙體驗。

工具調(diào)用與任務閉環(huán)(τ2-bench):Sage 80分,較Gemma4提升38%,接近翻倍領先。

最后這個數(shù)字值得單獨說一下。

τ2-bench,專門評估模型調(diào)用工具、走完多步任務的實戰(zhàn)能力——也就是「會聊天」和「會辦事」之間的分水嶺。

接近翻倍的領先,直接印證了Sage作為端側(cè)智能體基座在真實任務執(zhí)行上的核心優(yōu)勢。

市場轉(zhuǎn)折點

汽車AI的上半場,靠指令

下半場,靠Agent

為什么「端側(cè)Agent基座」這件事,現(xiàn)在重要?

先看一組行業(yè)現(xiàn)實。

當前搭載了「智能語音」的汽車,普遍存在同一個用戶體驗瓶頸:語音助手能聽,但不能想;能應答,但不能執(zhí)行;能單步,但不能多步。

這不是某一家車企的問題,是整個行業(yè)在AI算力、模型能力和車端部署之間的結(jié)構性矛盾。

依賴云端方案的代價在放大:每次對話都要消耗Token,單任務token消耗就可達數(shù)十萬量級;網(wǎng)絡抖動就會影響體驗;數(shù)據(jù)隱私也是潛在風險。

端側(cè)部署才是量產(chǎn)落地的唯一可行路徑——但端側(cè)模型的能力天花板,一直是整個行業(yè)的卡脖子問題。

Sage的出現(xiàn),正好踩在這個時間窗口。

Sage可接入OpenClaw、Hermes等主流Agent框架,不只是一個座艙大模型,而是一個為更多端側(cè)智能體落地提供核心支撐的基座——可覆蓋出行、家庭等全場景智能體部署。

北京車展期間,商湯絕影將正式推出搭載Sage端側(cè)多模態(tài)智能體基座大模型的SageBox,為汽車邁入超級智能體時代打下技術底座。

這意味著,車企在引入端側(cè)Agent能力時,有了一套經(jīng)過全球評測驗證的量產(chǎn)方案。

商湯絕影

從「懂AI」到「懂車AI」的技術積累

Sage不是一款從零起步的產(chǎn)品。

它背后是商湯絕影多年在汽車AI領域的技術沉淀——從智能駕駛感知到座艙語義理解,再到今天的端側(cè)智能體基座,每一步都在向「真正懂車、懂人、懂場景」靠近。

Sage之所以能在Human Semantic Understanding(座艙語義與視覺理解)上拿到91分、提升32%,正是原生車載數(shù)據(jù)訓練的結(jié)果。


通用大模型的訓練數(shù)據(jù)里,沒有「車內(nèi)乘員狀態(tài)感知」,沒有「駕駛場景多步?jīng)Q策」,沒有「空調(diào)+導航+影音聯(lián)動」這種出行場景特有的任務鏈路。

Sage有。

這種原生優(yōu)勢,不是靠刷榜刷出來的,是靠在真實出行場景里長期訓練出來的。

智能座艙

正在迎來它真正的「奇點時刻」

回頭看汽車AI的發(fā)展歷程。

第一階段:語音識別,能聽懂人話。

第二階段:語音助手,能應答簡單指令。

第三階段:大模型接入,能對話、能聊天。

現(xiàn)在,第四階段來了——

能獨立規(guī)劃、能多步執(zhí)行、能主動感知、能在車端實時完成復雜任務的端側(cè)智能體。

Sage代表的技術方向,不只是「更聰明的語音助手」,而是從根本上改變?nèi)伺c汽車的協(xié)作方式。

用戶不再需要把一件事拆成十個指令說給汽車聽,汽車開始真正理解「你想要什么」,然后想辦法幫你做到。

3B激活參數(shù)贏過了一眾云端旗艦,這個結(jié)果告訴行業(yè):智能座艙的上限,不在云端,在端側(cè)原生技術路線上還有更多可能。

SageBox即將亮相北京車展。

下一代汽車AI的樣子,已經(jīng)在那里了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本民調(diào):75%日本民眾支持維持“無核三原則”,67%反對武器出口

日本民調(diào):75%日本民眾支持維持“無核三原則”,67%反對武器出口

澎湃新聞
2026-04-21 15:14:26
三地迎來新任代市長!六地政府主要領導調(diào)整

三地迎來新任代市長!六地政府主要領導調(diào)整

上觀新聞
2026-04-22 10:18:05
澆小麥的地下水變成血紅色,誰來守護我們的生存底線?

澆小麥的地下水變成血紅色,誰來守護我們的生存底線?

記錄劉杰
2026-04-19 21:39:47
細思極恐!某國產(chǎn)大模型泄露用戶隱私,并隨意將隱私信息發(fā)給其他人

細思極恐!某國產(chǎn)大模型泄露用戶隱私,并隨意將隱私信息發(fā)給其他人

可達鴨面面觀
2026-04-21 16:24:39
主帥無奈炮轟+質(zhì)疑判罰!海港爆冷輸球,穆斯卡特深陷下課危機!

主帥無奈炮轟+質(zhì)疑判罰!海港爆冷輸球,穆斯卡特深陷下課危機!

田先生籃球
2026-04-22 06:13:37
尷尬!董宇輝被吐槽:喜歡支教,一天沒去;不喜歡帶貨,一天沒停

尷尬!董宇輝被吐槽:喜歡支教,一天沒去;不喜歡帶貨,一天沒停

阿廢冷眼觀察所
2026-04-22 15:04:48
“領導,你以為我職務不漲,年齡也不漲?”

“領導,你以為我職務不漲,年齡也不漲?”

槽邏輯
2026-04-22 12:10:39
中國女排3朵金花宣告入隊,王媛媛回歸在即,接應新星意外缺席

中國女排3朵金花宣告入隊,王媛媛回歸在即,接應新星意外缺席

丁蓳解說
2026-04-21 14:57:33
71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
金螳螂連收4個漲停板

金螳螂連收4個漲停板

證券時報
2026-04-22 10:12:05
43歲男子和富婆車震后,富婆還想要更多,2016年他將51歲富婆殺死

43歲男子和富婆車震后,富婆還想要更多,2016年他將51歲富婆殺死

漢史趣聞
2026-04-06 19:17:12
新疆一女子下車買馕,回來發(fā)現(xiàn)車輛離奇消失立馬報警,警方:她停車沒拉手剎……

新疆一女子下車買馕,回來發(fā)現(xiàn)車輛離奇消失立馬報警,警方:她停車沒拉手剎……

環(huán)球網(wǎng)資訊
2026-04-22 14:43:58
Shams:東契奇預計無緣出戰(zhàn)首輪 里夫斯進度更快有望首輪末復出

Shams:東契奇預計無緣出戰(zhàn)首輪 里夫斯進度更快有望首輪末復出

羅說NBA
2026-04-22 05:03:31
著名專家預言:試管嬰兒壽命僅40年,那首例試管嬰兒如今怎樣了?

著名專家預言:試管嬰兒壽命僅40年,那首例試管嬰兒如今怎樣了?

青梅侃史啊
2026-03-28 19:22:24
時長超過蘇德戰(zhàn)爭,俄羅斯該點到為止了

時長超過蘇德戰(zhàn)爭,俄羅斯該點到為止了

新車知多少
2026-04-21 18:28:58
71歲白俄羅斯總統(tǒng)被曝與22歲模特交往,俄媒調(diào)侃:寶刀未老!

71歲白俄羅斯總統(tǒng)被曝與22歲模特交往,俄媒調(diào)侃:寶刀未老!

譯言
2026-04-21 18:18:54
突發(fā)!最大的懸念!馬刺完蛋了?

突發(fā)!最大的懸念!馬刺完蛋了?

籃球盛世
2026-04-22 12:38:29
36分仍輸球:布朗的MVP級夜晚為何救不了凱爾特人

36分仍輸球:布朗的MVP級夜晚為何救不了凱爾特人

體壇觀察猿
2026-04-22 16:39:45
2013年,江青拍攝的照片以34萬元的高價拍出,毛澤東曾稱贊并題詞

2013年,江青拍攝的照片以34萬元的高價拍出,毛澤東曾稱贊并題詞

南書房
2026-04-21 07:25:06
曼城后防崩盤時,兩個年輕人怎么接住的

曼城后防崩盤時,兩個年輕人怎么接住的

綠茵狂熱者
2026-04-22 16:14:28
2026-04-22 18:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
15039文章數(shù) 66798關注度
往期回顧 全部

汽車要聞

純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

頭條要聞

三甲醫(yī)院科主任被舉報"巨額財產(chǎn)來源不明" 舉報人發(fā)聲

頭條要聞

三甲醫(yī)院科主任被舉報"巨額財產(chǎn)來源不明" 舉報人發(fā)聲

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

復婚無望!baby黃曉明陪小海綿零交流

財經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長?;鹌谙?/h3>

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

態(tài)度原創(chuàng)

親子
房產(chǎn)
數(shù)碼
本地
公開課

親子要聞

港姐張寶兒乳腺炎痛如石,老公幫忙亦無效,另1原因為大仔辦退學

房產(chǎn)要聞

狂搶284輪!中海??谠倌弥匕跽?!

數(shù)碼要聞

Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

本地新聞

春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版