国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

硅谷豪賭算力燒到停電,中國團(tuán)隊反向出擊!這一刀,直接砍碎Scaling Law

0
分享至


新智元報道

編輯:KingHZ Aeneas

【新智元導(dǎo)讀】思考token在精不在多。Yuan 3.0 Flash用RAPO+RIRM雙殺過度思考,推理token砍75%,網(wǎng)友們驚呼:這就是下一代AI模型的發(fā)展方向!

硅谷的算力戰(zhàn)爭,已經(jīng)不是「拼GPU」,而是「搶電網(wǎng)」。

OpenAI萬億豪賭Scaling,瞄準(zhǔn)10GW級超級集群。

在孟菲斯,馬斯克豎起xAI的Colossus,55.5萬張GPU與2GW電力轟鳴待命。

還不止地面。馬斯克已經(jīng)把目光看向太空:下一座「算力堡壘」,仿佛就在地球近地軌道的黑暗里發(fā)光。


奧特曼在賭,馬斯克在賭,整個硅谷都在賭:堆起最高的「算力山」,就能先摸到AGI的門把手。

可就在這場萬億級狂飆里,Anthropic的一個更刺耳的結(jié)論浮出水面——

模型越大,算力越多,不一定越聰明。更可能的是:浪費(fèi)更大、思維鏈更亂、幻覺更猛。




左右滑動查看

真正決定勝負(fù)的,可能不是更多GPU,而是能讓模型在正確答案前及時剎車的算法。

而就在這個節(jié)點,Yuan 3.0 Flash悄然登場。

它出自YuanLab.ai團(tuán)隊之手——沒有喧囂的發(fā)布,沒有張揚(yáng)的宣告,卻也吸引了全球開發(fā)者的注意。26年伊始,YuanLab.ai團(tuán)隊交出了它的階段性的成果,向行業(yè)展示了自己的節(jié)奏。

可以說,Yuan 3.0 Flash不是又一個參數(shù)爆炸的巨獸,而是一場針對「想太多」的精準(zhǔn)手術(shù)——以更高效的機(jī)制,實現(xiàn)更敏捷的思考。

40B總參數(shù)的MoE(Mixture-of-Experts)架構(gòu),僅激活約3.7B參數(shù),卻在多模態(tài)任務(wù)上展現(xiàn)出媲美甚至超越數(shù)百億參數(shù)模型的表現(xiàn)。

更關(guān)鍵的是,它讓模型學(xué)會「適可而止」,從訓(xùn)練階段就教會它:什么時候該停手。


鏈接:https://arxiv.org/pdf/2601.01718

開源:https://github.com/Yuan-lab-LLM/Yuan3.0

因此,Yuan 3.0 Flash一經(jīng)發(fā)布,就在全球開發(fā)者中引起了巨大轟動。

有人說,這是高效多模態(tài)AI邁出的一大步:一個400億模型僅僅激活了37億參數(shù),這就是下一代AI模型的發(fā)展方向!


沒想到,開源模型竟然能有這種級別的控制力,這種AI,是真的可以應(yīng)用于生產(chǎn)環(huán)境的。


打破業(yè)內(nèi)魔咒

想太多,就更好嗎?

推理模型的興盛,引發(fā)了全行業(yè)對「長思維鏈」的追逐。

然而,企業(yè)AI落地時,卻存在著這樣一個「TOKEN成本悖論」——

想要高智能,就必須承擔(dān)成倍增長的Token消耗和推理延遲;

想要控制成本,往往只能犧牲模型能力。

要知道,對企業(yè)而言,每一個無效消耗的Token,都是真金白銀的流失!

真正的成本黑洞,不在「求解」,而在「答對之后」:很多推理模型一旦摸到正確答案,就開始反復(fù)確認(rèn)、來回推翻、沒有新證據(jù)也要繼續(xù)「再想想」。

事實上,在數(shù)學(xué)與科學(xué)任務(wù)中,超過70%的token消耗發(fā)生在正確答案之后,卻仍在進(jìn)行無效反復(fù)驗證的階段。

舉個例子,你問了AI一個數(shù)學(xué)題,它會先給出正確解,然后又開始「但是……或許……再檢查一遍」,最終輸出比答案本身長三倍的文字。


答案早已浮現(xiàn),卻被淹沒在無休止的自我對話中。

這不是「幻覺」,是當(dāng)下大模型的普遍頑疾:過度反思(overthinking)

為了解決這一矛盾,Yuan 3.0 Flash正式登場了!團(tuán)隊的目標(biāo)是——「用更少算力,實現(xiàn)更高的智能」。

四兩撥千斤

更少算力,但更高智能

Yuan 3.0 Flash,在MoE架構(gòu)的基礎(chǔ)上,實現(xiàn)了RIRM(反思抑制獎勵機(jī)制)和RAPO(反思感知自適應(yīng)策略優(yōu)化)兩項算法創(chuàng)新,這樣就從根本上修正了模型的「過度思考」。

由此,模型實現(xiàn)了以下突破:

· 精準(zhǔn)定位:準(zhǔn)確識別首次得出正確答案的關(guān)鍵節(jié)點

· 抑制冗余:有效抑制后續(xù)冗余推理行為

· 雙重提升:在提升精度的同時,將推理token數(shù)量降低約75%

首先,來看它在架構(gòu)上的優(yōu)雅革命。

傳統(tǒng)稠密模型像一支全員出動的軍隊,每一次推理都調(diào)動所有神經(jīng)元。

Yuan 3.0 Flash則更像一支特種部隊:MoE機(jī)制只喚醒最合適的「專家」應(yīng)對當(dāng)前任務(wù)。

視覺編碼器處理高分辨率圖像,通過自適應(yīng)分割機(jī)制將圖片拆分成高效token,避免顯存爆炸;語言主干網(wǎng)絡(luò)采用Local Filtered Attention(LFA),進(jìn)一步降低計算開銷。


結(jié)果很出彩——

上下文長度輕松達(dá)到128K,在「needle-in-a-haystack」(大海撈針)測試中實現(xiàn)100%準(zhǔn)確召回。


就是說,它能從海量文檔中精準(zhǔn)定位關(guān)鍵信息,而不會因為長度而迷失。

想象一下,你的企業(yè)需要分析一份數(shù)百頁的財務(wù)報告,夾雜著復(fù)雜嵌套表格和圖表。

過去,模型或許卡頓、幻覺頻出,或者token消耗到天價。

而Yuan 3.0 Flash像一位專注的審計師,多模態(tài)輸入(文本+圖像+表格+文檔)無縫融合:

  • RAG(檢索增強(qiáng)生成)準(zhǔn)確率達(dá)64.47%,

  • Docmatix多模態(tài)檢索65.10%,

  • MMTab表格理解58.30%,

  • SummEval摘要生成59.30%。


在企業(yè)場景,Yuan 3.0 Flash遠(yuǎn)超GPT-5.1的46.10%,直接瞄準(zhǔn)了LLM的痛點。

RIRM:拒絕無效內(nèi)耗

真正讓Yuan 3.0 Flash脫穎而出的,就是對「過度反思」的致命一擊。

在MATH-500和AIME等數(shù)學(xué)基準(zhǔn)上,傳統(tǒng)推理模型的token分布像一座冰山:


淺色部分是問題求解,深色巨大區(qū)域是后答案反思

比如,在MATH-500上,「后答案反思」占比高達(dá)71.6%,整體token在3362上居高不下。

為了顯著降低這一無效反思的占比,團(tuán)隊提出了一種創(chuàng)新機(jī)制——反思抑制獎勵機(jī)制(RIRM)。

RIRM的原理簡單卻深刻:在強(qiáng)化學(xué)習(xí)中,它識別模型首次輸出正確答案的「節(jié)點」,然后對后續(xù)缺乏新證據(jù)的重復(fù)驗證、自我推翻施以負(fù)獎勵。

模型不再被鼓勵「想得越久越好」,而是學(xué)會辨別「足夠好」的邊界。


RIRM工作流程示意

從首次正確答案識別到反思階段獎勵抑制的完整鏈路

也就是說,在強(qiáng)化學(xué)習(xí)中,RIRM首次教導(dǎo)了模型識別「何時思考已足夠」。它會獎勵模型在首次得出正確答案后停止無效反思,而非鼓勵無止境的推演。

為此,團(tuán)隊引入了三個維度的獎勵:首次正確答案、最終正確性,以及反思步驟數(shù)量是否落在合理區(qū)間內(nèi)。

果然,Yuan 3.0Flash引入RIRM后,上面這座冰山被腰斬:反思階段token占比驟降至28.4%,總token壓縮至1777左右,減少約47%,而準(zhǔn)確率不降反升(MATH-500從83.20%提升至89.47%)。

這就說明被壓縮的并不是有效推理,而是答案已經(jīng)確定之后的反復(fù)自檢、復(fù)述與格式化解釋等低價值token。


不僅如此,該模型在數(shù)學(xué)、科學(xué)等領(lǐng)域也表現(xiàn)出強(qiáng)大的推理能力,直接把無效反思的Token消耗最高削減至75%,即可達(dá)到前沿模型的精度水平!

這樣,就能讓算力聚焦于真正有價值的推理步驟。可以說,RIRM的作用并非「壓長度」,而是讓模型學(xué)會在正確節(jié)點停止思考。


RIRM訓(xùn)練前后Token消耗對比

反思階段(深色部分)顯著縮減,而首次解題階段基本保持不變

RAPO:高效訓(xùn)練引擎

然而,僅靠對推理行為的抑制,并不足以支撐一個穩(wěn)定、高效的企業(yè)級模型訓(xùn)練。

由此,團(tuán)隊引入了RAPO(反思感知自適應(yīng)策略優(yōu)化),這并非一次局部技巧的優(yōu)化,而是對強(qiáng)化學(xué)習(xí)訓(xùn)練框架的一次系統(tǒng)性改進(jìn)。

它兼顧了訓(xùn)練效率、訓(xùn)練穩(wěn)定性及推理效率,使模型能在多任務(wù)、異構(gòu)場景中形成更具實用價值的策略。

具體來說,它從訓(xùn)練框架層面實現(xiàn)保駕護(hù)航:

  • 自適應(yīng)動態(tài)采樣(Adaptive Dynamic Sampling,ADS):動態(tài)過濾掉低信息量的重復(fù)樣本,訓(xùn)練效率提升52.91%

  • 80/20高熵token更新規(guī)則:只更新不確定性最高的前20%的token梯度,聚焦真正需要優(yōu)化的部分

  • 優(yōu)化雙剪裁:同時對策略梯度和值函數(shù)梯度進(jìn)行雙重裁剪,防止MoE架構(gòu)常見的梯度爆炸

  • 多任務(wù)交替訓(xùn)練+KL散度正則,讓大型MoE模型也能穩(wěn)定收斂

讓整個RL過程效率提升52.91%,即使在大型MoE模型上也保持穩(wěn)定。


這不是強(qiáng)制縮短輸出,而是重塑模型對「好推理」的認(rèn)知: 從「長度即真理」,轉(zhuǎn)向「時機(jī)即智慧」。

更重要的是,RAPO與RIRM是協(xié)同設(shè)計的。

RAPO決定模型「如何學(xué)習(xí)」,而 RIRM明確模型「學(xué)到什么程度該?!?。

當(dāng)然,任何創(chuàng)新都有其張力。

RIRM在抑制冗余的同時,可能在極度不確定、需要多輪探索的任務(wù)中略微限制有益反思——這需要在實際部署中持續(xù)觀察與平衡。

AI下半場,YuanLab.ai團(tuán)隊這樣想

Yuan 3.0 Flash指向一個清晰的結(jié)論:當(dāng)模型具備基礎(chǔ)推理能力后,其進(jìn)化的關(guān)鍵已非「延長思考」,而在于 「優(yōu)化思考的質(zhì)量與效率」

它不僅為企業(yè)提供一種「更少算力、更高智能」的選擇,更重要的是對「長思維鏈」競賽的理性補(bǔ)充。

背后團(tuán)隊YuanLab.ai深深理解深度推理的價值,但也知道隱藏的算力浪費(fèi)風(fēng)險。

因此,Yuan 3.0 Flash提供了追求「有效思考」的平衡方案,推動行業(yè)關(guān)注智能的實用性與經(jīng)濟(jì)性。


Yuan 3.0 Flash被網(wǎng)友盛贊:這不是一個demo, 而是一個真正為生產(chǎn)構(gòu)建的模型!

當(dāng)模型能夠在獲得正確答案時主動停止推理,本質(zhì)上意味著它開始進(jìn)行一種隱式的成本—收益分析。從此,token成為推理過程中可被模型內(nèi)部感知和調(diào)節(jié)的計算資源。

這就標(biāo)志著推理目標(biāo)的一次轉(zhuǎn)變:從單純模仿人類冗長、外顯的思維過程,轉(zhuǎn)向更適合機(jī)器的、以最小token預(yù)算達(dá)成正確性的效用導(dǎo)向智能形態(tài)。

為什么這種更高效的智能,是出自YuanLab.ai團(tuán)隊之手?

實際上,這個成果可以看作YuanLab.ai團(tuán)隊在此領(lǐng)域多年經(jīng)驗的厚積薄發(fā)。作為在行業(yè)內(nèi)深耕多年的大模型探索者,團(tuán)隊的發(fā)展足跡本身已成為中國大模型演進(jìn)歷程中一個真實而生動的縮影。

2021年,當(dāng)業(yè)界對大模型的認(rèn)知尚處朦朧時,YuanLab.ai團(tuán)隊便已勇闖無人區(qū),發(fā)布了2457億參數(shù)的源1.0大模型,這是對GPT-3架構(gòu)的成功驗證。

發(fā)布之際,團(tuán)隊開源了平臺、代碼以及珍貴的中文數(shù)據(jù)集,滋養(yǎng)了國內(nèi)早期大模型成長土壤。

隨著ChatGPT的橫空出世,YuanLab.ai團(tuán)隊立足自身技術(shù)積累與市場需求,于同期成功推出自主研發(fā)的「源2.0」大模型。

2024年5月,團(tuán)隊發(fā)布了采用創(chuàng)新MoE架構(gòu)的源2.0-M32,以僅2.25萬億Tokens的訓(xùn)練量,實現(xiàn)了出色的性能。


站在「源2.0-M32」的肩膀上,YuanLab.ai團(tuán)隊已向著下一個里程碑進(jìn)發(fā)——「源3.0」 ,劍指多模態(tài)、更少算力、更高智能的AGI路徑。在此過程中,也有了團(tuán)隊近期交出的階段性成果——Yuan 3.0 Flash。

AI下半場,走向哪里

回望過去,我們或許會發(fā)現(xiàn),AI的下半場真的來了。

  • 上半場,大家追求的是「大」:更大的參數(shù)、更多的顯卡、更高的智能。那是AI的青春期,迅速成長。

  • 下半場,我們開始追求「準(zhǔn)」:更精煉的邏輯、更克制的表達(dá)、更高效的決策。這是AI成年禮的開始。

當(dāng)我們不再迷信「越大越強(qiáng)」,而轉(zhuǎn)向「更精煉、更適配」,AI才真正從實驗室走向生產(chǎn),從昂貴的玩具變成可持續(xù)的工具。

此時,我們觸及了本質(zhì):AI智能的邊界,正在從「深度」轉(zhuǎn)向「時機(jī)」。

真正的聰明,往往不是想得最多,而是知道何時果斷收手。

人類智慧最珍貴的部分,從來不是喋喋不休的長篇大論,而是由于洞察本質(zhì)而帶來的適時沉默。

所以,當(dāng)你下一次面對AI冗長輸出時,不妨問自己:它是在推理,還是在演推理?

在AGI星辰大海里,我們或許不再需要追逐參數(shù)巨獸,而是學(xué)會點亮一盞更精準(zhǔn)、更節(jié)制的燈塔。

大廠需要學(xué)會的,是參與一場「適可而止」的革命。

參考資料:

https://arxiv.org/pdf/2601.01718

https://github.com/Yuan-lab-LLM/Yuan3.0


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
汪東興活到了2015年,他對當(dāng)下中國有何看法?他心里確實有些成見

汪東興活到了2015年,他對當(dāng)下中國有何看法?他心里確實有些成見

明月清風(fēng)閣
2026-02-19 07:25:09
中國禁止手機(jī)搭載WiFi的禁令,為何無疾而終了?

中國禁止手機(jī)搭載WiFi的禁令,為何無疾而終了?

真的好愛你
2026-02-25 00:53:59
江蘇一市,將迎第一所985大學(xué)

江蘇一市,將迎第一所985大學(xué)

中吳網(wǎng)
2026-02-26 09:16:10
未到站要求下車遭拒,男子搶奪公交車方向盤并持續(xù)毆打司機(jī)1分鐘!警方介入調(diào)查,受傷司機(jī)將被申報“委屈獎”

未到站要求下車遭拒,男子搶奪公交車方向盤并持續(xù)毆打司機(jī)1分鐘!警方介入調(diào)查,受傷司機(jī)將被申報“委屈獎”

揚(yáng)子晚報
2026-02-26 12:30:45
侄女考上985姑姑給了10萬8,可升學(xué)宴唯獨沒請姑姑,4年后侄女畢業(yè)來敲門,姑姑冷笑問:現(xiàn)在想起我了?

侄女考上985姑姑給了10萬8,可升學(xué)宴唯獨沒請姑姑,4年后侄女畢業(yè)來敲門,姑姑冷笑問:現(xiàn)在想起我了?

LULU生活家
2026-02-25 18:43:16
迷失無人區(qū):女子帶藏獒無人區(qū)失聯(lián)兩周,警方找到車,車內(nèi)只剩藏獒

迷失無人區(qū):女子帶藏獒無人區(qū)失聯(lián)兩周,警方找到車,車內(nèi)只剩藏獒

罪案洞察者
2025-11-10 13:57:07
贅婿船上不行被白富美拋棄!妲己男友得病了!

贅婿船上不行被白富美拋棄!妲己男友得病了!

八卦瘋叔
2026-02-26 11:39:31
開國上將找縣長辦事,卻被縣長給銬起來,當(dāng)眾狂言:這里我說了算

開國上將找縣長辦事,卻被縣長給銬起來,當(dāng)眾狂言:這里我說了算

芊芊子吟
2026-02-25 21:30:05
79年軍委會議一上將不接受批評,徐向前怒:你要認(rèn)識你錯誤的嚴(yán)重

79年軍委會議一上將不接受批評,徐向前怒:你要認(rèn)識你錯誤的嚴(yán)重

歷史甄有趣
2026-01-31 13:00:11
劍指中國,高市擺鴻門宴,21國赴會!令人痛心的是,東盟7國參加

劍指中國,高市擺鴻門宴,21國赴會!令人痛心的是,東盟7國參加

史智文道
2026-02-25 22:10:13
外國網(wǎng)民破防,美國制裁宇樹機(jī)器人,美媒一句話讓特朗普下不來臺

外國網(wǎng)民破防,美國制裁宇樹機(jī)器人,美媒一句話讓特朗普下不來臺

墨蘭史書
2026-02-25 23:06:50
亞洲第一帥又胖了!香港頂流姜濤過完年演出,腿粗肚子大跳舞笨拙

亞洲第一帥又胖了!香港頂流姜濤過完年演出,腿粗肚子大跳舞笨拙

冷紫葉
2026-02-25 18:19:24
歷史上唯一沒污點的皇帝柴榮,千年來無一惡評,史學(xué)家們稱贊不已

歷史上唯一沒污點的皇帝柴榮,千年來無一惡評,史學(xué)家們稱贊不已

別人都叫我阿腈
2026-02-26 07:04:46
我剛上任市長,去政務(wù)大廳辦事,工作人員甩出表格:沒看見我在追劇?

我剛上任市長,去政務(wù)大廳辦事,工作人員甩出表格:沒看見我在追劇?

張道陵秘話
2025-11-29 22:49:36
印陸軍前參謀長終于承認(rèn):印軍白死了!加勒萬那夜,輸?shù)牟皇悄懥?>
    </a>
        <h3>
      <a href=梁濆愛玩車
2026-02-26 00:45:15
美國知名演員羅伯特·德尼羅指責(zé)特朗普正“摧毀我們的國家”,特朗普憤怒回應(yīng)

美國知名演員羅伯特·德尼羅指責(zé)特朗普正“摧毀我們的國家”,特朗普憤怒回應(yīng)

環(huán)球網(wǎng)資訊
2026-02-26 09:23:14
澳大利亞驚現(xiàn)封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產(chǎn)物

澳大利亞驚現(xiàn)封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產(chǎn)物

第7情感
2026-02-23 20:45:16
沉默整整9天,毛寧一錘定音,中美戰(zhàn)機(jī)已交手,美方要見中國代表

沉默整整9天,毛寧一錘定音,中美戰(zhàn)機(jī)已交手,美方要見中國代表

影孖看世界
2026-02-25 23:01:51
“女排之父”袁偉民,造就了一番輝煌后,晚年生活卻過成如此

“女排之父”袁偉民,造就了一番輝煌后,晚年生活卻過成如此

小兔子的快樂
2026-02-18 20:26:11
圍爐煮茶,為啥涼了?

圍爐煮茶,為啥涼了?

放牛娃的遐想
2026-02-25 08:14:29
2026-02-26 13:24:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14593文章數(shù) 66644關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

頭條要聞

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財經(jīng)要聞

短劇市場風(fēng)云突變!有人投百萬賠得精光

汽車要聞

第五代宏光MINIEV煥新 四門玩趣代步車來襲

態(tài)度原創(chuàng)

家居
藝術(shù)
本地
健康
公開課

家居要聞

歸隱于都市 慢享自由

藝術(shù)要聞

2025年百家金陵畫展 | 油畫作品選刊

本地新聞

津南好·四時總相宜

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版