国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI邪修時刻!Meta聯(lián)手MIT投毒,左腳踩右腳強行升天

0
分享至


新智元報道

編輯:傾傾

【新智元導讀】Meta SOAR用「劇毒數(shù)據(jù)」當墊腳石,硬生生把模型從Fail@128的認知黑洞里拽出來,推理能力暴漲9.3%!2026年,這才是最硬核的反殺路線。

如果給AI喂一份錯誤率高達67%的教材,結(jié)局會是什么?

放在以前,他絕對會被噴成篩子:這叫「數(shù)據(jù)投毒」!輕則模型腦霧,重則邏輯崩塌,直接送進ICU。

但在Meta FAIR的實驗室里,這劑毒藥,變成了救命的神藥。


論文鏈接:https://arxiv.org/abs/2601.18778

不僅沒把模型喂傻,反而讓它踩著一堆「滿嘴謊言」的廢料,爬上了人類無法觸及的推理巔峰。

崩塌的常識:錯題集才是真理?

研究團隊選了MATH和HARP數(shù)據(jù)集里最變態(tài)的「Fail@128」子集。

這是什么概念?就是讓Llama-3.2-3B對著一道題連蒙128次,成功率依然是0。

這不僅僅是「難」,還是絕對的認知真空:在傳統(tǒng)的強化學習里,這意味著「梯度消失」——就像在黑屋子里打拳,因為從來沒打中過,它根本不知道該往哪兒用力。

DeepSeek R1的解法是「卷算力」,靠GRPO瘋狂采樣,賭那千萬分之一的「頓悟時刻」。

但Meta選了另一條路——自己造路。

SOAR架構(gòu)搞出了一個「教師模型」,專門生成中間難度的「墊腳石問題」。

研究員扒開這些「墊腳石」一看,背脊發(fā)涼:84%的題目邏輯結(jié)構(gòu)清晰、合理;只有33%的參考答案是做對的。

劃重點:2/3的答案都是錯的!

如果按照OpenAI o1的清洗標準,這些數(shù)據(jù)會在第一輪就被作為「幻覺垃圾」剔除。

但在SOAR眼里,這些全是寶藏。

哪怕「教師模型」自己都算不對微積分,它依然能編出一道高質(zhì)量的微積分題。

當「學生模型」去解這道題時,即便最后對答案是寂寞,但它在「構(gòu)建推理路徑」過程中的腦力體操,是實打?qū)嵉模?/p>


SOAR課程演化示例:左圖顯示學生在Fail@128硬題上的greedy acc隨教師訓練/promotion階段階梯上升;右圖展示典型生成題目——Stage 1多為生活word problem,Stage 2轉(zhuǎn)向高等代數(shù)/三角。這證明教師通過promotion逐步生成更難但結(jié)構(gòu)有效的墊腳石,推動學生推理突破。

事實證明,謬誤,竟然是通往真理的墊腳石。

SOAR機制:逼迫AI「誠實」的黑盒游戲

在AI自我進化的歷史上,無數(shù)次在一個坎上跌倒——「自我欺騙」。

AI為了拿獎勵,經(jīng)常會生成一堆簡單重復的垃圾題來刷分。

對此,SOAR搞了一個極其冷酷的「雙層博弈」:

  • 混沌建筑師(Teacher):負責瞎編題,不管對錯。

  • 絕境求生者(Student):負責做題,然后去挑戰(zhàn)那道「Fail@128」的終極死局。


SOAR的meta-RL訓練循環(huán):教師模型生成合成數(shù)據(jù)集,學生模型在內(nèi)層循環(huán)中進行強化學習訓練,并在硬驗證問題上評估進步,計算獎勵R反饋給教師進行外層更新。獎勵完全基于學生在極難題目上的真實提升,而非生成數(shù)據(jù)的正確性。

除此以外,Meta引入了「有根獎勵」機制。建筑師編的題再花哨也沒用,只有當學生做完這些題,在真實的Fail@128難題上漲分了,建筑師才能拿到獎勵。


SOAR教師變體消融學習曲線:用Grounded-T(有根獎勵教師,粉紅實線)采樣的問題訓練學生,在MATH和HARP上實現(xiàn)最高、最穩(wěn)定的Pass@32提升,遠超Base-T(藍虛線,波動大)和Hard Only(藍點線)

所以,為了得高分,建筑師只能去「猜」學生到底缺什么,要出什么題。


SOAR教師種子消融學習曲線:Grounded-T(G-T(1)到G-T(4),紅色系線)四個獨立種子生成的課程,讓學生Pass@32穩(wěn)定一致升至~18-22%(MATH)/~12-15%(HARP),方差極?。籌ntrinsic-T(I-T(1)到I-T(3),青色系線)三個種子波動劇烈,甚至出現(xiàn)崩潰模式(I-T(1)學生性能崩盤)。這證明有根獎勵讓教師政策魯棒,而內(nèi)在獎勵易不穩(wěn)定/崩潰。

它必須生成那些怪異的、甚至含有錯誤答案的題目,因為只有這些題目,才能讓學生真的進步。


直接訓練 vs 自生成課程:左側(cè)稀疏獎勵導致無梯度信號;右側(cè)教師模型生成中間難度問題,形成漸進式課程,幫助學生模型在Fail@128數(shù)據(jù)集上實現(xiàn)突破


SOAR一圖封神:教師造合成錯題,學生苦練+硬題評估,獎勵直擊硬題進步——粉紅曲線暴漲,藍線徹底躺平

路線之爭:DeepSeek的蠻力 vs Meta的詭道

2026年的大模型推理戰(zhàn)爭,本質(zhì)上是三種「宗教」的碰撞。

DeepSeek R1:賭博式的「頓悟」

DeepSeek R1代表了「暴力美學派」。

其核心武器GRPO依賴于大規(guī)模采樣——讓模型反復嘗試,直到偶然撞上那個正確的答案,產(chǎn)生所謂的「頓悟時刻」。

這在一般難題上效果極佳,但在Fail@128這種「絕對死局」面前,DeepSeek的策略碰到了物理墻。

當成功率為0時,無論你采樣多少次,獎勵永遠是0。沒有正反饋,梯度就不會下降。

這就像讓一只猴子坐在打字機前,試圖靠隨機敲擊寫出《哈姆雷特》——理論上可行,但現(xiàn)實中算力成本是無限大。

OpenAI o1:不可持續(xù)的「潔癖」

OpenAI o1則是「精英教育派」,它堅信「CoT必須完美」。

通過大量人工清洗或高精度的合成數(shù)據(jù),o1試圖教給模型最標準的推理步驟。

但SOAR的實驗狠狠嘲弄了這種潔癖。Meta證明,過度清洗數(shù)據(jù)可能是在扼殺天才。

SOAR生成的那些「滿嘴謊言」的問題,雖然答案錯了,但往往包含了人類意想不到的「思維突觸」。

如果按照OpenAI的標準清洗掉這些數(shù)據(jù),模型反而失去了跳出局部最優(yōu)解的機會。

更致命的是,高質(zhì)量的推理數(shù)據(jù)已經(jīng)面臨枯竭,人類產(chǎn)生難題的速度遠遠趕不上模型吃數(shù)據(jù)的速度。

SOAR的降維打擊:無中生有的「梯云縱」

Meta走的是第三條路:「自我挖掘派」。

SOAR不依賴DeepSeek式的海量算力撞大運,也不需要OpenAI式的昂貴人工數(shù)據(jù)。它在零外部輸入的情況下,通過內(nèi)部互博,強行挖掘出了模型潛意識里的能力。

論文中有一個極具哲學意味的發(fā)現(xiàn):

直接用訓練好的教師模型去解題,并沒有比基座模型強多少。

這說明,「出題」和「解題」是兩種完全不同的技能樹。

SOAR的高明之處在于,它不試圖把所有技能點都加在同一個腦子里,而是讓一部分算力異化為「磨刀石」,去打磨另一部分算力。


SOAR在MATH和HARP Fail@128數(shù)據(jù)集上的性能提升:Promotion Questions 帶來最大增益,證明合成數(shù)據(jù)的結(jié)構(gòu)質(zhì)量遠勝答案正確性。Intrinsic-T表現(xiàn)較差,驗證了‘有根獎勵’的重要性。

在數(shù)據(jù)枯竭論甚囂塵上的今天,Meta的這條路,可能是唯一能讓AI在沒有任何人類知識的荒原上繼續(xù)進化的希望。

數(shù)據(jù)枯竭的終結(jié):AI的自我繁衍

長久以來,懸在AI頭頂最大的達摩克利斯之劍,是「數(shù)據(jù)枯竭論」。

行業(yè)普遍悲觀地認為,當人類生產(chǎn)的高質(zhì)量文本被吃光后,AI的進化將停滯不前。

但要是讓AI吃自己生成的合成數(shù)據(jù),這種「近親繁殖」會導致模型崩潰。

但SOAR徹底粉碎了這個預言。

Meta的數(shù)據(jù)顯示,負責出題的那個模型,自己做題能力沒什么提升,但它培養(yǎng)出的學生卻進化了。


SOAR學習曲線:用Promotion Questions (粉線) 訓練的學生模型,在1500步內(nèi)Pass@32穩(wěn)定升至~18-19%,接近完整MATH訓練集的上界,而Hard Only (藍線) 幾乎無進步甚至衰退。這證明自我生成的合成數(shù)據(jù)能實現(xiàn)長期、穩(wěn)定的推理提升

Meta證明了,AI不需要人類的「真理」也能進化,它完全可以自己編寫教科書——而且是用一種人類看不懂、甚至認為全是錯誤的語言編寫的。

只要「黑盒獎勵」還在,AI就能在虛空中左腳踩右腳,螺旋升天。

曾經(jīng)我們以為AI是嬰兒,必須喂純凈水;現(xiàn)在才發(fā)現(xiàn),哪怕喂它吃垃圾、吃毒藥,它照樣能長出獠牙。

當錯誤的答案成為了通向更高智能的唯一階梯,人類手里那幾本標準答案,還有多少保質(zhì)期?

參考資料:

https://ssundaram21.github.io/soar/

https://arxiv.org/abs/2601.18778


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
本來窮得好好的,非要闖一闖,結(jié)果成老賴!半生努力換一身負債

本來窮得好好的,非要闖一闖,結(jié)果成老賴!半生努力換一身負債

夜深愛雜談
2026-04-11 11:42:57
突發(fā)!以軍發(fā)動襲擊

突發(fā)!以軍發(fā)動襲擊

農(nóng)民日報
2026-04-11 09:56:05
繞月宇航員出艙畫面曝光:被攙扶著坐上船,飛船外部燒得黑不溜秋

繞月宇航員出艙畫面曝光:被攙扶著坐上船,飛船外部燒得黑不溜秋

好賢觀史記
2026-04-11 13:49:35
浪姐最大的“劇本殺”:節(jié)目組想捧的人全沒火,火的全是意外

浪姐最大的“劇本殺”:節(jié)目組想捧的人全沒火,火的全是意外

天秤推好劇
2026-04-09 19:35:03
隊史紀錄!深圳橫掃江蘇豪取12連勝 賀希寧24分總?cè)殖瑐髌?>
    </a>
        <h3>
      <a href=醉臥浮生
2026-04-11 21:30:41
哈薩克斯坦2000萬噸稀土轉(zhuǎn)賣美日,簽完協(xié)議發(fā)現(xiàn),還是繞不開中國

哈薩克斯坦2000萬噸稀土轉(zhuǎn)賣美日,簽完協(xié)議發(fā)現(xiàn),還是繞不開中國

觸摸史跡
2026-04-11 13:22:23
這是青年時期毛岸青,這張照片眉眼神態(tài)極像母親楊開慧

這是青年時期毛岸青,這張照片眉眼神態(tài)極像母親楊開慧

鄉(xiāng)野小珥
2026-04-11 18:37:43
NASA發(fā)布“最清晰的月球照片”,地球無法觀察的月背:細節(jié)滿滿

NASA發(fā)布“最清晰的月球照片”,地球無法觀察的月背:細節(jié)滿滿

環(huán)球科學貓
2026-04-09 13:11:52
“漢堡饅頭減肥法”火了!張維伊4天減重2.6斤,網(wǎng)友:快樂減脂天花板?

“漢堡饅頭減肥法”火了!張維伊4天減重2.6斤,網(wǎng)友:快樂減脂天花板?

新浪財經(jīng)
2026-04-10 22:11:33
伊美談判可能延長一天,目前談判已進入新階段

伊美談判可能延長一天,目前談判已進入新階段

都市快報橙柿互動
2026-04-11 23:05:48
美國繞月飛船返回:遭受2800℃灼燒,隔熱罩最厚僅7.6厘米!

美國繞月飛船返回:遭受2800℃灼燒,隔熱罩最厚僅7.6厘米!

火星一號
2026-04-11 00:58:23
留學生入境被拒!華大博士帶13歲兒子被當場遣返,機場爆發(fā)抗議...

留學生入境被拒!華大博士帶13歲兒子被當場遣返,機場爆發(fā)抗議...

新浪財經(jīng)
2026-04-11 06:08:22
女大學生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

女大學生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

妍妍教育日記
2026-04-11 07:35:08
匈牙利總理歐爾班競選被喊“俄羅斯人回家”!只剩2成勝率

匈牙利總理歐爾班競選被喊“俄羅斯人回家”!只剩2成勝率

項鵬飛
2026-04-11 22:08:11
40歲單親媽媽扛樓16年賺錢養(yǎng)兒女,當事人:堅持不了的時候,兩個孩子就是我的動力

40歲單親媽媽扛樓16年賺錢養(yǎng)兒女,當事人:堅持不了的時候,兩個孩子就是我的動力

極目新聞
2026-04-11 22:32:39
鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍營一姐發(fā)話了

鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍營一姐發(fā)話了

阿傖說事
2026-04-11 05:56:00
王珞丹現(xiàn)狀:搬進深山生活,母親不再催婚,41歲和兩只狗相依為命

王珞丹現(xiàn)狀:搬進深山生活,母親不再催婚,41歲和兩只狗相依為命

冷紫葉
2026-04-11 16:48:00
陳麗華年輕照出烏龍:美女照片主人出來辟謠,真實年輕照像韓紅

陳麗華年輕照出烏龍:美女照片主人出來辟謠,真實年輕照像韓紅

動物奇奇怪怪
2026-04-11 15:25:19
難怪那么多人買她直播間的東西,真人確實好看。

難怪那么多人買她直播間的東西,真人確實好看。

動物奇奇怪怪
2026-04-11 18:24:30
4月11日俄烏最新:俄羅斯的關鍵條件

4月11日俄烏最新:俄羅斯的關鍵條件

西樓飲月
2026-04-11 21:42:50
2026-04-11 23:43:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
14947文章數(shù) 66765關注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應兒子走路:會監(jiān)督他挺直腰板

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

游戲
時尚
健康
公開課
軍事航空

碾壓前作!《極限競速:地平線6》創(chuàng)系列新紀錄

普通人穿衣其實很簡單!構(gòu)造腰線、一衣多穿,大方舒適又自然

干細胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進入關懷版