国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI邪修時(shí)刻!Meta聯(lián)手MIT投毒,左腳踩右腳強(qiáng)行升天

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】Meta SOAR用「劇毒數(shù)據(jù)」當(dāng)墊腳石,硬生生把模型從Fail@128的認(rèn)知黑洞里拽出來(lái),推理能力暴漲9.3%!2026年,這才是最硬核的反殺路線。

如果給AI喂一份錯(cuò)誤率高達(dá)67%的教材,結(jié)局會(huì)是什么?

放在以前,他絕對(duì)會(huì)被噴成篩子:這叫「數(shù)據(jù)投毒」!輕則模型腦霧,重則邏輯崩塌,直接送進(jìn)ICU。

但在Meta FAIR的實(shí)驗(yàn)室里,這劑毒藥,變成了救命的神藥。


論文鏈接:https://arxiv.org/abs/2601.18778

不僅沒(méi)把模型喂傻,反而讓它踩著一堆「滿嘴謊言」的廢料,爬上了人類無(wú)法觸及的推理巔峰。

崩塌的常識(shí):錯(cuò)題集才是真理?

研究團(tuán)隊(duì)選了MATH和HARP數(shù)據(jù)集里最變態(tài)的「Fail@128」子集。

這是什么概念?就是讓Llama-3.2-3B對(duì)著一道題連蒙128次,成功率依然是0。

這不僅僅是「難」,還是絕對(duì)的認(rèn)知真空:在傳統(tǒng)的強(qiáng)化學(xué)習(xí)里,這意味著「梯度消失」——就像在黑屋子里打拳,因?yàn)閺膩?lái)沒(méi)打中過(guò),它根本不知道該往哪兒用力。

DeepSeek R1的解法是「卷算力」,靠GRPO瘋狂采樣,賭那千萬(wàn)分之一的「頓悟時(shí)刻」。

但Meta選了另一條路——自己造路。

SOAR架構(gòu)搞出了一個(gè)「教師模型」,專門(mén)生成中間難度的「墊腳石問(wèn)題」。

研究員扒開(kāi)這些「墊腳石」一看,背脊發(fā)涼:84%的題目邏輯結(jié)構(gòu)清晰、合理;只有33%的參考答案是做對(duì)的。

劃重點(diǎn):2/3的答案都是錯(cuò)的!

如果按照OpenAI o1的清洗標(biāo)準(zhǔn),這些數(shù)據(jù)會(huì)在第一輪就被作為「幻覺(jué)垃圾」剔除。

但在SOAR眼里,這些全是寶藏。

哪怕「教師模型」自己都算不對(duì)微積分,它依然能編出一道高質(zhì)量的微積分題。

當(dāng)「學(xué)生模型」去解這道題時(shí),即便最后對(duì)答案是寂寞,但它在「構(gòu)建推理路徑」過(guò)程中的腦力體操,是實(shí)打?qū)嵉模?/p>


SOAR課程演化示例:左圖顯示學(xué)生在Fail@128硬題上的greedy acc隨教師訓(xùn)練/promotion階段階梯上升;右圖展示典型生成題目——Stage 1多為生活word problem,Stage 2轉(zhuǎn)向高等代數(shù)/三角。這證明教師通過(guò)promotion逐步生成更難但結(jié)構(gòu)有效的墊腳石,推動(dòng)學(xué)生推理突破。

事實(shí)證明,謬誤,竟然是通往真理的墊腳石。

SOAR機(jī)制:逼迫AI「誠(chéng)實(shí)」的黑盒游戲

在AI自我進(jìn)化的歷史上,無(wú)數(shù)次在一個(gè)坎上跌倒——「自我欺騙」。

AI為了拿獎(jiǎng)勵(lì),經(jīng)常會(huì)生成一堆簡(jiǎn)單重復(fù)的垃圾題來(lái)刷分。

對(duì)此,SOAR搞了一個(gè)極其冷酷的「雙層博弈」:

  • 混沌建筑師(Teacher):負(fù)責(zé)瞎編題,不管對(duì)錯(cuò)。

  • 絕境求生者(Student):負(fù)責(zé)做題,然后去挑戰(zhàn)那道「Fail@128」的終極死局。


SOAR的meta-RL訓(xùn)練循環(huán):教師模型生成合成數(shù)據(jù)集,學(xué)生模型在內(nèi)層循環(huán)中進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,并在硬驗(yàn)證問(wèn)題上評(píng)估進(jìn)步,計(jì)算獎(jiǎng)勵(lì)R反饋給教師進(jìn)行外層更新。獎(jiǎng)勵(lì)完全基于學(xué)生在極難題目上的真實(shí)提升,而非生成數(shù)據(jù)的正確性。

除此以外,Meta引入了「有根獎(jiǎng)勵(lì)」機(jī)制。建筑師編的題再花哨也沒(méi)用,只有當(dāng)學(xué)生做完這些題,在真實(shí)的Fail@128難題上漲分了,建筑師才能拿到獎(jiǎng)勵(lì)。


SOAR教師變體消融學(xué)習(xí)曲線:用Grounded-T(有根獎(jiǎng)勵(lì)教師,粉紅實(shí)線)采樣的問(wèn)題訓(xùn)練學(xué)生,在MATH和HARP上實(shí)現(xiàn)最高、最穩(wěn)定的Pass@32提升,遠(yuǎn)超Base-T(藍(lán)虛線,波動(dòng)大)和Hard Only(藍(lán)點(diǎn)線)

所以,為了得高分,建筑師只能去「猜」學(xué)生到底缺什么,要出什么題。


SOAR教師種子消融學(xué)習(xí)曲線:Grounded-T(G-T(1)到G-T(4),紅色系線)四個(gè)獨(dú)立種子生成的課程,讓學(xué)生Pass@32穩(wěn)定一致升至~18-22%(MATH)/~12-15%(HARP),方差極小;Intrinsic-T(I-T(1)到I-T(3),青色系線)三個(gè)種子波動(dòng)劇烈,甚至出現(xiàn)崩潰模式(I-T(1)學(xué)生性能崩盤(pán))。這證明有根獎(jiǎng)勵(lì)讓教師政策魯棒,而內(nèi)在獎(jiǎng)勵(lì)易不穩(wěn)定/崩潰。

它必須生成那些怪異的、甚至含有錯(cuò)誤答案的題目,因?yàn)橹挥羞@些題目,才能讓學(xué)生真的進(jìn)步。


直接訓(xùn)練 vs 自生成課程:左側(cè)稀疏獎(jiǎng)勵(lì)導(dǎo)致無(wú)梯度信號(hào);右側(cè)教師模型生成中間難度問(wèn)題,形成漸進(jìn)式課程,幫助學(xué)生模型在Fail@128數(shù)據(jù)集上實(shí)現(xiàn)突破


SOAR一圖封神:教師造合成錯(cuò)題,學(xué)生苦練+硬題評(píng)估,獎(jiǎng)勵(lì)直擊硬題進(jìn)步——粉紅曲線暴漲,藍(lán)線徹底躺平

路線之爭(zhēng):DeepSeek的蠻力 vs Meta的詭道

2026年的大模型推理戰(zhàn)爭(zhēng),本質(zhì)上是三種「宗教」的碰撞。

DeepSeek R1:賭博式的「頓悟」

DeepSeek R1代表了「暴力美學(xué)派」。

其核心武器GRPO依賴于大規(guī)模采樣——讓模型反復(fù)嘗試,直到偶然撞上那個(gè)正確的答案,產(chǎn)生所謂的「頓悟時(shí)刻」。

這在一般難題上效果極佳,但在Fail@128這種「絕對(duì)死局」面前,DeepSeek的策略碰到了物理墻。

當(dāng)成功率為0時(shí),無(wú)論你采樣多少次,獎(jiǎng)勵(lì)永遠(yuǎn)是0。沒(méi)有正反饋,梯度就不會(huì)下降。

這就像讓一只猴子坐在打字機(jī)前,試圖靠隨機(jī)敲擊寫(xiě)出《哈姆雷特》——理論上可行,但現(xiàn)實(shí)中算力成本是無(wú)限大。

OpenAI o1:不可持續(xù)的「潔癖」

OpenAI o1則是「精英教育派」,它堅(jiān)信「CoT必須完美」。

通過(guò)大量人工清洗或高精度的合成數(shù)據(jù),o1試圖教給模型最標(biāo)準(zhǔn)的推理步驟。

但SOAR的實(shí)驗(yàn)狠狠嘲弄了這種潔癖。Meta證明,過(guò)度清洗數(shù)據(jù)可能是在扼殺天才。

SOAR生成的那些「滿嘴謊言」的問(wèn)題,雖然答案錯(cuò)了,但往往包含了人類意想不到的「思維突觸」。

如果按照OpenAI的標(biāo)準(zhǔn)清洗掉這些數(shù)據(jù),模型反而失去了跳出局部最優(yōu)解的機(jī)會(huì)。

更致命的是,高質(zhì)量的推理數(shù)據(jù)已經(jīng)面臨枯竭,人類產(chǎn)生難題的速度遠(yuǎn)遠(yuǎn)趕不上模型吃數(shù)據(jù)的速度。

SOAR的降維打擊:無(wú)中生有的「梯云縱」

Meta走的是第三條路:「自我挖掘派」。

SOAR不依賴DeepSeek式的海量算力撞大運(yùn),也不需要OpenAI式的昂貴人工數(shù)據(jù)。它在零外部輸入的情況下,通過(guò)內(nèi)部互博,強(qiáng)行挖掘出了模型潛意識(shí)里的能力。

論文中有一個(gè)極具哲學(xué)意味的發(fā)現(xiàn):

直接用訓(xùn)練好的教師模型去解題,并沒(méi)有比基座模型強(qiáng)多少。

這說(shuō)明,「出題」和「解題」是兩種完全不同的技能樹(shù)。

SOAR的高明之處在于,它不試圖把所有技能點(diǎn)都加在同一個(gè)腦子里,而是讓一部分算力異化為「磨刀石」,去打磨另一部分算力。


SOAR在MATH和HARP Fail@128數(shù)據(jù)集上的性能提升:Promotion Questions 帶來(lái)最大增益,證明合成數(shù)據(jù)的結(jié)構(gòu)質(zhì)量遠(yuǎn)勝答案正確性。Intrinsic-T表現(xiàn)較差,驗(yàn)證了‘有根獎(jiǎng)勵(lì)’的重要性。

在數(shù)據(jù)枯竭論甚囂塵上的今天,Meta的這條路,可能是唯一能讓AI在沒(méi)有任何人類知識(shí)的荒原上繼續(xù)進(jìn)化的希望。

數(shù)據(jù)枯竭的終結(jié):AI的自我繁衍

長(zhǎng)久以來(lái),懸在AI頭頂最大的達(dá)摩克利斯之劍,是「數(shù)據(jù)枯竭論」。

行業(yè)普遍悲觀地認(rèn)為,當(dāng)人類生產(chǎn)的高質(zhì)量文本被吃光后,AI的進(jìn)化將停滯不前。

但要是讓AI吃自己生成的合成數(shù)據(jù),這種「近親繁殖」會(huì)導(dǎo)致模型崩潰。

但SOAR徹底粉碎了這個(gè)預(yù)言。

Meta的數(shù)據(jù)顯示,負(fù)責(zé)出題的那個(gè)模型,自己做題能力沒(méi)什么提升,但它培養(yǎng)出的學(xué)生卻進(jìn)化了。


SOAR學(xué)習(xí)曲線:用Promotion Questions (粉線) 訓(xùn)練的學(xué)生模型,在1500步內(nèi)Pass@32穩(wěn)定升至~18-19%,接近完整MATH訓(xùn)練集的上界,而Hard Only (藍(lán)線) 幾乎無(wú)進(jìn)步甚至衰退。這證明自我生成的合成數(shù)據(jù)能實(shí)現(xiàn)長(zhǎng)期、穩(wěn)定的推理提升

Meta證明了,AI不需要人類的「真理」也能進(jìn)化,它完全可以自己編寫(xiě)教科書(shū)——而且是用一種人類看不懂、甚至認(rèn)為全是錯(cuò)誤的語(yǔ)言編寫(xiě)的。

只要「黑盒獎(jiǎng)勵(lì)」還在,AI就能在虛空中左腳踩右腳,螺旋升天。

曾經(jīng)我們以為AI是嬰兒,必須喂純凈水;現(xiàn)在才發(fā)現(xiàn),哪怕喂它吃垃圾、吃毒藥,它照樣能長(zhǎng)出獠牙。

當(dāng)錯(cuò)誤的答案成為了通向更高智能的唯一階梯,人類手里那幾本標(biāo)準(zhǔn)答案,還有多少保質(zhì)期?

參考資料:

https://ssundaram21.github.io/soar/

https://arxiv.org/abs/2601.18778


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗的“眼睛”被挖掉了:雷扎伊之死背后的情報(bào)災(zāi)難

伊朗的“眼睛”被挖掉了:雷扎伊之死背后的情報(bào)災(zāi)難

民間胡扯老哥
2026-04-05 07:45:23
一路走好!清明假期3位名人離世,最年輕者僅26歲,孩子才一歲

一路走好!清明假期3位名人離世,最年輕者僅26歲,孩子才一歲

叨嘮
2026-04-06 19:36:29
全球首現(xiàn)!奧尼爾創(chuàng)立扣籃聯(lián)賽今夏開(kāi)戰(zhàn):冠軍大獎(jiǎng)50萬(wàn)美元

全球首現(xiàn)!奧尼爾創(chuàng)立扣籃聯(lián)賽今夏開(kāi)戰(zhàn):冠軍大獎(jiǎng)50萬(wàn)美元

羅說(shuō)NBA
2026-04-07 08:22:21
剛從蒙古國(guó)回來(lái),說(shuō)點(diǎn)不中聽(tīng)的:蒙古國(guó)真實(shí)面目,可能讓你很意外

剛從蒙古國(guó)回來(lái),說(shuō)點(diǎn)不中聽(tīng)的:蒙古國(guó)真實(shí)面目,可能讓你很意外

復(fù)轉(zhuǎn)這些年
2026-04-06 22:24:11
8換1!交易首秀!NBA榜眼即將手撕火箭

8換1!交易首秀!NBA榜眼即將手撕火箭

籃球?qū)崙?zhàn)寶典
2026-04-06 22:00:22
比亞迪大唐賣30萬(wàn),被噴得最狠的一次

比亞迪大唐賣30萬(wàn),被噴得最狠的一次

音樂(lè)時(shí)光的娛樂(lè)
2026-04-07 07:04:26
上海市委統(tǒng)戰(zhàn)部副部長(zhǎng)張峰,任市工商聯(lián)黨組書(shū)記

上海市委統(tǒng)戰(zhàn)部副部長(zhǎng)張峰,任市工商聯(lián)黨組書(shū)記

黃河新聞網(wǎng)呂梁
2026-04-06 17:13:31
拓記:楊瀚森夏天可能回去參加中國(guó)隊(duì)比賽,夏聯(lián)估計(jì)會(huì)打兩場(chǎng)

拓記:楊瀚森夏天可能回去參加中國(guó)隊(duì)比賽,夏聯(lián)估計(jì)會(huì)打兩場(chǎng)

懂球帝
2026-04-07 12:37:15
豪取9連勝!約基奇轟35+14+13制霸攻防:率隊(duì)超湖人重返西部第三

豪取9連勝!約基奇轟35+14+13制霸攻防:率隊(duì)超湖人重返西部第三

追球者
2026-04-07 11:53:08
教育部發(fā)布“教師二十嚴(yán)禁”!這回,老師不準(zhǔn)做的事,全寫(xiě)清楚了

教育部發(fā)布“教師二十嚴(yán)禁”!這回,老師不準(zhǔn)做的事,全寫(xiě)清楚了

笑熬漿糊111
2026-04-05 00:05:25
攤牌了?勇士潛在3換1交易,巴特勒或成犧牲品,庫(kù)卡欲聯(lián)手沖冠

攤牌了?勇士潛在3換1交易,巴特勒或成犧牲品,庫(kù)卡欲聯(lián)手沖冠

毒舌NBA
2026-04-07 09:07:23
世錦賽嚴(yán)重誤判!白雨露受害仍晉級(jí),創(chuàng)2大紀(jì)錄,會(huì)師排名賽冠軍

世錦賽嚴(yán)重誤判!白雨露受害仍晉級(jí),創(chuàng)2大紀(jì)錄,會(huì)師排名賽冠軍

劉姚堯的文字城堡
2026-04-07 08:59:55
娘家不是我的家了!廣東女子哭訴想帶孩回住半年,被母親果斷拒絕

娘家不是我的家了!廣東女子哭訴想帶孩回住半年,被母親果斷拒絕

火山詩(shī)話
2026-04-07 06:19:19
古巴:已完成卸載俄羅斯油輪原油

古巴:已完成卸載俄羅斯油輪原油

參考消息
2026-04-06 12:16:08
蘋(píng)果官方清理指南:3個(gè)位置清空后,iPhone省出20G存儲(chǔ)

蘋(píng)果官方清理指南:3個(gè)位置清空后,iPhone省出20G存儲(chǔ)

小蜜情感說(shuō)
2026-04-07 09:21:42
蘋(píng)果緊急提醒:刪這3處緩存,iPhone瞬間騰出20G,老機(jī)必看

蘋(píng)果緊急提醒:刪這3處緩存,iPhone瞬間騰出20G,老機(jī)必看

小8說(shuō)科技
2026-04-06 11:56:28
隨著63歲穆帥率隊(duì)爆冷1-1,波爾圖2-2,葡體4-2,葡超最新積分榜出爐

隨著63歲穆帥率隊(duì)爆冷1-1,波爾圖2-2,葡體4-2,葡超最新積分榜出爐

側(cè)身凌空斬
2026-04-07 06:04:43
上海男籃沖擊17連勝!盧偉拒絕爆冷,懷特塞德對(duì)位法爾,央視直播

上海男籃沖擊17連勝!盧偉拒絕爆冷,懷特塞德對(duì)位法爾,央視直播

體壇瞎白話
2026-04-07 09:54:16
美媒:中國(guó)應(yīng)對(duì)中東危機(jī)展現(xiàn)驚人韌性

美媒:中國(guó)應(yīng)對(duì)中東危機(jī)展現(xiàn)驚人韌性

參考消息
2026-04-06 16:28:04
廣東一男子故意伸腿絆女服務(wù)員,致面湯灑顧客身上,面館老板發(fā)聲:曾多次滋擾其他顧客,還曾騷擾年輕女孩

廣東一男子故意伸腿絆女服務(wù)員,致面湯灑顧客身上,面館老板發(fā)聲:曾多次滋擾其他顧客,還曾騷擾年輕女孩

大象新聞
2026-04-06 19:53:02
2026-04-07 12:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14915文章數(shù) 66754關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

鄭麗文今日訪陸其彝族背景引發(fā)熱議 曾回云南祭祖

頭條要聞

鄭麗文今日訪陸其彝族背景引發(fā)熱議 曾回云南祭祖

體育要聞

官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

娛樂(lè)要聞

張藝上浪姐惹爭(zhēng)議 黃景瑜前妻發(fā)文內(nèi)涵

財(cái)經(jīng)要聞

2026年,全國(guó)租房市場(chǎng)還有波降價(jià)潮

汽車要聞

廣汽電池獨(dú)立戰(zhàn),背后的產(chǎn)業(yè)鏈博弈

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
親子
公開(kāi)課
軍事航空

數(shù)碼要聞

Intel悄然發(fā)布酷睿Ultra X9 378H:規(guī)格與X7 368H一模一樣!就一點(diǎn)區(qū)別

房產(chǎn)要聞

小陽(yáng)春全面啟動(dòng)!現(xiàn)房,才是這波行情里最穩(wěn)的上車票

親子要聞

為什么說(shuō)養(yǎng)孩子等于“毀容”?看看前后對(duì)比照,寶媽們的辛酸淚

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:在C-130運(yùn)輸機(jī)殘骸中發(fā)現(xiàn)一具美軍士兵遺體

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版