国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

華人天才出走xAI:算力競(jìng)賽已死,30美元解鎖AI自進(jìn)化!

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】2026年2月,Grok的核心成員Jiayi Pan和Toby Pohlen相繼離開xAI。這似乎是某種預(yù)示,或許通往AGI的路不是算力規(guī)模,而是方法的突破。

2月26日,xAI Grok 4團(tuán)隊(duì)核心成員Jiayi Pan宣布離職


在離職聲明中,他感謝了團(tuán)隊(duì)所有成員,給馬斯克留足了面子。

幾乎同一時(shí)間,Grok團(tuán)隊(duì)的另一位核心研究員Toby Pohlen也宣布離職。

他在X上陰陽Grok的工作機(jī)制,稱「沒有人能比你們更能熬夜」,然后@官方,公開叫板。


兩人都是grok團(tuán)隊(duì)的重要貢獻(xiàn)者,卻在48小時(shí)內(nèi)相繼離開,這讓外界對(duì)xAI內(nèi)部狀況產(chǎn)生了更多猜測(cè)。

4年,Jiayi Pan從一個(gè)初學(xué)者成長(zhǎng)為Grok 4的核心貢獻(xiàn)者,又選擇了一條與巨頭算力競(jìng)賽截然不同的技術(shù)路徑。

四年蛻變

從AlphaGo迷弟到Grok 4貢獻(xiàn)者

Jiayi Pan的AI之路始于2019年。

他本科就讀于密歇根大學(xué),獲得計(jì)算機(jī)科學(xué)與電子計(jì)算機(jī)工程雙學(xué)位,2023年畢業(yè)。

那時(shí),Jiayi Pan對(duì)RL還一無所知。據(jù)他自己回憶,當(dāng)導(dǎo)師提到RL時(shí),他下意識(shí)想到的還只是AlphaGo。


2023年,他進(jìn)入加州大學(xué)伯克利分校攻讀博士,研究語言模型與視覺/機(jī)器人學(xué)的結(jié)合。

在Berkeley的早期項(xiàng)目中,他開發(fā)了SWE-Gym,這是一個(gè)將RL引入軟件工程領(lǐng)域的環(huán)境。


代碼傳送門:https://github.com/SWE-Gym/SWE-Gym

該項(xiàng)目基于SWE-bench數(shù)據(jù)集的2294個(gè)真實(shí)GitHub Issue,要求AI不僅能讀懂代碼,還要生成可通過測(cè)試的Patch。

這為他后續(xù)的TinyZero研究——讓AI學(xué)會(huì)修正自己,奠定了基礎(chǔ)。

2025年5月,Pan加入xAI的Reasoning團(tuán)隊(duì),4開發(fā)的核心成員之一。

在xAI的9個(gè)月里,他參與了強(qiáng)化學(xué)習(xí)模塊的優(yōu)化,推動(dòng)模型從簡(jiǎn)單預(yù)測(cè)向自我驗(yàn)證演進(jìn)。

也正是在這段時(shí)間,他啟動(dòng)了TinyZero項(xiàng)目。

30美元的顛覆

TinyZero「羞辱」巨頭

2025年,Jiayi Pan在X上宣布開源TinyZero。

這是一個(gè)僅需30美元訓(xùn)練成本的3B參數(shù)模型,通過純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了自我驗(yàn)證和推理能力。


代碼傳送門:https://github.com/Jiayi-Pan/TinyZero

TinyZero基于Qwen2.5-3B基礎(chǔ)模型,使用veRL框架在Countdown和Multiplication等任務(wù)上訓(xùn)練。

實(shí)驗(yàn)結(jié)果顯示,基礎(chǔ)模型在Countdown任務(wù)上的準(zhǔn)確率從0%提升到RL訓(xùn)練后的80%以上。

這驗(yàn)證了一個(gè)假設(shè):DeepSeek R1-Zero展現(xiàn)的自我推理能力,不是靠海量參數(shù)堆出來的,而是可以通過純強(qiáng)化學(xué)習(xí)在小模型上復(fù)現(xiàn)的。

通往高級(jí)推理能力的路徑,可能不需要5000億美元的基礎(chǔ)設(shè)施投資。

同一時(shí)期,Sam Altman宣布Stargate計(jì)劃,計(jì)劃在4年內(nèi)投資數(shù)千億美元建設(shè)AI基礎(chǔ)設(shè)施,與Microsoft和Oracle合作。

但據(jù)報(bào)道,該項(xiàng)目因三方利益沖突而陷入停滯,到2025年底,一個(gè)數(shù)據(jù)中心都沒建成。


相比之下,TinyZero的性價(jià)比拉滿。

無需海量數(shù)據(jù),無需龐大資金注入,純靠RL,在極低的算力下完成了關(guān)鍵突破。

這或許也解釋了為什么Pan等核心成員相繼離職。

當(dāng)你已經(jīng)驗(yàn)證了一條不依賴巨頭資源的技術(shù)路徑,留在算力軍備競(jìng)賽中還有意義嗎?

出錯(cuò)了!TinyZero的元認(rèn)知覺醒

TinyZero最引人注目的不是成本,而是它展現(xiàn)出的「元認(rèn)知」特征。

在Countdown游戲中,模型不僅會(huì)預(yù)測(cè)答案,還會(huì)在輸出最終答案前,進(jìn)行完整的試錯(cuò)與回溯。

訓(xùn)練日志顯示,模型會(huì)頻繁輸出 標(biāo)簽,內(nèi)含自我質(zhì)疑的語句。

例如,當(dāng)計(jì)算路徑偏離目標(biāo)時(shí),它會(huì)自動(dòng)生成類似「Wait, that's wrong」的中間思維鏈,并立即啟動(dòng)新一輪推演。

這種行為模式此前只在DeepSeek R1-Zero等大規(guī)模模型中觀察到。

R1-Zero的訓(xùn)練過程中曾出現(xiàn)「頓悟」式的能力躍遷,而這通常需要數(shù)周的迭代。

但TinyZero在3B參數(shù)、30美元成本的條件下就復(fù)現(xiàn)了這一現(xiàn)象。


Countdown任務(wù)中不同參數(shù)規(guī)模模型的PPO訓(xùn)練critic score曲線。可以看到,即使是3B的小模型,經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后也能展現(xiàn)出明顯的能力提升。

這證明,Scaling Law負(fù)責(zé)堆砌知識(shí)廣度,而RL負(fù)責(zé)打通邏輯深度的最后一公里,兩者的結(jié)合不一定需要海量參數(shù)。

隨著TinyZero的開源,這種自我糾錯(cuò)能力不再是巨頭的專屬技術(shù)。

任何開發(fā)者都可以在自己的垂直領(lǐng)域訓(xùn)練出具備思考后再回答能力的AI。

技術(shù)拼圖:自我進(jìn)化的可能性

回顧Jiayi Pan的研究脈絡(luò),可以看到一條清晰的技術(shù)路徑:

在Berkeley期間開發(fā)的SWE-Gym,將軟件工程基準(zhǔn)SWE-bench轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)環(huán)境,訓(xùn)練AI修復(fù)真實(shí)代碼問題。這是讓AI學(xué)會(huì)改代碼。

在xAI期間參與的Grok 4項(xiàng)目,將強(qiáng)化學(xué)習(xí)應(yīng)用于大模型推理能力的提升,這讓AI學(xué)會(huì)推理。

而TinyZero的開源,則證明了推理能力可以在小模型上通過純RL實(shí)現(xiàn),這是讓AI學(xué)會(huì)自我糾錯(cuò)。

當(dāng)這三塊拼圖組合在一起,一個(gè)更具想象力的可能性浮現(xiàn):如果AI既能糾錯(cuò),又能改代碼,那它是否能優(yōu)化自己的訓(xùn)練代碼,從而實(shí)現(xiàn)某種程度的「自我進(jìn)化」?

而這,正是2025年發(fā)布的Humanity's Last Exam(HLE)基準(zhǔn)所隱喻的場(chǎng)景。


論文鏈接:https://arxiv.org/abs/2501.14249

HLE是一個(gè)多模態(tài)、超高難度的AI評(píng)估基準(zhǔn)。

現(xiàn)有的MMLU等測(cè)試已被模型以90%+的準(zhǔn)確率攻破,失去了區(qū)分度,而當(dāng)AI能力持續(xù)提升。

人類需要什么樣的「最后一道防線」來評(píng)估超級(jí)智能?

Jiayi Pan的工作,無論是SWE-Gym、Grok 4還是TinyZero都在逼近這個(gè)問題的邊界。

他已經(jīng)離開了xAI,去向未知。但他留下的代碼和論文清晰地指向一個(gè)方向:

高級(jí)AI能力的實(shí)現(xiàn),可能不需要依賴巨頭的算力資源,而是可以通過方法論的創(chuàng)新在更小的規(guī)模上達(dá)成。

這帶來了技術(shù)平權(quán)的可能,也帶來了風(fēng)險(xiǎn)擴(kuò)散的隱憂。

當(dāng)任何開發(fā)者都能用30美元訓(xùn)練出具備自我糾錯(cuò)能力的模型,RL訓(xùn)練的不穩(wěn)定性、開源模型的倫理邊界、失控風(fēng)險(xiǎn)的防范......這些問題都沒有現(xiàn)成答案。

或許,這確實(shí)是人類面對(duì)AI自我進(jìn)化可能性的「最后一次考試」。

而這場(chǎng)考試,是所有人都需要參與的開卷測(cè)驗(yàn)。

參考資料:

https://www.linkedin.com/in/jiayi-pan-88964132a/https://x.com/jiayi_pirate/status/2026733283518906703?s=20

https://x.com/TobyPhln/status/2027188868059926705?s=20

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
開始投放!2026版1000元發(fā)行,哪些新版紙幣別亂花?

開始投放!2026版1000元發(fā)行,哪些新版紙幣別亂花?

天天紀(jì)念幣
2026-03-02 10:23:23
美“福特”號(hào)航母駛離希臘克里特島

美“福特”號(hào)航母駛離希臘克里特島

財(cái)聯(lián)社
2026-02-26 16:57:07
突變!白銀大跳水,黃金回落!美股集體下跌!特朗普,最新發(fā)聲!

突變!白銀大跳水,黃金回落!美股集體下跌!特朗普,最新發(fā)聲!

證券時(shí)報(bào)e公司
2026-03-02 23:05:14
哈梅內(nèi)伊早就死了,根本沒躲進(jìn)地堡,商量怎么讓步時(shí)被一鍋端

哈梅內(nèi)伊早就死了,根本沒躲進(jìn)地堡,商量怎么讓步時(shí)被一鍋端

遁走的兩輪
2026-03-01 20:54:39
王楚然巴黎時(shí)裝周“牛仔褲災(zāi)難”引全網(wǎng)吐槽

王楚然巴黎時(shí)裝周“牛仔褲災(zāi)難”引全網(wǎng)吐槽

深度解析熱點(diǎn)
2026-03-02 18:41:27
1.76億獨(dú)生子女,迎來一個(gè)壞消息,以后可能真的沒親戚了

1.76億獨(dú)生子女,迎來一個(gè)壞消息,以后可能真的沒親戚了

老特有話說
2026-03-01 21:57:03
西部排名又變了:掘金2連敗,湖人2連勝,4隊(duì)排名互換

西部排名又變了:掘金2連敗,湖人2連勝,4隊(duì)排名互換

籃球大視野
2026-03-02 15:45:08
爆:工信部副部長(zhǎng),“空降”通信央企董事長(zhǎng)!

爆:工信部副部長(zhǎng),“空降”通信央企董事長(zhǎng)!

通信頭條
2026-03-02 21:06:39
幫助中國(guó)人撤離的伊朗民眾:我們走不了的,希望你可以到安全的地方

幫助中國(guó)人撤離的伊朗民眾:我們走不了的,希望你可以到安全的地方

南方都市報(bào)
2026-03-02 18:51:01
神壇徹底崩塌!李莉被中情局盯上的謊言,該徹底戳穿了

神壇徹底崩塌!李莉被中情局盯上的謊言,該徹底戳穿了

老馬拉車莫少裝
2026-03-01 17:23:52
蘋果中國(guó)官網(wǎng)上線新款iPhone 17e,起售價(jià)4499元

蘋果中國(guó)官網(wǎng)上線新款iPhone 17e,起售價(jià)4499元

界面新聞
2026-03-02 22:21:17
寧波一旅游團(tuán)所乘郵輪滯留迪拜,船上有約200名中國(guó)游客

寧波一旅游團(tuán)所乘郵輪滯留迪拜,船上有約200名中國(guó)游客

上觀新聞
2026-03-02 16:27:07
特朗普苦等4天中方終于回信,對(duì)美開出兩大條件,做不到訪華免談

特朗普苦等4天中方終于回信,對(duì)美開出兩大條件,做不到訪華免談

安珈使者啊
2026-03-01 12:15:35
終于反噬!網(wǎng)約車大量低價(jià)單沒人接,司機(jī):報(bào)應(yīng)來了。

終于反噬!網(wǎng)約車大量低價(jià)單沒人接,司機(jī):報(bào)應(yīng)來了。

我不叫阿哏
2026-03-02 17:00:41
難以置信!網(wǎng)傳深圳一數(shù)學(xué)名師一年靠補(bǔ)課能掙500萬,一節(jié)課900元

難以置信!網(wǎng)傳深圳一數(shù)學(xué)名師一年靠補(bǔ)課能掙500萬,一節(jié)課900元

火山詩話
2026-03-02 09:07:10
43歲阿Sa承認(rèn)與男友同居,已帶男友見過家長(zhǎng),疑好事將近

43歲阿Sa承認(rèn)與男友同居,已帶男友見過家長(zhǎng),疑好事將近

扒蝦侃娛
2026-03-02 22:27:05
女員工“胸大奶多”惹爭(zhēng)議,椰樹大尺度自爆炸裂全網(wǎng)

女員工“胸大奶多”惹爭(zhēng)議,椰樹大尺度自爆炸裂全網(wǎng)

首席品牌觀察
2026-03-02 11:09:54
受氣的攜程客服崗擠滿了海歸留學(xué)生?“比普華永道工資高、低門檻拿大廠編制”

受氣的攜程客服崗擠滿了海歸留學(xué)生?“比普華永道工資高、低門檻拿大廠編制”

Vista氫商業(yè)
2026-03-02 14:01:11
伊朗稱正在開展“真實(shí)承諾-4”第11輪導(dǎo)彈襲擊

伊朗稱正在開展“真實(shí)承諾-4”第11輪導(dǎo)彈襲擊

財(cái)聯(lián)社
2026-03-02 20:18:25
再見 PotPlayer!這款免費(fèi)開源播放器,好用到不想換

再見 PotPlayer!這款免費(fèi)開源播放器,好用到不想換

我不叫阿哏
2026-03-02 10:02:54
2026-03-02 23:40:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14625文章數(shù) 66648關(guān)注度
往期回顧 全部

科技要聞

蘋果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

手機(jī)
本地
游戲
教育
公開課

手機(jī)要聞

iPhone 17系列:國(guó)內(nèi)銷量已破2200萬!網(wǎng)友:華為仍需努力

本地新聞

津南好·四時(shí)總相宜

《寶可夢(mèng)》新作M站90分!近年最新鮮的寶可夢(mèng)體驗(yàn)

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國(guó)大學(xué)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版