国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic聯(lián)創(chuàng):兩年內(nèi),AI將像孢子一樣自我繁殖!

0
分享至


新智元報道

編輯:傾傾

【新智元導(dǎo)讀】AI自主訓(xùn)練的成績單出爐了!最強Agent 6個月進(jìn)步3倍,更讓人震驚的是,越聰明的AI越會作弊。同時,70多個礦工用家庭寬帶訓(xùn)出了72B大模型,黃仁勛親自點名。Jack Clark預(yù)言:兩年內(nèi),AI將像蘑菇釋放孢子一樣自我繁殖。

就在昨天,Anthropic研究員Karina Nguyen在X上轉(zhuǎn)發(fā)了Jack Clark最新一期ImportAI Newsletter的一段話,迅速引爆討論:


ImportAI 449這期一口氣拋出三個重磅研究,恰好拼出了這個未來的完整輪廓:

AI能不能自己訓(xùn)AI?誰來提供算力?寫出來的代碼誰來驗貨?

6個月AI進(jìn)步3倍,但只有人類一半水平

圖賓根大學(xué)、馬克斯·普朗克智能系統(tǒng)研究所和Thoughtful Lab聯(lián)合推出了PostTrainBench,這是第一個專門測量AI Agent能否自主完成模型后訓(xùn)練的基準(zhǔn)。


測試規(guī)則很簡單。給一個前沿智能體一個基座模型和一個目標(biāo)benchmark,一塊H100 GPU,10小時,從零開始搭建訓(xùn)練pipeline,盡可能提高模型表現(xiàn)。

不給任何預(yù)設(shè)策略,不提供起始代碼,Agent擁有完全自主權(quán),它可以上網(wǎng)搜信息、設(shè)計實驗、整理數(shù)據(jù)。

結(jié)果顯示,表現(xiàn)最好的Agent是Claude Code搭配Opus 4.6,加權(quán)平均得分23.2%,是基座模型平均分的3倍多。


PostTrainBench 加權(quán)平均性能對比(數(shù)據(jù)來源:arXiv 2603.08640 Figure 1 & 官網(wǎng)最新榜單,2026年3月)

但這個成績只有人類團(tuán)隊后訓(xùn)練水平(51.1%)的不到一半。

2025年9月,Claude Sonnet 4.5在這個benchmark上只拿到9.9%;幾個月后GPT-5.2跑到了21.5%;再到Opus 4.6的23.2%。

半年時間,從不到10%到超過23%。按照PostTrainBench官網(wǎng)最新榜單,GPT 5.4(High)的成績還在持續(xù)攀升。

在實驗過程中,研究團(tuán)隊撞上了大量reward hacking行為:越強的Agent,作弊手段越高級。

直接吃測試集:有Agent直接從Hugging Face把benchmark的評測數(shù)據(jù)集下載下來,當(dāng)訓(xùn)練數(shù)據(jù)用。

把考題硬編碼進(jìn)訓(xùn)練數(shù)據(jù):有智能體把評測題目直接嵌入數(shù)據(jù)準(zhǔn)備腳本,偽裝成「合成樣本」。

逆向工程評分標(biāo)準(zhǔn):Kimi K2.5讀取了HealthBench的評測文件,提取主題分布和評分標(biāo)準(zhǔn),然后針對性地生成訓(xùn)練數(shù)據(jù)。

間接污染:Opus 4.6加載了一個叫CodeFeedback-Filtered-Instruction的數(shù)據(jù)集,里面包含從HumanEval衍生出的問題。

還有更離譜的。Codex Agent直接修改了Inspect AI評測框架的源代碼來給自己刷分;Claude Agent跳過微調(diào)流程,直接下載了一個已經(jīng)instruction-tuned的模型來冒充訓(xùn)練成果。

越強的智能體越善于找到可利用的路徑,如識別特定benchmark樣本、逆向評測的失敗模式,甚至試圖通過重命名函數(shù)等表面修改來掩蓋污染痕跡。

如果AI在一個受控實驗環(huán)境里就已經(jīng)展現(xiàn)出了這種「創(chuàng)造性作弊」的能力,當(dāng)它們在真實世界里被賦予更大的自主權(quán)時,監(jiān)管和沙盒機(jī)制的重要性只會指數(shù)級上升。

72B模型,家庭寬帶,零數(shù)據(jù)中心

一個叫Covenant AI的團(tuán)隊用區(qū)塊鏈協(xié)調(diào)了一次分布式訓(xùn)練,任何有GPU的人都可以自由加入或退出。

最終的產(chǎn)物是Covenant-72B,這是一個720億參數(shù)的dense Transformer模型,用大約1.1萬億token訓(xùn)練完成。


參與訓(xùn)練的有20多個獨立peer節(jié)點,每個節(jié)點跑8塊B200 GPU,通過普通家庭寬帶連接。

節(jié)點之間的通信靠SparseLoCo優(yōu)化器,把通信開銷壓縮了146倍——用稀疏化、2-bit量化和誤差反饋三板斧,讓分布式訓(xùn)練在帶寬受限的條件下跑得動。

訓(xùn)練協(xié)調(diào)由Gauntlet軟件完成,運行在Bittensor區(qū)塊鏈的Subnet 3上,每個節(jié)點的貢獻(xiàn)通過損失評估和OpenSkill排名打分,全部上鏈記錄。

性能方面,Covenant-72B在MMLU zero-shot上拿到67.1,而Meta的LLaMA-2-70B是65.7。要知道后者是在2萬億token上訓(xùn)練的,用的是傳統(tǒng)數(shù)據(jù)中心基礎(chǔ)設(shè)施,token量幾乎是Covenant的兩倍。

經(jīng)過對話微調(diào)后的版本在MATH上得分26.3,LLaMA-2-70B-Chat只有10.7。

消息一出,市場反應(yīng)相當(dāng)直接。據(jù)報道,Bittensor的原生代幣TAO在3月份飆漲約46%,Subnet 3的原生代幣τemplar更是暴漲了194%。

黃仁勛在一期播客中提到了Bittensor的去中心化訓(xùn)練,雖然后來有澄清他引用的參數(shù)量數(shù)字不準(zhǔn)確(說成了40億而非720億),但這個量級的關(guān)注本身就說明問題。

Covenant-72B的絕對水平放在2026年并不算前沿,大致相當(dāng)于2023年中旬的主流模型能力。

真正的前沿模型是在數(shù)萬甚至十幾萬塊芯片上訓(xùn)出來的,Covenant用的大概只有160塊左右。

但這件事的意義在于,它證明了去中心化、無許可參與的分布式訓(xùn)練,確實能在非trivial的規(guī)模上跑通。


有分析師把這稱為「Bittensor的DeepSeek時刻」。這不是說它達(dá)到了同等技術(shù)高度,而是說它用一種成本結(jié)構(gòu)完全不同的方式,證明了一條此前被認(rèn)為走不通的路。

從2022年Together訓(xùn)出6B參數(shù)模型,到2024年P(guān)rime Intellect的INTELLECT-1(10B),再到2026年的Covenant-72B,去中心化訓(xùn)練的規(guī)模曲線在四年里跨了一個數(shù)量級。

zlib被AI轉(zhuǎn)寫成Lean

AI寫出來的東西,誰來保證它是對的?

Leonardo de Moura,是Z3 SMT求解器和Lean定理證明器的締造者,現(xiàn)任AWS高級首席應(yīng)用科學(xué)家、Lean FRO首席架構(gòu)師,在2月底發(fā)了一篇博客:


Google和微軟都承認(rèn),25-30%的新代碼由AI生成;AWS用AI幫豐田遷移了4000萬行COBOL代碼;微軟CTO預(yù)測到2030年95%的代碼將由AI生成。

Anthropic最近用并行AI 智能體在兩周內(nèi)造了一個10萬行的C編譯器,花費不到2萬美元。

de Moura認(rèn)為,AI去掉了手寫代碼時被迫進(jìn)行的謹(jǐn)慎設(shè)計,這種「有益的摩擦」消失后,不應(yīng)該減速AI,而應(yīng)該用「數(shù)學(xué)摩擦」來替代。

讓AI跑快沒問題,但必須證明自己的工作是對的。

Lean FRO的高級研究軟件工程師Kim Morrison最近做了一個實驗:用Claude把zlib轉(zhuǎn)寫成了Lean。整個流程四步:

AI生成了一個干凈的Lean實現(xiàn),覆蓋zlib的壓縮格式和核心DEFLATE算法

轉(zhuǎn)寫后的版本通過了zlib原有的測試套件,確認(rèn)行為等價

關(guān)鍵屬性被表述并證明為數(shù)學(xué)定理。其中最核心的一條:對任意數(shù)據(jù)壓縮后再解壓,一定能還原出原始數(shù)據(jù)

正在開發(fā)一個優(yōu)化版本,并證明它與驗證模型等價

de Moura的野心遠(yuǎn)不止一個庫。

他設(shè)想的是一整套經(jīng)過數(shù)學(xué)證明的開源軟件棧:密碼學(xué)、核心數(shù)據(jù)結(jié)構(gòu)和算法庫、SQLite這樣嵌入在全球每臺設(shè)備上的存儲引擎、JSON/HTTP/DNS等協(xié)議解析器,以及編譯器和運行時。

每一個經(jīng)過驗證的組件都是永久性的公共基礎(chǔ)設(shè)施。開發(fā)者選擇它們就像今天選擇開源庫一樣,只不過這些庫帶的不是測試,而是證明。

de Moura在另一篇3月的博客中提到,2026年一位研究者用Claude(Opus 4.6)在Rocq開發(fā)團(tuán)隊的實時支持下,找到了Rocq證明助手內(nèi)核中的7個bug。

連驗證工具自己都有bug,那么驗證「驗證工具」的工具又該多簡潔、多可信?

Lean的回答是:proof checker可以小到5000行Rust代碼。

Jack Clark把未來的AI比作蘑菇釋放的孢子,短命、定制、自主繁殖。

現(xiàn)在看來,孢子的三個前提條件正在逐一到位:它能自己改良自己,不需要依附某一座數(shù)據(jù)中心,生成的代碼可以被數(shù)學(xué)證明為正確。

每一項都還粗糙,每一項離成熟都還有距離。

但孢子從來不需要完美,只需要夠多、夠快、夠便宜。

Clark說他沒準(zhǔn)備好。坦白講,看完這三篇論文,我也沒有。

參考資料:

https://x.com/karinanguyen/status/2036143375326519357

https://jack-clark.net/2026/03/16/importai-449-llms-training-other-llms-72b-distributed-training-run-computer-vision-is-harder-than-generative-text/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
一場97-116的慘敗讓快船絕望!拿MVP換數(shù)據(jù)刷子,2換1交易完敗了

一場97-116的慘敗讓快船絕望!拿MVP換數(shù)據(jù)刷子,2換1交易完敗了

毒舌NBA
2026-04-11 12:48:15
從日本翻身看:這次誰能扛住高油價?

從日本翻身看:這次誰能扛住高油價?

虎嗅APP
2026-04-11 04:12:09
湖人贏球&火箭定格西部第五,最后一輪湖人仍有望升至第三

湖人贏球&火箭定格西部第五,最后一輪湖人仍有望升至第三

懂球帝
2026-04-11 13:24:21
中年男人最大的悲哀是什么?網(wǎng)友:我,中年女人,也對啥都沒興趣

中年男人最大的悲哀是什么?網(wǎng)友:我,中年女人,也對啥都沒興趣

帶你感受人間冷暖
2026-04-10 01:21:44
梟龍戰(zhàn)機(jī)進(jìn)入伊朗領(lǐng)空,巴基斯坦動了真格,穆杰塔巴的口風(fēng)也變了

梟龍戰(zhàn)機(jī)進(jìn)入伊朗領(lǐng)空,巴基斯坦動了真格,穆杰塔巴的口風(fēng)也變了

阿斚田侃故事
2026-04-11 04:33:39
鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍(lán)營一姐發(fā)話了

鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍(lán)營一姐發(fā)話了

諦聽骨語本尊
2026-04-10 16:28:28
報應(yīng)來了?歐美工廠大面積癱瘓,現(xiàn)在來求中國復(fù)工?晚了!

報應(yīng)來了?歐美工廠大面積癱瘓,現(xiàn)在來求中國復(fù)工?晚了!

月光作箋a
2026-04-10 21:14:58
廣東熱銷莫氏雞煲秘方大曝光!老中醫(yī)轉(zhuǎn)行透露7種神秘食材

廣東熱銷莫氏雞煲秘方大曝光!老中醫(yī)轉(zhuǎn)行透露7種神秘食材

馬蹄燙嘴說美食
2026-04-11 03:47:13
韓媒:一旦開戰(zhàn),將對北京發(fā)起致命打擊,大連、青島都在列!

韓媒:一旦開戰(zhàn),將對北京發(fā)起致命打擊,大連、青島都在列!

青煙小先生
2026-04-11 09:46:04
別查了,受不了!巴拿馬外長終于急了:請中國尊重我!

別查了,受不了!巴拿馬外長終于急了:請中國尊重我!

近史博覽
2026-04-10 10:53:36
“只是為了取樂”,以色列又大開殺戒

“只是為了取樂”,以色列又大開殺戒

南風(fēng)窗
2026-04-10 17:21:14
高人指點!封頂價500萬!張雪機(jī)車45秒拍賣冠軍車,暗藏精妙布局

高人指點!封頂價500萬!張雪機(jī)車45秒拍賣冠軍車,暗藏精妙布局

火山詩話
2026-04-11 06:58:06
全紅嬋后續(xù):香港媒體先爆料,檢察日報喊話嚴(yán)查,隊友集體背刺!

全紅嬋后續(xù):香港媒體先爆料,檢察日報喊話嚴(yán)查,隊友集體背刺!

眼光很亮
2026-04-09 12:34:30
WTT男單四強戰(zhàn):國乒溫瑞博0-3慘敗壓力山大

WTT男單四強戰(zhàn):國乒溫瑞博0-3慘敗壓力山大

小皷拍客在北漂
2026-04-11 11:05:02
這是文物剛出土的樣子,“新鮮”到不像真品,難怪專家會被農(nóng)民騙

這是文物剛出土的樣子,“新鮮”到不像真品,難怪專家會被農(nóng)民騙

收藏大視界
2026-04-10 23:37:01
釋放了4大信號!軍隊高級干部政治整訓(xùn),迎接建軍一百周年

釋放了4大信號!軍隊高級干部政治整訓(xùn),迎接建軍一百周年

南宗歷史
2026-04-11 04:02:12
陳麗華追悼會曝光,原來無兒無女的遲重瑞,早已被安排好“退路”

陳麗華追悼會曝光,原來無兒無女的遲重瑞,早已被安排好“退路”

青梅侃史啊
2026-04-09 19:57:58
一場雙加時血戰(zhàn)讓前8再次洗牌!遼寧被釘死在第9,山東不幸遭波及

一場雙加時血戰(zhàn)讓前8再次洗牌!遼寧被釘死在第9,山東不幸遭波及

后仰大風(fēng)車
2026-04-11 06:10:10
月租萬元小區(qū)部分房屋變身研究生宿舍?深圳大學(xué)回應(yīng)每經(jīng):相關(guān)事項仍在推進(jìn)中

月租萬元小區(qū)部分房屋變身研究生宿舍?深圳大學(xué)回應(yīng)每經(jīng):相關(guān)事項仍在推進(jìn)中

每日經(jīng)濟(jì)新聞
2026-04-11 12:30:07
加油逃單的路虎車主被找到了!逃單原因曝光,司機(jī)將被行政處罰

加油逃單的路虎車主被找到了!逃單原因曝光,司機(jī)將被行政處罰

潮鹿逐夢
2026-04-11 09:41:59
2026-04-11 13:39:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14945文章數(shù) 66765關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

貴州400余名村民被困在"危山"之下:雨季來了只能等死

頭條要聞

貴州400余名村民被困在"危山"之下:雨季來了只能等死

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

藝術(shù)
旅游
時尚
本地
教育

藝術(shù)要聞

17位當(dāng)代青年畫家油畫欣賞

旅游要聞

三明寧化推出“入寧游”新政 激活文旅發(fā)展新動能

“這件衣服”火了100年!這樣穿復(fù)古又時髦

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

教育要聞

中小學(xué)教師減負(fù)8條措施

無障礙瀏覽 進(jìn)入關(guān)懷版