国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Meta-Harness讓Haiku性能狂飆,甚至追平Opus!

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】如果未來(lái)的某天,AI智能體可以給自己調(diào)參數(shù),修bug,會(huì)發(fā)生什么?

就在這兩天,斯坦福IRIS Lab的博士生Yoonho Lee聯(lián)合MIT、威斯康星大學(xué)的研究者放出一篇新論文,把AI智能體優(yōu)化的邏輯翻了個(gè)個(gè)兒。

作者陣容十分豪華。導(dǎo)師是機(jī)器人學(xué)習(xí)明星學(xué)者Chelsea Finn,合作者里還有DSPy框架作者Omar Khattab。

曾經(jīng),大家卷模型本身的參數(shù)量、訓(xùn)練數(shù)據(jù)、RLHF。但Meta-Harness另辟蹊徑:支撐模型運(yùn)行的那層「腳手架」同樣決定生死。

這些東西以前全靠人工調(diào)?,F(xiàn)在,Meta-Harness讓AI自己來(lái)干這活。


結(jié)果十分完美:Claude Haiku 4.5的成功率達(dá)到37.6%,登頂所有Haiku智能體榜首;Claude Opus 4.6更是達(dá)到76.4%,僅次于榜一ForgeCode。

模型是商品,Harness決定成敗

harness指的是一整套基礎(chǔ)設(shè)施:系統(tǒng)提示詞、工具定義、重試邏輯、上下文管理、子代理協(xié)調(diào)、生命周期鉤子。

模型本身只是個(gè)大腦,harness才是讓這個(gè)大腦能干活的身體。

這個(gè)概念在2026年突然爆火,業(yè)界終于意識(shí)到,同一個(gè)模型,換個(gè)harness,性能差距可以大到離譜

2月,工程師Can B?lük做了個(gè)實(shí)驗(yàn)。

他只改編輯格式,不動(dòng)模型,15個(gè)LLM的編碼性能提升了5到14個(gè)百分點(diǎn),輸出token還減少了約20%。


更夸張的是,GPT-4 Turbo僅僅換了一種編輯格式,準(zhǔn)確率就從26%飆升到59%。

同樣的模型,性能差了一倍多,唯一變量是harness。

Agent = Model + Harness,成了最熱門的趨勢(shì)

模型提供智能,harness讓智能變得有用。

Claude Code、Codex在做同一件事:精心設(shè)計(jì)harness來(lái)彌補(bǔ)模型的短板。

那么問(wèn)題來(lái)了,harness工程目前高度依賴人工。

工程師得手動(dòng)寫提示詞、調(diào)工具接口、設(shè)計(jì)重試策略,然后跑測(cè)試、看日志、猜哪里出了問(wèn)題、改代碼、再跑測(cè)試。

這個(gè)循環(huán)費(fèi)時(shí)費(fèi)力,而且很多失敗模式根本不是人能輕易診斷的。

Meta-Harness想做的,就是把這個(gè)循環(huán)自動(dòng)化。

400倍信息量:AI自己「復(fù)盤+迭代」

Meta-Harness嘗試著給優(yōu)化器看更多東西。聽(tīng)起來(lái)簡(jiǎn)單,但這恰恰是過(guò)去所有方法的瓶頸。

論文這張對(duì)比表,列出了主流文本每一步能看到多少上下文:


Meta-Harness 與主流優(yōu)化方法的上下文觀察量對(duì)比。

Self-Refine只看最近一次輸出加自我批評(píng),大約1000 token;

OPRO看過(guò)去幾輪的方案和分?jǐn)?shù),大約2000 token;

TextGrad、AlphaEvolve、GEPA這些更先進(jìn)的方法,也就在8000到26000 token之間。

Meta-Harness呢?最高1000萬(wàn)token,差距是400倍。

為什么需要這么多?因?yàn)閔arness工程產(chǎn)生的失敗模式,往往藏在執(zhí)行軌跡的細(xì)節(jié)里。

一個(gè)任務(wù)跑失敗了,原因可能是十步之前的某個(gè)工具調(diào)用返回了截?cái)嗟妮敵觯瑢?dǎo)致后續(xù)推理全歪。

如果優(yōu)化器只能看到一個(gè)「失敗」的標(biāo)量分?jǐn)?shù),或者一段壓縮過(guò)的摘要,它根本沒(méi)法定位問(wèn)題。

Meta-Harness的做法,是給proposer一個(gè)完整的文件系統(tǒng)。

這個(gè)文件系統(tǒng)里裝著所有歷史候選harness的源代碼、每一輪的執(zhí)行軌跡、命令日志、錯(cuò)誤信息、超時(shí)行為、評(píng)分結(jié)果。

Proposer可以用grep、cat這些標(biāo)準(zhǔn)工具自己去翻,想看哪個(gè)文件就看哪個(gè),想搜哪個(gè)關(guān)鍵詞就搜哪個(gè)。

優(yōu)化器不再是在固定prompt上做推理,而是一個(gè)會(huì)檢索信息、瀏覽歷史、編輯代碼的代理。

proposer用的是Claude Code,它不需要被喂壓縮過(guò)的信息,它有能力自己決定看什么、怎么看。

整個(gè)搜索循環(huán)很直白:

  1. Proposer讀取文件系統(tǒng)里的歷史記錄

  2. 分析哪些任務(wù)失敗了、失敗原因是什么

  3. 針對(duì)性地重寫harness代碼

  4. 新harness跑測(cè)試,結(jié)果寫回文件系統(tǒng)

  5. 循環(huán)繼續(xù)


Meta-Harness 核心優(yōu)化閉環(huán)示意圖。Proposer 從“包含全部歷史經(jīng)驗(yàn)”的文件系統(tǒng)讀取完整軌跡(①),提出新的 Harness 代碼 → 結(jié)合 LLM 執(zhí)行任務(wù)并評(píng)估(②)→ 將 Proposed Code、Reasoning Traces、Eval Score 等全部日志存回文件系統(tǒng)(③),實(shí)現(xiàn)自我迭代。

論文展示了一個(gè)19任務(wù)子集上的搜索過(guò)程。

從Terminus-KIRA基線的28.5%起步,到第7輪迭代就漲到了46.5%。


Meta-Harness 在 19 任務(wù)子集上的迭代優(yōu)化過(guò)程。從 Terminus-KIRA 基線 28.5% 的成功率起步,第 7 輪迭代達(dá)到 46.5%,展示了通過(guò)完整執(zhí)行軌跡診斷實(shí)現(xiàn)的高效 harness 優(yōu)化。

每一輪都基于具體的執(zhí)行軌跡做「反事實(shí)診斷」——如果我當(dāng)時(shí)這樣處理,結(jié)果會(huì)不會(huì)不一樣?

舉個(gè)例子,第7輪的改進(jìn)是在第一次LLM調(diào)用之前先跑一條shell命令,把環(huán)境依賴信息注入到初始prompt里。

加一條命令,省掉無(wú)謂的試錯(cuò)。 這種程度的診斷精度,靠壓縮摘要是做不到的。

89個(gè)任務(wù),小模型登頂

Meta-Harness分了三個(gè)場(chǎng)景做了測(cè)試:文本分類、數(shù)學(xué)推理、代碼代理。

代碼代理用的基準(zhǔn)是TerminalBench-2,它包含89個(gè)Docker化任務(wù),覆蓋代碼翻譯、分布式機(jī)器學(xué)習(xí)配置、系統(tǒng)編程、生物信息學(xué)、密碼分析等領(lǐng)域。

每個(gè)任務(wù)都是二元評(píng)分,跑5次取平均,難度相當(dāng)高。

因?yàn)樗鼈冃枰L(zhǎng)程自主執(zhí)行、處理復(fù)雜依賴、應(yīng)對(duì)截?cái)嗟慕K端輸出,還得有相當(dāng)?shù)念I(lǐng)域知識(shí)。

這個(gè)基準(zhǔn)被幾乎所有主流前沿實(shí)驗(yàn)室用來(lái)衡量代碼代理的實(shí)際能力,是繼SWE-bench之后又一個(gè)被廣泛認(rèn)可的「真實(shí)工作」測(cè)試集。

Meta-Harness的做法是優(yōu)化完整的編碼harness,包括系統(tǒng)提示詞、工具定義、完成檢測(cè)邏輯、上下文管理,全部都在優(yōu)化范圍內(nèi)。

Proposer會(huì)讀取每個(gè)任務(wù)的執(zhí)行軌跡,診斷失敗模式,然后提出針對(duì)性修復(fù)。

結(jié)果,Claude Haiku 4.5的成功率達(dá)到37.6%,在所有Haiku 4.5代理中排名第一,超過(guò)第二名Goose的35.5%

Claude Opus 4.6的成功率高達(dá)76.4%,在所有Opus 4.6代理中排名第二,僅次于ForgeCode的81.8%

需要強(qiáng)調(diào)的是,Haiku是Claude系列里最輕量的版本,參數(shù)量遠(yuǎn)小于Opus。

傳統(tǒng)思路下,小模型就是不如大模型,性能天花板是硬傷。

但Meta-Harness證明,通過(guò)優(yōu)化harness,小模型的天花板可以被顯著抬高。


Meta-Harness 端到端優(yōu)化結(jié)果總結(jié)。(左)在文本分類任務(wù)上,Meta-Harness 以極少的評(píng)估次數(shù)就超越了 ACE、OpenEvolve 等先前方法;(右)在 TerminalBench-2 基準(zhǔn)上,Meta-Harness 優(yōu)化的 Claude Haiku 4.5 harness 達(dá)到 37.6% 通過(guò)率,超越所有已報(bào)道的 Haiku 4.5 harness(包括 Goose 35.5% 和 Terminus-KIRA 33.7%),實(shí)現(xiàn)小模型登頂。

不止代碼:文本分類和數(shù)學(xué)推理同樣有效

Meta-Harness不只在代碼任務(wù)上管用。

在文本分類場(chǎng)景下,研究者用了三個(gè)數(shù)據(jù)集:LawBench(215個(gè)類別)、Symptom2Disease(22個(gè)類別)、USPTO-50k(180個(gè)類別),模型是GPT-OSS-120B。

跑了20輪進(jìn)化迭代,每輪2個(gè)候選,總共產(chǎn)出40個(gè)候選harness。

最佳發(fā)現(xiàn)的harness在測(cè)試集上達(dá)到48.6%準(zhǔn)確率,比之前的SOTA方法ACE高出7.7個(gè)百分點(diǎn)。

甚至它的成本更低——Meta-Harness只用了45.5K上下文token,而ACE用了203K。


Meta-Harness 在文本分類任務(wù)上的表現(xiàn)。

研究者還做了直接對(duì)比實(shí)驗(yàn),把Meta-Harness和兩個(gè)代表性的程序搜索方法放在一起,給同樣的proposer和評(píng)估預(yù)算。

結(jié)果是,Meta-Harness用十分之一的評(píng)估次數(shù)就追平了它們的最終準(zhǔn)確率,而最終準(zhǔn)確率還比它們高出10個(gè)百分點(diǎn)以上。


Harness Optimizer 搜索進(jìn)度對(duì)比。Meta-Harness(紅色曲線)在極少的 Harness Evaluations 下快速達(dá)到最高性能,顯著優(yōu)于 OpenEvolve、TTTDiscover、ACE 等方法,展現(xiàn)了完整執(zhí)行軌跡帶來(lái)的效率優(yōu)勢(shì)。

原因就是OpenEvolve和PUCT都把歷史壓縮成固定的prompt格式,丟掉了執(zhí)行軌跡。Meta-Harness保留了一切。

在數(shù)學(xué)推理場(chǎng)景下,Meta-Harness搜索的是檢索增強(qiáng)的推理策略。

語(yǔ)料庫(kù)里有超過(guò)50萬(wàn)道題,來(lái)自8個(gè)開源數(shù)據(jù)集。

研究者在250道題的搜索集上進(jìn)化出一個(gè)檢索harness,然后在200道IMO級(jí)別的題目上測(cè)試,還額外用了5個(gè)搜索時(shí)從未見(jiàn)過(guò)的模型。

單一發(fā)現(xiàn)的檢索harness在5個(gè)新模型上平均提升了4.7個(gè)百分點(diǎn)(從34.1%到38.8%),而且是在模型不變的情況下。


Meta-Harness 檢索策略的跨模型遷移能力。

這說(shuō)明Meta-Harness發(fā)現(xiàn)的策略是可遷移的,不是只對(duì)特定模型有效的過(guò)擬合技巧。

模型能力的競(jìng)爭(zhēng)正在進(jìn)入一個(gè)新階段。

過(guò)去幾年,前沿實(shí)驗(yàn)室比的是誰(shuí)的模型更強(qiáng)、參數(shù)更多、訓(xùn)練數(shù)據(jù)更大、benchmark分?jǐn)?shù)更高。

但現(xiàn)在,GPT-5、Claude 4、Gemini 3在很多任務(wù)上已經(jīng)拉不開太大差距。

真正的差距在哪里?在harness。

同一個(gè)模型,配上不同的harness,性能可以差一倍。

而harness工程目前還高度依賴人工經(jīng)驗(yàn),沒(méi)有系統(tǒng)化的方法論,也沒(méi)有自動(dòng)化的工具。

模型是智能的來(lái)源,harness是智能的放大器,而現(xiàn)在,優(yōu)化harness本身也可以交給AI來(lái)做。

這可能是LLM應(yīng)用開發(fā)進(jìn)入下一階段的標(biāo)志。

參考資料:

https://x.com/yoonholeee/status/2038640635482456118

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
印度:我們每家都有電視,中國(guó)行嗎?法國(guó):人家中國(guó)居民不用偷電

印度:我們每家都有電視,中國(guó)行嗎?法國(guó):人家中國(guó)居民不用偷電

離離言幾許
2026-04-10 14:51:25
突發(fā)利空!3萬(wàn)股東踩雷,業(yè)績(jī)由盈轉(zhuǎn)虧,或?qū)⒋髅盨T!

突發(fā)利空!3萬(wàn)股東踩雷,業(yè)績(jī)由盈轉(zhuǎn)虧,或?qū)⒋髅盨T!

慧眼看世界哈哈
2026-04-11 11:20:41
26分鐘40+13達(dá)成評(píng)獎(jiǎng)場(chǎng)次!文班DPOY概率超99% 美媒挺MVP+DPOY

26分鐘40+13達(dá)成評(píng)獎(jiǎng)場(chǎng)次!文班DPOY概率超99% 美媒挺MVP+DPOY

顏小白的籃球夢(mèng)
2026-04-11 10:51:10
李想朋友圈炮轟:遭遇“最惡劣內(nèi)卷”,東風(fēng)日產(chǎn)高管回應(yīng):尊重每一家同行,包括理想汽車

李想朋友圈炮轟:遭遇“最惡劣內(nèi)卷”,東風(fēng)日產(chǎn)高管回應(yīng):尊重每一家同行,包括理想汽車

魯中晨報(bào)
2026-04-11 19:48:04
陪睡陪玩算什么?繼人體盛宴、舔手指后,千萬(wàn)網(wǎng)紅再曝娛樂(lè)圈內(nèi)幕

陪睡陪玩算什么?繼人體盛宴、舔手指后,千萬(wàn)網(wǎng)紅再曝娛樂(lè)圈內(nèi)幕

徐云流浪中國(guó)
2026-04-10 00:31:22
河北一市原副市長(zhǎng),公安局長(zhǎng)馬某山被查!

河北一市原副市長(zhǎng),公安局長(zhǎng)馬某山被查!

新牛城
2026-04-11 20:04:02
文章上海開陜菜館爆火!女兒打頭陣捧場(chǎng),手上婚戒引全網(wǎng)猜測(cè)

文章上海開陜菜館爆火!女兒打頭陣捧場(chǎng),手上婚戒引全網(wǎng)猜測(cè)

老特有話說(shuō)
2026-04-10 12:58:01
日本全面叫停種植牙?種牙潛藏的風(fēng)險(xiǎn)與后遺癥,一次為你講明白

日本全面叫停種植牙?種牙潛藏的風(fēng)險(xiǎn)與后遺癥,一次為你講明白

垚垚分享健康
2026-04-11 08:51:57
鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍(lán)營(yíng)一姐發(fā)話了

鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍(lán)營(yíng)一姐發(fā)話了

阿傖說(shuō)事
2026-04-11 05:56:00
蘇聯(lián)給予我黨的經(jīng)費(fèi)幫助到底是多少?

蘇聯(lián)給予我黨的經(jīng)費(fèi)幫助到底是多少?

夜半挑燈看吳鉤
2026-04-10 19:04:25
2-1!中超奪冠熱門誕生:升班馬奇跡登上榜首,5輪不敗狂攬11分

2-1!中超奪冠熱門誕生:升班馬奇跡登上榜首,5輪不敗狂攬11分

足球狗說(shuō)
2026-04-11 20:58:02
趙勇淚別母親陳麗華!他曾支持母親再婚,不嫌棄生父平凡

趙勇淚別母親陳麗華!他曾支持母親再婚,不嫌棄生父平凡

細(xì)品名人
2026-04-11 07:29:02
全紅嬋后續(xù):香港媒體先爆料,檢察日?qǐng)?bào)喊話嚴(yán)查,隊(duì)友集體背刺!

全紅嬋后續(xù):香港媒體先爆料,檢察日?qǐng)?bào)喊話嚴(yán)查,隊(duì)友集體背刺!

眼光很亮
2026-04-09 12:34:30
是時(shí)候攤牌了,中方明確信號(hào):要打,戰(zhàn)火必須燒進(jìn)美國(guó)本土!

是時(shí)候攤牌了,中方明確信號(hào):要打,戰(zhàn)火必須燒進(jìn)美國(guó)本土!

史說(shuō)方休
2026-04-11 01:23:59
廣西一小學(xué)生在鬧市獨(dú)自駕車行駛,被群眾和交警攔下,知情人:偷拿老師車鑰匙開車出來(lái)

廣西一小學(xué)生在鬧市獨(dú)自駕車行駛,被群眾和交警攔下,知情人:偷拿老師車鑰匙開車出來(lái)

臺(tái)州交通廣播
2026-04-11 18:34:55
炸鍋了!以色列軍隊(duì)在黎巴嫩的新消息!

炸鍋了!以色列軍隊(duì)在黎巴嫩的新消息!

達(dá)文西看世界
2026-04-11 10:59:01
天??!看到1987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見(jiàn)鐘情

天?。】吹?987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見(jiàn)鐘情

觀察鑒娛
2026-04-09 09:36:18
一周竟然7次,32歲男子心源性猝死,妻子:勸了很多次,就是不聽(tīng)

一周竟然7次,32歲男子心源性猝死,妻子:勸了很多次,就是不聽(tīng)

健康之光
2026-04-08 10:56:55
從年賺358億到巨虧234億:王興的好日子,被京東終結(jié)

從年賺358億到巨虧234億:王興的好日子,被京東終結(jié)

民間胡扯老哥
2026-04-10 01:17:07
小米食堂發(fā)布新品“小米”冰激凌:標(biāo)準(zhǔn)、Pro、Max版,售價(jià)分別為5.99元、6.99元、8.99元

小米食堂發(fā)布新品“小米”冰激凌:標(biāo)準(zhǔn)、Pro、Max版,售價(jià)分別為5.99元、6.99元、8.99元

魯中晨報(bào)
2026-04-10 09:32:05
2026-04-11 21:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14947文章數(shù) 66765關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

美國(guó)否認(rèn)同意解凍伊朗資產(chǎn) 巴官員:美方急了 伊朗不急

頭條要聞

美國(guó)否認(rèn)同意解凍伊朗資產(chǎn) 巴官員:美方急了 伊朗不急

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂(lè)要聞

浪姐7淘汰 該走的沒(méi)走,不該走的走了

財(cái)經(jīng)要聞

從日本翻身看:這次誰(shuí)能扛住高油價(jià)?

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

家居
游戲
親子
藝術(shù)
數(shù)碼

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

翻車!索尼PS5限定手柄丑到被群嘲 玩家:別毀童年經(jīng)典

親子要聞

寶藍(lán)和家人一起去水上樂(lè)園玩,還帶了很多好玩的玩具~

藝術(shù)要聞

從1984到2024,9屆全國(guó)美展油畫最高獎(jiǎng)作品

數(shù)碼要聞

夏天神器來(lái)了!徠芬首款折疊小風(fēng)扇官宣 輕松裝入口袋

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版