網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Meta-Harness讓Haiku性能狂飆，甚至追平Opus！

2026-04-04 20:02:38　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：傾傾

【新智元導(dǎo)讀】如果未來(lái)的某天，AI智能體可以給自己調(diào)參數(shù)，修bug，會(huì)發(fā)生什么？

就在這兩天，斯坦福IRIS Lab的博士生Yoonho Lee聯(lián)合MIT、威斯康星大學(xué)的研究者放出一篇新論文，把AI智能體優(yōu)化的邏輯翻了個(gè)個(gè)兒。

作者陣容十分豪華。導(dǎo)師是機(jī)器人學(xué)習(xí)明星學(xué)者Chelsea Finn，合作者里還有DSPy框架作者Omar Khattab。

曾經(jīng)，大家卷模型本身的參數(shù)量、訓(xùn)練數(shù)據(jù)、RLHF。但Meta-Harness另辟蹊徑：支撐模型運(yùn)行的那層「腳手架」同樣決定生死。

這些東西以前全靠人工調(diào)?，F(xiàn)在，Meta-Harness讓AI自己來(lái)干這活。

結(jié)果十分完美：Claude Haiku 4.5的成功率達(dá)到37.6%，登頂所有Haiku智能體榜首；Claude Opus 4.6更是達(dá)到76.4%，僅次于榜一ForgeCode。

模型是商品，Harness決定成敗

harness指的是一整套基礎(chǔ)設(shè)施：系統(tǒng)提示詞、工具定義、重試邏輯、上下文管理、子代理協(xié)調(diào)、生命周期鉤子。

模型本身只是個(gè)大腦，harness才是讓這個(gè)大腦能干活的身體。

這個(gè)概念在2026年突然爆火，業(yè)界終于意識(shí)到，同一個(gè)模型，換個(gè)harness，性能差距可以大到離譜。

2月，工程師Can B?lük做了個(gè)實(shí)驗(yàn)。

他只改編輯格式，不動(dòng)模型，15個(gè)LLM的編碼性能提升了5到14個(gè)百分點(diǎn)，輸出token還減少了約20%。

更夸張的是，GPT-4 Turbo僅僅換了一種編輯格式，準(zhǔn)確率就從26%飆升到59%。

同樣的模型，性能差了一倍多，唯一變量是harness。

Agent = Model + Harness，成了最熱門的趨勢(shì)

模型提供智能，harness讓智能變得有用。

Claude Code、Codex在做同一件事：精心設(shè)計(jì)harness來(lái)彌補(bǔ)模型的短板。

那么問(wèn)題來(lái)了，harness工程目前高度依賴人工。

工程師得手動(dòng)寫提示詞、調(diào)工具接口、設(shè)計(jì)重試策略，然后跑測(cè)試、看日志、猜哪里出了問(wèn)題、改代碼、再跑測(cè)試。

這個(gè)循環(huán)費(fèi)時(shí)費(fèi)力，而且很多失敗模式根本不是人能輕易診斷的。

Meta-Harness想做的，就是把這個(gè)循環(huán)自動(dòng)化。

400倍信息量：AI自己「復(fù)盤+迭代」

Meta-Harness嘗試著給優(yōu)化器看更多東西。聽(tīng)起來(lái)簡(jiǎn)單，但這恰恰是過(guò)去所有方法的瓶頸。

論文這張對(duì)比表，列出了主流文本每一步能看到多少上下文：

Meta-Harness 與主流優(yōu)化方法的上下文觀察量對(duì)比。

Self-Refine只看最近一次輸出加自我批評(píng)，大約1000 token；

OPRO看過(guò)去幾輪的方案和分?jǐn)?shù)，大約2000 token；

TextGrad、AlphaEvolve、GEPA這些更先進(jìn)的方法，也就在8000到26000 token之間。

Meta-Harness呢？最高1000萬(wàn)token，差距是400倍。

為什么需要這么多？因?yàn)閔arness工程產(chǎn)生的失敗模式，往往藏在執(zhí)行軌跡的細(xì)節(jié)里。

一個(gè)任務(wù)跑失敗了，原因可能是十步之前的某個(gè)工具調(diào)用返回了截?cái)嗟妮敵觯瑢?dǎo)致后續(xù)推理全歪。

如果優(yōu)化器只能看到一個(gè)「失敗」的標(biāo)量分?jǐn)?shù)，或者一段壓縮過(guò)的摘要，它根本沒(méi)法定位問(wèn)題。

Meta-Harness的做法，是給proposer一個(gè)完整的文件系統(tǒng)。

這個(gè)文件系統(tǒng)里裝著所有歷史候選harness的源代碼、每一輪的執(zhí)行軌跡、命令日志、錯(cuò)誤信息、超時(shí)行為、評(píng)分結(jié)果。

Proposer可以用grep、cat這些標(biāo)準(zhǔn)工具自己去翻，想看哪個(gè)文件就看哪個(gè)，想搜哪個(gè)關(guān)鍵詞就搜哪個(gè)。

優(yōu)化器不再是在固定prompt上做推理，而是一個(gè)會(huì)檢索信息、瀏覽歷史、編輯代碼的代理。

proposer用的是Claude Code，它不需要被喂壓縮過(guò)的信息，它有能力自己決定看什么、怎么看。

整個(gè)搜索循環(huán)很直白：

Proposer讀取文件系統(tǒng)里的歷史記錄
分析哪些任務(wù)失敗了、失敗原因是什么
針對(duì)性地重寫harness代碼
新harness跑測(cè)試，結(jié)果寫回文件系統(tǒng)
循環(huán)繼續(xù)

Meta-Harness 核心優(yōu)化閉環(huán)示意圖。Proposer 從“包含全部歷史經(jīng)驗(yàn)”的文件系統(tǒng)讀取完整軌跡（①），提出新的 Harness 代碼 → 結(jié)合 LLM 執(zhí)行任務(wù)并評(píng)估（②）→ 將 Proposed Code、Reasoning Traces、Eval Score 等全部日志存回文件系統(tǒng)（③），實(shí)現(xiàn)自我迭代。

論文展示了一個(gè)19任務(wù)子集上的搜索過(guò)程。

從Terminus-KIRA基線的28.5%起步，到第7輪迭代就漲到了46.5%。

Meta-Harness 在 19 任務(wù)子集上的迭代優(yōu)化過(guò)程。從 Terminus-KIRA 基線 28.5% 的成功率起步，第 7 輪迭代達(dá)到 46.5%，展示了通過(guò)完整執(zhí)行軌跡診斷實(shí)現(xiàn)的高效 harness 優(yōu)化。

每一輪都基于具體的執(zhí)行軌跡做「反事實(shí)診斷」——如果我當(dāng)時(shí)這樣處理，結(jié)果會(huì)不會(huì)不一樣？

舉個(gè)例子，第7輪的改進(jìn)是在第一次LLM調(diào)用之前先跑一條shell命令，把環(huán)境依賴信息注入到初始prompt里。

加一條命令，省掉無(wú)謂的試錯(cuò)。這種程度的診斷精度，靠壓縮摘要是做不到的。

89個(gè)任務(wù)，小模型登頂

Meta-Harness分了三個(gè)場(chǎng)景做了測(cè)試：文本分類、數(shù)學(xué)推理、代碼代理。

代碼代理用的基準(zhǔn)是TerminalBench-2，它包含89個(gè)Docker化任務(wù)，覆蓋代碼翻譯、分布式機(jī)器學(xué)習(xí)配置、系統(tǒng)編程、生物信息學(xué)、密碼分析等領(lǐng)域。

每個(gè)任務(wù)都是二元評(píng)分，跑5次取平均，難度相當(dāng)高。

因?yàn)樗鼈冃枰L(zhǎng)程自主執(zhí)行、處理復(fù)雜依賴、應(yīng)對(duì)截?cái)嗟慕K端輸出，還得有相當(dāng)?shù)念I(lǐng)域知識(shí)。

這個(gè)基準(zhǔn)被幾乎所有主流前沿實(shí)驗(yàn)室用來(lái)衡量代碼代理的實(shí)際能力，是繼SWE-bench之后又一個(gè)被廣泛認(rèn)可的「真實(shí)工作」測(cè)試集。

Meta-Harness的做法是優(yōu)化完整的編碼harness，包括系統(tǒng)提示詞、工具定義、完成檢測(cè)邏輯、上下文管理，全部都在優(yōu)化范圍內(nèi)。

Proposer會(huì)讀取每個(gè)任務(wù)的執(zhí)行軌跡，診斷失敗模式，然后提出針對(duì)性修復(fù)。

結(jié)果，Claude Haiku 4.5的成功率達(dá)到37.6%，在所有Haiku 4.5代理中排名第一，超過(guò)第二名Goose的35.5%

Claude Opus 4.6的成功率高達(dá)76.4%，在所有Opus 4.6代理中排名第二，僅次于ForgeCode的81.8%

需要強(qiáng)調(diào)的是，Haiku是Claude系列里最輕量的版本，參數(shù)量遠(yuǎn)小于Opus。

傳統(tǒng)思路下，小模型就是不如大模型，性能天花板是硬傷。

但Meta-Harness證明，通過(guò)優(yōu)化harness，小模型的天花板可以被顯著抬高。

Meta-Harness 端到端優(yōu)化結(jié)果總結(jié)。（左）在文本分類任務(wù)上，Meta-Harness 以極少的評(píng)估次數(shù)就超越了 ACE、OpenEvolve 等先前方法；（右）在 TerminalBench-2 基準(zhǔn)上，Meta-Harness 優(yōu)化的 Claude Haiku 4.5 harness 達(dá)到 37.6% 通過(guò)率，超越所有已報(bào)道的 Haiku 4.5 harness（包括 Goose 35.5% 和 Terminus-KIRA 33.7%），實(shí)現(xiàn)小模型登頂。

不止代碼：文本分類和數(shù)學(xué)推理同樣有效

Meta-Harness不只在代碼任務(wù)上管用。

在文本分類場(chǎng)景下，研究者用了三個(gè)數(shù)據(jù)集：LawBench（215個(gè)類別）、Symptom2Disease（22個(gè)類別）、USPTO-50k（180個(gè)類別），模型是GPT-OSS-120B。

跑了20輪進(jìn)化迭代，每輪2個(gè)候選，總共產(chǎn)出40個(gè)候選harness。

最佳發(fā)現(xiàn)的harness在測(cè)試集上達(dá)到48.6%準(zhǔn)確率，比之前的SOTA方法ACE高出7.7個(gè)百分點(diǎn)。

甚至它的成本更低——Meta-Harness只用了45.5K上下文token，而ACE用了203K。

Meta-Harness 在文本分類任務(wù)上的表現(xiàn)。

研究者還做了直接對(duì)比實(shí)驗(yàn)，把Meta-Harness和兩個(gè)代表性的程序搜索方法放在一起，給同樣的proposer和評(píng)估預(yù)算。

結(jié)果是，Meta-Harness用十分之一的評(píng)估次數(shù)就追平了它們的最終準(zhǔn)確率，而最終準(zhǔn)確率還比它們高出10個(gè)百分點(diǎn)以上。

Harness Optimizer 搜索進(jìn)度對(duì)比。Meta-Harness（紅色曲線）在極少的 Harness Evaluations 下快速達(dá)到最高性能，顯著優(yōu)于 OpenEvolve、TTTDiscover、ACE 等方法，展現(xiàn)了完整執(zhí)行軌跡帶來(lái)的效率優(yōu)勢(shì)。

原因就是OpenEvolve和PUCT都把歷史壓縮成固定的prompt格式，丟掉了執(zhí)行軌跡。Meta-Harness保留了一切。

在數(shù)學(xué)推理場(chǎng)景下，Meta-Harness搜索的是檢索增強(qiáng)的推理策略。

語(yǔ)料庫(kù)里有超過(guò)50萬(wàn)道題，來(lái)自8個(gè)開源數(shù)據(jù)集。

研究者在250道題的搜索集上進(jìn)化出一個(gè)檢索harness，然后在200道IMO級(jí)別的題目上測(cè)試，還額外用了5個(gè)搜索時(shí)從未見(jiàn)過(guò)的模型。

單一發(fā)現(xiàn)的檢索harness在5個(gè)新模型上平均提升了4.7個(gè)百分點(diǎn)（從34.1%到38.8%），而且是在模型不變的情況下。

Meta-Harness 檢索策略的跨模型遷移能力。

這說(shuō)明Meta-Harness發(fā)現(xiàn)的策略是可遷移的，不是只對(duì)特定模型有效的過(guò)擬合技巧。

模型能力的競(jìng)爭(zhēng)正在進(jìn)入一個(gè)新階段。

過(guò)去幾年，前沿實(shí)驗(yàn)室比的是誰(shuí)的模型更強(qiáng)、參數(shù)更多、訓(xùn)練數(shù)據(jù)更大、benchmark分?jǐn)?shù)更高。

但現(xiàn)在，GPT-5、Claude 4、Gemini 3在很多任務(wù)上已經(jīng)拉不開太大差距。

真正的差距在哪里？在harness。

同一個(gè)模型，配上不同的harness，性能可以差一倍。

而harness工程目前還高度依賴人工經(jīng)驗(yàn)，沒(méi)有系統(tǒng)化的方法論，也沒(méi)有自動(dòng)化的工具。

模型是智能的來(lái)源，harness是智能的放大器，而現(xiàn)在，優(yōu)化harness本身也可以交給AI來(lái)做。

這可能是LLM應(yīng)用開發(fā)進(jìn)入下一階段的標(biāo)志。

參考資料：

https://x.com/yoonholeee/status/2038640635482456118

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.