国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Harness要不要做?斯坦福的回答是:讓AI自己做

0
分享至


作者 | 黃小藝
郵箱 | huangxiaoyi@pingwest.com

同一個模型,換一套Harness,編程基準分就翻倍了,行業(yè)為此吵了兩個月,現(xiàn)在斯坦福說:不用吵了。

Harness火了,但也吵起來了

2026年開年最熱的AI工程概念,就是Harness。

它指的是模型之外的一切——prompt模板、上下文管理、檢索策略、多步推理編排、工具調(diào)用邏輯。一句話概括:你怎么調(diào)用模型,和模型本身同樣重要,甚至更重要。

OpenAI Codex團隊5個月寫了100萬行Agent代碼后,得出的最大教訓是“Agent不難,Harness才難”;SWE-Bench Mobile論文中,同一個Claude Opus 4.5在不同Harness下成功率2%對12%,差了6倍;LangChain 的編碼 Agent 在 Terminal Bench 2.0 上,通過僅優(yōu)化 Harness 而不修改底層模型,得分從 52.8% 提升至 66.5%,排名從第 30 躍升至第 5。

數(shù)據(jù)足夠有說服力。Harness這個概念迅速從學術(shù)圈破圈,成了產(chǎn)業(yè)界的高頻詞。

但一個概念一旦火了,爭議就跟著來了。給這股Harness熱潑冷水的,比如OpenAI的Noam Brown,說Harness本質(zhì)是拐杖,模型終將超越它——推理模型出來后,大量精心設計的Agentic系統(tǒng)一夜淘汰就是明證;Claude Code團隊也說,“所有秘密武器在模型本身,追求最薄的包裝”。

Anthropic的實踐還提供了一個微妙的視角。他們先為Opus 4.5做了一套相當厚重的Harness方案——GAN式對抗架構(gòu)、三Agent分工、sprint合約;但Opus 4.6出來后,Harness直接做了減法:去掉sprint分解、整體簡化,從6小時$200降到3.8小時$125。性能更好,成本更低。

這套操作被稱為Build to Delete——Harness的厚度取決于模型當前的能力邊界,模型變強了,對應Harness就該被剝離。

所以爭論的本質(zhì)是什么?不是Harness重不重要,因為數(shù)據(jù)已經(jīng)回答了,而是Harness不是一個靜態(tài)的東西——它需要隨模型迭代、隨任務變化、隨能力邊界移動而持續(xù)演化。

斯坦福的Yoonho Lee團隊和MIT的Omar Khattab看到了這個矛盾,然后給出了一個沒想到的回答:

“別爭了。讓AI自己來做自己的Harness?!?/b>

Meta-Harness:一個“反智”的暴力方案

論文全稱是 Meta-Harness: End-to-End Optimization of Model Harnesses,作者包括Yoonho Lee、Chelsea Finn(Stanford)、Omar Khattab(MIT,DSPy框架的創(chuàng)造者)等人。

核心思路的“反智”在于:讓一個足夠強的coding Agent自己一輪輪不斷優(yōu)化Harness來適配模型,過程中不壓縮任何東西,全存下來,自己去翻閱、分析、總結(jié),然后寫出更好的Harness框架。


具體來說,每輪迭代產(chǎn)生的所有內(nèi)容——候選Harness的完整源代碼、逐樣本執(zhí)行軌跡、評分結(jié)果——全部以文件形式保存在一個結(jié)構(gòu)化目錄中。沒有數(shù)據(jù)庫,沒有向量檢索,就是最樸素的文件和文件夾。

然后,一個coding Agent被放進這個系統(tǒng),任務只有一個:“基于之前所有嘗試的經(jīng)驗,寫一個更好的Harness。”

外層循環(huán)極其簡潔:生成候選 → 評估 → 保存完整結(jié)果 → Agent分析所有歷史 → 生成新候選 → 重復。沒有花哨的搜索算法,沒有進化策略,沒有梯度近似。搜索的全部“智能”來自Agent自身的代碼理解和推理能力。

為什么現(xiàn)有方法不夠

這個方案看起來樸素,但它解決了一個此前所有自動優(yōu)化方法都沒解決的問題:信息保留。

過去涌現(xiàn)的文本優(yōu)化器——Google的OPRO、TextGrad、DeepMind的AlphaEvolve——有一個共同的致命缺陷:對歷史反饋的壓縮太激進了。有些方法完全沒有記憶,每輪從零開始;有些只保留一個標量評分(比如,“準確率62%”);有些把執(zhí)行過程壓縮成簡短摘要。

這就好比讓一個工程師debug復雜系統(tǒng),但只告訴他“上一版代碼得了62分”——沒有日志、沒有堆棧跟蹤、沒有錯誤樣例。他怎么知道該改什么?

Meta-Harness的做法恰好相反。每輪評估能產(chǎn)生1000萬tokens的診斷信息——包括每個樣本的輸入、模型輸出、正確答案、中間推理步驟等完整執(zhí)行軌跡。

Agent不是被喂了一段摘要,而是真的在“做研究”——自主決定讀哪些文件。論文統(tǒng)計,Agent每輪中位數(shù)讀取82個文件。它會看之前表現(xiàn)最好和最差的Harness源碼,抽查特定樣本的執(zhí)行軌跡,發(fā)現(xiàn)“這類樣本模型總是把A類判成B類”,對比兩個Harness的差異,推斷哪個設計決策導致了性能變化。

這個過程,和一個優(yōu)秀工程師做實驗分析的workflow幾乎一模一樣——只不過讀文件速度快幾百倍,而且永遠不會累。

為什么現(xiàn)在才可行

論文作者特別指出了一個時機問題:Meta-Harness在2026年初才變得可行。原因很簡單——它完全依賴Coding Agent在過去一年的質(zhì)變式能力提升。兩年前的Agent根本無法在包含數(shù)百個文件的目錄中自主導航、做有意義的分析、并寫出能跑通的代碼。今天可以了。

這不只是一個方法論的突破,更是一個時機的故事。Agent能力的提升,讓一種原本“想法對但執(zhí)行不了”的方案突然變成了現(xiàn)實。

三個戰(zhàn)場,三種碾壓

理論再漂亮,得拿數(shù)據(jù)說話。Meta-Harness在三個差異巨大的任務上做了驗證。


戰(zhàn)場一:文本分類——4次迭代抵別人40次

文本分類實驗中,Meta-Harness拿下“48.6%準確率”,比此前最強手工基線ACE高出7.7個百分點(ACE為40.9%)。更值得注意的是效率:上下文token用量11.4K,ACE需要50.8K——少了將近4倍。效果更好,成本更低。

收斂速度同樣驚人:僅需4次評估迭代,就能匹配需要40次評估的競品方法。Agent每輪從完整軌跡中提取的信息密度,遠超那些只能看到分數(shù)或摘要的優(yōu)化器。

論文還做了分布外泛化測試——將在5個數(shù)據(jù)集上搜索到的最優(yōu)Harness直接遷移到9個未見數(shù)據(jù)集,結(jié)果同樣優(yōu)于ACE。這說明Meta-Harness找到的不是針對特定數(shù)據(jù)集的trick,而是更好的框架設計。

戰(zhàn)場二:數(shù)學推理——自動發(fā)現(xiàn)人類沒想到的路由策略

IMO難度的檢索增強數(shù)學推理任務上,Meta-Harness自動發(fā)現(xiàn)了一個“4路路由BM25檢索策略”——系統(tǒng)學會將數(shù)學題分為組合、幾何、數(shù)論和默認四個類別,對每個類別使用差異化的檢索參數(shù)。這種精細化路由設計,沒有任何人類工程師事先指定過。


遷移能力同樣值得關(guān)注:用GPT-OSS-20B搜索到的最優(yōu)Harness,零樣本遷移到5個未見推理模型均有提升。這意味著好的框架設計對不同模型都有效——Harness優(yōu)化和模型選擇是正交的兩個維度。換言之,你在Harness工程上的投入不會因為換了模型就打水漂。

戰(zhàn)場三:編程Agent——超越人類Harness方案

Claude Haiku 4.5組別中,Meta-Harness 確實以 37.6% 拿到了組別第一,超越了所有已知的手工 Harness(如 Goose 和官方的 Claude Code);在 Claude Opus 4.6組別中,Meta-Harness 以 76.4% 拿到組別第二。

Meta-Harness在這個任務上還自主發(fā)現(xiàn)了一個關(guān)鍵trick——“Environment Bootstrapping”(環(huán)境自舉/引導):在Agent執(zhí)行任務前,先自動運行shell命令收集沙箱環(huán)境快照(OS版本、已安裝軟件包、目錄結(jié)構(gòu)等),注入初始prompt。

這消除了Agent通常需要的2到4輪環(huán)境探索——不用再浪費推理步驟去看看目錄里有什么。對token預算有限的編程Agent來說,省下這幾輪等于直接提升了有效推理能力。沒有人事先告訴系統(tǒng)要做這個優(yōu)化,它是Meta-Harness在搜索過程中自己發(fā)現(xiàn)的。

消融實驗:信息量就是關(guān)鍵杠桿

論文中給出了三種信息保留策略的對比,結(jié)果一目了然:


- 僅保留分數(shù) → 中位準確率 34.6%

- 分數(shù) + 摘要 → 34.9%

- 完整軌跡(Meta-Harness) → 50.0%

完整軌跡帶來15個百分點的提升,而摘要幾乎沒有幫助——甚至有時有害,因為壓縮會丟掉看似瑣碎但至關(guān)重要的診斷細節(jié)。

這對整個“AI優(yōu)化AI”領(lǐng)域是一個值得反復咀嚼的結(jié)論:當Agent足夠強大時,人為的預處理和壓縮不是在幫忙,是在添亂。把原始信息全部交給Agent,讓它自己決定看什么、忽略什么,效果遠比人類代勞好得多。

同一個Bitter Lesson,兩種解讀

最后,讓我們回到那場行業(yè)爭論——把Meta-Harness放進去,事情變得非常有趣。

業(yè)界將Noam Brown的觀點歸入Bitter Lesson 陣營,因為提到Harness是拐杖:AI研究反復證明,依賴人類領(lǐng)域知識的精心設計終將被暴力計算碾平,所以別在框架工程上浪費時間,把賭注押在模型能力的持續(xù)增長上。

Meta-Harness用的也是Bitter Lesson:AI研究反復證明,通用搜索擊敗精心手工設計——所以不要手工設計Harness,讓AI用通用搜索自己找最優(yōu)解。它沒有否認Harness重要,也沒有否認模型會持續(xù)變強。它說的是:既然手工Harness終將被淘汰,那就讓AI來接管。

簡單來說,Noam Brown的版本是“別費勁做Harness了”,Meta-Harness的版本是“別費勁手做Harness了”。

Meta-Harness實質(zhì)上重新定義了這場爭論的坐標系。Model和Harness不是非此即彼的選擇。當Harness優(yōu)化本身被自動化后,兩條路線自然收斂——模型變強了,Meta-Harness搜出的最優(yōu)Harness也會跟著變薄。Anthropic手動執(zhí)行的Build to Delete,在這套框架下會自動發(fā)生。

這件事本身就是Bitter Lesson說的那種“更大的計算”——那種總會贏的力量。

論文團隊在最后提出了一個更遠的方向:Harness與模型權(quán)重的協(xié)同進化。今天模型訓練和框架設計還是兩個獨立過程。但如果Harness能被自動優(yōu)化,未來的模型訓練如何把Harness納入優(yōu)化循環(huán)?

巧的是,前阿里Qwen技術(shù)負責人林俊旸最近也在說類似的事。他在離職后發(fā)布的長文 "From Reasoning Thinking to Agentic Thinking" 里,把Harness的角色推到了更細分的位置——不只是推理時的運行框架,更應該是訓練時的核心基礎設施。Agent在什么樣的Harness環(huán)境里訓練,決定了它能學到什么。

現(xiàn)在,斯坦福已經(jīng)讓AI接管了推理時的Harness,那林俊旸瞄準的是訓練時Harness呢?

這里有個耐人尋味的區(qū)別:推理時的Harness,目標明確,跑分見高下,AI比人快;訓練時的Harness,定義的是模型在這個環(huán)境里訓完之后,整體能力有沒有變強,這是一個長程、稀疏、很難歸因的過程——這一層的搭建,恐怕還得是人來做。

方向有了,誰先動手?2026年下半年的牌桌上,可能又多一道新題了。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
這四種病都不是???而是年齡到了!過度治療反而傷身,坦然接受

這四種病都不是???而是年齡到了!過度治療反而傷身,坦然接受

醫(yī)學科普匯
2026-04-10 20:15:11
最后時刻反轉(zhuǎn)!伊朗拒絕談判后,一向強硬的特朗普罕見松了口

最后時刻反轉(zhuǎn)!伊朗拒絕談判后,一向強硬的特朗普罕見松了口

標體
2026-04-23 03:44:47
B席代表曼城英超取勝215場,超越大衛(wèi)-席爾瓦位列獨占隊史第1

B席代表曼城英超取勝215場,超越大衛(wèi)-席爾瓦位列獨占隊史第1

懂球帝
2026-04-23 05:23:09
最新:曝俄軍敗退扎波羅熱!丟失幾年來占領(lǐng)的全部土地

最新:曝俄軍敗退扎波羅熱!丟失幾年來占領(lǐng)的全部土地

項鵬飛
2026-04-20 20:13:15
YSL“露腚裝”惹爭議,比巴黎世家還炸裂!

YSL“露腚裝”惹爭議,比巴黎世家還炸裂!

互聯(lián)網(wǎng)品牌官
2026-04-21 19:11:35
山西忻州市公務員局發(fā)布情況說明:楊某媛(女)與自媒體貼文中所分析的楊某媛并非同一人

山西忻州市公務員局發(fā)布情況說明:楊某媛(女)與自媒體貼文中所分析的楊某媛并非同一人

環(huán)球網(wǎng)資訊
2026-04-22 16:51:03
我知道那兩名保安為啥不讓退伍老兵上廁所的原因

我知道那兩名保安為啥不讓退伍老兵上廁所的原因

筆桿論道
2026-04-23 01:25:03
鬧翻了!遼籃更衣室內(nèi)訌,趙繼偉深夜2文“炮轟” 弗格打臉管理層

鬧翻了!遼籃更衣室內(nèi)訌,趙繼偉深夜2文“炮轟” 弗格打臉管理層

小徐講八卦
2026-04-22 05:45:02
發(fā)芽土豆、紅薯、洋蔥還能吃嗎?原來我們一直弄錯了,看完漲知識

發(fā)芽土豆、紅薯、洋蔥還能吃嗎?原來我們一直弄錯了,看完漲知識

阿龍美食記
2026-04-13 19:02:15
連虧5年,越虧越多!知名超市學胖東來效果不佳,去年關(guān)店414家,巨虧9.57億元,最新市值僅35億元

連虧5年,越虧越多!知名超市學胖東來效果不佳,去年關(guān)店414家,巨虧9.57億元,最新市值僅35億元

每日經(jīng)濟新聞
2026-04-22 18:31:06
我退伍后去女戰(zhàn)友家里開的工廠應聘,她紅著臉說:你娶我好嗎?

我退伍后去女戰(zhàn)友家里開的工廠應聘,她紅著臉說:你娶我好嗎?

千秋文化
2026-04-18 19:07:07
5-1大勝!利雅得勝利挺進決賽,科曼踢瘋了:轟入3球,C羅0射正

5-1大勝!利雅得勝利挺進決賽,科曼踢瘋了:轟入3球,C羅0射正

足球狗說
2026-04-23 02:00:27
演員王大陸一審被判刑

演員王大陸一審被判刑

極目新聞
2026-04-22 12:35:08
意外!上港第8輪中超門將位置或迎來久違強援首發(fā),顏駿凌替補

意外!上港第8輪中超門將位置或迎來久違強援首發(fā),顏駿凌替補

張麗說足球
2026-04-22 10:18:07
申花2:0海牛,比贏球更可怕的是賽后斯盧茨基的一番話,這是開始

申花2:0海牛,比贏球更可怕的是賽后斯盧茨基的一番話,這是開始

夕落秋山
2026-04-23 02:51:08
竄訪宣布取消后,國民黨表態(tài),民眾黨向大陸攤牌,賴清德親自回應

竄訪宣布取消后,國民黨表態(tài),民眾黨向大陸攤牌,賴清德親自回應

小蘭聊歷史
2026-04-22 15:18:30
上海三甲醫(yī)院緊急報警!患者投訴:遠超常理!警方:對李某、鄭某等人依法刑事拘留

上海三甲醫(yī)院緊急報警!患者投訴:遠超常理!警方:對李某、鄭某等人依法刑事拘留

新民晚報
2026-04-22 15:18:47
尷尬!跑友不夠用了!馬拉松報不滿?全馬報名人數(shù)不足?

尷尬!跑友不夠用了!馬拉松報不滿?全馬報名人數(shù)不足?

馬拉松跑步健身
2026-04-22 22:01:37
天津?qū)来蜻@些行為!重點區(qū)域為古文化街、鼓樓天街……

天津?qū)来蜻@些行為!重點區(qū)域為古文化街、鼓樓天街……

全接觸狐狐
2026-04-22 21:50:12
中國駐日本大使館:堅決反對、嚴厲譴責,已向日方提出嚴正交涉、強烈抗議

中國駐日本大使館:堅決反對、嚴厲譴責,已向日方提出嚴正交涉、強烈抗議

澎湃新聞
2026-04-21 23:59:03
2026-04-23 05:36:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
272文章數(shù) 37關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

頭條要聞

伊朗議長:不可能重新開放霍爾木茲海峽

頭條要聞

伊朗議長:不可能重新開放霍爾木茲海峽

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

蜜雪冰城泰國代言人 被扒出辱華黑歷史

財經(jīng)要聞

醫(yī)院專家號"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

家居
本地
手機
房產(chǎn)
公開課

家居要聞

極簡繪夢 克制和諧

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

手機要聞

消息稱部分廠商停更Ultra級別旗艦手機,Pro Max機型成重頭戲

房產(chǎn)要聞

官宣!今年9月起,廣州中小學“重點班”將成歷史!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版