国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

斯坦福推出Agent驗證框架「LLM-as-a-Verifier」

0
分享至



本項目由斯坦福大學(xué) CS 博士生 Jacky Kwok負(fù)責(zé),主要貢獻者包括伯克利 EECS 博士生 Shulu Li。通訊作者為Ion Stoica(UC 伯克利教授、Databricks 創(chuàng)始人)、Azalia Mirhoseini(斯坦福教授,曾任職于 DeepMind 與 Anthropic)、以及 Marco Pavone(英偉達 AI 與自動駕駛研究總監(jiān))。

斯坦福、伯克利與英偉達聯(lián)合提出 Agent 驗證框架 LLM-as-a-Verifier。該方法是一種通用的驗證機制,可與任意 Agent Harness 和模型結(jié)合。

研究表明,通過擴展驗證階段的計算量(scaling verification compute),可以顯著提升 agent 整體性能,并在最有影響力的 AI 編程基準(zhǔn) Terminal-Bench 上超越 GPT-5.5 和 Claude Mythos!



LLM-as-a-Verifier 在 AI Coding 基準(zhǔn) Terminal-Bench 和 SWE-Bench Verified 上均取得了當(dāng)前最優(yōu)(SOTA)性能。 Transformer 論文作者 Lukasz Kaiser 以及 GAN 作者 Bing Xu 也對該工作進行了轉(zhuǎn)發(fā)與關(guān)注。





  • 博客地址:llm-as-a-verifier.notion.site
  • 代碼地址:llm-as-a-verifier.github.io

方法概述

大多數(shù) Agent Harness 實際上已經(jīng)「具備」解決問題的能力 。當(dāng)我們多次運行同一個 Agent(例如運行 100 次),它往往能夠在某一次嘗試中生成正確答案。但問題在于,它們無法判斷哪一個才是正確的。這一問題在長時序任務(wù)(long-horizon tasks)中尤為嚴(yán)重。



LLM-as-a-Verifier 通過 scaling評分 token 的細粒度(score granularity)、多次評估(repeated verification)以及評價標(biāo)準(zhǔn)的分解(criteria decomposition),顯著提升了驗證能力,并進一步提高了下游任務(wù)的成功率。此外,團隊發(fā)現(xiàn)隨著評分 token 細粒度的提升,正負(fù)樣本之間的得分區(qū)分度會進一步拉大。



核心問題:LLM-as-a-Judge 的局限性

標(biāo)準(zhǔn)的 LLM-as-a-Judge 通過提示模型輸出一個評分結(jié)果(例如,1 到 8 之間的分?jǐn)?shù)),并選擇概率最高的評分作為最終的離散分?jǐn)?shù)。

然而,這種方法往往存在評分粒度過于粗糙的問題。在比較長時序 agent 軌跡(trajectories )時,LLM-as-a-Judge 通常會為不同的軌跡分配相同的分?jǐn)?shù)(例如,兩條軌跡都被評為 4 分),從而導(dǎo)致平局,無法有效區(qū)分它們。

這種粗粒度的評分機制在 Terminal-Bench 上出現(xiàn)了27%的平局情況,限制了評判的精確性和區(qū)分能力。



LLM-as-a-Verifier: 從判分到驗證的范式轉(zhuǎn)變

從定義上講,judge(裁判者)是對整體情況形成總體判斷并給出結(jié)論的人;而 verifier(驗證者)則是對具體事項進行真實及正確性核驗的人,因此需要更細致、更具體的評估。

為此,團隊提出了 LLM-as-a-Verifier。它通過擴展以下三個維度來提供細粒度反饋:

  1. 重復(fù)驗證的次數(shù)(repeated verifications)
  2. 評分 token 的粒度(granularity of score tokens)
  3. 評估標(biāo)準(zhǔn)的分解(decomposition of evaluation criteria)





LLM-as-a-Verifier 將軌跡的獎勵表示為:



其中:



在選擇最佳軌跡時,團隊采用循環(huán)賽(round-robin tournament):對每一對候選軌跡 (i, j), 驗證器都會利用上述公式計算其 reward。獎勵更高的軌跡獲得勝利,而在全部比較中勝場數(shù)最多的軌跡,將被選為最終結(jié)果。

實驗結(jié)果

1.在 Terminal-Bench 2.0 和 SWE-Bench Verified 等復(fù)雜的長時序基準(zhǔn)任務(wù)中,LLM-as-a-Verifier 的表現(xiàn)全面超越了前沿模型并均取得了當(dāng)前最優(yōu)(SOTA)性能。所有實驗結(jié)果均來源于官方排行榜。



2.LLM-as-a-Verifier 能夠在不同的 Agent Harness 框架中實現(xiàn)無縫集成,其通用性驗證于以下三個基準(zhǔn)任務(wù):

  • ForgeCode:驗證準(zhǔn)確率提升至 86.4%
  • Terminus-Kira:準(zhǔn)確率提升至 79.4%
  • Terminus 2:準(zhǔn)確率增加至 71.2%



這表明,無論針對何種 Agent Harness 或模型,該驗證方法皆可高效兼容并提升性能。

3.LLM-as-a-Verifier 在驗證準(zhǔn)確率和消除平局方面全面領(lǐng)先于傳統(tǒng)的 LLM-as-a-Judge。即使在增加重復(fù)驗證次數(shù)的情況下(如 k = 16),Verifier 方法依然保持了至少 7% 的驗證準(zhǔn)確率優(yōu)勢。此外,它完全消除了平局現(xiàn)象。



4.試驗結(jié)果表明,增加評分 token 的粒度(granularity)以及提高重復(fù)驗證次數(shù)(repeated verifications)均顯著提高驗證準(zhǔn)確率。此外,在評分 token 維度的細化分級(1→20)中,量化誤差得到了極大降低,從而更接近真實獎勵。



5.LLM-as-a-Verifier 放棄傳統(tǒng)的單一評分機制,采用將軌跡驗證解構(gòu)為三個可組合的評估標(biāo)準(zhǔn):

  • 規(guī)范合規(guī)性 (Specification):軌跡是否符合所有任務(wù)要求(路徑、命名等);
  • 輸出格式 (Output Format):驗證輸出的格式是否符合預(yù)期結(jié)果;
  • 錯誤檢測 (Error Checking):軌跡中是否存在明顯的錯誤信號。



驗證計算作為新的擴展維度

「LLM-as-a-Verifier」是一種通用驗證機制,能夠顯著提升 Agent 的整體性能,并在多個 AI 編程基準(zhǔn)上取得當(dāng)前最優(yōu)(SOTA)表現(xiàn),超越了其他前沿模型如 Claude Mythos。

相比傳統(tǒng)的「LLM-as-a-Judge」方法,該框架利用更細致的評分粒度、重復(fù)驗證,以及評估標(biāo)準(zhǔn)分解,實現(xiàn)更高的驗證準(zhǔn)確率和更精確的區(qū)分能力,消除了評分平局現(xiàn)象。

實驗結(jié)果表明,它能夠廣泛適配不同的 Agent Harness 和模型,提高多種基準(zhǔn)任務(wù)中的準(zhǔn)確率,同時通過評分機制的細化緩解量化誤差,使驗證結(jié)果更接近真實獎勵。

LLM-as-a-Verifier 不僅提升了 Agent 性能,還顯著增強了模型在長時序任務(wù)中的安全性和穩(wěn)定性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟觀察報
2026-05-06 11:40:46
吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個隱私,是性感嗎?

女性跑步:暴露這個隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時間,被卡住的工傷認(rèn)定

被延長的搶救時間,被卡住的工傷認(rèn)定

新京報
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報
2026-05-06 12:38:05
中美同時向全球下達禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時向全球下達禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

人形機器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

家居
教育
旅游
房產(chǎn)
親子

家居要聞

大膽前衛(wèi) 時尚大宅

教育要聞

六條邏輯主線替代四個大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

旅游要聞

龍江新觀察|“五一”文旅熱力十足 特色體驗燃動春日消費

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

親子要聞

52歲王小騫做夢也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

無障礙瀏覽 進入關(guān)懷版