国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

斯坦福推出Agent驗證框架「LLM-as-a-Verifier」

0
分享至



本項目由斯坦福大學(xué) CS 博士生 Jacky Kwok負責(zé),主要貢獻者包括伯克利 EECS 博士生 Shulu Li。通訊作者為Ion Stoica(UC 伯克利教授、Databricks 創(chuàng)始人)、Azalia Mirhoseini(斯坦福教授,曾任職于 DeepMind 與 Anthropic)、以及 Marco Pavone(英偉達 AI 與自動駕駛研究總監(jiān))。

斯坦福、伯克利與英偉達聯(lián)合提出 Agent 驗證框架 LLM-as-a-Verifier。該方法是一種通用的驗證機制,可與任意 Agent Harness 和模型結(jié)合。

研究表明,通過擴展驗證階段的計算量(scaling verification compute),可以顯著提升 agent 整體性能,并在最有影響力的 AI 編程基準 Terminal-Bench 上超越 GPT-5.5 和 Claude Mythos!



LLM-as-a-Verifier 在 AI Coding 基準 Terminal-Bench 和 SWE-Bench Verified 上均取得了當(dāng)前最優(yōu)(SOTA)性能。 Transformer 論文作者 Lukasz Kaiser 以及 GAN 作者 Bing Xu 也對該工作進行了轉(zhuǎn)發(fā)與關(guān)注。





  • 博客地址:llm-as-a-verifier.notion.site
  • 代碼地址:llm-as-a-verifier.github.io

方法概述

大多數(shù) Agent Harness 實際上已經(jīng)「具備」解決問題的能力 。當(dāng)我們多次運行同一個 Agent(例如運行 100 次),它往往能夠在某一次嘗試中生成正確答案。但問題在于,它們無法判斷哪一個才是正確的。這一問題在長時序任務(wù)(long-horizon tasks)中尤為嚴重。



LLM-as-a-Verifier 通過 scaling評分 token 的細粒度(score granularity)、多次評估(repeated verification)以及評價標準的分解(criteria decomposition),顯著提升了驗證能力,并進一步提高了下游任務(wù)的成功率。此外,團隊發(fā)現(xiàn)隨著評分 token 細粒度的提升,正負樣本之間的得分區(qū)分度會進一步拉大。



核心問題:LLM-as-a-Judge 的局限性

標準的 LLM-as-a-Judge 通過提示模型輸出一個評分結(jié)果(例如,1 到 8 之間的分數(shù)),并選擇概率最高的評分作為最終的離散分數(shù)。

然而,這種方法往往存在評分粒度過于粗糙的問題。在比較長時序 agent 軌跡(trajectories )時,LLM-as-a-Judge 通常會為不同的軌跡分配相同的分數(shù)(例如,兩條軌跡都被評為 4 分),從而導(dǎo)致平局,無法有效區(qū)分它們。

這種粗粒度的評分機制在 Terminal-Bench 上出現(xiàn)了27%的平局情況,限制了評判的精確性和區(qū)分能力。



LLM-as-a-Verifier: 從判分到驗證的范式轉(zhuǎn)變

從定義上講,judge(裁判者)是對整體情況形成總體判斷并給出結(jié)論的人;而 verifier(驗證者)則是對具體事項進行真實及正確性核驗的人,因此需要更細致、更具體的評估。

為此,團隊提出了 LLM-as-a-Verifier。它通過擴展以下三個維度來提供細粒度反饋:

  1. 重復(fù)驗證的次數(shù)(repeated verifications)
  2. 評分 token 的粒度(granularity of score tokens)
  3. 評估標準的分解(decomposition of evaluation criteria)





LLM-as-a-Verifier 將軌跡的獎勵表示為:



其中:



在選擇最佳軌跡時,團隊采用循環(huán)賽(round-robin tournament):對每一對候選軌跡 (i, j), 驗證器都會利用上述公式計算其 reward。獎勵更高的軌跡獲得勝利,而在全部比較中勝場數(shù)最多的軌跡,將被選為最終結(jié)果。

實驗結(jié)果

1.在 Terminal-Bench 2.0 和 SWE-Bench Verified 等復(fù)雜的長時序基準任務(wù)中,LLM-as-a-Verifier 的表現(xiàn)全面超越了前沿模型并均取得了當(dāng)前最優(yōu)(SOTA)性能。所有實驗結(jié)果均來源于官方排行榜。



2.LLM-as-a-Verifier 能夠在不同的 Agent Harness 框架中實現(xiàn)無縫集成,其通用性驗證于以下三個基準任務(wù):

  • ForgeCode:驗證準確率提升至 86.4%
  • Terminus-Kira:準確率提升至 79.4%
  • Terminus 2:準確率增加至 71.2%



這表明,無論針對何種 Agent Harness 或模型,該驗證方法皆可高效兼容并提升性能。

3.LLM-as-a-Verifier 在驗證準確率和消除平局方面全面領(lǐng)先于傳統(tǒng)的 LLM-as-a-Judge。即使在增加重復(fù)驗證次數(shù)的情況下(如 k = 16),Verifier 方法依然保持了至少 7% 的驗證準確率優(yōu)勢。此外,它完全消除了平局現(xiàn)象。



4.試驗結(jié)果表明,增加評分 token 的粒度(granularity)以及提高重復(fù)驗證次數(shù)(repeated verifications)均顯著提高驗證準確率。此外,在評分 token 維度的細化分級(1→20)中,量化誤差得到了極大降低,從而更接近真實獎勵。



5.LLM-as-a-Verifier 放棄傳統(tǒng)的單一評分機制,采用將軌跡驗證解構(gòu)為三個可組合的評估標準:

  • 規(guī)范合規(guī)性 (Specification):軌跡是否符合所有任務(wù)要求(路徑、命名等);
  • 輸出格式 (Output Format):驗證輸出的格式是否符合預(yù)期結(jié)果;
  • 錯誤檢測 (Error Checking):軌跡中是否存在明顯的錯誤信號。



驗證計算作為新的擴展維度

「LLM-as-a-Verifier」是一種通用驗證機制,能夠顯著提升 Agent 的整體性能,并在多個 AI 編程基準上取得當(dāng)前最優(yōu)(SOTA)表現(xiàn),超越了其他前沿模型如 Claude Mythos。

相比傳統(tǒng)的「LLM-as-a-Judge」方法,該框架利用更細致的評分粒度、重復(fù)驗證,以及評估標準分解,實現(xiàn)更高的驗證準確率和更精確的區(qū)分能力,消除了評分平局現(xiàn)象。

實驗結(jié)果表明,它能夠廣泛適配不同的 Agent Harness 和模型,提高多種基準任務(wù)中的準確率,同時通過評分機制的細化緩解量化誤差,使驗證結(jié)果更接近真實獎勵。

LLM-as-a-Verifier 不僅提升了 Agent 性能,還顯著增強了模型在長時序任務(wù)中的安全性和穩(wěn)定性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
黃一鳴帶女兒閃閃參加國際時裝周!打扮時尚潮范十足,越來越可愛

黃一鳴帶女兒閃閃參加國際時裝周!打扮時尚潮范十足,越來越可愛

庭小娛
2026-04-27 10:48:48
現(xiàn)代級魔改,估計俄羅斯娘家也看傻眼了吧

現(xiàn)代級魔改,估計俄羅斯娘家也看傻眼了吧

三叔的裝備空間
2026-04-24 23:53:16
美國華裔女士逛中國:“這繁榮,本該屬于美國”,真相太解氣

美國華裔女士逛中國:“這繁榮,本該屬于美國”,真相太解氣

賤議你讀史
2026-04-27 01:15:03
事態(tài)升級,中方軍艦越聚越多,四川艦和遼寧艦匯合,菲日休想鬧事

事態(tài)升級,中方軍艦越聚越多,四川艦和遼寧艦匯合,菲日休想鬧事

甜到你心坎
2026-04-25 09:50:11
1951年,戴笠獨子被處決的消息傳到臺灣,蔣介石給毛人鳳下了一條命令

1951年,戴笠獨子被處決的消息傳到臺灣,蔣介石給毛人鳳下了一條命令

曉張說
2026-04-27 07:18:18
知青往事:當(dāng)年愛上了一位傣族姑娘,談婚論嫁時我卻回城了

知青往事:當(dāng)年愛上了一位傣族姑娘,談婚論嫁時我卻回城了

草根情感故事茶社
2026-04-26 11:47:28
國乒出征世乒賽!王勵勤率隊,孫穎莎馬琳說悄悄話,孫遜缺席?

國乒出征世乒賽!王勵勤率隊,孫穎莎馬琳說悄悄話,孫遜缺席?

體育就你秀
2026-04-27 12:24:00
此論調(diào)不可取:整個北約打不過俄羅斯?把德國逼下場會讓俄軍絕望

此論調(diào)不可?。赫麄€北約打不過俄羅斯?把德國逼下場會讓俄軍絕望

寰球經(jīng)緯所
2026-04-24 15:00:27
馬英九之女:全臺灣男人的夢中情人,被日媒稱“全球第四美千金”

馬英九之女:全臺灣男人的夢中情人,被日媒稱“全球第四美千金”

探源歷史
2026-04-26 08:40:52
楊冪懷二胎了!?

楊冪懷二胎了???

八卦瘋叔
2026-04-27 10:49:40
1959年毛主席請曾志吃飯,曾志忐忑追問:能否請你去見一位老熟人

1959年毛主席請曾志吃飯,曾志忐忑追問:能否請你去見一位老熟人

顧史
2026-04-27 07:32:53
45歲宋佳:陪玩陪睡、風(fēng)流成性傳聞?wù)嫦嘟颐?>
    </a>
        <h3>
      <a href=暗香暗香
2026-03-23 04:26:38
摩爾線程盤中一度漲12%

摩爾線程盤中一度漲12%

每日經(jīng)濟新聞
2026-04-27 10:24:18
南瓜子被點名!醫(yī)生提醒:肺結(jié)節(jié)患者常吃南瓜子,或迎來6個后果

南瓜子被點名!醫(yī)生提醒:肺結(jié)節(jié)患者常吃南瓜子,或迎來6個后果

任醫(yī)生聊健康
2026-04-27 09:49:39
黑衣美女,顏值真高

黑衣美女,顏值真高

藍色海洋009
2026-04-24 21:32:46
10年前,易建聯(lián)花1000萬在洛杉磯買下豪宅,如今出售市值多少?

10年前,易建聯(lián)花1000萬在洛杉磯買下豪宅,如今出售市值多少?

阿庫財經(jīng)
2026-04-24 14:26:45
美伊戰(zhàn)爭的轉(zhuǎn)折點,終于來了!北約集體反水,世界正加速向東看

美伊戰(zhàn)爭的轉(zhuǎn)折點,終于來了!北約集體反水,世界正加速向東看

小蔑談事
2026-04-27 08:45:36
勞務(wù)派遣在央國企殺瘋了!

勞務(wù)派遣在央國企殺瘋了!

燈錦年
2026-04-21 17:56:52
一首“偽造”的唐詩,意外火了幾百年,考證發(fā)現(xiàn)唐朝根本沒這詩人

一首“偽造”的唐詩,意外火了幾百年,考證發(fā)現(xiàn)唐朝根本沒這詩人

明月清風(fēng)閣
2026-04-26 08:50:10
西方承認,經(jīng)過中東這一仗才發(fā)現(xiàn),中國手里3張王牌,別人玩不來

西方承認,經(jīng)過中東這一仗才發(fā)現(xiàn),中國手里3張王牌,別人玩不來

混沌錄
2026-04-22 19:19:05
2026-04-27 13:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12866文章數(shù) 142636關(guān)注度
往期回顧 全部

科技要聞

打1折!DeepSeek輸入緩存降價

頭條要聞

女子將車停車庫沒動卻被認定要為事故擔(dān)次責(zé) 交管回應(yīng)

頭條要聞

女子將車停車庫沒動卻被認定要為事故擔(dān)次責(zé) 交管回應(yīng)

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

《奔跑吧14》剛播就把一手好牌打稀爛

財經(jīng)要聞

DeepSeek融資、字節(jié)加碼 AI開始真燒錢了

汽車要聞

在不確定中尋找確定性:大眾汽車的中國解法

態(tài)度原創(chuàng)

房產(chǎn)
家居
教育
數(shù)碼
健康

房產(chǎn)要聞

新一輪教育大爆發(fā)來了!???,開始瘋狂建學(xué)校!

家居要聞

江景風(fēng)格 流動的秩序

教育要聞

“這個世界太不公平了”,36E女孩曬考研北大,數(shù)學(xué)滿分全網(wǎng)羨慕

數(shù)碼要聞

輕薄本搭載2.5GbE RJ45,System76推出Pangolin Pro (2026)

干細胞如何讓燒燙傷皮膚"再生"?

無障礙瀏覽 進入關(guān)懷版