国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

阿里發(fā)布信息檢索Agent,可自主上網(wǎng)查資料,GAIA基準(zhǔn)超越GPT-4o

0
分享至

不圓 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

Agent能“看懂網(wǎng)頁(yè)”,像人類一樣上網(wǎng)?

阿里發(fā)布WebDancer,就像它的名字一樣,為“網(wǎng)絡(luò)舞臺(tái)”而生。

只要輸入指令,它就可以幫你上網(wǎng)搜索、做攻略,實(shí)現(xiàn)自主信息檢索代理和類似深度研究模型的推理。

傳統(tǒng)模型只能按固定流程思考,而WebDancer作為一個(gè)端到端的自主信息搜索智能體,具備多步推理、工具使用和泛化能力。



WebDancer在GAIA和WebWalkerQA上分別取得了61.1%和54.6%的Pass@3分?jǐn)?shù),優(yōu)于基線模型和部分開源框架。

模型和方法均已開源,網(wǎng)友直呼想試:



WebDancer的秘密武器

不同于其它的推理問(wèn)答模型,WebDancer要像人類一樣思考、理解并操作,可不是一件簡(jiǎn)單的事情。

使用GAIA、WebWalkerQA和日常使用情況對(duì)WebDancer進(jìn)行演示,可以看到,WebDancer能夠執(zhí)行多步驟和復(fù)雜推理的長(zhǎng)期任務(wù),例如網(wǎng)頁(yè)遍歷、信息搜索和問(wèn)答。

它的“秘密武器”是一種四階段訓(xùn)練范式,包括瀏覽數(shù)據(jù)構(gòu)建、軌跡采樣、針對(duì)有效冷啟動(dòng)的監(jiān)督微調(diào)以及用于改進(jìn)泛化能力的強(qiáng)化學(xué)習(xí)。

阿里開源了這個(gè)訓(xùn)練框架,使除了WebDancer以外的智能代理也能夠自主獲取自主搜索和推理技能:

1、瀏覽數(shù)據(jù)構(gòu)建



這一步的目標(biāo)是創(chuàng)建覆蓋真實(shí)的網(wǎng)頁(yè)環(huán)境、需要多步交互的復(fù)雜QA對(duì)。

可以分為兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)生成流程,如上圖所示。

在CRAWLQA中,需要先收集知識(shí)性網(wǎng)站(ArXiv、GitHub、Wiki等)的主URL,然后在主頁(yè)上系統(tǒng)地點(diǎn)擊和收集通過(guò)子鏈接可訪問(wèn)的子頁(yè)面,模擬人類行為。

使用預(yù)定義規(guī)則,就可以利用GPT4o根據(jù)收集到的信息生成QA對(duì)(1.0版)了。

對(duì)于E2HQA(Easy-to-Hard QA)來(lái)說(shuō),將初始的簡(jiǎn)單問(wèn)題Q1通過(guò)實(shí)體檢索→信息擴(kuò)展→問(wèn)題重構(gòu)的步驟,使任務(wù)在復(fù)雜性上逐步擴(kuò)展,從簡(jiǎn)單的實(shí)例到更具挑戰(zhàn)性的實(shí)例。

依然是使用GPT-4o重寫問(wèn)題,直到迭代達(dá)到n,QA對(duì)足夠成熟。

2、軌跡采樣



這一步要從QA對(duì)中生成高質(zhì)量的思維-動(dòng)作-觀察(Thought-Action-Observation)執(zhí)行軌跡。

WebDancer的代理框架基于ReAct,這是語(yǔ)言代理最流行的方法,一個(gè)ReAct軌跡由多個(gè)思維-動(dòng)作-觀察輪次組成:

在思維階段,模型會(huì)根據(jù)輸入生成推理鏈,然后在動(dòng)作階段將參數(shù)為結(jié)構(gòu)化JSON,最后在觀察階段返回結(jié)果(如網(wǎng)頁(yè)摘要或搜索片段)

思維階段生成的思維鏈對(duì)智能體執(zhí)行十分重要,WebDancer采用了雙路徑采樣的方法,可分為短思維鏈和長(zhǎng)思維鏈兩條路徑:

  • 短思維鏈適用于單步驟任務(wù),直接使用GPT-4o生成簡(jiǎn)潔軌跡;
  • 長(zhǎng)思維鏈適用于多步驟任務(wù),使用專用推理模型(LRMs、QwQ-Plus)生成帶長(zhǎng)鏈推理的軌跡。



因?yàn)長(zhǎng)RM、QwQ-Plus在訓(xùn)練過(guò)程中沒(méi)有接觸過(guò)多步推理輸入,在進(jìn)一步推理時(shí),WebDancer排除了之前的思維,但它們作為有價(jià)值的監(jiān)督信號(hào)保留在了生成的軌跡中。

隨后,WebDancer采用了一個(gè)基于漏斗的三階段軌跡過(guò)濾框架,僅保留滿足以下三個(gè)標(biāo)準(zhǔn)的軌跡:信息非冗余、目標(biāo)一致性以及邏輯推理準(zhǔn)確性。

3、有監(jiān)督微調(diào)



在獲得ReAct格式的優(yōu)質(zhì)軌跡后,就可以將其無(wú)縫整合到智能體的有監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)訓(xùn)練階段,這個(gè)步驟可以教會(huì)模型基礎(chǔ)的任務(wù)分解與工具調(diào)用能力,同時(shí)盡可能保留其原有的推理能力。

在SFT階段,要先將軌跡轉(zhuǎn)換為標(biāo)記化輸入,明確分隔符,然后計(jì)算Thought和Action部分的損失(忽略O(shè)bservation噪聲),損失公式如下:



其中tc

是任務(wù)上下文,



為完整的智能體執(zhí)行軌跡,每個(gè)



代表思考/行動(dòng)/觀察,



過(guò)濾掉對(duì)應(yīng)外部反饋的標(biāo)記,確保損失是在代理的自主決策步驟上計(jì)算的。

SFT階段為后續(xù)的RL階段提供了強(qiáng)大的初始化。

4、強(qiáng)化學(xué)習(xí)

這一步的目標(biāo)是優(yōu)化代理在真實(shí)網(wǎng)絡(luò)環(huán)境中的決策能力和泛化能力。

在SFT階段的基礎(chǔ)上,本階段采用解耦裁剪動(dòng)態(tài)采樣策略優(yōu)化算法(Decoupled Clip and Dynamic Sampling Policy Optimization,DAPO)來(lái)精調(diào)策略模型。

DAPO是一種基于獎(jiǎng)勵(lì)模型R的策略優(yōu)化算法,其工作原理如下:

首先,對(duì)于每個(gè)包含部分答案



的階段軌跡



,算法生成一組候選執(zhí)行序列



。通過(guò)最大化以下目標(biāo)更新策略:



隨后,過(guò)采樣并過(guò)濾準(zhǔn)確率為1或0的提示(prompts),確保智能體聚焦于高質(zhì)量信號(hào)的學(xué)習(xí)。

最后,采用新舊策略的概率比替代固定KL懲罰項(xiàng):





獎(jiǎng)勵(lì)設(shè)計(jì)在RL訓(xùn)練過(guò)程中起著至關(guān)重要的作用,WebDancer的獎(jiǎng)勵(lì)機(jī)制主要由兩種類型的獎(jiǎng)勵(lì)組成,分別為格式獎(jiǎng)勵(lì)和答案獎(jiǎng)勵(lì),權(quán)重分別為0.1和0.9。

最終獎(jiǎng)勵(lì)函數(shù)為:

有效性分析



在GAIA和WebWalkerQA這兩個(gè)成熟的基準(zhǔn)數(shù)據(jù)集上測(cè)試WebDancer,結(jié)果顯示,WebDancer在GAIA上達(dá)到46.6%的平均準(zhǔn)確率,WebWalkerQA上達(dá)到43.2%,優(yōu)于基線模型和部分開源智能體框架。

可以看到,不具備代理能力的框架(No Agency)在GAIA和WebWalkerQA基準(zhǔn)測(cè)試中均表現(xiàn)不佳,這突出了主動(dòng)信息搜索和代理決策對(duì)于這些任務(wù)的重要性。

閉源代理系統(tǒng)OpenAI DR通過(guò)端到端強(qiáng)化學(xué)習(xí)訓(xùn)練實(shí)現(xiàn)了最高分,在開源框架中,基于原生強(qiáng)推理模型(如QwQ-32B)構(gòu)建的代理方法始終優(yōu)于非代理對(duì)應(yīng)方法,證明了在代理構(gòu)建中利用推理專用模型的有效性。



在兩個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集BrowseComp(英文)和BrowseComp-zh(中文)上測(cè)試WebDancer,均表現(xiàn)出持續(xù)強(qiáng)勁的性能,突顯了其在處理困難推理和信息搜索任務(wù)中的魯棒性和有效性。



鑒于智能體環(huán)境的動(dòng)態(tài)性和復(fù)雜性,以及GAIA測(cè)試集相對(duì)較小且變化較大的特點(diǎn),對(duì)Pass@3和Cons@3進(jìn)行細(xì)粒度分析。

值得注意的是,經(jīng)過(guò)RL后的Pass@1性能與SFT基線的Pass@3相當(dāng),表明RL能夠更有效地采樣正確響應(yīng)。

對(duì)于語(yǔ)言推理模型(LRMs),雖然經(jīng)過(guò)RL后Pass@1、Pass@3或Cons@3沒(méi)有顯著提升,但在一致性方面有明顯的改善;這可能是過(guò)長(zhǎng)軌跡導(dǎo)致的稀疏獎(jiǎng)勵(lì)信號(hào)所致。

參考鏈接:
https://x.com/_akhaliq/status/1937997314737553873
論文:https://arxiv.org/abs/2505.22648
github:https://github.com/Alibaba-NLP/WebAgent/tree/main/WebDancer
模型:https://huggingface.co/Alibaba-NLP/WebDancer-32B

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
細(xì)節(jié)曝光!上海一女律師被“精準(zhǔn)圍獵”,130萬(wàn)差點(diǎn)沒(méi)了!

細(xì)節(jié)曝光!上海一女律師被“精準(zhǔn)圍獵”,130萬(wàn)差點(diǎn)沒(méi)了!

上觀新聞
2025-12-19 14:17:12
高層工業(yè)建筑著火,樓下多輛車受波及燃燒起來(lái);天津消防:已撲滅,無(wú)傷亡

高層工業(yè)建筑著火,樓下多輛車受波及燃燒起來(lái);天津消防:已撲滅,無(wú)傷亡

大風(fēng)新聞
2025-12-18 23:53:02
廣東一知名酒店賣淫被停業(yè)!

廣東一知名酒店賣淫被停業(yè)!

上海當(dāng)?shù)貙?/span>
2025-12-19 13:23:21
1964年,毛主席看戲指著一人發(fā)問(wèn),蕭華上將冷汗直冒:這人到底是誰(shuí)?

1964年,毛主席看戲指著一人發(fā)問(wèn),蕭華上將冷汗直冒:這人到底是誰(shuí)?

史海孤雁
2025-12-15 22:28:07
北京一女子帶狗上桌吃涮肉舔盤子,目前該店鋪已暫停營(yíng)業(yè):16日-18日有消費(fèi)的客人,一倍賠償

北京一女子帶狗上桌吃涮肉舔盤子,目前該店鋪已暫停營(yíng)業(yè):16日-18日有消費(fèi)的客人,一倍賠償

觀威海
2025-12-19 14:18:05
魏建軍再開炮!推出購(gòu)車防忽悠指南,有些車企瑟瑟發(fā)抖

魏建軍再開炮!推出購(gòu)車防忽悠指南,有些車企瑟瑟發(fā)抖

象視汽車
2025-12-19 07:00:05
被撞員工已確認(rèn)死亡,撞人的小米新車司機(jī)恐承擔(dān)刑責(zé)

被撞員工已確認(rèn)死亡,撞人的小米新車司機(jī)恐承擔(dān)刑責(zé)

映射生活的身影
2025-12-18 22:56:32
印度百姓怒了,耗資340億造全球最高雕像,結(jié)果卻是中國(guó)制造?

印度百姓怒了,耗資340億造全球最高雕像,結(jié)果卻是中國(guó)制造?

小楊侃事
2025-12-19 10:50:27
北京男子張先生去世,年僅38歲,兒女上小學(xué),誤診20多天錯(cuò)過(guò)治療

北京男子張先生去世,年僅38歲,兒女上小學(xué),誤診20多天錯(cuò)過(guò)治療

愛寫的櫻桃
2025-12-19 14:16:15
日本天皇親自出山,對(duì)中國(guó)的反擊正式開始,高市早苗憋出了一妙計(jì)

日本天皇親自出山,對(duì)中國(guó)的反擊正式開始,高市早苗憋出了一妙計(jì)

阿離家居
2025-12-20 05:38:34
向高市早苗示好不到24小時(shí),張本底細(xì)被扒,父母的黑歷史也被翻出

向高市早苗示好不到24小時(shí),張本底細(xì)被扒,父母的黑歷史也被翻出

面包夾知識(shí)
2025-12-19 18:22:06
重慶舊城改造之現(xiàn)實(shí)版!四公里大拆遷,為何陷入了停滯?

重慶舊城改造之現(xiàn)實(shí)版!四公里大拆遷,為何陷入了停滯?

小樹聊房
2025-12-19 17:52:27
中國(guó)股市:如果接下來(lái)迎來(lái)牛市,你本金只有五萬(wàn),認(rèn)準(zhǔn)這兩條均線

中國(guó)股市:如果接下來(lái)迎來(lái)牛市,你本金只有五萬(wàn),認(rèn)準(zhǔn)這兩條均線

股經(jīng)縱橫談
2025-12-10 20:39:22
高市早苗的反擊計(jì)劃已全面出爐!動(dòng)手前,日方當(dāng)眾問(wèn)中國(guó)一個(gè)問(wèn)題

高市早苗的反擊計(jì)劃已全面出爐!動(dòng)手前,日方當(dāng)眾問(wèn)中國(guó)一個(gè)問(wèn)題

俺不接電話
2025-12-20 03:27:34
中方發(fā)話后,泰國(guó)開出?;饤l件,洪森父子倒向美國(guó),最大輸家已定

中方發(fā)話后,泰國(guó)開出?;饤l件,洪森父子倒向美國(guó),最大輸家已定

夢(mèng)史
2025-12-19 13:16:18
島內(nèi)民調(diào)公布,支持彈劾賴清德的人數(shù)驚人,民進(jìn)黨慫了,不簡(jiǎn)單

島內(nèi)民調(diào)公布,支持彈劾賴清德的人數(shù)驚人,民進(jìn)黨慫了,不簡(jiǎn)單

觀星賞月
2025-12-19 12:14:33
對(duì)越自衛(wèi)反擊戰(zhàn)勝利結(jié)束后,鄧小平不再兼任總參謀長(zhǎng),由楊得志接任該職務(wù),許世友也隨之離開軍隊(duì)

對(duì)越自衛(wèi)反擊戰(zhàn)勝利結(jié)束后,鄧小平不再兼任總參謀長(zhǎng),由楊得志接任該職務(wù),許世友也隨之離開軍隊(duì)

史海孤雁
2025-12-19 17:46:12
德國(guó)檔案館解密:八國(guó)聯(lián)軍總司令坦言 “中國(guó)永遠(yuǎn)征服不了”

德國(guó)檔案館解密:八國(guó)聯(lián)軍總司令坦言 “中國(guó)永遠(yuǎn)征服不了”

通文知史
2025-12-18 20:25:04
天津警方通報(bào):劉某某(男,23歲,該醫(yī)院護(hù)士)多次在護(hù)士辦公室內(nèi)實(shí)施偷拍行為并上傳網(wǎng)絡(luò),已被抓獲

天津警方通報(bào):劉某某(男,23歲,該醫(yī)院護(hù)士)多次在護(hù)士辦公室內(nèi)實(shí)施偷拍行為并上傳網(wǎng)絡(luò),已被抓獲

新京報(bào)政事兒
2025-12-19 16:19:04
特朗普對(duì)中國(guó)大挑釁來(lái)了,美國(guó)出爾反爾,中美休戰(zhàn)期提前結(jié)束?

特朗普對(duì)中國(guó)大挑釁來(lái)了,美國(guó)出爾反爾,中美休戰(zhàn)期提前結(jié)束?

阿芒娛樂(lè)說(shuō)
2025-12-20 05:10:32
2025-12-20 06:59:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11884文章數(shù) 176340關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

日元加息,恐慌來(lái)了?貨幣三國(guó)殺

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

健康
數(shù)碼
本地
手機(jī)
公開課

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

機(jī)械大師E06臥式ITX機(jī)箱上市:支持200mm長(zhǎng)半高顯卡,298元

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

手機(jī)要聞

19999起,三星Galaxy Z TriFold迎來(lái)首銷

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版