国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

以人為中心的開放性任務(wù)發(fā)現(xiàn):建模、評測與可擴(kuò)展樹搜索

0
分享至

以人為中心的開放性任務(wù)發(fā)現(xiàn):建模、評測與可擴(kuò)展樹搜索

Human-Centric Open-Future Task Discovery: Formulation, Benchmark,and Scalable Tree-Based Search

https://arxiv.org/pdf/2511.18929v1


摘要
最近,機(jī)器人技術(shù)和具身人工智能(Embodied AI)的發(fā)展在很大程度上是由大型多模態(tài)模型(LMMs)推動(dòng)的。然而,一個(gè)關(guān)鍵挑戰(zhàn)仍未得到充分探索:我們?nèi)绾瓮七M(jìn)LMMs去發(fā)現(xiàn)那些能夠在開放未來場景中直接協(xié)助人類的任務(wù),這些場景中人類的意圖高度并發(fā)且動(dòng)態(tài)變化。在這項(xiàng)工作中,我們正式提出了“以人為中心的開放未來任務(wù)發(fā)現(xiàn)(HOTD)”這一問題,特別關(guān)注識別那些能夠減少人類在未來多種可能情境中的工作量的任務(wù)。為了促進(jìn)這一研究,我們提出了HOTD-Bench,它包含超過2000段真實(shí)世界的視頻、一個(gè)半自動(dòng)化的標(biāo)注流程,以及一個(gè)為開放集未來評估量身定制的基于仿真的協(xié)議。此外,我們提出了協(xié)作多智能體搜索樹(CMAST)框架,該框架通過一個(gè)多智能體系統(tǒng)將復(fù)雜的推理過程分解,并通過一個(gè)可擴(kuò)展的搜索樹模塊來結(jié)構(gòu)化推理過程。在我們的實(shí)驗(yàn)中,CMAST在HOTD-Bench上實(shí)現(xiàn)了最佳性能,顯著超過了現(xiàn)有的LMMs。它還能夠很好地與現(xiàn)有的LMMs集成,持續(xù)提升性能。

引言
機(jī)器人技術(shù)和具身人工智能的發(fā)展為在日常生活中協(xié)助人類帶來了巨大希望。最近,大型多模態(tài)模型(LMMs)的進(jìn)展顯著加速了這一過程,使機(jī)器人在各個(gè)領(lǐng)域具備了卓越的智能(Khandelwal等人,2022;Liang等人,2023;Lin等人,2023b;Driess等人,2023;Huang等人,2023;Yu等人,2023;Yuan等人,2024,2025c)。最近,研究開始利用大型多模態(tài)模型(LMMs)使機(jī)器人能夠在未見過的環(huán)境中自主獲取新技能和經(jīng)驗(yàn),這一概念被稱為自主技能獲。╖hou等人,2024;Ahn等人,2024;Yang等人,2024b;Katara、Xian和Fragkiadaki,2024;Bharadhwaj等人,2024)。

自主智能體的一個(gè)核心能力是任務(wù)發(fā)現(xiàn),其中LMMs為機(jī)器人提出要執(zhí)行的操作任務(wù)(Wang等人,2023b;Ahn等人,2024;Yang等人,2024b;Bharadhwaj等人,2024)。盡管最近的方法側(cè)重于根據(jù)當(dāng)前觀察生成任務(wù),但它們通常假設(shè)目標(biāo)是固定的或環(huán)境是封閉的。然而,現(xiàn)實(shí)世界中的人類情境要復(fù)雜得多:人們通常會同時(shí)參與多個(gè)子過程,動(dòng)態(tài)地改變意圖,并且很少明確所有未來的步驟。這引發(fā)了以人為中心的開放未來任務(wù)發(fā)現(xiàn)的關(guān)鍵問題——推斷出在多樣化且不確定的未來軌跡中仍然有用的任務(wù)。

與傳統(tǒng)任務(wù)發(fā)現(xiàn)不同,傳統(tǒng)任務(wù)發(fā)現(xiàn)旨在找到通往已知結(jié)果的下一步最佳操作,而開放未來發(fā)現(xiàn)必須預(yù)見一系列可能的未來,并識別出支持所有這些未來的行為。例如,如圖1所示,協(xié)助家務(wù)的機(jī)器人應(yīng)該主動(dòng)擦拭桌子——無論人類接下來是做飯、打掃還是休息,這個(gè)任務(wù)仍然有用。解決這個(gè)問題對于使機(jī)器人能夠在動(dòng)態(tài)的、以人類為中心的環(huán)境中提供預(yù)見性的、可泛化的支持至關(guān)重要。這是實(shí)現(xiàn)真正與人類意圖一致的協(xié)作人工智能的必要步驟,而不僅僅是響應(yīng)式的。

鑒于這些重要但被忽視的方面,我們引入了以人為中心的開放未來任務(wù)發(fā)現(xiàn)這一新問題。為了清晰地研究它,我們首先正式定義了HOTD問題,其核心前提是:發(fā)現(xiàn)源于開放性未來可能性的人類中心任務(wù)。還提供了人類中心任務(wù)的正式定義以支持這一表述。

然而,在開放未來場景下評估任務(wù)發(fā)現(xiàn)性能面臨著重大挑戰(zhàn)。正如上文所述,人類行為的并發(fā)性導(dǎo)致可能的未來分支呈指數(shù)級增長,這使得標(biāo)注所有有用任務(wù)的完整集合變得成本過高。此外,依賴人類標(biāo)注者可能會引入主觀偏見。為了解決這些問題,我們提出了HOTD-Bench以及一種基于仿真的評估方法。HOTD-Bench來源于現(xiàn)有的數(shù)據(jù)集,涵蓋了多樣化的真實(shí)世界活動(dòng)。仿真評估采用了一種區(qū)分性策略,避免了窮舉枚舉,同時(shí)確保與人類偏好保持一致。通過利用大型語言模型(LLMs)中的世界知識(Jin等人,2024;Gruver等人,2023;Cao等人,2024),我們的評估方法能夠適應(yīng)開放集假設(shè)性未來分支,包括在觀察到的情境中未實(shí)現(xiàn)的分支。這緩解了純觀察性評估的局限性,能夠全面評估實(shí)際和理論上最優(yōu)的任務(wù)分解。在HOTD-Bench上的實(shí)驗(yàn)結(jié)果表明,現(xiàn)有的LMMs在HOTD上的性能僅達(dá)到有限水平。

為了彌合這一差距,我們引入了協(xié)作多智能體搜索樹框架(CMAST)。我們的核心思想是構(gòu)建程序結(jié)構(gòu)的搜索樹,并據(jù)此識別適當(dāng)?shù)娜蝿?wù)。我們的框架有兩個(gè)主要?jiǎng)?chuàng)新點(diǎn)。首先,CMAST引入了一個(gè)搜索樹模塊,以明確地結(jié)構(gòu)化推理過程。通過迭代構(gòu)建搜索樹,我們的模型捕捉了行動(dòng)程序的固有不確定性,徹底探索了各種未來場景。此外,搜索樹模塊允許進(jìn)行可擴(kuò)展的測試時(shí)思考,這是與OpenAI-O3(OpenAI,2025)和DeepSeekR1(Guo等人,2025)共享的一個(gè)關(guān)鍵特征。其次,CMAST采用了一個(gè)協(xié)作多智能體系統(tǒng),其中專業(yè)智能體管理推理的不同階段。這種協(xié)作有效地分解了復(fù)雜的推理過程,使每個(gè)智能體能夠?qū)W⒂谝粋(gè)特定方面,降低了難度。

實(shí)驗(yàn)結(jié)果表明,我們的框架在有效任務(wù)比率方面顯著優(yōu)于現(xiàn)有的LMMs,同時(shí)在有效任務(wù)數(shù)量方面保持了有競爭力的性能,顯示出其在HOTD中的強(qiáng)大優(yōu)勢。消融研究證實(shí)了搜索樹模塊的有效性,并表明我們的框架可以無縫地與各種LMMs集成。可視化進(jìn)一步說明了該框架通過探索多樣化的未來程序來建議適當(dāng)任務(wù)的能力。此外,實(shí)驗(yàn)驗(yàn)證了仿真器在合理推斷未來場景方面的有效性。

我們的主要貢獻(xiàn)如下:(1)我們引入并定義了以人為中心的開放未來任務(wù)發(fā)現(xiàn)問題,為有效的人機(jī)協(xié)作做出了貢獻(xiàn)。(2)我們建立了HOTD-Bench,包含來自兩個(gè)來源的2000多個(gè)真實(shí)世界視頻。我們提出了一個(gè)仿真器來推斷給定任務(wù)的未來結(jié)果,使任何未來軌跡的評估及其有用性的評估成為可能。(3)我們提出了CMAST框架來管理復(fù)雜的推理過程。實(shí)驗(yàn)表明,CMAST框架可以無縫集成各種現(xiàn)有的LMMs,并持續(xù)實(shí)現(xiàn)卓越的性能。

相關(guān)工作

自主技能獲取
這項(xiàng)技術(shù)鼓勵(lì)機(jī)器人在較少人類指導(dǎo)的情況下學(xué)習(xí)新技能(Bharadhwaj等人,2024;Ahn等人,2024)。一些研究關(guān)注基于仿真的學(xué)習(xí)(Wang等人,2023b,a;Zhao、Weber和Wermter,2024;Katara、Xian和Fragkiadaki,2024;Yang等人,2024b),利用大型多模態(tài)模型(LMMs)自動(dòng)生成仿真組件,例如場景資產(chǎn)和監(jiān)督。另一些研究則關(guān)注真實(shí)世界的學(xué)習(xí)(Ahn等人,2024;Zhou等人,2024)。它們通常利用LMMs推薦物理交互任務(wù),讓機(jī)器人嘗試這些任務(wù)并積累經(jīng)驗(yàn)。在本工作中,我們旨在進(jìn)一步增強(qiáng)LMMs提出任務(wù)的能力,專注于生成更有價(jià)值的任務(wù)來協(xié)助人類。通過這種增強(qiáng),我們希望機(jī)器人能夠獲得直接符合人類需求的技能。

增強(qiáng)LMMs以進(jìn)行復(fù)雜推理
最近的研究集中在增強(qiáng)LMMs以進(jìn)行復(fù)雜推理,常見的兩種方法是多智能體系統(tǒng)和思維鏈。多智能體系統(tǒng)部署多個(gè)智能體,將復(fù)雜問題分解為更小、更易于管理的子部分(Wu等人,2023;Hong等人,2023;Yuan等人,2025a;Yu等人,2025),這一方法已在各種應(yīng)用中得到驗(yàn)證(Yang等人,2024d,c;Aher、Arriaga和Kalai,2023)。思維鏈推理通過生成逐步導(dǎo)向最終答案的中間步驟來增強(qiáng)LMMs(Guo等人,2025;Yuan等人,2025b)。最顯著的模型包括DeepSeekR1(Guo等人,2025)、OpenAI-o1/o3(OpenAI,2024, 2025),這些模型具備可擴(kuò)展的測試時(shí)思考能力,隨著思考時(shí)間的延長,其推理效果不斷增強(qiáng)。受以往工作的啟發(fā),我們的方法結(jié)合了這兩種方法的優(yōu)勢。

相關(guān)視頻數(shù)據(jù)集
視頻理解一直是研究的重點(diǎn)。存在許多視頻理解數(shù)據(jù)集(Soomro,2012;Caba Heilbron等人,2015;Jia等人,2020;Damen等人,2022;Zeng等人,2024;Zhou等人,2023),其中一些與人類相關(guān)(Zellers等人,2019;Lei等人,2018;Grauman等人,2022)。然而,現(xiàn)有的數(shù)據(jù)集沒有一個(gè)專注于任務(wù)發(fā)現(xiàn),即為人類提供支持性任務(wù)。在本工作中,我們基于現(xiàn)有的視頻數(shù)據(jù)集策劃了我們的基準(zhǔn)測試,并開發(fā)了一種評估方法來評估任何發(fā)現(xiàn)任務(wù)的貢獻(xiàn)。

公式化

問題公式化



對于開放性未來可能性的概念,我們沒有明確定義它。相反,我們依賴于模擬評估,這適應(yīng)了開放性未來場景,并根據(jù)人類偏好估計(jì)結(jié)果。

以人為中心任務(wù)的定義

為了明確理解HOTD,我們開發(fā)了一個(gè)系統(tǒng)性定義,明確了以人為中心的任務(wù)是什么。具體來說,以人為中心的任務(wù)被定義為有助于實(shí)現(xiàn)人類目標(biāo)的可執(zhí)行動(dòng)作。

首先,每個(gè)以人為中心的任務(wù)對應(yīng)于機(jī)器人可以執(zhí)行的特定動(dòng)作。我們遵循Moeslund等人(Moeslund, Hilton, 和 Krüger 2006)引入的三級分類法,“動(dòng)作原語”、“動(dòng)作”和“活動(dòng)”。以人為中心的任務(wù)被定義為第二級,確保它們既不過于狹窄而缺乏意義,也不過于寬泛而使機(jī)器人困惑。



這樣的區(qū)分性定義特別合適且必要,因?yàn)槿祟愓J(rèn)知的復(fù)雜性使得規(guī)定性定義不可行。

基準(zhǔn)

數(shù)據(jù)收集

為了在實(shí)際場景下評估模型的性能,我們從兩個(gè)現(xiàn)有數(shù)據(jù)集中構(gòu)建我們的數(shù)據(jù)集:豐田智能家居未剪輯(TSU)(Das等人,2019年;Dai等人,2022年)和Charades(CHA)(Sigurdsson等人,2016年)。它們提供了來自兩個(gè)分布的各種真實(shí)世界活動(dòng)。我們應(yīng)用滑動(dòng)窗口來分割視頻并過濾掉低質(zhì)量樣本,最終得到2450個(gè)精選片段,總計(jì)近40小時(shí)。TSU和CHA子集分別貢獻(xiàn)了2K和0.4K個(gè)視頻。

通過模擬評估

在開放未來設(shè)置下,我們的評估旨在量化預(yù)測集中包含多少以人為中心的任務(wù)。然而,這種評估并非易事。一種直接的方法是讓人類標(biāo)注者標(biāo)記所有有幫助的任務(wù)。雖然直觀,但由于標(biāo)注者的主觀性和徹底標(biāo)記指數(shù)級多的未來分支的高昂成本,這種方法是不切實(shí)際的(見圖1)。相反,驗(yàn)證給定任務(wù)是否有幫助要容易得多,因?yàn)樗恍枰烙?jì)在公式(2)和公式(3)中引入的成本。這促使我們使用模擬作為評估工具。模擬器可以靈活地模擬在任何假設(shè)任務(wù)插入下未來將如何展開,從而能夠評估任意候選軌跡。


圖2上半部分展示了所提出的基于模擬的評估方法。對于沒有機(jī)器人干預(yù)的序列,它直接模擬未來過程。對于有機(jī)器人干預(yù)的序列,它模擬人類適應(yīng)并重建完整序列。然后使用生成的軌跡來估計(jì)產(chǎn)生的成本。這種方法的一個(gè)核心優(yōu)勢在于其生成性質(zhì),這不僅允許評估觀察到的軌跡,還允許評估數(shù)據(jù)集之外的任何假設(shè)未來,從而捕捉可能比明確執(zhí)行的更優(yōu)的場景。


在我們的實(shí)現(xiàn)中,我們采用大型語言模型(LLM)作為模擬器,這已被證明能夠可靠地推斷未來演變(Jin等人,2024年;Gruver等人,2023年;Cao等人,2024年),同時(shí)也符合人類偏好并最小化主觀偏見(Rafailov等人,2023年;Bai等人,2022年)。潛在目標(biāo) z 是根據(jù)整個(gè)視頻預(yù)先標(biāo)注的。成本以時(shí)間消耗來定義。為了減輕絕對時(shí)間估計(jì)引起的敏感性,我們的模擬器通過比較有無機(jī)器人干預(yù)的兩個(gè)動(dòng)作序列來評估相對時(shí)間成本。


通過標(biāo)簽評估


方法

搜索樹模塊

HOTD推理不僅需要理解視覺內(nèi)容,還需要分析開放未來過程。為此,我們構(gòu)建了一個(gè)搜索樹,明確表示開放未來的行動(dòng)空間,從而能夠明確探索未來場景。此外,它支持靈活的擴(kuò)展和修剪,促進(jìn)可擴(kuò)展的測試時(shí)思考,從而實(shí)現(xiàn)全面的答案,這是與OpenAI-O3(OpenAI 2025)和DeepSeek-R1(Guo等人,2025年)共享的一個(gè)關(guān)鍵特征。

搜索樹由一組節(jié)點(diǎn)和邊組成:。每個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)單獨(dú)的動(dòng)作。節(jié)點(diǎn)之間的邊表示時(shí)間順序。樹中的前N個(gè)節(jié)點(diǎn)表示由輸入視頻確定的歷史動(dòng)作序列,公式化為:


其中 g 是一個(gè)節(jié)點(diǎn)擴(kuò)展函數(shù),我們將在公式(6)中介紹。隨著樹的進(jìn)展,多個(gè)分支捕獲各種可能的動(dòng)作序列。樹中的葉節(jié)點(diǎn)表示整個(gè)活動(dòng)的完成,我們稱之為“完成活動(dòng)”。

搜索樹支持幾種搜索策略。為了平衡性能和效率,我們采用概率閾值為0.5的修剪窮盡搜索。替代策略在第6.3節(jié)中討論。

協(xié)作多智能體系統(tǒng)

受到之前工作的啟發(fā)(Wu等人,2023年;Hong等人,2023年;Yu等人,2025年),我們開發(fā)了一個(gè)多智能體系統(tǒng)來構(gòu)建HOTD問題中的推理過程。工作流程如圖3所示。我們的關(guān)鍵思想是通過將每個(gè)智能體與搜索樹的特定階段對齊來分解復(fù)雜問題,例如初始化、擴(kuò)展、修剪和后處理。這種設(shè)計(jì)不僅保留了大型語言模型(LLMs)的泛化能力,還實(shí)現(xiàn)了與各種LLMs的無縫集成。



第三,從初始搜索樹開始,三個(gè)智能體被用來迭代擴(kuò)展搜索樹。在每次迭代中,下一個(gè)動(dòng)作預(yù)測智能體預(yù)測給定整個(gè)動(dòng)作路徑到現(xiàn)在的下一個(gè)即時(shí)動(dòng)作。而概率估計(jì)智能體預(yù)測每個(gè)子節(jié)點(diǎn)的概率,為排序和修剪提供參考。我們手動(dòng)將“完成活動(dòng)”節(jié)點(diǎn)添加到每個(gè)非葉節(jié)點(diǎn)。當(dāng)上述兩個(gè)智能體擴(kuò)展搜索樹時(shí),冗余移除智能體被用來修剪冗余節(jié)點(diǎn)。這三個(gè)智能體迭代工作,直到所有未擴(kuò)展的節(jié)點(diǎn)都是葉節(jié)點(diǎn)或達(dá)到最大樹高。設(shè) g 表示上述三個(gè)智能體的組合,擴(kuò)展過程可以寫為:


第四,通過遍歷所有路徑,搜索樹被格式化為一組動(dòng)作序列。采用依賴識別智能體來識別并排除具有前提條件的動(dòng)作,僅保留那些可執(zhí)行的動(dòng)作。

最后,我們拆除順序結(jié)構(gòu),得到一組獨(dú)立的動(dòng)作。任務(wù)轉(zhuǎn)換智能體被用來將每個(gè)動(dòng)作從機(jī)器人的角度轉(zhuǎn)換為任務(wù)描述,公式化為:


實(shí)現(xiàn)細(xì)節(jié)

我們的框架完全不需要訓(xùn)練,不需要對整個(gè)系統(tǒng)或任何子模塊進(jìn)行微調(diào)。這種設(shè)計(jì)允許各種大型語言模型(LLMs)無縫集成。具體來說,場景描述智能體、歷史動(dòng)作識別智能體和下一個(gè)動(dòng)作預(yù)測智能體是LLM智能體,使用LLaVA-Next-Video(Zhang等人,2024年)實(shí)現(xiàn),其他三個(gè)智能體是LLM智能體,使用Qwen-LM(Yang等人,2024a)實(shí)現(xiàn)。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

基線。我們在HOTDBench上進(jìn)行定量研究,以評估以下開源大型多模態(tài)模型(LMMs)的HOTD能力:Qwen2-VL(Wang等人,2024年)、Qwen2.5-VL(Team 2025年)、InternVL2(Team 2024年)、InternVL2.5(Chen等人,2024年)、Video-LLaVA(Lin等人,2023a)、LLaVA-Next-Video(Zhang等人,2024年)。對于這些基線,我們給它們提供視頻,并直接提示它們推薦一些輔助任務(wù)。

評估指標(biāo)。我們建立了兩個(gè)評估指標(biāo),有效任務(wù)計(jì)數(shù)和有效任務(wù)比例,對應(yīng)于公式(1)中的兩個(gè)目標(biāo)。有效任務(wù)計(jì)數(shù),表示為‘vc’,衡量發(fā)現(xiàn)的平均有用任務(wù)數(shù)量,表明模型識別多樣化有用任務(wù)的能力。有效任務(wù)比例,表示為‘vr’,衡量每次預(yù)測中有用任務(wù)的平均比例,表明模型輸出的可靠性和精確度。它們的公式如下所示,其中N表示樣本數(shù)量:


在本文的大多數(shù)實(shí)驗(yàn)中,我們報(bào)告了兩種評估方法(通過模擬和標(biāo)簽)的結(jié)果。我們還測量了不同觀察長度的視頻,并使用‘@’來區(qū)分。例如,‘vc@40’表示在40秒觀察下給出的指標(biāo)。

進(jìn)一步分析

比較現(xiàn)有LMMs;诒1的結(jié)果,我們進(jìn)一步分析現(xiàn)有LMMs的性能。值得注意的是,有效任務(wù)計(jì)數(shù)和有效任務(wù)比例之間通常存在權(quán)衡。例如,Internvl2-8B(Team 2024)在基線中實(shí)現(xiàn)了最高的有效任務(wù)比例,但有效任務(wù)計(jì)數(shù)較低,表明預(yù)測過于保守。LLaVA-Next-Video7B(Zhang等人,2024年)在基線中實(shí)現(xiàn)了最高的有效任務(wù)計(jì)數(shù),但有效任務(wù)比例較低,表明預(yù)測過于激進(jìn),包含許多無效任務(wù)。此外,在我們的實(shí)驗(yàn)中,較大的模型并沒有比較小的模型提供明顯的優(yōu)勢。這表明,在這種設(shè)置下,擴(kuò)大規(guī)模并不一定增強(qiáng)任務(wù)發(fā)現(xiàn)能力?傮w而言,當(dāng)前的LMMs在解決HOTD問題上仍面臨顯著挑戰(zhàn)。


模擬器的可靠性。為了調(diào)查模擬器是否與人類偏好一致,我們進(jìn)行了人類評估。我們隨機(jī)選擇了25個(gè)被模擬器標(biāo)記為有幫助和25個(gè)無幫助的任務(wù),并將它們以混合順序呈現(xiàn)給5名標(biāo)注者。標(biāo)注者獨(dú)立判斷每個(gè)任務(wù)是否有幫助。如圖4所示,被模擬器判斷為有幫助的任務(wù)大多被人類認(rèn)為是有幫助的,無幫助的任務(wù)也是如此。結(jié)果表明,模擬器可靠地反映了人類的偏好,提供了準(zhǔn)確的評估。

模擬器的案例研究。圖7展示了我們的模擬器生成的未來推斷,證明了它能夠模擬人類對響應(yīng)的動(dòng)作,即使是在數(shù)據(jù)集中沒有明確觀察到的場景。例如,在最后一行中,它成功預(yù)測了由于機(jī)器人的動(dòng)作,人需要取回杯子,這是一個(gè)否則不會發(fā)生的事件。這些例子突出了我們基于LLM的模擬器的有效性,因?yàn)樗峁┝藢λ屑僭O(shè)任務(wù)的可靠和全面的評估。


搜索樹模塊的消融研究。我們進(jìn)行了消融研究,以檢查搜索樹模塊的整體貢獻(xiàn)。結(jié)果如圖5所示!癈MASTmain”是我們的主要版本!癈MAST w/o tree”移除了整個(gè)搜索樹模塊,用一個(gè)直接預(yù)測未來動(dòng)作的LMM代理替換它。從結(jié)果可以看出,替換整個(gè)搜索樹模塊使有效任務(wù)比例降低了37%。這表明單個(gè)LMM代理可能會產(chǎn)生受限的預(yù)測路徑。相反,搜索樹模塊通過提供明確和結(jié)構(gòu)化的程序空間來解決這個(gè)問題,允許對不同的動(dòng)作程序進(jìn)行徹底檢查。

搜索策略的消融研究。圖6中的結(jié)果比較了不同的搜索策略,其中‘CMAST-beam=k’表示束寬度為k的束搜索策略。雖然貪婪搜索策略(beam=1)最高效,但每段視頻僅發(fā)現(xiàn)1.4個(gè)有益任務(wù)。隨著我們采用越來越耗時(shí)的搜索策略,模型表現(xiàn)出越來越好的性能,發(fā)現(xiàn)的任務(wù)數(shù)量顯著增加,而準(zhǔn)確率基本保持不變。這表明,通過擴(kuò)大測試時(shí)的思考,我們的模型能夠探索更廣泛的未來情況并覆蓋更多有價(jià)值的任務(wù)。

組件智能體的選擇。我們進(jìn)一步進(jìn)行實(shí)驗(yàn),以研究選擇不同組件智能體的詳細(xì)影響。具體來說,我們用不同的LMM替換我們框架中的LMM智能體,生成以下變體:CMAST-LLaVA,這是我們的主要版本,CMAST-InternVL2,使用InternVL28B(Team 2024),CMAST-Qwen2,使用Qwen2-VL7B(Wang等人,2024年)。此外,我們還報(bào)告了每種變體對應(yīng)的普通LMM。結(jié)果如圖5所示。與單獨(dú)使用的相同LMM相比,我們框架中的LMM將有效任務(wù)比例提高了至少39%。結(jié)果證實(shí),使用不同的組件智能體始終能增強(qiáng)我們模型的性能,突出了其與各種LMM無縫集成的能力。

與人類表現(xiàn)的比較。這部分研究CMAST是否能達(dá)到人類水平的性能。為此,我們隨機(jī)選擇了10個(gè)示例,并要求人類參與者發(fā)現(xiàn)任務(wù)。結(jié)果如圖8所示,CMAST框架實(shí)現(xiàn)了與人類水平相當(dāng)?shù)男阅。我們展示這個(gè)實(shí)驗(yàn)并不是要聲稱我們的方法已經(jīng)超越了人類能力,而是為了展示其潛力和觀察到的有趣現(xiàn)象。至于兩種評估方法表現(xiàn)出的差異,我們將在附錄中討論。


案例研究。圖9可視化了CMAST的推理過程,展示了其探索各種程序和建議適當(dāng)任務(wù)的能力。更多示例可以在附錄中找到。


結(jié)論

我們引入并形式化了以人為中心的開放未來任務(wù)發(fā)現(xiàn)問題,使大型多模態(tài)模型(LMMs)能夠識別直接協(xié)助人類的任務(wù)。為了研究這一問題,我們提出了HOTD-Bench,這是一個(gè)包含超過2K個(gè)真實(shí)世界視頻的基準(zhǔn),涵蓋了多種活動(dòng),并結(jié)合了一種基于模擬的協(xié)議,評估超出觀察軌跡的開放集未來。為了實(shí)現(xiàn)穩(wěn)定的評估,我們還提供了通過半自動(dòng)化流程標(biāo)注的開放詞匯任務(wù)標(biāo)簽。我們進(jìn)一步提出了協(xié)作多智能體搜索樹框架,該框架利用多智能體系統(tǒng)和可擴(kuò)展的搜索樹模塊來構(gòu)建復(fù)雜的推理。實(shí)驗(yàn)表明,有效任務(wù)計(jì)數(shù)和有效任務(wù)比例都有顯著提升,并且在與現(xiàn)有LMMs集成時(shí)持續(xù)改進(jìn)。

原文鏈接:https://arxiv.org/pdf/2511.18929v1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

阿SIR觀察
2026-01-27 10:38:05
高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

高詩巖單節(jié)15分!山東男籃逆轉(zhuǎn)黑馬,克里斯低迷,兩大功臣發(fā)威

牛眼看球
2026-01-27 21:45:55
徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

徐文海、程用文、雷文潔已任湖北省人大常委會黨組成員

澎湃新聞
2026-01-27 13:57:11
江蘇一餐飲老板李金良去世,僅37歲,新店才幾個(gè)月,妻子心都碎了

江蘇一餐飲老板李金良去世,僅37歲,新店才幾個(gè)月,妻子心都碎了

深析古今
2026-01-27 09:48:29
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

央視坐實(shí)!成本2元售價(jià)19800元!不少人受騙,趕緊別用了

白色得季節(jié)
2026-01-27 21:30:49
要打就打痛!中國手段已升級,日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

要打就打痛!中國手段已升級,日本:中方不批準(zhǔn)駐重慶總領(lǐng)事任命

滄海旅行家
2026-01-27 17:17:15
凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

星耀國際足壇
2026-01-27 21:18:40
你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

你知道咱媽為何要拍《太平年》嗎?知道這是拍給誰看的嗎?

李健政觀察
2026-01-27 09:50:28
我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

我們贏了!中國成功研制全球首款二維芯片,ASML慌了:更可怕的還在后頭

芯火相承
2026-01-26 21:29:42
牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長必看

牢A爆火后留學(xué)圈炸了!陪讀媽媽、女留學(xué)生成狩獵目標(biāo),家長必看

烏娛子醬
2026-01-27 16:50:05
云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

云南“毒紅薯”后續(xù):10億產(chǎn)業(yè)崩盤,無辜農(nóng)戶欲哭無淚

過了法考的新聞人
2026-01-27 17:19:11
突擊檢查全國武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

突擊檢查全國武器庫!一定要嚴(yán)防被掉包,甲午戰(zhàn)爭悲劇絕不能重演

愛吃醋的貓咪
2026-01-27 20:31:00
紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

紫牛頭條|大連一業(yè)主斷水400天起訴鄰居被駁回,鄰里糾紛與管道謎團(tuán)陷僵局

揚(yáng)子晚報(bào)
2026-01-27 21:52:52
性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

性行為缺失會促癌?華中大最新:性行為缺失會削弱抗癌免疫力,保持性行為則有利于抗癌

醫(yī)諾維
2026-01-26 17:02:36
首都機(jī)場“大老虎”:下班飛澳門,早上坐專機(jī)上班,一晚輸600萬

首都機(jī)場“大老虎”:下班飛澳門,早上坐專機(jī)上班,一晚輸600萬

牛牛叨史
2026-01-27 23:54:21
在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進(jìn)醫(yī)院,盒馬回應(yīng)

瀟湘晨報(bào)
2026-01-27 18:01:05
小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時(shí)連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

小區(qū)內(nèi)裝卸鋼化玻璃,不到一小時(shí)連發(fā)兩起事故,有傷者送醫(yī)后身亡;家屬:用工方負(fù)責(zé)人已被逮捕

大風(fēng)新聞
2026-01-27 17:10:11
爬山遺失80克金吊墜男子:把對講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

爬山遺失80克金吊墜男子:把對講機(jī)掛在了金吊墜的鏈子上,快登頂才發(fā)現(xiàn)吊墜丟了,目前還沒找到

魯中晨報(bào)
2026-01-27 16:23:14
沉默24小時(shí)后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財(cái)長得寸進(jìn)尺

沉默24小時(shí)后,卡尼終于發(fā)聲,與中國協(xié)議作廢,美財(cái)長得寸進(jìn)尺

天仙無味小仙女
2026-01-28 00:41:45
2026-01-28 04:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

健康
家居
數(shù)碼
游戲
藝術(shù)

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

家居要聞

現(xiàn)代古典 中性又顯韻味

數(shù)碼要聞

這事你怎么看 索尼與TCL簽署意向備忘錄 網(wǎng)友:Sony變Tony了

LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

藝術(shù)要聞

震撼!19世紀(jì)油畫巨匠的作品美得不可思議!

無障礙瀏覽 進(jìn)入關(guān)懷版