国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

LongHorizonUI:GUI 智能體面向長鏈路任務(wù)的統(tǒng)一魯棒自動(dòng)化框架

0
分享至



在移動(dòng)端和桌面端的日常使用中,許多操作并非點(diǎn)一下按鈕就能完成。預(yù)訂一場會(huì)議、在游戲商城中購買并裝備一件道具、又或者在多個(gè)應(yīng)用之間完成一組連貫的工作流 —— 這些任務(wù)通常需要十幾步甚至幾十步的連續(xù)交互。近年來,基于多模態(tài)大語言模型(MLLM)的 GUI 智能體在自動(dòng)化操作上取得了不少進(jìn)展,但一個(gè)很現(xiàn)實(shí)的問題始終存在:當(dāng)任務(wù)步數(shù)超過 10–15步,智能體的成功率會(huì)出現(xiàn)斷崖式下跌。

為解決這一問題,來自中國科學(xué)院大學(xué)、佐治亞理工學(xué)院、南開大學(xué)與騰訊互娛 Turing Lab 的研究人員共同提出了LongHorizonUI,一個(gè)面向 GUI 智能體長鏈路任務(wù)的統(tǒng)一魯棒自動(dòng)化框架。該成果已被ICLR 2026(The Fourteenth International Conference on Learning Representations)接收。論文提出了增強(qiáng)感知、深度反思決策與補(bǔ)償式執(zhí)行三大核心模塊,并構(gòu)建了首個(gè)專注于長鏈路場景的評測基準(zhǔn)LongGUIBench,系統(tǒng)地推動(dòng)了 GUI 自動(dòng)化在復(fù)雜真實(shí)場景中的可靠落地。



  • 論文標(biāo)題:LongHorizonUI: A Unified Framework for Robust Long-Horizon Task Automation of GUI Agent
  • 論文鏈接:https://openreview.net/pdf?id=BK7Mk5d4WE
  • 主頁:https://kane2kang.github.io/LongHorizonUI/



長鏈路場景下,智能體為何 "撐不住"?

研究團(tuán)隊(duì)首先在 AndroidControl 基準(zhǔn)上對多個(gè)主流方法做了按步長分段的性能評估。結(jié)果很直觀:當(dāng)操作序列在 5 步以內(nèi)時(shí),各方法的平均成功率超過 90%;但一旦序列長度超過 10 步,成功率便跌破 75%;到了 15 步以上,平均僅剩約 60%。

這種非線性的性能衰減說明,現(xiàn)有方法在長鏈路中無法有效捕捉跨步狀態(tài)依賴,感知漂移、定位偏差和決策誤差逐步疊加,最終導(dǎo)致整個(gè)流程崩潰。既有的公開基準(zhǔn)大多聚焦于短任務(wù)(典型不超過 10 步),也難以充分暴露這一問題。

于是研究團(tuán)隊(duì)提出了一個(gè)核心問題:如何讓 GUI 智能體在長步驟操作序列中始終保持上下文一致性與決策準(zhǔn)確性?



覆蓋應(yīng)用及游戲的長鏈路場景評測方案

為了在長鏈路場景下開展系統(tǒng)性評測,研究團(tuán)隊(duì)構(gòu)建了一個(gè)新的基準(zhǔn),所有任務(wù)的操作步數(shù)均不低于15 步,平均為 22.1 步。

數(shù)據(jù)集包含兩大類場景。通用應(yīng)用場景涵蓋了 Gmail、YouTube 等 15 款主流應(yīng)用,共 147 條端到端任務(wù)鏈,平均步數(shù) 19.5,涉及多級菜單導(dǎo)航、實(shí)時(shí)輸入驗(yàn)證等典型交互行為。游戲場景則由專業(yè)測試人員在 13 款熱門游戲 APP 中錄制,共 207 條高復(fù)雜度鏈路,平均步數(shù) 23.7,最長可達(dá) 37 步,覆蓋裝備管理、活動(dòng)參與等核心游戲機(jī)制。

每條任務(wù)同時(shí)提供兩級指令標(biāo)注:High-Level 指令描述宏觀目標(biāo)(如 "在游戲商城購買 XX 道具"),Low-Level 指令則分解為原子操作序列(如 "點(diǎn)擊商城按鈕"→"選擇購買")。所有操作步驟均配有精細(xì)的 UI 語義標(biāo)注,包括控件類型、bbox 坐標(biāo)和狀態(tài)屬性。全部數(shù)據(jù)合計(jì) 4508 張截圖,經(jīng) 6 位專業(yè)人員跨模態(tài)對齊和人工去噪后生成標(biāo)準(zhǔn)化標(biāo)注。

核心方法:三大模塊協(xié)同工作

LongHorizonUI 的核心設(shè)計(jì)理念是將 "語義決策" 到 "物理執(zhí)行" 之間的不確定性做分層處理??蚣苡扇齻€(gè)模塊組成,形成感知 — 決策 — 執(zhí)行的完整閉環(huán)。



多模態(tài)增強(qiáng)感知模塊(MEP)并行運(yùn)行控件檢測器與 OCR 識(shí)別模塊,為屏幕上每個(gè) UI 元素分配唯一的空間索引 ID,作為后續(xù)所有環(huán)節(jié)的穩(wěn)定錨點(diǎn)。為了解決 "圖標(biāo) + 文字" 這類復(fù)合控件的歧義問題,MEP 引入了基于 IoU 的語義綁定機(jī)制 —— 當(dāng)圖標(biāo)檢測框與 OCR 文本框的交并比超過設(shè)定閾值時(shí),將二者關(guān)聯(lián)為同一語義實(shí)體。此外,針對彈窗關(guān)閉按鈕等容易漏檢的關(guān)鍵元素,MEP 在高優(yōu)先區(qū)域設(shè)置了模板匹配修復(fù)機(jī)制,確保不會(huì)因漏檢而卡住整個(gè)流程。

深度反思決策模塊(DRD)通過嚴(yán)格定義的 JSON Schema 輸出格式,強(qiáng)制模型進(jìn)行三級閉環(huán)推理。第一級是歷史驗(yàn)證,檢查上一步操作是否成功執(zhí)行,UI 狀態(tài)轉(zhuǎn)換是否符合預(yù)期;第二級是目標(biāo)檢查,提取當(dāng)前屏幕的關(guān)鍵信息并與任務(wù)目標(biāo)進(jìn)行一致性比對;第三級是動(dòng)作可解釋推理,要求模型在給出執(zhí)行指令之前先說明當(dāng)前界面狀態(tài)、定位依據(jù)和操作理由。在執(zhí)行前,DRD 還會(huì)校驗(yàn)?zāi)繕?biāo)元素是否確實(shí)存在于當(dāng)前屏幕上、動(dòng)作語義是否與任務(wù)描述匹配,不滿足條件的動(dòng)作會(huì)被拒絕并觸發(fā)修正。

補(bǔ)償式執(zhí)行器(CAE)負(fù)責(zé)將決策層輸出的動(dòng)作指令映射到屏幕上的物理坐標(biāo)。執(zhí)行時(shí)按優(yōu)先級依次嘗試三種定位策略:首先通過元素索引定位到控件質(zhì)心點(diǎn)擊;若失敗則在檢測框內(nèi)隨機(jī)采樣一個(gè)點(diǎn)進(jìn)行相對定位點(diǎn)擊;仍然失敗則回退到屏幕絕對坐標(biāo)并添加微小擾動(dòng)以應(yīng)對邊緣遮擋情況。每次點(diǎn)擊后,MLLM 會(huì)對新截圖進(jìn)行驗(yàn)證判斷操作是否成功。當(dāng)所有候選方案均失敗時(shí),系統(tǒng)觸發(fā)局部重規(guī)劃;若依然無法恢復(fù),則回滾到上一個(gè)成功快照繼續(xù)執(zhí)行。

實(shí)驗(yàn)結(jié)果

在 LongGUIBench 上,LongHorizonUI 展現(xiàn)出對長鏈路任務(wù)的顯著優(yōu)勢。在通用場景中,低級指令的步驟成功率達(dá)到 85.3%,高級指令達(dá)到 52.3%,分別較 UI-TARS-1.5 提升了 6.1% 和 30.5%。在游戲場景中同樣保持明顯領(lǐng)先,低級指令 SR 達(dá) 83.9%,高級指令 SR 達(dá) 52.1%,整體平均 77.3%。

在 ScreenSpot 跨平臺(tái) UI 元素定位基準(zhǔn)上,LongHorizonUI 以 90.4% 的平均準(zhǔn)確率超越此前所有開源方法,在 Mobile、Desktop、Web 三個(gè)平臺(tái)上均表現(xiàn)穩(wěn)健,尤其在 Icon 類元素上優(yōu)勢突出,驗(yàn)證了 IoU 語義綁定策略的實(shí)際效果。

消融實(shí)驗(yàn)進(jìn)一步證實(shí)了各模塊的必要性:移除控件檢測器使步驟完成率下降 6.1%,移除 OCR 模塊導(dǎo)致 2.3% 的下降并在復(fù)合控件上頻繁出錯(cuò),僅使用索引定位的任務(wù)完成率為 81.4%,疊加補(bǔ)償策略后逐步提升至 85.3%。

此外,在 OSWorld 的 50 步長鏈路設(shè)置中,LongHorizonUI 達(dá)到 29.4% 的成功率,較 UI-TARS-72B 的 24.6% 提升了 4.8 個(gè)百分點(diǎn),進(jìn)一步驗(yàn)證了框架在超長鏈路場景下的魯棒性。

下圖展示了 LongHorizonUI 在真實(shí)任務(wù)中的逐步執(zhí)行可視化,包括感知標(biāo)注、決策推理和動(dòng)作執(zhí)行的完整過程:



總結(jié)

LongHorizonUI 為長鏈路 GUI 自動(dòng)化任務(wù)提供了一套完整的解決方案。通過索引化感知、結(jié)構(gòu)化反思決策和多級補(bǔ)償執(zhí)行的協(xié)同設(shè)計(jì),它有效緩解了長步驟操作中的誤差累積問題,在多個(gè)基準(zhǔn)上取得了一致的性能提升。同時(shí)構(gòu)建的 LongGUIBench 基準(zhǔn)也為該領(lǐng)域后續(xù)研究提供了標(biāo)準(zhǔn)化的評測平臺(tái)。

作者介紹

溫少國,本科、碩士均畢業(yè)于北京郵電大學(xué),現(xiàn)任騰訊高級算法研究員。長期從事計(jì)算機(jī)視覺、多模態(tài)大模型、智能體(Agent)等領(lǐng)域的研究與工程實(shí)踐,在相關(guān)方向擁有多年技術(shù)積累與研發(fā)經(jīng)驗(yàn)。

康斌,中國科學(xué)院大學(xué)成都計(jì)算機(jī)應(yīng)用研究所博士研究生(同時(shí)在哈爾濱工業(yè)大學(xué)(深圳)聯(lián)合培養(yǎng)),導(dǎo)師為陳斌研究員和田倬韜教授,研究方向聚焦于多模態(tài)視覺感知與交互,研究成果發(fā)表于:ICLR、ACMMM、CVPR、AAAI、ICME 等國際會(huì)議與期刊。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
烤串烤得好,也能拿大學(xué)文憑!全國首家燒烤學(xué)院招生了

烤串烤得好,也能拿大學(xué)文憑!全國首家燒烤學(xué)院招生了

大風(fēng)新聞
2026-03-12 11:16:12
31分8板!楊瀚森生涯之夜震驚美利堅(jiān),證明自己配得上NBA舞臺(tái)!

31分8板!楊瀚森生涯之夜震驚美利堅(jiān),證明自己配得上NBA舞臺(tái)!

田先生籃球
2026-03-12 15:20:48
伊朗女足7人"叛逃"細(xì)節(jié)曝光!摘下頭巾激動(dòng)流淚,獲澳洲庇護(hù)

伊朗女足7人"叛逃"細(xì)節(jié)曝光!摘下頭巾激動(dòng)流淚,獲澳洲庇護(hù)

派大星紀(jì)錄片
2026-03-12 16:28:20
列國鑒|記者觀察:伊朗戰(zhàn)事招致多重壓力 特朗普政府或?qū)C(jī)退出

列國鑒|記者觀察:伊朗戰(zhàn)事招致多重壓力 特朗普政府或?qū)C(jī)退出

新華社
2026-03-12 16:33:07
伊朗新領(lǐng)袖被曝受重傷正在搶救

伊朗新領(lǐng)袖被曝受重傷正在搶救

鳳眼論
2026-03-11 09:37:56
江蘇這條“河豚”花了7000萬,建成10年就荒了,到底值不值?

江蘇這條“河豚”花了7000萬,建成10年就荒了,到底值不值?

GA環(huán)球建筑
2026-03-12 14:34:45
騰訊回應(yīng)OpenClaw之父Peter的“抄襲”指責(zé):希望繼續(xù)支持生態(tài)

騰訊回應(yīng)OpenClaw之父Peter的“抄襲”指責(zé):希望繼續(xù)支持生態(tài)

財(cái)聯(lián)社
2026-03-12 15:54:05
龍湖集團(tuán)創(chuàng)始人滯留美國

龍湖集團(tuán)創(chuàng)始人滯留美國

地產(chǎn)微資訊
2026-03-12 15:33:21
1300塊一架!中國竹子無人機(jī)殺瘋了:這種工業(yè)實(shí)力讓西方破防

1300塊一架!中國竹子無人機(jī)殺瘋了:這種工業(yè)實(shí)力讓西方破防

戰(zhàn)爭史
2026-03-11 14:33:23
蹲了40年的地主出獄,給王震寫信:記得送給359旅的12萬斤糧食嗎

蹲了40年的地主出獄,給王震寫信:記得送給359旅的12萬斤糧食嗎

墨說古今
2026-01-07 23:02:58
你肯定想不到:日本人設(shè)計(jì)的“偽滿紙幣”上,印的都是誰?

你肯定想不到:日本人設(shè)計(jì)的“偽滿紙幣”上,印的都是誰?

鍋鍋愛歷史
2026-03-12 13:48:55
42男42女聯(lián)誼會(huì),只有5男被相中!網(wǎng)友:這就是大齡剩女多的原因

42男42女聯(lián)誼會(huì),只有5男被相中!網(wǎng)友:這就是大齡剩女多的原因

火山詩話
2026-03-12 12:10:27
媒體:伊朗正式宣布退出2026年美加墨世界杯!中國男足無遞補(bǔ)資格

媒體:伊朗正式宣布退出2026年美加墨世界杯!中國男足無遞補(bǔ)資格

開成運(yùn)動(dòng)會(huì)
2026-03-12 01:07:12
女生去看病登機(jī)被拒后續(xù):視頻流出,女子痛哭懇求航空公司被罵慘

女生去看病登機(jī)被拒后續(xù):視頻流出,女子痛哭懇求航空公司被罵慘

奇思妙想草葉君
2026-03-11 16:25:13
四川省委決定:兩地黨委書記調(diào)整

四川省委決定:兩地黨委書記調(diào)整

掌上金牛
2026-03-12 16:51:14
慘烈畫面:1噸級彈頭“滅國彈”突防特拉維夫,以軍已不設(shè)防

慘烈畫面:1噸級彈頭“滅國彈”突防特拉維夫,以軍已不設(shè)防

策略述
2026-03-12 16:21:28
人大代表畢利霞哽咽建議提高農(nóng)民養(yǎng)老金后,多部委已致電與其溝通

人大代表畢利霞哽咽建議提高農(nóng)民養(yǎng)老金后,多部委已致電與其溝通

界面新聞
2026-03-11 17:09:02
網(wǎng)紅王炸姐直播時(shí)去世!僅39歲,黑色外套像件壽衣,女兒才四歲!

網(wǎng)紅王炸姐直播時(shí)去世!僅39歲,黑色外套像件壽衣,女兒才四歲!

烏娛子醬
2026-03-12 14:08:28
“死了么”APP創(chuàng)始人自述:爆紅后,我被公司勸退

“死了么”APP創(chuàng)始人自述:爆紅后,我被公司勸退

硅星人
2026-03-12 10:41:27
江蘇特大級建工集團(tuán)崩了!

江蘇特大級建工集團(tuán)崩了!

新浪財(cái)經(jīng)
2026-03-11 14:52:58
2026-03-12 18:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12485文章數(shù) 142584關(guān)注度
往期回顧 全部

科技要聞

當(dāng)養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭才真正開始

頭條要聞

法新社稱"中國煉油廠已被要求暫停石油出口" 中方回應(yīng)

頭條要聞

法新社稱"中國煉油廠已被要求暫停石油出口" 中方回應(yīng)

體育要聞

要臉,還是要83分紀(jì)錄?

娛樂要聞

李湘瘦身驚艷亮相肖邦之夜 攜女兒出席

財(cái)經(jīng)要聞

盧鋒:從特朗普團(tuán)隊(duì)群演看時(shí)代變局

汽車要聞

大眾2025財(cái)報(bào):轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

親子
房產(chǎn)
數(shù)碼
本地
公開課

親子要聞

寶寶的六個(gè)怪異表現(xiàn),要管嗎?

房產(chǎn)要聞

唏噓!三亞又一房企巨頭破產(chǎn),狂欠43億甩賣資產(chǎn)!

數(shù)碼要聞

韶音OpenFit Pro AWE現(xiàn)場體驗(yàn):音質(zhì)絕了

本地新聞

坐標(biāo)北京,過敏季反向遷徒

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版