国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AAAI 2026 Oral|InfiGUI-G1模型來了,刷新GUI Grounding SOTA

0
分享至



隨著多模態(tài)大語言模型(MLLM)的飛速發(fā)展,能夠像人類一樣通過視覺輸入操作圖形用戶界面(GUI)的智能體(Agent)正逐漸成為現(xiàn)實。然而,在通往通用計算機控制的道路上,如何讓模型精準地將自然語言指令對應到屏幕上的具體元素 —— 即 GUI Grounding 任務,依然是一大難題。

現(xiàn)有的方法,特別是基于驗證獎勵的強化學習(RLVR),雖然在提升 “指得準”(空間對齊)方面表現(xiàn)出色,卻往往在 “指得對”(語義對齊)上遭遇瓶頸。模型常常陷入 “自信陷阱”,在復雜的語義場景下無法通過有效探索找到正確的功能圖標。

針對這一痛點,來自浙江大學、香港理工大學及 InfiX.ai 的研究團隊提出了一種全新的自適應探索策略優(yōu)化框架(AEPO),并推出了InfiGUI-G1系列模型。該模型通過多答案生成與自適應獎勵機制,徹底打破了傳統(tǒng) RLVR 的探索瓶頸。僅憑 3B 和 7B 的參數(shù)量,InfiGUI-G1 便在多個高難度 GUI 基準測試中刷新了 SOTA,部分指標甚至大幅超越了閉源模型。

本文將深入介紹這項被 AAAI 2026 接收為 Oral 的工作,解讀其如何通過 “學會探索” 來實現(xiàn)更精準的 GUI 語義理解。



  • 論文標題:InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
  • 論文鏈接:https://arxiv.org/abs/2508.05731
  • 代碼鏈接:https://github.com/InfiXAI/InfiGUI-G1

從 “空間對齊” 到 “語義對齊”:被忽視的探索瓶頸

GUI Grounding 任務的核心是將自然語言指令(如 “打開相機”)映射到屏幕上的特定元素坐標。研究團隊指出,這一任務可以解構(gòu)為兩個正交的維度:

1. 空間對齊(Spatial Alignment):能否精確地定位到元素(即 “指得準”)。

2. 語義對齊(Semantic Alignment):能否識別出功能正確的元素(即 “指得對”)。

現(xiàn)有的 RLVR 方法(如 Naive RLVR)雖然能通過優(yōu)化坐標生成來提升定位精度,但在面對語義模糊或復雜的指令時卻顯得力不從心。

例如,當指令是 “使用相機搜索物體” 時,屏幕上可能同時存在普通的 “相機應用” 和具有視覺搜索功能的 “Google Lens”。缺乏深度語義理解的模型往往會自信地死磕 “相機應用” 圖標。由于傳統(tǒng) RL 依賴當前策略采樣,模型會不斷重復這個高置信度的錯誤,陷入“自信陷阱”(Confidence Trap),從而無法發(fā)現(xiàn)真正正確的 “Google Lens” 圖標,導致無法獲得修正語義誤解所需的學習信號。



GUI Grounding 的主要失敗模式: (a) 空間對齊失敗,(b) 語義對齊失敗

InfiGUI-G1:自適應探索策略優(yōu)化(AEPO)

為了解決這一探索效率低下的問題,InfiGUI-G1 引入了AEPO(Adaptive Exploration Policy Optimization)框架。與傳統(tǒng)的單次回答生成不同,AEPO 旨在通過更廣泛且高效的探索來捕捉低概率但正確的選項。

AEPO 框架由三個協(xié)同工作的核心組件構(gòu)成:

1.多答案生成機制(Multi-Answer Generation)傳統(tǒng)的 RL 方法通常只采樣一個動作,一旦模型 “固執(zhí)己見” 地選錯,梯度的學習信號就會消失。AEPO 強制模型在一次前向傳遞中生成 N 個候選坐標點。這一機制迫使模型跳出單一的高置信度預測,去探索策略分布長尾中的可能性,從而大幅增加了發(fā)現(xiàn)正確答案(如上述例子中的 Google Lens)的概率。

2.自適應探索獎勵(Adaptive Exploration Reward, AER)僅僅生成多個答案是不夠的,如何評價這些答案的質(zhì)量至關重要。研究團隊基于效率第一性原理(效率 = 效用 / 成本)設計了 AER 函數(shù)。

  • 動態(tài)激勵:如果模型在靠前的排名(Rank k)就找到了正確答案,給予高額獎勵;如果失敗,則給予較小的懲罰以鼓勵繼續(xù)探索。
  • 這種非線性的獎勵設計在失敗時鼓勵模型 “廣撒網(wǎng)”,在成功時引導模型追求 “快準狠”,實現(xiàn)了探索與利用的動態(tài)平衡。

3.共線懲罰(Collinear Penalty)為了防止模型通過生成近似直線的點來 “作弊”(簡單的線性掃描策略),研究引入了共線懲罰。如果生成的多個候選點在幾何上近似共線,將被視為低質(zhì)量探索并受到嚴厲懲罰。這強制模型在語義空間而非單純的幾何空間中進行多樣化探索。



AEPO 與 Naive 強化學習基準方法的對比

實驗結(jié)果:小參數(shù)量實現(xiàn)性能越級

研究團隊在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五個極具挑戰(zhàn)性的基準上對 InfiGUI-G1(3B 和 7B 版本)進行了全面評估。

1.綜合性能全面領先:在 MMBench-GUI 基準測試中,InfiGUI-G1-7B 在 Windows、iOS、Android 等多個平臺上的表現(xiàn)均刷新了開源模型的最佳成績。值得注意的是,InfiGUI-G1-7B 在部分指標上甚至優(yōu)于參數(shù)量大得多的 Qwen2.5-VL-72B 和閉源模型 GPT-4o。

2.攻克高難度語義理解任務ScreenSpot-Pro 基準專門區(qū)分了文本類(Text)和圖標類(Icon)任務。結(jié)果顯示,InfiGUI-G1 在更依賴語義理解的 “圖標” 任務上提升尤為明顯。這直接證明了 AEPO 策略有效解決了語義對齊的瓶頸,讓模型真正 “看懂” 了抽象圖標背后的功能含義,而不僅僅是進行簡單的文本匹配。

3.讓 “不可學習” 變得 “可學習”為了驗證 AEPO 是否真的解決了探索難題,研究團隊將樣本按難度分為簡單、中等和困難。實驗發(fā)現(xiàn),InfiGUI-G1 在 “困難” 樣本(即基座模型幾乎無法答對的樣本)上的提升最為巨大,相對 Naive RLVR 基線提升了超過60%。這意味著 AEPO 成功挖掘出了那些以往因缺乏探索而被模型 “放棄” 的長尾知識。



ScreenSpot-Pro 基準測試的性能對比

總結(jié)與展望

InfiGUI-G1 的成功表明,GUI 智能體的性能瓶頸不僅僅在于視覺識別能力,更在于如何通過有效的強化學習策略來解決語義對齊問題。通過引入自適應探索機制,InfiGUI-G1 以極高的數(shù)據(jù)效率和較小的模型規(guī)模,實現(xiàn)了超越大模型的 GUI Grounding 能力。這項工作為未來開發(fā)更通用、更智能的 GUI 交互助手提供了堅實的技術基礎。

目前,InfiGUI-G1 的代碼、模型權(quán)重及相關資源已在 GitHub 開源,歡迎社區(qū)進一步研究與使用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陪玩陪睡不夠!集體開嫖、舔手指、目無王法,陰暗面徹底藏不住了

陪玩陪睡不夠!集體開嫖、舔手指、目無王法,陰暗面徹底藏不住了

好賢觀史記
2025-11-09 21:58:39
為什么灣灣不懼大陸軍演?灣灣:兩大軟肋不會真打!大陸如何破局

為什么灣灣不懼大陸軍演?灣灣:兩大軟肋不會真打!大陸如何破局

阿胡
2025-12-30 12:12:11
人類進化史被推翻?7000年前木乃伊DNA與古人類匹配度僅0.15%

人類進化史被推翻?7000年前木乃伊DNA與古人類匹配度僅0.15%

琉璃聊科學
2026-01-06 11:48:22
多國將與臺“斷交”?美媒爆料:大陸軍演有驚喜,臺倆高官或下臺

多國將與臺“斷交”?美媒爆料:大陸軍演有驚喜,臺倆高官或下臺

文史旺旺旺
2026-01-05 22:04:47
TVB紅毯:佘詩曼風韻猶存,黃宗澤真老了,高海寧、陳自瑤太敢穿

TVB紅毯:佘詩曼風韻猶存,黃宗澤真老了,高海寧、陳自瑤太敢穿

糊咖娛樂
2026-01-05 11:39:41
2026翻身局已定!三大生肖抽中人生上上簽,財源滾滾擋不住

2026翻身局已定!三大生肖抽中人生上上簽,財源滾滾擋不住

毅談生肖
2026-01-06 10:50:07
TOP10業(yè)內(nèi)極品女優(yōu),演技、身材、顏值綜合榜

TOP10業(yè)內(nèi)極品女優(yōu),演技、身材、顏值綜合榜

素然追光
2026-01-07 01:55:03
達格列凈和恩格列凈,哪個效果更好?

達格列凈和恩格列凈,哪個效果更好?

掌上腎醫(yī)
2026-01-06 16:02:46
特朗普最大“貢獻”,就是親手摧毀了中國人對美國的幻想

特朗普最大“貢獻”,就是親手摧毀了中國人對美國的幻想

大漠來史
2025-11-12 10:01:27
賴清德要向大陸攤牌了,臺陸委會罕見不一致,解放軍大動作警告

賴清德要向大陸攤牌了,臺陸委會罕見不一致,解放軍大動作警告

起喜電影
2026-01-07 02:11:11
智能眼鏡需求遠超預期!Meta被迫宣布暫停國際擴張計劃

智能眼鏡需求遠超預期!Meta被迫宣布暫停國際擴張計劃

財聯(lián)社
2026-01-07 01:02:28
正式官宣!趙麗穎、黃曉明同時傳來喜訊,網(wǎng)友恭喜:終于等到這天

正式官宣!趙麗穎、黃曉明同時傳來喜訊,網(wǎng)友恭喜:終于等到這天

查爾菲的筆記
2026-01-06 12:14:30
成龍也沒想到,被他當做“棄子”的吳卓林,如今走上了一條上坡路

成龍也沒想到,被他當做“棄子”的吳卓林,如今走上了一條上坡路

馬浵在解說
2026-01-05 22:42:16
50歲阿姨一生未婚,只為尋找25年前的飛行員初戀,找到他后卻哭了

50歲阿姨一生未婚,只為尋找25年前的飛行員初戀,找到他后卻哭了

白云故事
2025-06-13 17:25:08
別再倉促地 “直奔主題”!這樣的前戲才能讓彼此爽到尖叫

別再倉促地 “直奔主題”!這樣的前戲才能讓彼此爽到尖叫

情感36度半
2025-12-30 12:45:03
定了!國乒亮相,馬琳王皓職位曝光,教練組將官宣,王勵勤妥協(xié)了

定了!國乒亮相,馬琳王皓職位曝光,教練組將官宣,王勵勤妥協(xié)了

二瘋說球
2026-01-06 08:54:43
老婆總說我媽不好,有次我偷看她手機,才發(fā)現(xiàn)她背著我做了什么

老婆總說我媽不好,有次我偷看她手機,才發(fā)現(xiàn)她背著我做了什么

秀秀情感課堂
2026-01-06 19:20:02
成龍終究是“心軟”了,變相資助女兒吳卓林,原諒了當年的吳綺莉

成龍終究是“心軟”了,變相資助女兒吳卓林,原諒了當年的吳綺莉

瘋說時尚
2026-01-05 10:13:00
輪到美國被“壟斷”了!“芯片之父”棄美回國,研發(fā)成果堪比核武

輪到美國被“壟斷”了!“芯片之父”棄美回國,研發(fā)成果堪比核武

烈史
2026-01-05 18:16:46
京哈高速并行線遼寧段全線開工!線路總長318公里、雙向四車道

京哈高速并行線遼寧段全線開工!線路總長318公里、雙向四車道

交建動態(tài)
2026-01-05 20:37:18
2026-01-07 03:52:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12066文章數(shù) 142530關注度
往期回顧 全部

科技要聞

速看!黃仁勛萬字實錄:甩出"物理AI"王牌

頭條要聞

俄羅斯發(fā)表關于委內(nèi)瑞拉局勢的聲明

頭條要聞

俄羅斯發(fā)表關于委內(nèi)瑞拉局勢的聲明

體育要聞

從NBA最菜首發(fā)控衛(wèi),到NBA最強喬治

娛樂要聞

2026年央視春晚彩排照曝光!

財經(jīng)要聞

50萬億存款"洪流"將至 四大去向引關注

汽車要聞

摩登出街潮品 實拍奇瑞QQ冰淇淋女王版

態(tài)度原創(chuàng)

教育
時尚
本地
公開課
軍事航空

教育要聞

剛剛,0.5+3集團直升拋出三個“王炸”!

冬天,“大衣”是中年女人的穿搭剛需,這樣搭配時髦提氣質(zhì)

本地新聞

云游內(nèi)蒙|初見呼和浩特,古今交融的北疆都會

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美稱對“占領”委內(nèi)瑞拉保留選擇權(quán)

無障礙瀏覽 進入關懷版