国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AAAI 2026 Oral|InfiGUI-G1模型來了,刷新GUI Grounding SOTA

0
分享至



隨著多模態(tài)大語言模型(MLLM)的飛速發(fā)展,能夠像人類一樣通過視覺輸入操作圖形用戶界面(GUI)的智能體(Agent)正逐漸成為現(xiàn)實。然而,在通往通用計算機(jī)控制的道路上,如何讓模型精準(zhǔn)地將自然語言指令對應(yīng)到屏幕上的具體元素 —— 即 GUI Grounding 任務(wù),依然是一大難題。

現(xiàn)有的方法,特別是基于驗證獎勵的強(qiáng)化學(xué)習(xí)(RLVR),雖然在提升 “指得準(zhǔn)”(空間對齊)方面表現(xiàn)出色,卻往往在 “指得對”(語義對齊)上遭遇瓶頸。模型常常陷入 “自信陷阱”,在復(fù)雜的語義場景下無法通過有效探索找到正確的功能圖標(biāo)。

針對這一痛點,來自浙江大學(xué)、香港理工大學(xué)及 InfiX.ai 的研究團(tuán)隊提出了一種全新的自適應(yīng)探索策略優(yōu)化框架(AEPO),并推出了InfiGUI-G1系列模型。該模型通過多答案生成與自適應(yīng)獎勵機(jī)制,徹底打破了傳統(tǒng) RLVR 的探索瓶頸。僅憑 3B 和 7B 的參數(shù)量,InfiGUI-G1 便在多個高難度 GUI 基準(zhǔn)測試中刷新了 SOTA,部分指標(biāo)甚至大幅超越了閉源模型。

本文將深入介紹這項被 AAAI 2026 接收為 Oral 的工作,解讀其如何通過 “學(xué)會探索” 來實現(xiàn)更精準(zhǔn)的 GUI 語義理解。



  • 論文標(biāo)題:InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
  • 論文鏈接:https://arxiv.org/abs/2508.05731
  • 代碼鏈接:https://github.com/InfiXAI/InfiGUI-G1

從 “空間對齊” 到 “語義對齊”:被忽視的探索瓶頸

GUI Grounding 任務(wù)的核心是將自然語言指令(如 “打開相機(jī)”)映射到屏幕上的特定元素坐標(biāo)。研究團(tuán)隊指出,這一任務(wù)可以解構(gòu)為兩個正交的維度:

1. 空間對齊(Spatial Alignment):能否精確地定位到元素(即 “指得準(zhǔn)”)。

2. 語義對齊(Semantic Alignment):能否識別出功能正確的元素(即 “指得對”)。

現(xiàn)有的 RLVR 方法(如 Naive RLVR)雖然能通過優(yōu)化坐標(biāo)生成來提升定位精度,但在面對語義模糊或復(fù)雜的指令時卻顯得力不從心。

例如,當(dāng)指令是 “使用相機(jī)搜索物體” 時,屏幕上可能同時存在普通的 “相機(jī)應(yīng)用” 和具有視覺搜索功能的 “Google Lens”。缺乏深度語義理解的模型往往會自信地死磕 “相機(jī)應(yīng)用” 圖標(biāo)。由于傳統(tǒng) RL 依賴當(dāng)前策略采樣,模型會不斷重復(fù)這個高置信度的錯誤,陷入“自信陷阱”(Confidence Trap),從而無法發(fā)現(xiàn)真正正確的 “Google Lens” 圖標(biāo),導(dǎo)致無法獲得修正語義誤解所需的學(xué)習(xí)信號。



GUI Grounding 的主要失敗模式: (a) 空間對齊失敗,(b) 語義對齊失敗

InfiGUI-G1:自適應(yīng)探索策略優(yōu)化(AEPO)

為了解決這一探索效率低下的問題,InfiGUI-G1 引入了AEPO(Adaptive Exploration Policy Optimization)框架。與傳統(tǒng)的單次回答生成不同,AEPO 旨在通過更廣泛且高效的探索來捕捉低概率但正確的選項。

AEPO 框架由三個協(xié)同工作的核心組件構(gòu)成:

1.多答案生成機(jī)制(Multi-Answer Generation)傳統(tǒng)的 RL 方法通常只采樣一個動作,一旦模型 “固執(zhí)己見” 地選錯,梯度的學(xué)習(xí)信號就會消失。AEPO 強(qiáng)制模型在一次前向傳遞中生成 N 個候選坐標(biāo)點。這一機(jī)制迫使模型跳出單一的高置信度預(yù)測,去探索策略分布長尾中的可能性,從而大幅增加了發(fā)現(xiàn)正確答案(如上述例子中的 Google Lens)的概率。

2.自適應(yīng)探索獎勵(Adaptive Exploration Reward, AER)僅僅生成多個答案是不夠的,如何評價這些答案的質(zhì)量至關(guān)重要。研究團(tuán)隊基于效率第一性原理(效率 = 效用 / 成本)設(shè)計了 AER 函數(shù)。

  • 動態(tài)激勵:如果模型在靠前的排名(Rank k)就找到了正確答案,給予高額獎勵;如果失敗,則給予較小的懲罰以鼓勵繼續(xù)探索。
  • 這種非線性的獎勵設(shè)計在失敗時鼓勵模型 “廣撒網(wǎng)”,在成功時引導(dǎo)模型追求 “快準(zhǔn)狠”,實現(xiàn)了探索與利用的動態(tài)平衡。

3.共線懲罰(Collinear Penalty)為了防止模型通過生成近似直線的點來 “作弊”(簡單的線性掃描策略),研究引入了共線懲罰。如果生成的多個候選點在幾何上近似共線,將被視為低質(zhì)量探索并受到嚴(yán)厲懲罰。這強(qiáng)制模型在語義空間而非單純的幾何空間中進(jìn)行多樣化探索。



AEPO 與 Naive 強(qiáng)化學(xué)習(xí)基準(zhǔn)方法的對比

實驗結(jié)果:小參數(shù)量實現(xiàn)性能越級

研究團(tuán)隊在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五個極具挑戰(zhàn)性的基準(zhǔn)上對 InfiGUI-G1(3B 和 7B 版本)進(jìn)行了全面評估。

1.綜合性能全面領(lǐng)先:在 MMBench-GUI 基準(zhǔn)測試中,InfiGUI-G1-7B 在 Windows、iOS、Android 等多個平臺上的表現(xiàn)均刷新了開源模型的最佳成績。值得注意的是,InfiGUI-G1-7B 在部分指標(biāo)上甚至優(yōu)于參數(shù)量大得多的 Qwen2.5-VL-72B 和閉源模型 GPT-4o。

2.攻克高難度語義理解任務(wù)ScreenSpot-Pro 基準(zhǔn)專門區(qū)分了文本類(Text)和圖標(biāo)類(Icon)任務(wù)。結(jié)果顯示,InfiGUI-G1 在更依賴語義理解的 “圖標(biāo)” 任務(wù)上提升尤為明顯。這直接證明了 AEPO 策略有效解決了語義對齊的瓶頸,讓模型真正 “看懂” 了抽象圖標(biāo)背后的功能含義,而不僅僅是進(jìn)行簡單的文本匹配。

3.讓 “不可學(xué)習(xí)” 變得 “可學(xué)習(xí)”為了驗證 AEPO 是否真的解決了探索難題,研究團(tuán)隊將樣本按難度分為簡單、中等和困難。實驗發(fā)現(xiàn),InfiGUI-G1 在 “困難” 樣本(即基座模型幾乎無法答對的樣本)上的提升最為巨大,相對 Naive RLVR 基線提升了超過60%。這意味著 AEPO 成功挖掘出了那些以往因缺乏探索而被模型 “放棄” 的長尾知識。



ScreenSpot-Pro 基準(zhǔn)測試的性能對比

總結(jié)與展望

InfiGUI-G1 的成功表明,GUI 智能體的性能瓶頸不僅僅在于視覺識別能力,更在于如何通過有效的強(qiáng)化學(xué)習(xí)策略來解決語義對齊問題。通過引入自適應(yīng)探索機(jī)制,InfiGUI-G1 以極高的數(shù)據(jù)效率和較小的模型規(guī)模,實現(xiàn)了超越大模型的 GUI Grounding 能力。這項工作為未來開發(fā)更通用、更智能的 GUI 交互助手提供了堅實的技術(shù)基礎(chǔ)。

目前,InfiGUI-G1 的代碼、模型權(quán)重及相關(guān)資源已在 GitHub 開源,歡迎社區(qū)進(jìn)一步研究與使用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
雷德利·斯科特回歸小熒幕,為何標(biāo)志一個時代終結(jié)?

雷德利·斯科特回歸小熒幕,為何標(biāo)志一個時代終結(jié)?

影視情報室
2026-04-19 02:15:08
伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會禿嚕了皮呢?

伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會禿嚕了皮呢?

一口娛樂
2026-04-18 13:00:29
一個害國害民的歷史罪人,老百姓還把他當(dāng)成英雄崇拜

一個害國害民的歷史罪人,老百姓還把他當(dāng)成英雄崇拜

小豫講故事
2026-04-19 06:00:10
50億保溫杯出口爆單:你以為老外愛養(yǎng)生,其實是中國工廠贏了

50億保溫杯出口爆單:你以為老外愛養(yǎng)生,其實是中國工廠贏了

隨遇而安之心
2026-04-20 03:17:52
與孔令輝分手12年,被黑人托在肩上的馬蘇,終是為自己的風(fēng)流買單

與孔令輝分手12年,被黑人托在肩上的馬蘇,終是為自己的風(fēng)流買單

情感大頭說說
2026-04-18 21:06:00
不愧是嫁給上海首富的美女主持人,54歲了還像30出頭的

不愧是嫁給上海首富的美女主持人,54歲了還像30出頭的

舊時光老師
2026-04-19 19:08:29
被豆包害慘了的大學(xué)生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實人

被豆包害慘了的大學(xué)生們!網(wǎng)友:豆包就是愚蠢且勤勞的老實人

夜深愛雜談
2025-12-02 20:51:10
她是上海著名主持,堅守一線工作30年,如今既是大學(xué)教授也是網(wǎng)紅

她是上海著名主持,堅守一線工作30年,如今既是大學(xué)教授也是網(wǎng)紅

以茶帶書
2026-04-19 16:46:39
這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國女星搶鏡

這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國女星搶鏡

天天熱點見聞
2026-04-18 08:09:59
極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

懂球帝
2026-04-20 00:22:46
性需求是人的活力來源,性需求是成年人最強(qiáng)大的生命力

性需求是人的活力來源,性需求是成年人最強(qiáng)大的生命力

加油丁小文
2026-04-03 11:30:07
新代言人火爆全球,以色列慌了

新代言人火爆全球,以色列慌了

俠客棧
2026-04-18 13:14:53
巴基斯坦總理與伊朗總統(tǒng)通話討論地區(qū)局勢

巴基斯坦總理與伊朗總統(tǒng)通話討論地區(qū)局勢

新華社
2026-04-20 04:39:03
超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

娛樂圈見解說
2026-04-18 14:54:03
停止焦慮最好的辦法,不是讀書,不是運動,而是……

停止焦慮最好的辦法,不是讀書,不是運動,而是……

壹心理
2026-04-19 11:03:36
抵京!首鋼新外援威廉姆斯:我是全能型,會去做球隊要求的一切

抵京!首鋼新外援威廉姆斯:我是全能型,會去做球隊要求的一切

懂球帝
2026-04-19 22:36:59
古斯塔沃傷病疑云!兩次稱病缺席,媒體人:降薪后欠薪落差太大

古斯塔沃傷病疑云!兩次稱病缺席,媒體人:降薪后欠薪落差太大

奧拜爾
2026-04-19 13:40:33
韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

馬拉松跑步健身
2026-04-19 06:30:13
蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

川渝視覺
2026-04-17 22:13:14
震驚!蘇州一公司全員放假61天,聲稱業(yè)務(wù)停滯停工,鼓勵員工離職

震驚!蘇州一公司全員放假61天,聲稱業(yè)務(wù)停滯停工,鼓勵員工離職

火山詩話
2026-04-19 15:02:27
2026-04-20 05:40:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺機(jī)器人狂飆半馬

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個洞

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個洞

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

數(shù)碼
健康
手機(jī)
時尚
軍事航空

數(shù)碼要聞

華為新機(jī)發(fā)布前瞻:闊折疊X Max+影像旗艦Pura 90,都沒懸念了

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

手機(jī)要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

裝修“精神角落”,就是這么上癮

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進(jìn)入關(guān)懷版