国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

霸榜SOTA,螞蟻開源UI-Venus-1.5,GUI智能體辦事時代加速到來

0
分享至



GUI 智能體最近卷到什么程度了?

Claude、OpenAI Agent 及各類開源模型你方唱罷我登場,但若真想讓 AI 成為 「能在手機和網頁上穩(wěn)定干活的助手」,仍繞不開三大現實難題:

  • 「知識缺失」難題:基礎大模型對 GUI 領域的認知依然薄弱 —— 生僻圖標、小眾應用的操作邏輯等需要補足。
  • 「紙上談兵」困境:離線訓練數據與真實交互環(huán)境存在鴻溝,離線看似合理的動作,一到在線任務就翻車。
  • 「多模型協(xié)同」障礙:盡管視覺定位、任務規(guī)劃等領域專家模型各有突破,但多模型協(xié)作往往依賴復雜框架,協(xié)同成本高。

現在,螞蟻帶來 UI-Venus-1.5:一個遵循「高性能,實戰(zhàn)派」設計理念的端到端 GUI 智能體。單個模型即可統(tǒng)一處理定位(Grounding)、移動端(Mobile)與網頁端(Web)三大場景,全面支持 40+ 主流中文 App,讓 AI 真正走進用戶生活。



  • 報告標題:UI-Venus-1.5 Technical Report
  • 技術報告:https://arxiv.org/abs/2602.09082
  • 代碼:https://github.com/inclusionAI/UI-Venus
  • 模型:https://huggingface.co/collections/inclusionAI/ui-venus
  • 主頁鏈接:https://ui-venus.github.io/UI-Venus-1.5/





UI-Venus-1.5 構建了一條清晰、系統(tǒng)的訓練路徑:

通過中期訓練(Mid-Training)系統(tǒng)性補足大模型在 GUI 領域的知識短板;利用在線強化學習(Online RL)彌合離線訓練與在線執(zhí)行之間的鴻溝;最終采用模型融合(Model Merge)集成多個領域專家模型的能力。



01 中期訓練(Mid-Training):

30+ 數據源、10B tokens 鍛造 GUI 原生大腦

通用視覺語言模型(VLM/MLLM)并不天然理解 GUI。面對高度結構化、蘊含復雜交互邏輯的用戶界面,它們往往缺乏「原生表征能力」—— 看得到,卻看不懂;能描述,但不會用。

因此,UI-Venus-1.5 戰(zhàn)略性地引入中期訓練(Mid-Training)階段,旨在將通用的 VLM 逐步鍛造為真正「懂 GUI」的原生基礎模型。UI-Venus-1.5 構建了一個全面、統(tǒng)一的 GUI 中期訓練語料庫:

  • 整合30+公開及內部數據源(包含 Mind2Web、ShowUI、AITW 等),總規(guī)模高達10B tokens
  • 精心設計了任務策略平衡,覆蓋語義感知、GUI-VQA、元素定位、導航推理等關鍵維度。



這一階段的目標并非追求「看起來會操作」,而是系統(tǒng)性地塑造四項核心基礎能力:

  1. 精準的導航與定位:建立從自然語言指令到界面動作或坐標的端到端精確映射。
  2. 嚴謹的順序推理:學習將高層目標分解為邏輯清晰、可執(zhí)行的子步驟。
  3. GUI-VQA:理解控件語義、功能描述與復雜的布局邏輯。
  4. 敏銳的精細感知:無需 OCR 即可識別圖標、檢測控件狀態(tài)和理解視覺提示。

02 打造領域專家(Offline RL):

驅動 Grounding / Mobile / Web 專項突破

UI-Venus-1.0 通過在高精領域數據 RFT 技術路線,在定位(Grounding)和移動端導航(Mobile Navigation)兩大領域達到了 SOTA 水平。UI-Venus-1.5 在繼承該技術路徑的基礎上,進一步優(yōu)化專家模型的設計與應用方式:



  • 定位能力:UI-Venus-1.0 在目標元素不存在時會猜測定位,雖在 ScreenSpot-Pro、UI-Vision 等基準上得分高,但易引發(fā)「幻覺」。為此,UI-Venus-1.5 引入了關鍵的「拒答」能力。當模型判定目標元素不存在時,將明確返回[-1, -1],表示無法定位。
  • 通用導航能力:為統(tǒng)一移動端與 Web 端操作,UI-Venus-1.5 擴展動作空間,新增鼠標懸停(Hover)、雙擊(DoubleClick)和快捷鍵(Hotkey)以適配 Web 交互,同時提供移動端 - 中 / 英文、Web 端 - 英文等場景的優(yōu)化 Prompt 模板,實現跨語言的高效適配。

03 在線強化學習(Online RL):

從「動作做對」到「任務完成」

在 Mid-Training 和 Offline-RL 階段,模型在單步動作(Action-level)準確率上已取得顯著提升。然而,端到端的軌跡級(Trace-level)任務成功率卻并未同步增長。

根本原因在于,這兩個階段的訓練信號聚焦「動作是否正確」,而非直接優(yōu)化「任務是否完成」—— 兩者通常正相關,但并不等價。尤其在數據有限時,動作準確率易與任務成功率脫節(jié),導致「動作對、任務錯」的精度錯配現象。Mid-Training 和 Offline-RL 主要優(yōu)化 Action-level 的監(jiān)督信號或回報,缺乏對 Trace-level 成功的直接對齊。因此,單步動作的準確累積,并不必然導向整體任務的完成。



UI-Venus-1.5 引入在線強化學習(Online RL),聚焦移動端與 Web 端核心場景,借鑒 T-GRPO 等思路,在真實環(huán)境中執(zhí)行完整軌跡 Rollout 與獎勵計算,以「任務是否成功」作為核心優(yōu)化目標。

04 模型融合(Model Merge):

一個模型,貫通 Grounding / Mobile / Web

當前很多 GUI Agent 采用「多模型協(xié)同」路線,即針對不同功能或場景訓練獨立的專家模型。雖能短期提升單項性能,一旦落地,往往演變?yōu)閺碗s的協(xié)同框架,成本激增。

UI-Venus-1.5 采用「先分后合」策略:先分別訓練 Grounding、Mobile、Web 三個領域的專家模型(基于 Offline-RL 和 Online-RL),將各自能力練至極致,再通過 Model Merge 技術融合為統(tǒng)一的端到端模型,以降低部署成本,并在合并中最大限度保持各領域性能。

為克服線性合并的局限,UI-Venus-1.5 采用更穩(wěn)健的TIES-Merging技術,即「先篩選,再合并」。該方法成功融合出統(tǒng)一模型,在ScreenSpot-Pro、AndroidWorld 和 WebVoyager三大跨領域基準上,實現了更均衡、更高效的多能力整合。

05 DaaS:

一個入口管理所有設備,構建大規(guī)模在線訓練環(huán)境



實踐 Online-RL 才發(fā)現:瓶頸往往不在算法,而在異構設備環(huán)境 ——Android、瀏覽器、容器使用不同協(xié)議(ADB/CDP/SSH),疊加網絡隔離與安全限制,直接對接難以維護。

為此,螞蟻集團搭建了統(tǒng)一的設備即服務(DaaS)層

  • 統(tǒng)一協(xié)議:將 ADB、CDP 等封裝為可擴展插件,上層按需調用。
  • 高并發(fā)穩(wěn)態(tài):基于內部二次哈希路由與協(xié)程并發(fā)模型,支撐大規(guī)模設備長連接與高頻請求。
  • 開箱即用:配套多語言 SDK,封裝認證、設備申請 / 釋放與常用操作。

依托 DaaS 的強大能力,上層訓練框架得以像調用標準服務一樣靈活使用設備資源 ——千臺級異構設備穩(wěn)定接入,支持超千并發(fā)的在線強化學習任務,高效支撐 UI-Venus-1.5 的大規(guī)模在線訓練與真實場景部署。

06 全方位評測:

真實與標準環(huán)境雙重驗證

為全面評估 UI-Venus-1.5 的通用性與魯棒性,評測覆蓋三大維度:

Grounding 能力(7 個基準):



在 VenusBench-GD、ScreenSpot-Pro、UI-Vision 等標準測試集上,UI-Venus-1.5 相比 1.0 版本顯著提升,且全面超越同規(guī)模模型。

Mobile 端 + Web 端 (在線真實環(huán)境):





在 AndroidWorld、AndroidLab、VenusBench-Mobile 真實場景中,UI-Venus-1.5 于多樣化 GUI 智能體任務上均取得了全面 SOTA 的性能。

07 適配 40+ 主流中文 App,融入日常數字生活

UI-Venus-1.5 同時深度聚焦中文用戶的真實使用習慣,全面支持 40 余款主流中文應用,涵蓋出行、社交、娛樂、購物、生活服務等核心場景,真正實現「聽得懂指令、看得清界面、做得對操作」。

無論是「在高德里叫一輛去景區(qū)的快車」、「在攜程訂明天北京到上海的機票」、「把這條微博轉發(fā)并附評論」,還是「在網易云播放陳奕迅的最熱歌曲」,UI-Venus-1.5 均能在真實設備環(huán)境中精準理解用戶意圖,并流暢、準確地完成各類操作。不依賴虛構演示,而是直接運行于用戶每日高頻使用的 App 中,直面現實場景中的任務挑戰(zhàn)。這標志著 UI-Venus-1.5 向成為真正「可用的智能助手」邁出了關鍵一步。


https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg

Task 1: 打開七貓免費小說,將小說腦洞榜前三名都加入書架


https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg

Task 2: 打開微博,搜索杭州天氣,并根據天氣進行評論


https://mp.weixin.qq.com/s/pl4PlAtz5bjDXRrzCzTDkg

Task 3: 打開喜馬拉雅,幫我播放瘋狂動物城2,設置列表循環(huán)播放

結語:UI-Venus-1.5 的路線更像「產品化 GUI Agent」的正確打開方式

UI-Venus-1.5 的價值不在單項指標的炫技,而在于構建了一個更可訓練、可部署、可擴展的端到端系統(tǒng):

  • 中期訓練夯實 GUI 原生能力
  • 領域后訓練專精 Grounding/Mobile/Web
  • 在線強化學習提升最終任務成功率
  • 模型融合實現單模型跨域通用

UI-Venus-1.5 致力于打造能在手機 / 網頁上穩(wěn)定干活的 AI 助手

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
斯諾克重磅官宣!奧沙利文出戰(zhàn)元老世錦賽!馬克威廉姆斯爭冠承壓

斯諾克重磅官宣!奧沙利文出戰(zhàn)元老世錦賽!馬克威廉姆斯爭冠承壓

林子說事
2026-02-24 16:40:57
歐冠一夜4戰(zhàn)!將有4隊出線:頭號黑馬呼之欲出 2隊晉級無憂

歐冠一夜4戰(zhàn)!將有4隊出線:頭號黑馬呼之欲出 2隊晉級無憂

葉青足球世界
2026-02-24 09:46:59
《鏢人》原著作者許先哲的逆襲:欠債青年畫出“世界級水平中國動漫精品”

《鏢人》原著作者許先哲的逆襲:欠債青年畫出“世界級水平中國動漫精品”

封面新聞
2026-02-24 13:33:07
不能令人信服的通報,媒體就別轉發(fā)了吧!

不能令人信服的通報,媒體就別轉發(fā)了吧!

林中木白
2026-02-23 12:40:41
破案了!谷愛凌嘴里那個東西,關鍵時刻能救命,甚至能防腦震蕩!

破案了!谷愛凌嘴里那個東西,關鍵時刻能救命,甚至能防腦震蕩!

小娛樂悠悠
2026-02-24 12:57:58
三位軍長,同時被破格提拔,當了大軍區(qū)司令

三位軍長,同時被破格提拔,當了大軍區(qū)司令

文史茶館2020
2026-02-23 14:35:47
36 歲離婚女子獨自過年崩潰痛哭:沒老公沒孩子,誰還會娶我

36 歲離婚女子獨自過年崩潰痛哭:沒老公沒孩子,誰還會娶我

一盅情懷
2026-02-23 14:10:06
香港身份爛尾潮已來!12萬內地中產,正在被精準收割

香港身份爛尾潮已來!12萬內地中產,正在被精準收割

社會日日鮮
2026-02-22 04:38:12
毒梟死亡引發(fā)多州暴力事件 墨西哥總統(tǒng)呼吁民眾保持冷靜

毒梟死亡引發(fā)多州暴力事件 墨西哥總統(tǒng)呼吁民眾保持冷靜

極目新聞
2026-02-23 09:14:54
西部亂了,雷霆重返第1卻高興不起來,3-6名太激烈,附加賽無意義

西部亂了,雷霆重返第1卻高興不起來,3-6名太激烈,附加賽無意義

鐵甲西奇
2026-02-24 15:24:44
不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

我心縱橫天地間
2026-02-23 13:20:50
孔蒂與那不勒斯的緣分將盡!衛(wèi)冕冠軍那不勒斯賽季表現糟糕

孔蒂與那不勒斯的緣分將盡!衛(wèi)冕冠軍那不勒斯賽季表現糟糕

小驛拍客在北漂
2026-02-24 03:09:06
央媒曝光:14種品牌奶粉都是假的!原料為奶精+淀粉,已銷往全國

央媒曝光:14種品牌奶粉都是假的!原料為奶精+淀粉,已銷往全國

云舟史策
2026-02-23 16:26:54
國安部披露:境外反華勢力以快速“入籍”為餌,誘騙我國公民參加反華活動

國安部披露:境外反華勢力以快速“入籍”為餌,誘騙我國公民參加反華活動

澎湃新聞
2026-02-24 07:56:11
山姆超市偶遇金莎和孫丞瀟,金莎本人不年輕,一看就比老公大很多

山姆超市偶遇金莎和孫丞瀟,金莎本人不年輕,一看就比老公大很多

阿廢冷眼觀察所
2026-02-23 22:31:01
夢鴿心中永遠的痛:如今58歲的她,已經為兒子鋪好下一條路了嗎?

夢鴿心中永遠的痛:如今58歲的她,已經為兒子鋪好下一條路了嗎?

小熊侃史
2026-02-24 18:06:25
當地人也被宰,蓬萊酒樓屢教不改連夜被摘牌,老板透露身份還掙扎

當地人也被宰,蓬萊酒樓屢教不改連夜被摘牌,老板透露身份還掙扎

社會日日鮮
2026-02-24 09:27:23
從阿森納挖來的瑰寶!曼聯(lián)小將狂轟4球,青訓主帥直言潛力未觸頂

從阿森納挖來的瑰寶!曼聯(lián)小將狂轟4球,青訓主帥直言潛力未觸頂

夜白侃球
2026-02-24 18:59:48
59歲佟瑞欣近況曝光!娶生病變胖演員恩愛27年,兒女雙全很幸福

59歲佟瑞欣近況曝光!娶生病變胖演員恩愛27年,兒女雙全很幸福

代軍哥哥談娛樂
2026-02-23 09:47:05
中國正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

中國正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

森羅萬象視頻
2026-02-23 21:13:07
2026-02-24 20:12:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12344文章數 142569關注度
往期回顧 全部

科技要聞

AI顛覆發(fā)展最新犧牲品!IBM跳水重挫超13%

頭條要聞

20家日本實體被列入管制名單 中方:完全正當 合理合法

頭條要聞

20家日本實體被列入管制名單 中方:完全正當 合理合法

體育要聞

蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經要聞

縣城消費「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

藝術
旅游
健康
親子
教育

藝術要聞

2025年第八屆全國青年美展 | 油畫作品選刊

旅游要聞

海南2026年春節(jié)假期接待游客超1232萬人次

轉頭就暈的耳石癥,能開車上班嗎?

親子要聞

萌娃質問老爸:媽媽為什么嫁給你,老爸的回答竟讓萌娃面露難色

教育要聞

收藏!2026四川高中學業(yè)水平考試報名指南

無障礙瀏覽 進入關懷版