国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

邁向無縫共生:大模型GUI Agent的「屏幕圖靈測試」與擬人化之路

0
分享至

一個只會高效執(zhí)行任務(wù)的Agent,真的能在真實(shí)的人類數(shù)字生態(tài)中存活下來嗎?

論文作者包括來自上海交通大學(xué)的 Jiachen Zhu、Congmin Zheng、Yong Yu、Lingyu Yang、Weinan Zhang、Rong Shan、Weiwen Liu、Jianghao Lin,以及來自卡內(nèi)基梅隆大學(xué)的 Zeyu Zheng。

原論文名稱:TURING TEST ON SCREEN: A BENCHMARK FOR MOBILE GUI AGENT HUMANIZATION


https://huggingface.co/papers/2604.09574

https://arxiv.org/abs/2604.09574

多模態(tài)大模型(LMMs)的出現(xiàn)從根本上重塑了人機(jī)交互的格局。通過賦予系統(tǒng)感知視覺界面并執(zhí)行復(fù)雜交互的能力,我們正在見證從靜態(tài)腳本向自動化圖形用戶界面(GUI)Agent的范式轉(zhuǎn)變。這些Agent能夠模擬用戶,在移動設(shè)備APP中執(zhí)行任務(wù),使人們有望將大量數(shù)字化任務(wù)交給AI來自動化完成。

然而,隨著Agent能力的提升,我們是否思考過:一個只會高效執(zhí)行任務(wù)的Agent,真的能在真實(shí)的人類數(shù)字生態(tài)中存活下來嗎?

01


不可調(diào)和的矛盾:

GUI Agent面臨的生存挑戰(zhàn)

論文指出,GUI Agent的廣泛部署促成了用戶與服務(wù)提供商之間的利益沖突,并可能引發(fā)自動化Agent與數(shù)字平臺之間的動態(tài)沖突。

?平臺APP的注意力經(jīng)濟(jì) vs Agent的效率至上:現(xiàn)代數(shù)字生態(tài)系統(tǒng)(如平臺APP)嚴(yán)重依賴注意力經(jīng)濟(jì),用戶參與度和廣告曝光是主要的收入驅(qū)動力。相比之下,GUI Agent通常針對效率和目標(biāo)進(jìn)行了優(yōu)化,它們會繞過廣告內(nèi)容并精簡交互路徑。這種行為對現(xiàn)有平臺的商業(yè)模式構(gòu)成了生存威脅。

?平臺防御與用戶體驗(yàn)風(fēng)險:這種利益不匹配,迫使平臺部署防御措施。例如直接進(jìn)行攔截、注入噪聲,或部署廣告陷阱。這些無差別的防御帶來了嚴(yán)重的用戶體驗(yàn)風(fēng)險,例如可能會誤傷真實(shí)用戶,讓真實(shí)用戶無法登錄,影響體驗(yàn)。

?真實(shí)案:一個典型的例子是近期的Doubao移動助手事件。Agent嘗試自動化跨應(yīng)用任務(wù),觸發(fā)了超級平臺(如微信)的嚴(yán)格安全協(xié)議,導(dǎo)致了廣泛的賬號限制和服務(wù)封鎖。

現(xiàn)有的研究大多聚焦于提升Agent的任務(wù)實(shí)用性和對抗細(xì)微擾動的魯棒性,但這種視角忽略了這個更為基礎(chǔ)的“檢測與反檢測”范式。 為了在這個生態(tài)中實(shí)現(xiàn)和諧共存,Agent必須超越單純的任務(wù)準(zhǔn)確率與效率,具備反檢測能力,即“擬人化(Humanization)”。

因此,這引出了一個順理成章的問題:

當(dāng)數(shù)字平臺開始防御自動化腳本時,大模型GUI Agent該如何證明自己“像個人類”?又該如何科學(xué)地評估其擬人化能力?


圖1: GUI代理與移動平臺之間的對抗格局。

圖示展示了三個關(guān)鍵階段:

(1)主要沖突:對抗性利益促使平臺部署諸如登錄攔截和廣告陷阱等防御措施。

(2)屏幕圖靈測試:核心檢測機(jī)制依賴于區(qū)分自然人類軌跡和代理軌跡。

(3)代理人性化:我們提出了一種對抗式的擬人化任務(wù),通過提高代理的擬人化程度來繞過檢測,同時保持任務(wù)準(zhǔn)確性,從而將原始代理轉(zhuǎn)換為擬人化的代理。

02


評測框架:“屏幕圖靈測試”與 AHB 基準(zhǔn)

面對平臺可能會部署的Agent檢測器的嚴(yán)密防守,論文將經(jīng)典的圖靈測試的概念延伸到了GUI環(huán)境,提出了“屏幕上的圖靈測試(Turing Test on Screen)”。

這種交互被建模為一個 MinMax 優(yōu)化問題:

?檢測器(平臺側(cè))試圖最大化人類與Agent行為之間的區(qū)分度。

?GUI Agent(用戶側(cè))試圖在不降低任務(wù)準(zhǔn)確率的情況下最小化這種區(qū)分度。

為了量化這一過程,研究團(tuán)隊構(gòu)建了包含豐富動作事件和傳感器事件序列的大規(guī)模數(shù)據(jù)集,并建立了Agent擬人化基準(zhǔn)(AHB)。AHB在兩個核心維度上對Agent進(jìn)行評估:

1、擬真度(Imitability):衡量Agent與人類行為的相似度,通過檢測算法的分類準(zhǔn)確率(ACC)來反向量化。如果檢測器的ACC接近0.5(即隨機(jī)猜測),則標(biāo)志著Agent成功通過了測試。

2、實(shí)用性(Utility):監(jiān)控任務(wù)成功率,以確保擬人化策略(如加入噪聲、延遲)不會損害Agent的功能性。

通過初步研究,論文揭示了原生(Vanilla)Agent極易被檢測出的致命弱點(diǎn):

?軌跡呈完美的直線:Agent的軌跡通常是僵硬的線性矢量,缺乏人類手勢的生理弧度和運(yùn)動噪聲。

?觸控時間近乎為零:人類的點(diǎn)擊由于皮膚彈性呈現(xiàn)高斯分布(0.05秒-0.10秒),而Agent的輸入則表現(xiàn)為接近零的脈沖,反映了瞬間的事件注入。

?異常的動作間隔:人類的動作間隔服從長尾分布且峰值在零附近,而Agent由于顯著的推理開銷(如mobile-agent-e長達(dá)50-80秒),產(chǎn)生了足以被可靠檢測的延遲。


圖2: 人和代理的滑動軌跡區(qū)別


圖3:人和代理的時間間隔以及按壓時間的區(qū)別

03


擬人化策略與效用的權(quán)衡

(Pareto Frontier)

針對原生 Agent 機(jī)械化特征導(dǎo)致的生存危機(jī),本研究系統(tǒng)性地探討了從動作生成到執(zhí)行的全鏈路擬人化方法。

?雙層架構(gòu)設(shè)計:內(nèi)部注入與外部包裝: 擬人化策略可分為兩種架構(gòu):一是“內(nèi)部注入(Internal Injection)”,即直接對大模型進(jìn)行微調(diào),使其原生Agent具備人類行為先驗(yàn);二是“外部包裝(External Wrapper)”,即在 Agent 生成原始動作($a_{raw}$)后,通過后處理模塊將其轉(zhuǎn)化為擬人化序列($a_{human}$)再執(zhí)行??紤]到對各個Agent模型的兼容性,本研究重點(diǎn)評估了四種外部包裝策略。

?多維度擬人化算子

  • 軌跡層(Swipe):針對線性滑動問題,引入了基于 B-spline 曲線的啟發(fā)式噪聲和基于真實(shí)人類數(shù)據(jù)的“歷史軌跡匹配(History Matching)”。后者通過旋轉(zhuǎn)、縮放等仿射變換,將人類真實(shí)的運(yùn)動微震和速度曲線遷移至 Agent 動作中。

  • 時間層(Interval & Tap):利用偽動作注入(Fake Actions)掩蓋推理延遲,使 Agent 在閑置期執(zhí)行微小的滾動或懸停,從而將交互節(jié)奏從離散的“脈沖式”拉回到連續(xù)的人類分布。同時,通過高斯采樣模擬人類皮膚彈性帶來的長按壓(Longer Presses)效果。

?擬真度與實(shí)用性的帕累托前沿(Pareto Frontier):研究發(fā)現(xiàn),擬人化并非簡單的“模塊累加”,而是存在深刻的性能權(quán)衡。提高擬真度(Imitability)往往會以犧牲實(shí)用性(Utility)為代價。以“偽動作注入”為例,雖然它能將基于時間間隔的檢測準(zhǔn)確率降低至接近隨機(jī)猜測的水平(~0.52),但盲目注入的無效動作極易觸發(fā)預(yù)期外的 UI 狀態(tài)變更,導(dǎo)致Agent的邏輯鏈斷裂。這種現(xiàn)象在復(fù)雜任務(wù)中尤為明顯,構(gòu)成了 Agent 設(shè)計中必須優(yōu)化的帕累托前沿。

為了驗(yàn)證擬人化策略的嚴(yán)謹(jǐn)性,論文在附錄 C 中提供了三大核心定理的數(shù)學(xué)證明:

?定理 1檢測器效能的上界: 證明了對于任何給定的 Agent 策略,檢測器的最大區(qū)分能力(分類損失)受到人類分布與 Agent 分布之間Jensen-Shannon (JS) 散度的嚴(yán)格限制。這意味著,降低檢測準(zhǔn)確率的本質(zhì)就是減小兩者在行為特征空間上的分布差異。


?定理 2:滑策略的有效性: 證明了引入隨機(jī)平滑內(nèi)核(如 B-Spline 注入的方差)可以嚴(yán)格降低最大理論可檢測性(JS 散度)。這從數(shù)學(xué)上確認(rèn)了即便簡單的啟發(fā)式噪聲也能起到一定的反檢測效果。


?定理 3:歷史匹配的漸進(jìn)優(yōu)越性: 證明了隨著樣本量的增加,歷史匹配(History Matching)策略能使 Agent 的行為特征分布收斂于真實(shí)的人類分布。該策略在理論上優(yōu)于單純的方差注入,是實(shí)現(xiàn)高度擬人化的最優(yōu)路徑。


04


實(shí)驗(yàn)結(jié)果與行為特征分析

本研究在由 21 款 App 構(gòu)成的 AHB 基準(zhǔn)上進(jìn)行了深度評測,揭示了 GUI Agent 在真實(shí)對抗環(huán)境下的表現(xiàn)規(guī)律。


?原生 Agent 的透明性: 實(shí)驗(yàn)證實(shí),未經(jīng)擬人化的原生 Agent 在物理交互層面幾乎是“透明”的。在提取的 24 維統(tǒng)計特征下,SVM 和 XGBoost 等分類器能夠以接近 1.0 的準(zhǔn)確率瞬時識別出Agent行為。

?擬人化策略的實(shí)測效能

  • 歷史匹配(History Matching)的表現(xiàn)始終穩(wěn)居首位,在顯著降低檢測準(zhǔn)確率的同時,成功維持了較高的任務(wù)成功率。

  • 偽動作注入表現(xiàn)出極強(qiáng)的反檢測能力,在社交媒體集群中將檢測準(zhǔn)確率降低至 0.52 附近。然而其副作用也最為明顯,在行程規(guī)劃任務(wù)中由于干擾了 UI 邏輯,使任務(wù)成功率從 0.75 暴跌至 0.15。

?特征擬人的難易分層

  • 最易擬人化的特征:路徑形狀特征(如最大偏離度 maxDev)。通過數(shù)學(xué)變換,這些指標(biāo)的辨識度能迅速從 0.99 降至 0.55 左右的隨機(jī)水平。

  • 最具挑戰(zhàn)的瓶頸:端點(diǎn)精度(Endpoint Precision)。Agent 為了精準(zhǔn)點(diǎn)擊 UI 控件中心,其落點(diǎn)散布極度集中,這與人類隨意的點(diǎn)擊習(xí)慣形成了鮮明對比,成為目前最難擬人化的機(jī)械印記之一。

05


結(jié)語

《Turing Test on Screen》不僅僅是一個技術(shù)基準(zhǔn),它更是數(shù)字平臺與自主Agent之間長期演化軍備競賽的序曲。它促成了一種新的生存導(dǎo)向設(shè)計理念的轉(zhuǎn)變:從單一追求效果與效率,轉(zhuǎn)向任務(wù)準(zhǔn)確率與行為擬人化的雙目標(biāo)優(yōu)化。

正如論文總結(jié),隨著“屏幕上的圖靈測試”成為數(shù)字化Agent的必然要求,展現(xiàn)類似人類的行為細(xì)微差別不再僅僅是美學(xué)特征,而是Agent生存的功能必然性。如果我們希望未來的Agent能夠在這個充滿對抗的數(shù)字世界中無縫共生,這項(xiàng)研究無疑為我們提供了關(guān)鍵的行動指南。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不玩游戲、偶像包袱重、前胸貼白鹿后背,《奔跑吧》他干嘛來了?

不玩游戲、偶像包袱重、前胸貼白鹿后背,《奔跑吧》他干嘛來了?

洲洲影視娛評
2026-04-25 14:24:44
兩位知名港星聲援馬蹄露!廣東雨神直播拉票,張敬軒必敗無疑

兩位知名港星聲援馬蹄露!廣東雨神直播拉票,張敬軒必敗無疑

涵豆說娛
2026-04-25 12:07:14
張雪峰多位愛將離職,真相很殘忍

張雪峰多位愛將離職,真相很殘忍

新浪財經(jīng)
2026-04-24 19:11:55
澳洲折扣超市取代Coles, Woolies! 大批澳人瘋狂掃貨, 最高可省80%!

澳洲折扣超市取代Coles, Woolies! 大批澳人瘋狂掃貨, 最高可省80%!

澳微Daily
2026-04-25 15:42:43
辛納談阿卡退出法網(wǎng):安心養(yǎng)傷是明智之舉,期待溫網(wǎng)見到他

辛納談阿卡退出法網(wǎng):安心養(yǎng)傷是明智之舉,期待溫網(wǎng)見到他

懂球帝
2026-04-25 16:55:04
60分12板8助!大號文班真強(qiáng)?。√交?0+11+11一劍封喉1

60分12板8助!大號文班真強(qiáng)??!探花50+11+11一劍封喉1

貴圈真亂
2026-04-25 13:54:25
燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個

燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個

匹夫來搞笑
2026-04-20 13:24:51
眼紅??!工資到賬19380.52元,自稱“長沙教培牛馬”發(fā)帖刷爆網(wǎng)絡(luò)

眼紅啊!工資到賬19380.52元,自稱“長沙教培牛馬”發(fā)帖刷爆網(wǎng)絡(luò)

火山詩話
2026-04-24 07:35:54
全球最疲憊總統(tǒng)宣布退場

全球最疲憊總統(tǒng)宣布退場

劉瀾昌
2026-04-25 08:43:52
59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

一盅情懷
2026-03-16 16:52:57
膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動,眼睜睜吃敗仗

膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動,眼睜睜吃敗仗

伴史緣
2026-04-25 14:02:08
昔日和王鈺棟齊名并稱國少雙星 如今卻淪落中甲碌碌無為 5輪0進(jìn)球

昔日和王鈺棟齊名并稱國少雙星 如今卻淪落中甲碌碌無為 5輪0進(jìn)球

零度眼看球
2026-04-25 08:54:32
我敢說,大部分會跟我一樣,選擇黑色衣服那個女孩!

我敢說,大部分會跟我一樣,選擇黑色衣服那個女孩!

草莓解說體育
2026-04-12 17:05:01
巔峰之夜!亞冠決賽今晚打響:吉達(dá)vs町田 馬寧擔(dān)任第四官員

巔峰之夜!亞冠決賽今晚打響:吉達(dá)vs町田 馬寧擔(dān)任第四官員

新英體育
2026-04-25 09:09:10
近7場1勝 皇馬球迷貼面怒罵球員:不知羞恥 姆巴佩用帽遮臉+逃離

近7場1勝 皇馬球迷貼面怒罵球員:不知羞恥 姆巴佩用帽遮臉+逃離

我愛英超
2026-04-25 07:46:50
印度終于搶到化肥,卻被狠宰一刀!算清這筆賬,為何中國不慌?

印度終于搶到化肥,卻被狠宰一刀!算清這筆賬,為何中國不慌?

丁丁鯉史紀(jì)
2026-04-25 11:45:39
看完伊朗,再看中國,盧卡申科做出一個神預(yù)測,特朗普怕就是這個

看完伊朗,再看中國,盧卡申科做出一個神預(yù)測,特朗普怕就是這個

落梅如雪亂飛
2026-04-22 13:31:47
?;韬詈啝┑膬r值,為什么遠(yuǎn)高于他墓中的巨量黃金

?;韬詈啝┑膬r值,為什么遠(yuǎn)高于他墓中的巨量黃金

澎湃新聞
2026-04-21 08:08:40
徹底焊死了!

徹底焊死了!

安安說
2026-04-25 11:52:50
C羅被媒體放出來的那份食譜太反科學(xué)!被認(rèn)為是在搞營銷!

C羅被媒體放出來的那份食譜太反科學(xué)!被認(rèn)為是在搞營銷!

歷史第一人梅西
2026-04-25 01:36:38
2026-04-25 18:35:00
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7222文章數(shù) 20749關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

伊朗最高領(lǐng)袖一條腿截肢面部嚴(yán)重?zé)齻?通信方式披露

頭條要聞

伊朗最高領(lǐng)袖一條腿截肢面部嚴(yán)重?zé)齻?通信方式披露

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時賽9戰(zhàn)8敗

娛樂要聞

鄧超最大的幸運(yùn),就是遇見孫儷

財經(jīng)要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
本地
公開課
軍事航空

藝術(shù)要聞

美國發(fā)現(xiàn)一部《十七帖》!這字還原真實(shí)的王羲之筆法,放大10倍仍無瑕疵

房產(chǎn)要聞

新一輪教育大爆發(fā)來了!???,開始瘋狂建學(xué)校!

本地新聞

云游中國|逛世界風(fēng)箏都 留學(xué)生探秘中國傳統(tǒng)文化

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美防長:戰(zhàn)事不會“沒完沒了”

無障礙瀏覽 進(jìn)入關(guān)懷版