国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

他讓機(jī)器人學(xué)會(huì)看屏操作,不插數(shù)據(jù)線(xiàn)就能像人一樣戳手機(jī)

0
分享至

2026 年央視春晚展示的機(jī)器人甚至可以?shī)A烤腸和用竹簽串烤腸了,還有一臺(tái)登上本次春晚的機(jī)器人的價(jià)格甚至已經(jīng)下探到萬(wàn)元以下,距離進(jìn)入尋常百姓家真的不遠(yuǎn)了??墒牵幸惶煺娴膩?lái)了一個(gè)機(jī)器人到你家里幫忙,結(jié)果它卡在了沒(méi)法幫你回微信的第一步?

這聽(tīng)起來(lái)像是一個(gè)笑話(huà),但其實(shí)是目前機(jī)器人進(jìn)家門(mén)遇到的真實(shí)問(wèn)題?,F(xiàn)在許多事情都離不開(kāi)手機(jī):智能門(mén)鎖需要授權(quán)密碼、刷個(gè)抖音都得用手指滑動(dòng)解鎖。如果機(jī)器人不會(huì)操作手機(jī),那么當(dāng)它干完掃地擦窗的活兒,碰到這些需要依賴(lài)手機(jī)的任務(wù)就只能干瞪眼。

英國(guó)倫敦大學(xué)學(xué)院汪軍教授團(tuán)隊(duì)趙皓宇博士生和合作者打造了一個(gè)名為 See-Control(視控)的框架,讓機(jī)器人像人一樣看屏幕和思考,然后使用機(jī)械手指戳點(diǎn)屏幕操控手機(jī),徹底繞開(kāi)了過(guò)去智能手機(jī)助手必須給手機(jī)插數(shù)據(jù)線(xiàn)以及使用系統(tǒng)開(kāi)發(fā)者工具才能操控的老路子。


圖 | 趙皓宇(來(lái)源:受訪(fǎng)者)

趙皓宇告訴 DeepTech:“我們解決了現(xiàn)在大部分廠(chǎng)家都存在的一個(gè)痛點(diǎn):自動(dòng)化手機(jī)助手操作手機(jī)必須要通過(guò)系統(tǒng)開(kāi)發(fā)者工具配合數(shù)據(jù)線(xiàn)來(lái)與電腦連接,并且只能操控單一手機(jī)操作系統(tǒng)。想象一下你家里有一臺(tái)機(jī)器人。也許是家務(wù)機(jī)器人,或者你桌上的機(jī)械臂。通過(guò)我們完全純視覺(jué)的方案,不依賴(lài)任何平臺(tái)開(kāi)發(fā)軟件,可以擴(kuò)展到任意的觸屏設(shè)備且不需要任何線(xiàn)接。同時(shí)用戶(hù)可以保證隱私不會(huì)有任何泄露,因?yàn)槭謾C(jī)完完全全是機(jī)械臂物理點(diǎn)擊交互,不需要開(kāi)放任何權(quán)限、開(kāi)發(fā)者協(xié)議,也不需要下載任何軟件。用戶(hù)完全不用擔(dān)心手機(jī)會(huì)不會(huì)泄露隱私。包括部分不會(huì)用智能手機(jī)的老人、不會(huì)用開(kāi)發(fā)者選項(xiàng)在內(nèi)的非專(zhuān)業(yè)用戶(hù)也可以通過(guò)這套系統(tǒng)來(lái)受益?!?/p>


(來(lái)源:https://arxiv.org/pdf/2512.08629)

通常,當(dāng)我們希望使用電腦控制智能手機(jī)時(shí),會(huì)使用一種叫做 ADB(Android Debug Bridge,安卓調(diào)試橋)的工具。它就像一根“數(shù)字電纜”,讓程序員可以直接向手機(jī)系統(tǒng)發(fā)送指令。

但問(wèn)題就在這里,使用 ADB 的方式與人類(lèi)使用手機(jī)的方式并不一樣,我們不會(huì)把一根線(xiàn)插進(jìn)大腦來(lái)打開(kāi)應(yīng)用,而是通過(guò)看屏幕、用手指輕觸來(lái)完成操作。另外,ADB 只支持 Android 平臺(tái),還需要開(kāi)啟特殊的開(kāi)發(fā)者模式,這本身就可能帶來(lái)一定的安全風(fēng)險(xiǎn),就像給系統(tǒng)留了一扇沒(méi)有上鎖的后門(mén)。

而基于物理交互方式的 See-Control 的工作原理特別像我們教老人使用智能手機(jī):機(jī)器人盯著屏幕截圖,腦子里的大模型分析這是微信紅包還是詐騙鏈接,然后決定到底是點(diǎn)一下、劃一下還是打幾個(gè)字。整個(gè)過(guò)程完全不碰手機(jī)核心部分,就像使用指尖操作一樣自然。

為了讓它真正靠譜,該團(tuán)隊(duì)專(zhuān)門(mén)設(shè)計(jì)了 155 個(gè)日常任務(wù)讓機(jī)器人練習(xí),從最簡(jiǎn)單的打開(kāi)設(shè)置,到復(fù)雜的在小紅書(shū)搜索攻略、截圖、發(fā)給微信好友,難度步步升級(jí)。測(cè)試結(jié)果雖然不算完美,簡(jiǎn)單任務(wù)的成功率還行(大于 90%),跨越多個(gè) APP 的任務(wù)還有點(diǎn)手忙腳亂。但是,方向已經(jīng)十分清晰,那就是未來(lái)的家用機(jī)器人可以通過(guò)觀(guān)察和觸摸來(lái)接管你的手機(jī)雜活。

該團(tuán)隊(duì)將手機(jī)操作問(wèn)題建模為部分可觀(guān)測(cè)馬爾可夫決策過(guò)程(POMDP),并且將多模態(tài)大模型能力裝進(jìn)了機(jī)器人里,使用了 GPT-4o、QwenVL 這樣的視覺(jué)語(yǔ)言模型,讓機(jī)器人不僅能夠看見(jiàn)屏幕上的圖標(biāo)和文字,還能理解點(diǎn)擊某個(gè)頭像背后的社交意圖。

有個(gè)特別有意思的設(shè)計(jì)是視覺(jué)提示:在智能體發(fā)出要對(duì)圖標(biāo)進(jìn)行定位的指令時(shí),機(jī)器人先是用一個(gè)名為 Grounding DINO 的目標(biāo)檢測(cè)模型,把屏幕上可交互的按鈕全部框出來(lái),標(biāo)上數(shù)字 123,假如用戶(hù)要點(diǎn)披薩,這時(shí)機(jī)器人就會(huì)問(wèn)大模型用戶(hù)讓點(diǎn)披薩應(yīng)該點(diǎn)哪一個(gè),大模型一看 3 號(hào)是某披薩品牌的圖標(biāo),OK 就它了。這套流程模仿了人類(lèi)掃一眼屏幕、鎖定目標(biāo)的本能反應(yīng)。


(來(lái)源:https://arxiv.org/pdf/2512.08629)

當(dāng)然,要讓機(jī)器人真的在你的手機(jī)屏幕上戳來(lái)戳去,還需要解決幾個(gè)頭疼的技術(shù)難題。最典型的是返回、退出和打字這三個(gè)動(dòng)作。以前使用電腦上的系統(tǒng)開(kāi)發(fā)者工具例如 Android Debug Bridge(ADB)調(diào)試手機(jī),一條指令就能搞定;現(xiàn)在機(jī)器人只能使用物理手勢(shì),想返回就得從左向右滑,想退回到桌面就得從底部向上推,特別是打字,還需要對(duì)虛擬鍵盤(pán)的每一個(gè)鍵的位置都有準(zhǔn)確的認(rèn)知。這也是目前復(fù)雜任務(wù)的成功率較低的原因。

但是該團(tuán)隊(duì)留了一個(gè)后手。他們把機(jī)器人每次操作的思考過(guò)程和動(dòng)作記錄全部保存下來(lái),做成一個(gè)數(shù)據(jù)集公開(kāi)分享。這里既有成功的經(jīng)驗(yàn),也有失敗的教訓(xùn),甚至標(biāo)注了“這一步點(diǎn)對(duì)了嗎”“整個(gè)任務(wù)完成沒(méi)”等信息,讓其他研究者也可以依靠這些數(shù)據(jù)訓(xùn)練出更聰明的機(jī)器人。


(來(lái)源:https://arxiv.org/pdf/2512.08629)

應(yīng)用場(chǎng)景當(dāng)然距離我們非常近。比如,未來(lái)你在沙發(fā)上喊一聲“幫我交話(huà)費(fèi)”,機(jī)器人就會(huì)晃晃悠悠地走過(guò)來(lái),看著手機(jī)屏幕點(diǎn)開(kāi)支付寶和輸入密碼;再比如,當(dāng)你出門(mén)忘記帶手機(jī),遠(yuǎn)程讓家里的機(jī)器人幫你截圖快遞二維碼發(fā)到你的智能手表上進(jìn)行閃送;再再比如,家里有老人不會(huì)使用打車(chē)軟件,機(jī)器人可以代勞叫車(chē),送到醫(yī)院還能幫忙掛號(hào)。

趙皓宇表示:“我們做的用戶(hù)測(cè)試顯示,很多人都認(rèn)為這種形式能夠極大程度上幫助到老年人、殘障人士,或者一些沒(méi)有時(shí)間用手機(jī)的人,極大減緩工作時(shí)間,提高工作效率。想象一位重度運(yùn)動(dòng)障礙患者或年邁的老人:他們可能無(wú)法握持手機(jī),或者因?yàn)槭侄抖y以精準(zhǔn)點(diǎn)擊細(xì)小的圖標(biāo)。有了 See-Control,只需對(duì)語(yǔ)音助手說(shuō)一句:‘給我孫子打微信電話(huà)?!瘷C(jī)器人就會(huì)自動(dòng)在手機(jī)屏幕上操作——打開(kāi)應(yīng)用、找到聯(lián)系人、點(diǎn)擊呼叫按鈕,一氣呵成。它像一座橋梁,把數(shù)字世界與用戶(hù)的身體限制連接起來(lái),讓原本困難甚至不可能完成的操作,變得簡(jiǎn)單而可及。”

正常生活中我們可能要搶券、點(diǎn)外賣(mài),這一切都會(huì)通過(guò)手機(jī)助手解決掉。通過(guò)賦能機(jī)器人使用手機(jī),我們可以幻想不只是讓手機(jī)助手點(diǎn)外賣(mài),機(jī)器人甚至可以完成點(diǎn)外賣(mài)到幫你直接將外賣(mài)拿到你的身邊的全流程。同時(shí)也有商業(yè)可能性,比如在小紅書(shū)自動(dòng)尋找商機(jī)、回復(fù)評(píng)論、找到相應(yīng)帖子,這都能便利日常生活,極大減緩工作流程?!耙?yàn)槲覀冞@個(gè)解決方案是全部物理接觸,避開(kāi)了應(yīng)用本身存在的限制。”他說(shuō)。

這種操作方式可以天然地保護(hù)隱私。過(guò)去用系統(tǒng)開(kāi)發(fā)者工具,等于給機(jī)器人開(kāi)了一扇后門(mén),聯(lián)系人、相冊(cè)、聊天記錄等一覽無(wú)余?,F(xiàn)在它只能看到屏幕,讓它點(diǎn)啥就點(diǎn)啥,絕不多看一眼。

當(dāng)然,目前的原型機(jī)還比較簡(jiǎn)單,只有一根手指,做不了放大和縮小這種雙指操作,反應(yīng)速度也有所延遲。據(jù)了解,該團(tuán)隊(duì)刻意使用最簡(jiǎn)單的機(jī)械臂做測(cè)試,就是為了先把最難的問(wèn)題暴露出來(lái),比如怎么在反光的屏幕上精準(zhǔn)定位,怎么理解五花八門(mén)的 UI 設(shè)計(jì),怎么從錯(cuò)誤中學(xué)習(xí)。這些問(wèn)題一旦解決,未來(lái)搭配更靈活的機(jī)械手、更快的本地推理芯片,也許過(guò)不了幾年真的只需動(dòng)動(dòng)嘴就能讓機(jī)器人干活了。


(來(lái)源:https://arxiv.org/pdf/2512.08629)

趙皓宇表示:“我們的愿景是通過(guò) See-Control 這套系統(tǒng),實(shí)現(xiàn)一個(gè)統(tǒng)一的解決方案。這套方案不存在任何平臺(tái)限制,就是用一套純視覺(jué)的方案,通過(guò)手機(jī)屏幕畫(huà)面,讓機(jī)器人像模擬人類(lèi)那樣去操縱手機(jī)。全部都是擬真的、物理的操作,不限于任何手機(jī)、任何平臺(tái)。在未來(lái),我們也希望這套純視覺(jué)方案可以無(wú)縫銜接到不同的觸摸設(shè)備上面,通過(guò)機(jī)械臂完成一切需要像人類(lèi)一樣交互的邏輯?!?/p>

在未來(lái),其希望機(jī)器人不只是家中的掃地機(jī)器人,而是能夠作為一個(gè)中樞、一個(gè)全面的助手來(lái)幫助人類(lèi)生活??梢韵胂螅磥?lái)可能有殘障人士通過(guò)我們這套具身智能體來(lái)點(diǎn)外賣(mài),機(jī)器人就可以去拿外賣(mài)、下訂單,完全實(shí)現(xiàn)自動(dòng)交互。

參考資料:

相關(guān)論文 https://arxiv.org/pdf/2512.08629

趙皓宇主頁(yè) https://haoyu-zhao.github.io/

排版:劉雅坤

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯諾克重磅官宣!奧沙利文出戰(zhàn)元老世錦賽!馬克威廉姆斯?fàn)幑诔袎?>
    </a>
        <h3>
      <a href=林子說(shuō)事
2026-02-24 16:40:57
歐冠一夜4戰(zhàn)!將有4隊(duì)出線(xiàn):頭號(hào)黑馬呼之欲出 2隊(duì)晉級(jí)無(wú)憂(yōu)

歐冠一夜4戰(zhàn)!將有4隊(duì)出線(xiàn):頭號(hào)黑馬呼之欲出 2隊(duì)晉級(jí)無(wú)憂(yōu)

葉青足球世界
2026-02-24 09:46:59
《鏢人》原著作者許先哲的逆襲:欠債青年畫(huà)出“世界級(jí)水平中國(guó)動(dòng)漫精品”

《鏢人》原著作者許先哲的逆襲:欠債青年畫(huà)出“世界級(jí)水平中國(guó)動(dòng)漫精品”

封面新聞
2026-02-24 13:33:07
不能令人信服的通報(bào),媒體就別轉(zhuǎn)發(fā)了吧!

不能令人信服的通報(bào),媒體就別轉(zhuǎn)發(fā)了吧!

林中木白
2026-02-23 12:40:41
破案了!谷愛(ài)凌嘴里那個(gè)東西,關(guān)鍵時(shí)刻能救命,甚至能防腦震蕩!

破案了!谷愛(ài)凌嘴里那個(gè)東西,關(guān)鍵時(shí)刻能救命,甚至能防腦震蕩!

小娛樂(lè)悠悠
2026-02-24 12:57:58
三位軍長(zhǎng),同時(shí)被破格提拔,當(dāng)了大軍區(qū)司令

三位軍長(zhǎng),同時(shí)被破格提拔,當(dāng)了大軍區(qū)司令

文史茶館2020
2026-02-23 14:35:47
36 歲離婚女子獨(dú)自過(guò)年崩潰痛哭:沒(méi)老公沒(méi)孩子,誰(shuí)還會(huì)娶我

36 歲離婚女子獨(dú)自過(guò)年崩潰痛哭:沒(méi)老公沒(méi)孩子,誰(shuí)還會(huì)娶我

一盅情懷
2026-02-23 14:10:06
香港身份爛尾潮已來(lái)!12萬(wàn)內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

香港身份爛尾潮已來(lái)!12萬(wàn)內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

社會(huì)日日鮮
2026-02-22 04:38:12
毒梟死亡引發(fā)多州暴力事件 墨西哥總統(tǒng)呼吁民眾保持冷靜

毒梟死亡引發(fā)多州暴力事件 墨西哥總統(tǒng)呼吁民眾保持冷靜

極目新聞
2026-02-23 09:14:54
西部亂了,雷霆重返第1卻高興不起來(lái),3-6名太激烈,附加賽無(wú)意義

西部亂了,雷霆重返第1卻高興不起來(lái),3-6名太激烈,附加賽無(wú)意義

鐵甲西奇
2026-02-24 15:24:44
不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

我心縱橫天地間
2026-02-23 13:20:50
孔蒂與那不勒斯的緣分將盡!衛(wèi)冕冠軍那不勒斯賽季表現(xiàn)糟糕

孔蒂與那不勒斯的緣分將盡!衛(wèi)冕冠軍那不勒斯賽季表現(xiàn)糟糕

小驛拍客在北漂
2026-02-24 03:09:06
央媒曝光:14種品牌奶粉都是假的!原料為奶精+淀粉,已銷(xiāo)往全國(guó)

央媒曝光:14種品牌奶粉都是假的!原料為奶精+淀粉,已銷(xiāo)往全國(guó)

云舟史策
2026-02-23 16:26:54
國(guó)安部披露:境外反華勢(shì)力以快速“入籍”為餌,誘騙我國(guó)公民參加反華活動(dòng)

國(guó)安部披露:境外反華勢(shì)力以快速“入籍”為餌,誘騙我國(guó)公民參加反華活動(dòng)

澎湃新聞
2026-02-24 07:56:11
山姆超市偶遇金莎和孫丞瀟,金莎本人不年輕,一看就比老公大很多

山姆超市偶遇金莎和孫丞瀟,金莎本人不年輕,一看就比老公大很多

阿廢冷眼觀(guān)察所
2026-02-23 22:31:01
夢(mèng)鴿心中永遠(yuǎn)的痛:如今58歲的她,已經(jīng)為兒子鋪好下一條路了嗎?

夢(mèng)鴿心中永遠(yuǎn)的痛:如今58歲的她,已經(jīng)為兒子鋪好下一條路了嗎?

小熊侃史
2026-02-24 18:06:25
當(dāng)?shù)厝艘脖辉祝钊R酒樓屢教不改連夜被摘牌,老板透露身份還掙扎

當(dāng)?shù)厝艘脖辉?,蓬萊酒樓屢教不改連夜被摘牌,老板透露身份還掙扎

社會(huì)日日鮮
2026-02-24 09:27:23
從阿森納挖來(lái)的瑰寶!曼聯(lián)小將狂轟4球,青訓(xùn)主帥直言潛力未觸頂

從阿森納挖來(lái)的瑰寶!曼聯(lián)小將狂轟4球,青訓(xùn)主帥直言潛力未觸頂

夜白侃球
2026-02-24 18:59:48
59歲佟瑞欣近況曝光!娶生病變胖演員恩愛(ài)27年,兒女雙全很幸福

59歲佟瑞欣近況曝光!娶生病變胖演員恩愛(ài)27年,兒女雙全很幸福

代軍哥哥談娛樂(lè)
2026-02-23 09:47:05
中國(guó)正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

中國(guó)正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

森羅萬(wàn)象視頻
2026-02-23 21:13:07
2026-02-24 20:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16315文章數(shù) 514648關(guān)注度
往期回顧 全部

科技要聞

AI顛覆發(fā)展最新?tīng)奚罚BM跳水重挫超13%

頭條要聞

20家日本實(shí)體被列入管制名單 中方:完全正當(dāng) 合理合法

頭條要聞

20家日本實(shí)體被列入管制名單 中方:完全正當(dāng) 合理合法

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛(ài)單板滑雪的少年

娛樂(lè)要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時(shí)繁榮」了十天

汽車(chē)要聞

入門(mén)即滿(mǎn)配 威蘭達(dá)AIR版上市 13.78萬(wàn)元起

態(tài)度原創(chuàng)

藝術(shù)
健康
教育
親子
軍事航空

藝術(shù)要聞

2025年第八屆全國(guó)青年美展 | 油畫(huà)作品選刊

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

教育要聞

收藏!2026四川高中學(xué)業(yè)水平考試報(bào)名指南

親子要聞

萌娃質(zhì)問(wèn)老爸:媽媽為什么嫁給你,老爸的回答竟讓萌娃面露難色

軍事要聞

美軍參聯(lián)會(huì)主席警告:對(duì)伊朗動(dòng)武可能帶來(lái)重大風(fēng)險(xiǎn)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版