国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

香港大學(xué)團(tuán)隊(duì)破解電腦操作難題:讓AI通過看視頻學(xué)會(huì)自己使用電腦

0
分享至


這項(xiàng)由香港大學(xué)的陸俊杰、徐藝恒、王俊力等研究者領(lǐng)導(dǎo),聯(lián)合阿里巴巴Qwen團(tuán)隊(duì)的黃斌源、林俊洋等專家共同完成的研究發(fā)表于2025年10月,論文編號(hào)為arXiv:2510.19488v1。這是一項(xiàng)關(guān)于如何讓人工智能學(xué)會(huì)使用電腦的突破性研究,有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

當(dāng)我們看到一個(gè)孩子第一次學(xué)習(xí)使用電腦時(shí),通常是通過觀察大人的操作,然后模仿點(diǎn)擊、打字、滾動(dòng)等動(dòng)作。現(xiàn)在,研究人員想讓人工智能也能通過這種方式學(xué)習(xí),但遇到了一個(gè)巨大的挑戰(zhàn):雖然網(wǎng)上有數(shù)百萬個(gè)電腦操作教程視頻,但這些視頻就像是無聲電影一樣,我們能看到鼠標(biāo)在移動(dòng)、按鈕被點(diǎn)擊,卻無法直接知道具體點(diǎn)擊的坐標(biāo)或者輸入的文字內(nèi)容。

香港大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的解決方案,他們稱之為VideoAgentTrek。這個(gè)系統(tǒng)就像是一個(gè)非常聰明的"視頻翻譯官",能夠自動(dòng)觀看YouTube上的電腦教程視頻,然后把這些隱含的操作信息翻譯成AI能夠理解和學(xué)習(xí)的具體指令。

研究團(tuán)隊(duì)開發(fā)了一個(gè)叫做Video2Action的關(guān)鍵技術(shù)模塊,它的工作原理可以比作一個(gè)經(jīng)驗(yàn)豐富的電腦老師在觀看學(xué)生操作錄像。這個(gè)"老師"有兩項(xiàng)特殊技能:首先,它能精確識(shí)別視頻中什么時(shí)候發(fā)生了操作,比如在第3.5秒到5.5秒之間用戶進(jìn)行了打字操作;其次,它能準(zhǔn)確推斷出這些操作的具體內(nèi)容,比如鼠標(biāo)點(diǎn)擊的確切坐標(biāo)是(350, 200),或者用戶輸入的文字是"hello world"。

為了獲得訓(xùn)練數(shù)據(jù),研究團(tuán)隊(duì)像是在進(jìn)行一場大規(guī)模的"視頻考古"工作。他們從YouTube收集了55000個(gè)教程視頻,總時(shí)長約10000小時(shí),涵蓋從Excel表格操作到軟件安裝的各種電腦使用場景。為了確保視頻質(zhì)量,他們還開發(fā)了一個(gè)叫做ScreenFilter的篩選工具,這個(gè)工具就像是一個(gè)專門的"質(zhì)檢員",能夠自動(dòng)識(shí)別哪些視頻片段包含真正的電腦界面操作,過濾掉那些只是講解PPT或者純粹聊天的內(nèi)容。

經(jīng)過ScreenFilter的篩選,最終保留了約7377小時(shí)的高質(zhì)量GUI交互視頻。這些視頻按照內(nèi)容類型進(jìn)行了分類:操作系統(tǒng)相關(guān)的占35.7%,專業(yè)軟件使用占18.9%,日常辦公應(yīng)用占17.6%,工作流程演示占16.2%,其余為7.1%。這種分布確保了訓(xùn)練數(shù)據(jù)的廣泛覆蓋性。

Video2Action模塊的工作過程可以分為三個(gè)步驟,就像一個(gè)熟練的秘書在整理會(huì)議記錄。第一步是"動(dòng)作事件檢測(cè)",系統(tǒng)會(huì)仔細(xì)觀看視頻,標(biāo)記出每個(gè)操作動(dòng)作的精確時(shí)間段,比如"在1.5到2.0秒之間發(fā)生了點(diǎn)擊動(dòng)作"。第二步是"動(dòng)作參數(shù)化",系統(tǒng)會(huì)分析這些時(shí)間段內(nèi)的具體操作內(nèi)容,推斷出點(diǎn)擊的坐標(biāo)、輸入的文字等詳細(xì)參數(shù)。第三步是"內(nèi)心獨(dú)白生成",系統(tǒng)會(huì)為每個(gè)操作生成一段解釋性的文字,說明為什么要進(jìn)行這個(gè)操作,就像是操作者的內(nèi)心想法。

研究團(tuán)隊(duì)使用了Qwen2.5-VL-7B作為基礎(chǔ)模型進(jìn)行訓(xùn)練。對(duì)于動(dòng)作事件檢測(cè),他們使用了154小時(shí)的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)來自O(shè)penCUA項(xiàng)目,包含了77萬多個(gè)精確標(biāo)注的GUI事件。檢測(cè)模型在測(cè)試中表現(xiàn)出色,整體精確率達(dá)到88%,召回率為70%。其中,點(diǎn)擊和滾動(dòng)等基于鼠標(biāo)指針的操作識(shí)別效果最好,而按鍵操作由于視覺線索較少,識(shí)別難度相對(duì)較大。

對(duì)于動(dòng)作參數(shù)化任務(wù),研究團(tuán)隊(duì)訓(xùn)練了512000個(gè)視頻片段。他們采用了動(dòng)態(tài)幀率策略來平衡效率和準(zhǔn)確性:對(duì)于短暫的操作(如點(diǎn)擊),使用較高的幀率確保捕捉細(xì)節(jié);對(duì)于較長的操作(如打字),則使用較低的幀率節(jié)省計(jì)算資源。在實(shí)際測(cè)試中,該模塊在500個(gè)樣本的人工評(píng)估中表現(xiàn)良好,點(diǎn)擊操作的準(zhǔn)確率達(dá)到71.3%,滾動(dòng)操作達(dá)到73.5%。

通過Video2Action處理39000個(gè)YouTube視頻后,研究團(tuán)隊(duì)最終獲得了152萬個(gè)交互步驟的訓(xùn)練數(shù)據(jù),相當(dāng)于約260億個(gè)訓(xùn)練詞匯。這個(gè)數(shù)據(jù)規(guī)模遠(yuǎn)超之前的人工標(biāo)注數(shù)據(jù)集,而且覆蓋了Windows、macOS、Web平臺(tái)上數(shù)百種應(yīng)用程序的操作模式。

在模型訓(xùn)練方面,研究團(tuán)隊(duì)采用了兩階段策略。第一階段是"繼續(xù)預(yù)訓(xùn)練",讓模型在大規(guī)模的視頻挖掘數(shù)據(jù)上學(xué)習(xí)基礎(chǔ)的GUI交互模式,就像讓學(xué)生先大量閱讀各種操作手冊(cè)。第二階段是"監(jiān)督微調(diào)",使用高質(zhì)量的人工標(biāo)注數(shù)據(jù)進(jìn)行精細(xì)調(diào)整,就像讓學(xué)生在老師指導(dǎo)下練習(xí)具體操作。

實(shí)驗(yàn)結(jié)果令人印象深刻。在OSWorld-Verified基準(zhǔn)測(cè)試中,僅使用監(jiān)督微調(diào)的基準(zhǔn)模型任務(wù)成功率為9.3%,而加入VideoAgentTrek預(yù)訓(xùn)練后,成功率提升到15.8%,相對(duì)提升幅度達(dá)到70%。在AgentNetBench測(cè)試中,步驟準(zhǔn)確率從64.1%提升到69.3%。特別值得注意的是,經(jīng)過視頻預(yù)訓(xùn)練的模型在給定更多操作步驟時(shí)表現(xiàn)出更好的"測(cè)試時(shí)擴(kuò)展"能力,任務(wù)成功率從20步預(yù)算的14.13%提升到50步預(yù)算的15.78%,而未經(jīng)視頻預(yù)訓(xùn)練的模型在增加步驟后性能沒有提升。

研究團(tuán)隊(duì)進(jìn)一步分析了數(shù)據(jù)規(guī)模的影響。他們發(fā)現(xiàn),隨著視頻預(yù)訓(xùn)練數(shù)據(jù)量的增加,模型性能呈現(xiàn)穩(wěn)定的提升趨勢(shì)。使用50%的數(shù)據(jù)時(shí),AgentNetBench步驟成功率為68.1%,OSWorld-Verified任務(wù)成功率為13.3%;使用100%數(shù)據(jù)時(shí),性能進(jìn)一步提升至69.3%和15.7%。這表明更大規(guī)模的視頻數(shù)據(jù)能夠帶來更好的性能。

VideoAgentTrek的一個(gè)重要優(yōu)勢(shì)是能夠提供更長的操作軌跡。傳統(tǒng)的人工標(biāo)注數(shù)據(jù)集平均軌跡長度通常在5-18步之間,而VideoAgentTrek數(shù)據(jù)集的平均軌跡長度達(dá)到39.25步,其中42.1%的軌跡超過20步,14.5%包含50步或更多。這種長軌跡訓(xùn)練對(duì)于復(fù)雜任務(wù)的處理至關(guān)重要,它讓AI模型學(xué)會(huì)了如何將復(fù)雜任務(wù)分解為子目標(biāo),在中間失敗時(shí)持續(xù)嘗試,并有效利用額外的計(jì)算預(yù)算進(jìn)行探索和錯(cuò)誤修正。

在技術(shù)細(xì)節(jié)方面,ScreenFilter使用YOLOv8x模型進(jìn)行光標(biāo)檢測(cè),在15000個(gè)合成圖像上訓(xùn)練,F(xiàn)1分?jǐn)?shù)達(dá)到89.58%。該工具以1-2幀每秒的速度處理視頻,保留至少80%幀包含光標(biāo)且持續(xù)6秒以上的片段,能夠以每GPU日約840小時(shí)的效率進(jìn)行大規(guī)模過濾。

Video2Action的動(dòng)作事件檢測(cè)模塊支持多種操作類型,包括點(diǎn)擊、拖拽、按鍵、滾動(dòng)、打字等。在訓(xùn)練數(shù)據(jù)中,點(diǎn)擊操作占主導(dǎo)地位(67.1%),其次是打字(13.9%)和按鍵(9.4%)。模型能夠處理各種時(shí)長的操作,從0.5秒的快速點(diǎn)擊到5秒的長時(shí)間打字輸入。

內(nèi)心獨(dú)白生成使用GPT-5 Medium模型,為每個(gè)操作步驟生成4-8句的第一人稱解釋。這些解釋包含操作意圖、本地計(jì)劃、預(yù)期狀態(tài)變化等信息,幫助模型更好地理解操作的上下文和目的。生成過程會(huì)參考操作前后的關(guān)鍵幀、操作類型和參數(shù),以及操作前后各1分鐘的語音轉(zhuǎn)錄內(nèi)容。

研究團(tuán)隊(duì)還對(duì)不同領(lǐng)域的性能進(jìn)行了詳細(xì)分析。在OSWorld-Verified的各個(gè)應(yīng)用類別中,Chrome瀏覽器相關(guān)任務(wù)的改善最為顯著,解決任務(wù)數(shù)從8個(gè)增加到15個(gè);工作流程類任務(wù)從5個(gè)增加到8個(gè);操作系統(tǒng)類任務(wù)也有穩(wěn)定提升。這表明視頻預(yù)訓(xùn)練在各種應(yīng)用場景中都能帶來實(shí)質(zhì)性的性能提升。

VideoAgentTrek方法的創(chuàng)新之處在于首次實(shí)現(xiàn)了從無標(biāo)注視頻到結(jié)構(gòu)化訓(xùn)練數(shù)據(jù)的自動(dòng)轉(zhuǎn)換。傳統(tǒng)方法要么依賴昂貴的人工標(biāo)注,要么局限于有限的模擬環(huán)境,而VideoAgentTrek能夠利用互聯(lián)網(wǎng)上豐富的教程視頻資源,為計(jì)算機(jī)使用代理的訓(xùn)練提供了一種可擴(kuò)展的替代方案。

這項(xiàng)研究的意義不僅在于技術(shù)突破,更在于為AI助手的實(shí)用化鋪平了道路。未來,我們可能會(huì)看到更智能的AI助手,它們能夠通過觀看在線教程學(xué)習(xí)新的軟件操作,然后幫助用戶完成復(fù)雜的計(jì)算機(jī)任務(wù)。這種能力將極大地降低普通用戶使用復(fù)雜軟件的門檻,讓更多人能夠享受到數(shù)字化工具帶來的便利。

說到底,VideoAgentTrek展示了一種全新的AI學(xué)習(xí)范式:通過模仿人類的學(xué)習(xí)方式,讓AI從觀察中學(xué)習(xí),而不是僅僅依賴預(yù)先標(biāo)注的數(shù)據(jù)。這種方法不僅更接近人類的學(xué)習(xí)過程,也為AI技術(shù)的發(fā)展開辟了更廣闊的可能性。正如人類通過觀察和模仿學(xué)會(huì)使用工具一樣,AI也可以通過這種方式不斷擴(kuò)展自己的能力邊界。對(duì)于普通用戶而言,這意味著未來的AI助手將更加智能和實(shí)用,能夠真正成為我們數(shù)字生活中的得力伙伴。

Q&A

Q1:VideoAgentTrek是什么?

A:VideoAgentTrek是香港大學(xué)和阿里巴巴團(tuán)隊(duì)開發(fā)的AI訓(xùn)練系統(tǒng),它能自動(dòng)從YouTube教程視頻中提取電腦操作信息,讓AI學(xué)會(huì)使用電腦,就像人類通過看視頻學(xué)習(xí)一樣。

Q2:這個(gè)系統(tǒng)相比傳統(tǒng)方法有什么優(yōu)勢(shì)?

A:傳統(tǒng)方法需要大量人工標(biāo)注數(shù)據(jù),成本高且規(guī)模有限。VideoAgentTrek能直接利用網(wǎng)上現(xiàn)成的教程視頻,成本低廉且數(shù)據(jù)規(guī)模龐大,從39000個(gè)視頻中自動(dòng)提取了152萬個(gè)操作步驟。

Q3:VideoAgentTrek訓(xùn)練的AI表現(xiàn)如何?

A:在標(biāo)準(zhǔn)測(cè)試中,使用VideoAgentTrek訓(xùn)練的AI任務(wù)成功率從9.3%提升到15.8%,步驟準(zhǔn)確率從64.1%提升到69.3%,并且在復(fù)雜長任務(wù)上表現(xiàn)更加出色。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
剛剛,美國發(fā)出最高預(yù)警:疫情已完全失控!2026年人類面臨大考?

剛剛,美國發(fā)出最高預(yù)警:疫情已完全失控!2026年人類面臨大考?

徐德文科學(xué)頻道
2025-12-26 20:21:51
多地黨委主要領(lǐng)導(dǎo)調(diào)整!其中有一人是中央委員

多地黨委主要領(lǐng)導(dǎo)調(diào)整!其中有一人是中央委員

上觀新聞
2025-12-26 13:52:06
謝春濤率中共代表團(tuán)赴柬埔寨、老撾宣介中共二十屆四中全會(huì)精神

謝春濤率中共代表團(tuán)赴柬埔寨、老撾宣介中共二十屆四中全會(huì)精神

新華社
2025-12-26 17:00:06
敖德薩遭襲,此前澤連斯基變卦、變卦、又變卦

敖德薩遭襲,此前澤連斯基變卦、變卦、又變卦

新民晚報(bào)
2025-12-26 09:03:19
身在美國卻說和祖國不能分割,姜昆的圣誕離岸愛國秀,諷刺感拉滿

身在美國卻說和祖國不能分割,姜昆的圣誕離岸愛國秀,諷刺感拉滿

歷史總在押韻
2025-12-25 22:58:56
中國為什么沒有美國的“斬殺線”?

中國為什么沒有美國的“斬殺線”?

農(nóng)民日?qǐng)?bào)
2025-12-25 19:43:11
雷迪克勃然大怒直指詹姆斯?湖人將帥關(guān)系或已破裂

雷迪克勃然大怒直指詹姆斯?湖人將帥關(guān)系或已破裂

體壇周報(bào)
2025-12-26 18:39:10
嘉興市原市長李軍調(diào)任浙江省海洋經(jīng)濟(jì)發(fā)展廳黨組書記,曾在湖南工作27年

嘉興市原市長李軍調(diào)任浙江省海洋經(jīng)濟(jì)發(fā)展廳黨組書記,曾在湖南工作27年

上觀新聞
2025-12-26 20:49:34
國家衛(wèi)健委:希望黨政機(jī)關(guān)、企事業(yè)單位、社會(huì)組織每年都能組織員工參與團(tuán)體無償獻(xiàn)血

國家衛(wèi)健委:希望黨政機(jī)關(guān)、企事業(yè)單位、社會(huì)組織每年都能組織員工參與團(tuán)體無償獻(xiàn)血

紅星新聞
2025-12-26 17:42:26
洪森提出4大?;饤l件,泰柬談判失敗,汪文斌終于表態(tài),措辭特殊

洪森提出4大?;饤l件,泰柬談判失敗,汪文斌終于表態(tài),措辭特殊

時(shí)時(shí)有聊
2025-12-26 15:09:40
天塹變通途!極氪001車隊(duì)首批穿越天山勝利隧道,南北疆從此邁入“一日往返”時(shí)代

天塹變通途!極氪001車隊(duì)首批穿越天山勝利隧道,南北疆從此邁入“一日往返”時(shí)代

魯中晨報(bào)
2025-12-26 19:16:51
越南樓市失控了

越南樓市失控了

格隆匯
2025-12-26 19:37:05
原來35歲那么刀人:失業(yè)、鬧離婚、賣房、換城市

原來35歲那么刀人:失業(yè)、鬧離婚、賣房、換城市

網(wǎng)易新聞出品
2025-12-26 10:00:03
陳嘉樺廣州個(gè)唱場面火爆,SHE留下的潑天遺產(chǎn),都被她一人繼承了

陳嘉樺廣州個(gè)唱場面火爆,SHE留下的潑天遺產(chǎn),都被她一人繼承了

娛樂E君
2025-12-25 16:02:06
南博“吹哨人”遭連環(huán)恐嚇

南博“吹哨人”遭連環(huán)恐嚇

不正確
2025-12-25 12:42:58
獨(dú)家:南博前院長徐湖平“監(jiān)守自盜”,工人逆襲院長發(fā)跡史曝光!

獨(dú)家:南博前院長徐湖平“監(jiān)守自盜”,工人逆襲院長發(fā)跡史曝光!

微評(píng)社
2025-12-26 12:59:10
被罵到關(guān)評(píng)!姜昆在美國豪宅唱紅歌過圣誕,17年曾呼吁抵制圣誕節(jié)

被罵到關(guān)評(píng)!姜昆在美國豪宅唱紅歌過圣誕,17年曾呼吁抵制圣誕節(jié)

阿纂看事
2025-12-25 17:19:59
姜昆回應(yīng),視頻為拼接,人一直在國內(nèi),蹭熱度的楊儀又被打臉了

姜昆回應(yīng),視頻為拼接,人一直在國內(nèi),蹭熱度的楊儀又被打臉了

李健政觀察
2025-12-26 12:19:52
華潤置地裁員近8千人

華潤置地裁員近8千人

地產(chǎn)微資訊
2025-12-26 09:43:39
格力市場總監(jiān)朱磊曬工廠圖:銅管堆成山!堅(jiān)決不用鋁代銅

格力市場總監(jiān)朱磊曬工廠圖:銅管堆成山!堅(jiān)決不用鋁代銅

快科技
2025-12-26 17:57:08
2025-12-27 01:39:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動(dòng)數(shù)字化創(chuàng)新
15141文章數(shù) 49680關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財(cái)經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測(cè)

態(tài)度原創(chuàng)

房產(chǎn)
家居
手機(jī)
藝術(shù)
公開課

房產(chǎn)要聞

炸裂,三亞360億超級(jí)清單發(fā)布,又一批重大配套要來了!

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

手機(jī)要聞

vivo藍(lán)河:以開源和賽事,撬動(dòng)AGI時(shí)代底層技術(shù)生態(tài)

藝術(shù)要聞

你絕對(duì)想不到,佛陀微笑隱藏的秘密竟然是!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版