国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

「豆包手機(jī)」為何能靠超級(jí)Agent火遍全網(wǎng),我們聽聽AI學(xué)者們?cè)趺凑f

0
分享至




機(jī)器之心原創(chuàng)

機(jī)器之心編輯部

手機(jī)上的 AI,從來沒有這么像真人。

最近一個(gè)星期,席卷科技圈的一款手機(jī)不來自任何一家硬件大廠,而是與字節(jié)的豆包聯(lián)系在了一起。

這款搭載豆包手機(jī)助手的工程機(jī)引爆了全網(wǎng),讓很多人第一次真切地感受到 Agent 已經(jīng)觸手可及。在某寶平臺(tái)上,這款手機(jī)的價(jià)格被炒到了近五千元。



本月初發(fā)布的豆包手機(jī)助手,目前還是技術(shù)預(yù)覽版。與大多數(shù)作為獨(dú)立 App 存在的 AI 助手都不一樣的是,它通過把 AI Agent 嵌入系統(tǒng)底層的方式,讓手機(jī)實(shí)現(xiàn)了端側(cè) AI 能力的全面突破,帶來了全新的交互方式和多模態(tài)體驗(yàn)。在不少科技從業(yè)者看來,豆包手機(jī)助手已經(jīng)把 AI 工具的認(rèn)知推向了新的高度,它不再只是一個(gè)輔助工具或外置 App,而是與手機(jī)操作系統(tǒng)深度綁定的「超級(jí)管家」。

畢竟,只需要一句話,豆包手機(jī)助手可以真正地實(shí)現(xiàn)跨 App 的復(fù)雜指令執(zhí)行。除了其他手機(jī)上 Agent 常見的訂餐、記賬、修改設(shè)置等能力之外,豆包手機(jī)助手能夠攻克相對(duì)模糊且復(fù)雜的長鏈條需求。



豆包手機(jī)助手全程無中斷地完成「地圖上標(biāo)記餐廳、查找博物館以及旅行平臺(tái)訂票」的多需求、長鏈路任務(wù)。

這樣的表現(xiàn)讓人直呼:「是不是有點(diǎn)過于智能化了」。

與此同時(shí),圍繞豆包手機(jī)助手持續(xù)升溫的討論也引出了一些不同觀點(diǎn)與追問:「AI 操作手機(jī)」真的是未來人們用手機(jī)的常態(tài)嗎?要打造這樣一臺(tái) AI 手機(jī),豆包手機(jī)助手做對(duì)了什么?

在深入了解豆包手機(jī)助手背后的技術(shù)底座,并與四位學(xué)界專家進(jìn)行一番交流之后,我們對(duì)它如何重構(gòu)交互范式、推動(dòng)系統(tǒng)級(jí) GUI Agent 實(shí)現(xiàn)有了更加立體、清晰的認(rèn)知。

給手機(jī)裝系統(tǒng)級(jí) Agent,為什么這么難?

這兩年,無論是一些新興的 AI 硬件初創(chuàng)公司,還是國內(nèi)外主流手機(jī)廠商呈現(xiàn)出一個(gè)明顯的趨勢:探索將原生 AI 能力更深度地融合進(jìn)設(shè)備系統(tǒng)中,最重要的形態(tài)之一便是引入 AI Agent。

其中,作為一種由多模態(tài)視覺模型驅(qū)動(dòng)的 AI 系統(tǒng),GUI Agent 在遵循以自然語言提出的指令下,能夠理解屏幕內(nèi)容、進(jìn)行自主推理,并在 UI 上執(zhí)行與人類操作類似的交互,如讀取信息、點(diǎn)擊按鈕、輸入內(nèi)容等,從而完成特定任務(wù)。

隨著 GUI Agent 能力在端側(cè)持續(xù)增強(qiáng),以更高集成度、更深層系統(tǒng)權(quán)限為特征的系統(tǒng)級(jí) GUI Agent 逐漸成為下一階段的核心目標(biāo),這要求不僅高效執(zhí)行任務(wù),還要理解上下文、協(xié)調(diào)多 App 流轉(zhuǎn)等。

但這樣的系統(tǒng)級(jí)實(shí)現(xiàn)并不容易。從學(xué)術(shù)與工程落地視角來看,大致需要克服以下四個(gè)層面的障礙:

一是感知層:Agent 需要在毫秒級(jí)內(nèi)識(shí)別出屏幕上所有的交互元素,比如圖標(biāo)、按鈕和文本框。此外還需要具備抗動(dòng)態(tài)干擾能力,這是因?yàn)?App 界面復(fù)雜,彈窗廣告、浮層、動(dòng)態(tài)加載內(nèi)容會(huì)產(chǎn)生視覺噪聲。GUI Agent 要具備「像素級(jí)」的精準(zhǔn)定位能力,同時(shí)理解圖標(biāo)背后的「功能語義」。

二是規(guī)劃層:主要涉及跨 App 的信息流轉(zhuǎn),包括 App 切換、上下文記憶提取、剪貼板操作等多個(gè)步驟;執(zhí)行過程中也可能會(huì)遇到網(wǎng)絡(luò)卡頓、登錄失效、意外彈窗等突發(fā)情況,傳統(tǒng)的腳本(workflow)一旦斷裂可能無法繼續(xù)。GUI Agent 要維持跨多 App 的邏輯連貫性,并具備自我反思能力,比如發(fā)現(xiàn)路徑不通而換一種方式。

三是決策層:GUI Agent 必須具備強(qiáng)泛化能力,不能只在見過的界面上工作,還要能夠在未見過的同類 App 中執(zhí)行相似操作。同時(shí),手機(jī)操作除了點(diǎn)擊之外,還包括長按、滑動(dòng)和縮放等其他細(xì)粒度操作,對(duì) Agent 的反饋回路提出了更高要求,也意味著決策過程必須更加及時(shí)與精準(zhǔn)。

四是系統(tǒng)層:首先是響應(yīng)速度,用戶無法忍受長時(shí)間的思考;其次是權(quán)限壁壘,在 Android 等嚴(yán)格的沙盒機(jī)制下,無法輕易獲取其他 App 的屏幕信息或進(jìn)行操作。GUI Agent 要在保證數(shù)據(jù)隱私安全和低延遲的前提下,打破操作系統(tǒng)內(nèi)部的數(shù)據(jù)孤島。

四個(gè)層面的障礙共同構(gòu)成系統(tǒng)級(jí) GUI Agent 落地過程中最核心的挑戰(zhàn)。其中在談到系統(tǒng)級(jí)跨 App 操作面臨的難題時(shí),蒙特利爾大學(xué)與 MILA 實(shí)驗(yàn)室副教授劉邦提到了感知層的界面理解與元素定位問題,以及規(guī)劃層的長鏈路任務(wù)規(guī)劃與狀態(tài)管理。真實(shí)用戶任務(wù)往往需幾十步、跨多個(gè) App,還可能出現(xiàn)彈窗、網(wǎng)絡(luò)延遲、權(quán)限請(qǐng)求、驗(yàn)證碼、異步加載等狀況。Agent 必須記住之前做了什么、當(dāng)前狀態(tài)如何、接下來可能發(fā)生什么,還要能應(yīng)對(duì)失敗或異常。

西湖大學(xué)通用人工智能(AGI)實(shí)驗(yàn)室負(fù)責(zé)人、助理教授張馳點(diǎn)出了上下文記憶和推理速度這兩項(xiàng)對(duì) GUI Agent 產(chǎn)品化至關(guān)重要的能力。上海交通大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師張偉楠博士認(rèn)為當(dāng)前的 AI 大廠往往通過一個(gè)或幾個(gè) App 發(fā)力,無法獲得最大的數(shù)據(jù)訪問與操控權(quán)限,因此無法對(duì)齊用戶上下文,也無法做到用戶可以完成的操作。

浙江大學(xué)百人計(jì)劃研究員、博士生導(dǎo)師沈永亮總結(jié)了幾個(gè)難點(diǎn),包括長鏈路規(guī)劃、推理速度以及輕量級(jí)模型如何管理短期與長期記憶,這些也是當(dāng)前學(xué)術(shù)界普遍關(guān)注的核心瓶頸。

對(duì)于這樣一項(xiàng)貫穿 AI 技術(shù)、終端硬件、操作系統(tǒng)和生態(tài)協(xié)同的全鏈路重構(gòu)工程,任何一個(gè)環(huán)節(jié)的不成熟,都可能影響 Agent 走向真正的產(chǎn)品化。近兩年學(xué)界和業(yè)界開始發(fā)力 Agent 載體的能力釋放,包括通用 GUI Agent 研究工作 AppAgent、Mobile-Agent、UI-TARS 等,以及依賴視覺識(shí)別與無障礙控制的 Rabbit 式通用 Agent 和手機(jī)廠商在 OS 層構(gòu)建的系統(tǒng)級(jí) Agent。

通過這些嘗試,AI 開始能夠像人類一樣操控手機(jī)屏幕并完成一些特定的任務(wù),但依然存在著不少問題,比如不同 App 的權(quán)限開放、長鏈路復(fù)雜任務(wù)成功率低、等待時(shí)間長、缺乏處理 UI 突發(fā)情況的能力,這些都限制了系統(tǒng)級(jí) GUI Agent 的穩(wěn)定性和實(shí)用性。

豆包手機(jī)助手取長補(bǔ)短,采取了「GUI Agent + 系統(tǒng)級(jí)權(quán)限」的路徑。一方面,在手機(jī)上通過深度系統(tǒng)集成獲得了 Android 系統(tǒng)級(jí)權(quán)限,同時(shí)有更嚴(yán)格的使用限制,只有在用戶主動(dòng)授權(quán)之后才會(huì)調(diào)用該權(quán)限。這允許豆包手機(jī)助手模擬用戶點(diǎn)擊、滑動(dòng)、鍵入、跨 App 操作。另一方面,借助視覺多模態(tài)能力,即識(shí)別屏幕 UI、理解界面內(nèi)容、解析用戶意圖和執(zhí)行規(guī)劃,豆包手機(jī)助手自主決定「下一步該點(diǎn)哪兒、輸入什么、跳到哪個(gè) App」。用劉邦的說法,這相當(dāng)于一個(gè)「幽靈手指 + 大腦 + 決策系統(tǒng)」

張馳強(qiáng)調(diào)了豆包手機(jī)助手的系統(tǒng)級(jí)整合能力,通過基礎(chǔ)能力的持續(xù)增強(qiáng)和多種技術(shù)方案的整合(如系統(tǒng)功能接口調(diào)用),做到更好的 GUI Agent 體驗(yàn)。張偉楠表示,豆包手機(jī)助手通過 GUI Agent 打通 App 之間的壁壘,在對(duì)齊用戶上下文和操作空間上有了顯著進(jìn)步。「作為第一個(gè)手機(jī)廠商和大模型公司主導(dǎo)設(shè)計(jì)的 AI 手機(jī),設(shè)計(jì)邏輯上比傳統(tǒng)手機(jī)廠商做 AI 轉(zhuǎn)型設(shè)計(jì)的手機(jī)更具有顛覆性。」

沈永亮同樣突出了豆包手機(jī)助手主打的原生 GUI 視覺操作,與手機(jī)廠商深度合作達(dá)成系統(tǒng)級(jí)操作權(quán)限,直接向系統(tǒng)內(nèi)核發(fā)送指令來模擬人手指的點(diǎn)擊和滑動(dòng)。這種基于系統(tǒng)底層的視覺操作與以往依賴無障礙服務(wù)的第三方 App 有本質(zhì)區(qū)別,具備了極強(qiáng)的通用性,執(zhí)行過程更穩(wěn)定、更像真人,在推理速度與任務(wù)完成率上表現(xiàn)平衡,長上下文處理能力相當(dāng)可觀。

整體看下來,豆包手機(jī)助手正在構(gòu)建一個(gè)集「視覺理解、大模型推理與系統(tǒng)級(jí)原生執(zhí)行」于一體的通用 Agent 層,在面對(duì)不同 App 和界面形態(tài)時(shí)實(shí)現(xiàn)了可泛化的 UI 操作。

從兼容性、跨 App 自動(dòng)化執(zhí)行、長鏈路任務(wù)處理、多任務(wù)調(diào)度等多個(gè)維度來看,豆包手機(jī)助手已經(jīng)展現(xiàn)出了優(yōu)于傳統(tǒng)腳本式自動(dòng)化或無障礙接口方案的能力。這些都為實(shí)現(xiàn)更高階的系統(tǒng)級(jí) GUI Agent 提供了更穩(wěn)健的基礎(chǔ)能力。

UI-TARS:豆包手機(jī)助手背后的自研系統(tǒng)級(jí) GUI Agent 引擎

相信大家已經(jīng)被豆包手機(jī)助手的各種演示刷屏了,無論是跨 App 訂機(jī)票、自動(dòng)比價(jià)、修改圖片,還是在手機(jī)上絲滑完成一整套復(fù)雜流程,這些能力表明:手機(jī)不再只是等你點(diǎn)的工具,而是開始具備了主動(dòng)完成任務(wù)的能力。

這些能力的背后,正是字節(jié)在 2025 年陸續(xù)推出的自研開源模型 UI-TARS。據(jù)悉,豆包手機(jī)助手使用的是 UI-TARS 閉源版本,不僅性能優(yōu)于其開源版本,還針對(duì) Mobile Use 進(jìn)行了大量優(yōu)化。

UI-TARS 最早可追溯到今年一月,其奠定了字節(jié)在 GUI Agent 方向的基礎(chǔ)框架;四月,團(tuán)隊(duì)進(jìn)一步發(fā)布進(jìn)階版 UI-TARS-1.5,該版本融合了由強(qiáng)化學(xué)習(xí)帶來的高級(jí)推理能力,使模型能夠在執(zhí)行動(dòng)作之前先進(jìn)行思考推演。九月推出的 UI-TARS-2 則將這一體系推進(jìn)到新的階段。

UI-TARS 包括用于可擴(kuò)展數(shù)據(jù)生成的數(shù)據(jù)飛輪機(jī)制、穩(wěn)定的多輪強(qiáng)化學(xué)習(xí)框架、融合文件系統(tǒng)與終端的混合式 GUI 環(huán)境,以及支持大規(guī)模 rollouts 的統(tǒng)一沙箱平臺(tái)。



首先,緩解數(shù)據(jù)稀缺問題?,F(xiàn)階段大規(guī)模預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)在對(duì)話、推理等領(lǐng)域已經(jīng)非常成熟,但一旦換到需要長鏈操作的 GUI 任務(wù)上,就難以直接擴(kuò)展。因?yàn)?GUI 場景不像文本和代碼那樣可以輕松收集海量數(shù)據(jù),而是必須記錄完整的操作軌跡,包括每一步的推理、點(diǎn)擊、界面變化和反饋。這類數(shù)據(jù)不僅難獲取、成本高,而且規(guī)?;占绕淅щy。

UI-TARS 設(shè)計(jì)了可擴(kuò)展的數(shù)據(jù)飛輪(Data Flywheel)機(jī)制,通過反復(fù)的訓(xùn)練持續(xù)提升模型能力和數(shù)據(jù)質(zhì)量。在每一輪循環(huán)中,最新的模型會(huì)生成新的智能體軌跡,這些軌跡隨后會(huì)被過濾并分配到最適合的訓(xùn)練階段。高質(zhì)量的輸出會(huì)被提升到更靠后的階段(如 SFT),而質(zhì)量較低的輸出則會(huì)回收至更早的階段(如 CT)。隨著多次迭代進(jìn)行,這種動(dòng)態(tài)再分配方式能夠確保每個(gè)訓(xùn)練階段都使用與其最匹配的數(shù)據(jù),從而形成一個(gè)自我強(qiáng)化的閉環(huán):更好的模型產(chǎn)生更好的數(shù)據(jù),而更好的數(shù)據(jù)又反過來訓(xùn)練出更強(qiáng)的模型。



其次,需要解決可擴(kuò)展的多輪強(qiáng)化學(xué)習(xí)問題。在交互環(huán)境里做強(qiáng)化學(xué)習(xí)很難,因?yàn)橹悄荏w很難及時(shí)知道自己做得對(duì)不對(duì):獎(jiǎng)勵(lì)大多來得很慢、有時(shí)甚至沒有;訓(xùn)練過程也容易不穩(wěn)定。

為突破這一瓶頸,UI-TARS 構(gòu)建了一個(gè)專門面向長鏈場景的訓(xùn)練框架,其中包括使用帶有狀態(tài)保持能力的異步 rollout 來維持上下文一致性;通過流式更新來避免長尾軌跡導(dǎo)致的訓(xùn)練瓶頸;以及結(jié)合獎(jiǎng)勵(lì)塑形( Reward Shaping)、自適應(yīng)優(yōu)勢估計(jì)和值預(yù)訓(xùn)練的增強(qiáng)版近端策略優(yōu)化(PPO)算法,以進(jìn)一步提升訓(xùn)練效果。



第三,突破純 GUI 操作限制。現(xiàn)實(shí)中的許多任務(wù)并不能單靠界面點(diǎn)擊完成,例如數(shù)據(jù)處理、軟件開發(fā)、系統(tǒng)管理等,更高效的方式往往是直接操作文件系統(tǒng)、使用終端或調(diào)用外部工具。如果智能體只能依賴 GUI 交互,其能力邊界就會(huì)非常有限。因此,一個(gè)真正高級(jí)的 GUI Agent 必須能夠?qū)D形化操作與這些系統(tǒng)資源無縫結(jié)合,使其不僅能點(diǎn)界面,還能執(zhí)行更真實(shí)、更復(fù)雜的工作流。

為此,UI-TARS 搭建了一個(gè)混合式 GUI 中心環(huán)境,使智能體不僅可執(zhí)行屏幕上的操作,還能調(diào)用文件系統(tǒng)、終端及其他外部工具,從而解決更廣泛的真實(shí)任務(wù)。這意味著,在 UI-TARS 的訓(xùn)練體系中,智能體的操作空間已經(jīng)從單純的點(diǎn)擊、輸入、滾動(dòng),拓展為能夠自由組合 GUI 操作與系統(tǒng)指令的更高維動(dòng)作集合。例如,它既可以在文件管理器中拖拽文件,也可以直接通過 Shell 命令處理文本、解壓壓縮包、運(yùn)行腳本??梢哉f這是系統(tǒng)級(jí) GUI Agent 能夠走向真實(shí)應(yīng)用的關(guān)鍵一步。

最后,即便具備豐富的交互能力,要部署大規(guī)模 RL 環(huán)境依然是工程瓶頸。因?yàn)橄到y(tǒng)需要在瀏覽器、虛擬機(jī)、模擬器里反復(fù)跑上百萬次交互,還要保證結(jié)果可重復(fù)、出錯(cuò)能恢復(fù)、不影響訓(xùn)練流程。但現(xiàn)實(shí)情況是,這類環(huán)境往往又慢又貴,還容易崩潰,想長期、穩(wěn)定地跑大規(guī)模 RL 幾乎是件非常困難的工程任務(wù)。

為支持大規(guī)模訓(xùn)練與評(píng)估,UI-TARS 構(gòu)建了一個(gè)統(tǒng)一沙箱平臺(tái),其核心創(chuàng)新之一是共享文件系統(tǒng):這使得 GUI Agent 可以在同一個(gè)容器實(shí)例中實(shí)現(xiàn)諸如通過瀏覽器下載文件并立即用 Shell 命令處理連續(xù)跨工具操作。該沙箱不僅保持了復(fù)雜任務(wù)所需的穩(wěn)定性與可復(fù)現(xiàn)性,還在分布式計(jì)算資源上支持高吞吐訓(xùn)練,同時(shí)為數(shù)據(jù)標(biāo)注、評(píng)估和推理提供一致的環(huán)境。

依托這四項(xiàng)技術(shù),UI-TARS 為系統(tǒng)級(jí) GUI Agent 提供了真正可落地的基礎(chǔ)能力,使豆包手機(jī)助手能夠在真實(shí)手機(jī)操作系統(tǒng)中穩(wěn)定執(zhí)行跨 App、長鏈路的復(fù)雜任務(wù),實(shí)現(xiàn)從對(duì)話智能向行動(dòng)智能的躍遷。

UI-TARS 的突出表現(xiàn),也得到了四位學(xué)界專家的認(rèn)可。在劉邦看來:「UI-TARS-2 在學(xué)術(shù)層面為通用 GUI Agent 路線提供了一套經(jīng)過驗(yàn)證、可擴(kuò)展的基礎(chǔ)框架。」

他特別指出 UI-TARS-2 的研究價(jià)值在于它讓 AI 自動(dòng)操作圖形界面(GUI)具備了通用性與端到端特性:模型只需觀察屏幕截圖,就能通過視覺理解、多模態(tài)推理、模型推理、自動(dòng)點(diǎn)擊、輸入、滾動(dòng)等操作,模擬人類操作界面。在這一基礎(chǔ)上,UI-TARS-2 通過大規(guī)模強(qiáng)化學(xué)習(xí)、自我生成與迭代的數(shù)據(jù)飛輪、統(tǒng)一的動(dòng)作空間設(shè)計(jì)以及混合式(Hybrid)環(huán)境,讓 Agent 在各種不同環(huán)境中都有較好表現(xiàn)

張馳也對(duì)這項(xiàng)研究給予了客觀評(píng)價(jià)。他指出,「UI-TARS-2 做出了許多兼具工業(yè)價(jià)值與學(xué)術(shù)價(jià)值的規(guī)模化探索,從模型底層能力入手,對(duì) GUI Agent 進(jìn)行了系統(tǒng)性的強(qiáng)化。

他進(jìn)一步強(qiáng)調(diào),與學(xué)術(shù)界普遍聚焦于 Agent 架構(gòu)或策略改進(jìn)不同,字節(jié)跳動(dòng)選擇直接面向模型能力本身發(fā)力,用大規(guī)模數(shù)據(jù)、算力與強(qiáng)化學(xué)習(xí)訓(xùn)練體系去提升智能體在真實(shí) GUI 環(huán)境中的最終效果,補(bǔ)上了學(xué)術(shù)界在資源與工程實(shí)踐方面的短板。

張偉楠表示,UI-TARS 是字節(jié)今年推出的杰出科研成果,自己帶領(lǐng)的團(tuán)隊(duì)在推進(jìn) GUI Agent 研究時(shí)也多次參考并引用了 UI-TARS。在他看來,這套體系不僅為系統(tǒng)級(jí) GUI Agent 提供了清晰的技術(shù)路徑,也讓外界看到了字節(jié)在智能體方向持續(xù)輸出更強(qiáng)研究成果的能力

沈永亮則從初代 UI-TARS 到 UI-TARS 2.0 做了很好的點(diǎn)評(píng):「UI-TARS 1.0 走了一條視覺原生的端到端路線,通過構(gòu)建人工標(biāo)注數(shù)據(jù)和進(jìn)行大規(guī)模的 SFT、DPO 訓(xùn)練,向行業(yè)證明了只要數(shù)據(jù)飛輪轉(zhuǎn)起來,不依賴各種花式 workflow 的純視覺方案也能走的通。后續(xù)版本這種領(lǐng)先優(yōu)勢進(jìn)一步從感知延伸到了推理和環(huán)境交互。UI-TARS 1.5 讓我們看到了強(qiáng)化學(xué)習(xí)在處理復(fù)雜任務(wù)時(shí)的關(guān)鍵作用,緊接著 UI-TARS 2.0 推出沙盒環(huán)境,讓模型能夠進(jìn)行無限的數(shù)據(jù) Scaling,通過在虛擬環(huán)境中不斷試錯(cuò)和生成數(shù)據(jù),實(shí)現(xiàn)了左腳踩右腳式的自我迭代提升。這一整套從純視覺感知到沙盒自我進(jìn)化的研究閉環(huán),無疑是目前行業(yè)里最前沿的探索。

從應(yīng)用體驗(yàn)到背后的 AI 模型技術(shù),豆包手機(jī)助手第一次在端側(cè)設(shè)備上實(shí)現(xiàn)了變革式的 AI 交互體驗(yàn)升級(jí),或許未來 AI 手機(jī)的終極形態(tài),就會(huì)從這里開始。

以它為起點(diǎn)繼續(xù)推演,在未來的手機(jī)上,我們可能面對(duì)的將不再是一個(gè)個(gè)獨(dú)立的 App,而是有一個(gè)「無所不能」的系統(tǒng)級(jí) GUI Agent 來自動(dòng)幫我們解決問題。

隨著 AI 能力被內(nèi)化為核心,手機(jī) OS 系統(tǒng)不再只是資源管理器,而會(huì)進(jìn)化成為你的意圖調(diào)度器,實(shí)現(xiàn)真正的 AI 原生。各種能力由 AI 調(diào)用,交互的范式將會(huì)由「人找服務(wù)」轉(zhuǎn)變到「服務(wù)找人」。

你的手機(jī)將會(huì)從一個(gè)「能打電話的電腦」,轉(zhuǎn)變成為一個(gè)「擁有自主行動(dòng)能力的個(gè)人智能體」,它會(huì)真正成為能與你自然共處、深刻理解你、并能在數(shù)字與物理世界為你有效行動(dòng)的伙伴。

如果當(dāng)「意圖驅(qū)動(dòng) + 自動(dòng)化 + Agent」演變?yōu)橄到y(tǒng)自帶的功能,系統(tǒng)級(jí) GUI Agent 將成為下一代手機(jī)操作系統(tǒng)的標(biāo)配能力,劉邦和張馳都表達(dá)出了類似的觀點(diǎn)。張偉楠也認(rèn)同GUI Agent 是當(dāng)前 AI 手機(jī)的實(shí)現(xiàn)路徑之一,并且相信很快可以達(dá)到媲美人類的操作智能水平。沈永亮雖然沒有給出明確的答案,但他舉了觸屏手機(jī)取代實(shí)體鍵盤的例子來說明,當(dāng)人們習(xí)慣了一句話就能讓手機(jī)自動(dòng)幫你完成任務(wù)(比如訂票、訂酒店),這種「用了就回不去」的便利性其實(shí)已經(jīng)告訴我們未來會(huì)走向哪里

不過仍有一些關(guān)鍵挑戰(zhàn)需要解決,包括設(shè)備端算力、系統(tǒng)級(jí) Agent 的協(xié)調(diào)管理權(quán)限、兼容與安全機(jī)制等。對(duì)于 AI 技術(shù)本身來說,模型感知的準(zhǔn)確度,在復(fù)雜任務(wù)上的規(guī)劃推理能力也是決定智能化程度的關(guān)鍵。

未來究竟會(huì)發(fā)展成什么樣?我們尚不能給出準(zhǔn)確的答案,不過可以肯定的是,系統(tǒng)級(jí) GUI Agent 探索所帶來的變革才剛剛開始,想象空間遠(yuǎn)比我們當(dāng)下所能看到的更為廣闊。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
霍思燕攜愛犬參加國際比賽獲得全場總冠軍,杜江自豪發(fā)文

霍思燕攜愛犬參加國際比賽獲得全場總冠軍,杜江自豪發(fā)文

鋭娛之樂
2025-12-21 08:37:03
追夢(mèng)被驅(qū)逐!勇士半場64-67太陽:問題出在這3點(diǎn)!

追夢(mèng)被驅(qū)逐!勇士半場64-67太陽:問題出在這3點(diǎn)!

籃壇籃談
2025-12-21 10:49:24
宇樹登臺(tái)王力宏演唱會(huì)獲馬斯克點(diǎn)贊,王興興:“機(jī)器人時(shí)刻還差一個(gè)臨界點(diǎn)”

宇樹登臺(tái)王力宏演唱會(huì)獲馬斯克點(diǎn)贊,王興興:“機(jī)器人時(shí)刻還差一個(gè)臨界點(diǎn)”

第一財(cái)經(jīng)資訊
2025-12-20 13:53:16
倒反天罡!蒙古要在中國邊境修建鐵絲網(wǎng),以前不是漢人修長城嗎?

倒反天罡!蒙古要在中國邊境修建鐵絲網(wǎng),以前不是漢人修長城嗎?

我心縱橫天地間
2025-12-20 15:52:24
對(duì)越反擊戰(zhàn)期間,先前有 15 個(gè)國家明確站隊(duì)支持越南,然而戰(zhàn)爭正式打響后,它們卻不約而同地選擇了緘口不言,這是為何?

對(duì)越反擊戰(zhàn)期間,先前有 15 個(gè)國家明確站隊(duì)支持越南,然而戰(zhàn)爭正式打響后,它們卻不約而同地選擇了緘口不言,這是為何?

史海孤雁
2025-12-19 17:46:17
CBA又出笑話!一球隊(duì)得53分輸31分,三分球20中1,球迷: 快解散吧

CBA又出笑話!一球隊(duì)得53分輸31分,三分球20中1,球迷: 快解散吧

金山話體育
2025-12-21 08:05:19
1976年毛主席逝世后,派誰空降上海?葉劍英擲地有聲:我提議一人

1976年毛主席逝世后,派誰空降上海?葉劍英擲地有聲:我提議一人

春秋硯
2025-12-20 08:55:09
你無意中發(fā)現(xiàn)過別人哪些秘密?網(wǎng)友:這不是我一個(gè)單身狗能看的

你無意中發(fā)現(xiàn)過別人哪些秘密?網(wǎng)友:這不是我一個(gè)單身狗能看的

帶你感受人間冷暖
2025-12-18 00:10:08
沒有商量余地,中國直接收回,17萬日本人淚奔,高市闖禍了!

沒有商量余地,中國直接收回,17萬日本人淚奔,高市闖禍了!

來科點(diǎn)譜
2025-12-20 09:02:35
美司法部公布愛潑斯坦案調(diào)查文件 隱去上千名受害者及家屬信息

美司法部公布愛潑斯坦案調(diào)查文件 隱去上千名受害者及家屬信息

新京報(bào)
2025-12-20 09:57:04
中戲院長郝戎主動(dòng)投案 ,靳東阿云嘎受影響,有大麻煩了!

中戲院長郝戎主動(dòng)投案 ,靳東阿云嘎受影響,有大麻煩了!

叨嘮
2025-12-20 00:46:13
女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號(hào)快回來上班

女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號(hào)快回來上班

梅子的小情緒
2025-12-19 14:04:18
為何說年齡超過72歲的人:即便身體健康,也沒有多少來日方長?

為何說年齡超過72歲的人:即便身體健康,也沒有多少來日方長?

健康科普365
2025-12-21 08:05:10
犯了大忌!托卡耶夫去日本明治神宮,必將是其政治生涯的一個(gè)污點(diǎn)

犯了大忌!托卡耶夫去日本明治神宮,必將是其政治生涯的一個(gè)污點(diǎn)

我心縱橫天地間
2025-12-20 15:40:20
不賣!不摘!旅順一棵35年樹齡的圓棗樹成8種鳥類專屬“冬糧倉”

不賣!不摘!旅順一棵35年樹齡的圓棗樹成8種鳥類專屬“冬糧倉”

半島晨報(bào)
2025-12-20 09:39:58
中國證監(jiān)會(huì)原主席肖鋼:人工智能技術(shù)快速迭代,導(dǎo)致投資面臨加速折舊風(fēng)險(xiǎn),需構(gòu)建適配金融體系

中國證監(jiān)會(huì)原主席肖鋼:人工智能技術(shù)快速迭代,導(dǎo)致投資面臨加速折舊風(fēng)險(xiǎn),需構(gòu)建適配金融體系

新浪財(cái)經(jīng)
2025-12-20 17:36:13
瑞典,挪威,芬蘭北歐三國地處惡劣寒地,經(jīng)濟(jì)實(shí)力為何如此強(qiáng)大呢

瑞典,挪威,芬蘭北歐三國地處惡劣寒地,經(jīng)濟(jì)實(shí)力為何如此強(qiáng)大呢

向航說
2025-12-17 00:05:03
吳敬中死前對(duì)余則成說:"在天津找穿藍(lán)旗袍的女人,她知道你身份"

吳敬中死前對(duì)余則成說:"在天津找穿藍(lán)旗袍的女人,她知道你身份"

飯小妹說歷史
2025-12-16 16:38:39
天吶!原來大錢是這么來的!網(wǎng)友:難怪我螺絲打到冒煙都賺不到錢

天吶!原來大錢是這么來的!網(wǎng)友:難怪我螺絲打到冒煙都賺不到錢

夜深愛雜談
2025-12-20 17:40:11
楊千嬅開live老公亂入因一事說她黐線,眉毛妝被指似蠟筆小新

楊千嬅開live老公亂入因一事說她黐線,眉毛妝被指似蠟筆小新

粵睇先生
2025-12-21 09:40:17
2025-12-21 11:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個(gè)應(yīng)用

頭條要聞

山西宣布廢除煙花爆竹"禁放令" 網(wǎng)友:年味回來了

頭條要聞

山西宣布廢除煙花爆竹"禁放令" 網(wǎng)友:年味回來了

體育要聞

送快船西部墊底!鵜鶘大勝步行者獲4連勝

娛樂要聞

鹿晗關(guān)曉彤戀愛期間毫不避諱?

財(cái)經(jīng)要聞

百年老店陷貼牌爭議 同仁堂必須作出取舍

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

家居
教育
本地
公開課
軍事航空

家居要聞

高端私宅 理想隱居圣地

教育要聞

從“招生困難”到“火爆教育圈”,范家小學(xué)做對(duì)了什么?

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進(jìn)入關(guān)懷版