国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從豆包手機談起:端側(cè)智能的愿景與路線圖

0
分享至


作者 | OpenBMB 團隊

近日,字節(jié)跳動發(fā)布的豆包手機助手在業(yè)內(nèi)激起了廣泛討論。這不僅是一款新智能硬件的亮相,更標志著大模型應用范式的一次重要躍遷——從“Chat(對話)”真正邁向“Action(行動)”。作為長期深耕大模型領(lǐng)域的研究者,我們將豆包手機助手定義為行業(yè)首款系統(tǒng)級 GUI Agent。它不再是一個孤立的智能應用,而是深度耦合于操作系統(tǒng)底層、具備跨應用感知與操作能力的“超級中樞”。

如何看待豆包手機助手的當下與未來?藉此機會,我們希望與大家分享我們眼中的手機助手,以及端側(cè)智能的演進愿景與路線圖。

豆包手機助手關(guān)鍵技術(shù)解析與研判

GUI Agent 無疑是豆包手機助手的核心技術(shù)。為透視豆包手機助手的技術(shù)本質(zhì),我們有必要先回顧 GUI Agent 技術(shù)從實驗室走向產(chǎn)業(yè)界的演進脈絡(luò)。2023 年至 2025 年間,GUI Agent 技術(shù)經(jīng)歷了從“外掛式框架”到“模型原生智能體”的根本性范式轉(zhuǎn)變:

GUI Agent 發(fā)展的最早期階段(2023?2024)采用外掛式框架,其核心思路是不改變大模型本身,而是通過提示工程將界面轉(zhuǎn)化為模型可讀的文本和函數(shù)接口(如 HTML/DOM 樹,代表工作有 OSU 的 Mind2Web、騰訊的 AppAgent)或帶數(shù)字標記的截圖(Set?of?Mark,如阿里的 Mobile?Agent?v1)。這一階段的智能體能力上限受限于提示詞設(shè)計與外部工具(OCR、檢測模型)的精度,模型并未真正“看見”GUI 環(huán)境,更多是在進行文本邏輯推理。

后來,模仿學習驅(qū)動的視覺語言模型方案代替出現(xiàn)(2024)。隨著視覺語言模型能力提升,技術(shù)路徑轉(zhuǎn)向模型內(nèi)生。智譜的 CogAgent、我們的 GUICourse [1]、上交 &MIT 的 OS?Atlas 等工作摒棄了對 XML/DOM 等底層數(shù)據(jù)的依賴,直接基于像素輸入理解界面,并輸出坐標。這一階段實現(xiàn)了感知層面的“原生化”,模型開始像人類一樣通過“看”屏幕來理解界面布局,顯著提升了對非結(jié)構(gòu)化 GUI 的適應能力。

目前,強化學習驅(qū)動的視覺語言模型成為主流(2024?2025)。其核心突破在于引入強化學習以解決復雜決策問題。伯克利的 DigiRL 首次驗證了利用強化學習構(gòu)建 GUI Agent 的可行性。在此基礎(chǔ)上,智譜的 AutoGLM 和我們的 AgentCPM?GUI [2] 進一步在大規(guī)模 GUI 任務(wù)中驗證了強化學習的有效性。字節(jié)的 UI?TARS 工作則引入大規(guī)模在線強化學習,使得智能體能在與 OS 環(huán)境的持續(xù)交互中優(yōu)化策略,學會錯誤修正、長程規(guī)劃與泛化應對。至此,GUI Agent 真正具備了在動態(tài)環(huán)境中自主執(zhí)行任務(wù)的能力,而豆包手機助手正是這一技術(shù)路線的集大成者。


GUI Agent 的發(fā)展歷程

而為何之前的 GUI Agent 多停留于 Demo 階段,而豆包手機助手卻接近了實用臨界點?通過技術(shù)復盤,我們認為其在工程側(cè)與模型側(cè)完成了關(guān)鍵突破:

在工程側(cè),以往的 GUI Agent 方案多依賴 Android 無障礙服務(wù)或 ADB 調(diào)試,存在權(quán)限易屏蔽、高延遲以及“搶占前臺焦點”干擾用戶等致命缺陷。豆包手機助手憑借定制 OS 的優(yōu)勢,實現(xiàn)了“非侵入式”的系統(tǒng)級接管。據(jù)我們研判,其工程實現(xiàn)包含兩大核心要素:

  • GPU Buffer 直讀:繞過傳統(tǒng)截圖接口,在系統(tǒng)底層直接讀取屏幕渲染緩沖區(qū)的數(shù)據(jù),大幅降低了視覺信號獲取的延遲。

  • 虛擬屏幕后臺進程:這是一個巧妙的工程技巧。為避免智能體操作搶占用戶焦點,系統(tǒng)內(nèi)部構(gòu)建了第二塊虛擬屏幕,AI 在后臺不可見的虛擬屏幕上執(zhí)行點擊與滑動,而前臺用戶仍可正常使用。

而在模型側(cè),綜合現(xiàn)有使用體驗與技術(shù)特征判斷,豆包手機助手采用端云協(xié)同的模型架構(gòu):

  • 端側(cè)模型:主要負責意圖識別與任務(wù)路由。對于調(diào)節(jié)音量、亮度等簡單任務(wù),直接通過端側(cè)模型調(diào)用本地系統(tǒng) API 完成,實現(xiàn)毫秒級響應。

  • 云側(cè)模型:處理多步驟、跨應用的復雜任務(wù)(如跨 APP 訂票)。該模型內(nèi)部區(qū)分“思考”與“非思考”兩種模式:非思考模式下以低時延直接執(zhí)行;思考模式下會先進行任務(wù)拆解、流程規(guī)劃與需求澄清,再進入執(zhí)行階段,以平衡響應速度與任務(wù)成功率。

  • RL 數(shù)據(jù)飛輪:其核心護城河在于建立了基于強化學習的數(shù)據(jù)閉環(huán)。通過高保真 OS 沙盒環(huán)境,模型經(jīng)歷了數(shù)百萬次軌跡的探索與優(yōu)化,高質(zhì)量數(shù)據(jù)用于下一輪 SFT 訓練,低質(zhì)量數(shù)據(jù)回收至持續(xù)預訓練階段。這種工業(yè)級數(shù)據(jù)規(guī)模使其泛化能力顯著優(yōu)于學術(shù)界開源模型。

豆包手機助手的出現(xiàn),標志著 GUI Agent 終于走出實驗室的“玩具”階段,開始具備實用價值。它揭示了一個事實:大模型不僅是大腦,更能接管屏幕、模擬觸控,成為連接數(shù)字世界的“萬能接口”。當然,若我們將目光投向更長遠的未來,GUI 操控或許并非端側(cè)智能的終局。 目前的 GUI Agent 本質(zhì)上是一種“兼容舊生態(tài)”的過渡方案——它不得不通過模擬人類的視覺和觸控,去適應那些并非為 AI 設(shè)計的圖形界面。這種方式雖然通用,但鏈路過長、依賴屏幕渲染。 我們認為,隨著端側(cè)生態(tài)的成熟,手機助手的操控方式可能進一步兼容“APP/ 系統(tǒng)工具調(diào)用”與“生態(tài)級智能協(xié)同”:

  • APP/ 系統(tǒng)接口調(diào)用:相比于模擬點擊,直接調(diào)用 APP 或系統(tǒng)的接口(API)具備更高的準確率和更短的執(zhí)行鏈路。事實上,豆包手機助手在調(diào)節(jié)音量、亮度等系統(tǒng)級任務(wù)上,正是通過直接調(diào)用系統(tǒng)接口實現(xiàn)了毫秒級的零失誤響應。雖然目前第三方 APP 廠商開放接口的意愿受限于商業(yè)博弈,但隨著 AI 手機滲透率的提升,高頻功能(如支付、打車、預訂)必將從“視覺組件”封裝為“語義接口”,供智能體高效調(diào)度。

  • APP 即智能體:目前的架構(gòu)中,手機助手作為“大腦”需要承擔極其沉重的認知負荷,它必須理解成千上萬個 App 內(nèi)部的微觀邏輯。未來的 APP 或許不再僅僅是等待被操作的“工具”,而是演化為具備獨立能力的“子智能體”。對于“規(guī)劃差旅”這種超長程任務(wù),主智能體僅需向下分發(fā)子任務(wù),而具體的比價、選座、風控核驗等繁瑣步驟由 App 內(nèi)部的子智能體在應用內(nèi)自主閉環(huán)。這種分層協(xié)作模式將極大降低主智能體的認知負荷,通過生態(tài)級的智能分工,顯著提升復雜任務(wù)的執(zhí)行泛化性與魯棒性。

豆包手機助手雖然目前主要依賴 GUI 技術(shù),但其在系統(tǒng)層面的深度整合,實際上也為未來向 API 調(diào)用和多智能體協(xié)同演進展示了可能性。

豆包手機助手的技術(shù)局限性分析與展望

豆包手機助手讓大眾看到了端側(cè)智能的潛力。但從性能評測與應用生態(tài)來看,以它為代表的端側(cè)智能體要想真正服務(wù)數(shù)十億用戶的智能化生活,仍需攻克三大方向難題:

首先,終端調(diào)用云側(cè)模型存在安全風險。豆包手機雖采用端云協(xié)同架構(gòu),但絕大多數(shù)屏幕理解與操作任務(wù)仍嚴重依賴云側(cè) GUI 模型,這相當于將用戶的數(shù)字生活全面映射至云端?!霸苽?cè)接管一切”的模式在隱私安全、網(wǎng)絡(luò)依賴和算力成本上均面臨可持續(xù)性挑戰(zhàn),也觸及了應用廠商將用戶行為數(shù)據(jù)視為核心資產(chǎn)的紅線。其直接后果是,豆包手機助手在市場博弈中已陸續(xù)暫停對微信、淘寶等核心應用的智能操作支持。我們判斷,未來的 AI 手機生態(tài)不應是“云側(cè)通吃”,而應遵循端云結(jié)合原則:云側(cè)模型處理通用邏輯與專業(yè)需求;涉及用戶隱私、實時交互的私有數(shù)據(jù)必須在端側(cè)閉環(huán)。當前“端側(cè)過輕”的架構(gòu)缺陷,亟需通過構(gòu)建本地“安全屋”來化解。

其次,智能體自主完成任務(wù)能力不足。我們在豆包手機助手發(fā)布后第一時間進行了高難度測評,并同時開展智譜 AutoGLM 的測評作為參照。結(jié)果顯示,豆包手機助手在 59.86% 的復雜任務(wù)上取得成功,AutoGLM 等開源方案則成功率更低。失敗案例復盤顯示,核心問題集中在四方面:

  • 生態(tài)覆蓋有限:面對小紅書、美團、淘寶等高頻應用,智能體常因無法精準調(diào)起原生應用,被迫降級為網(wǎng)頁搜索或通用問答,“服務(wù)直達”退化為“內(nèi)容檢索”。

  • 復雜指令解析精度不足:模型對含多參數(shù)(時間、地點、價格)、多對象(私聊 vs 群聊)的復合指令理解存在缺陷,難以精準提取關(guān)鍵槽位信息。

  • 動態(tài)環(huán)境執(zhí)行魯棒性缺失:面對網(wǎng)絡(luò)波動、權(quán)限彈窗及風控校驗時,模型缺乏中斷恢復與替代方案規(guī)劃能力,易因單點受阻陷入死循環(huán)。

  • 長程交互上下文管理混亂:在多輪交互中,模型易受歷史信息干擾,導致“最近”“附近”等時空約束被錯誤覆蓋。

最后,個性化與主動服務(wù)能力不足。目前的豆包手機助手本質(zhì)仍是“用戶下令?智能體執(zhí)行”的被動工具。大模型擁有全人類通用知識,卻唯獨缺少對“你”的深度理解。它不知道你下班的習慣路線、點咖啡的糖度偏好,也無法在開會時自動攔截騷擾電話。真正的個人助理必須是“千人千面”的,這要求智能體能夠利用端側(cè)數(shù)據(jù)進行持續(xù)學習,形成專屬用戶的個性化記憶。當前的豆包手機助手仍偏向傻瓜式任務(wù)自動化,遠未達到個性化主動服務(wù)的階段。

綜上所述,為應對隱私安全、環(huán)境感知、復雜任務(wù)決策與個性化服務(wù)四大挑戰(zhàn),未來的 AI 手機技術(shù)體系必須向端側(cè)智能(隱私安全)、全模態(tài)智能(環(huán)境感知)、自主智能(復雜決策)與主動智能(個性化服務(wù))四個方向持續(xù)演進。

端側(cè)智能:以端側(cè)模型實現(xiàn)安全可控的智能應用

現(xiàn)代移動操作系統(tǒng)的安全基石是“沙盒機制”,即應用間數(shù)據(jù)隔離、互不干擾。然而,系統(tǒng)級 GUI Agent 的出現(xiàn),本質(zhì)是賦予了一個超級進程一把打開所有沙盒的“萬能鑰匙”。豆包手機助手的實踐揭示了一個根本性矛盾:系統(tǒng)級智能體為實現(xiàn)“萬能操作”所必需的全局視野,與用戶對隱私和數(shù)據(jù)主權(quán)的根本訴求之間,存在著天然張力。而解決這一矛盾,是端側(cè)智能走向普及的前提。

盡管廠商采用了“端云協(xié)同”架構(gòu),并宣稱對密碼輸入等極端敏感場景進行本地處理,但在絕大多數(shù)日常場景下,海量用戶行為數(shù)據(jù)的流向與控制權(quán)依然是一個不透明的“黑盒”。這導致了便利性與數(shù)據(jù)主權(quán)之間的根本博弈:如果每一次點擊、每一屏瀏覽都需要經(jīng)過云端審視,用戶實際上是在向服務(wù)商讓渡自己的“數(shù)字主權(quán)”。一旦這個超級智能體被攻破,后果將不堪設(shè)想。

正是基于對上述矛盾的深刻認識,我們認為,未來的 AI 手機生態(tài)絕不能是“云側(cè)通吃”,而必須確立 “端側(cè)原生、端云協(xié)同” 的根本原則,建立清晰的分工體系。端側(cè)是隱私的“守門人”與體驗的“基石”:涉及用戶隱私、實時交互、個人習慣的所有“私有域”數(shù)據(jù)與操作,必須在端側(cè)形成閉環(huán)。用戶是數(shù)據(jù)的唯一持有者,端側(cè)模型充當隱私的“守門人”。這不僅是保護數(shù)據(jù)主權(quán),也是實現(xiàn)毫秒級極致響應、提供“類人”交互體驗的物理基礎(chǔ)。云側(cè)是專業(yè)的“智庫”與廣域的“連接器”,涉及海量知識、復雜邏輯推理或需要廣泛互聯(lián)的“專業(yè)域”任務(wù),則可路由至云側(cè)專家模型處理。云側(cè)憑借其參數(shù)規(guī)模、知識廣度與互聯(lián)網(wǎng)連接,充當專業(yè)的智庫。這一分工的改進是將數(shù)據(jù)主權(quán)和安全閉環(huán)堅定地錨定在端側(cè)。當智能真正在用戶設(shè)備內(nèi)部運行時,人機之間更容易建立起堅實的信任契約,這也是我們團隊堅持“端側(cè)原生”路線的根本原因。

將大模型能力裝入邊緣設(shè)備,面臨功耗、存儲和算力的多重約束。我們團隊并未盲目追逐參數(shù)規(guī)模,而是圍繞 “端側(cè)、高效” 構(gòu)建全棧技術(shù)壁壘,核心是提升模型的“能力密度”——即單位參數(shù)內(nèi)蘊含的智能水平。因此,我們提出 “能力密度法則” :大模型能力密度每 3.5 個月翻倍。這意味著,技術(shù)創(chuàng)新的目標是以更小的模型實現(xiàn)更強的性能,這一規(guī)律反映了大模型發(fā)展從"尺度驅(qū)動"向"能效驅(qū)動"的必然轉(zhuǎn)變。圍繞這一法則,我們構(gòu)建了“模型架構(gòu) - 數(shù)據(jù)治理 - 學習方法”的高能力密度制備技術(shù)體系,其中以模型架構(gòu)技術(shù)為例,w 在稀疏模型架構(gòu)軟硬協(xié)同的極限壓縮與加速 兩方面的工作,驗證了這一技術(shù)發(fā)展方向的可行性:

稀疏模型架構(gòu):我們研發(fā)了如 BlockFFN [3] 和 InfLLM-V2 [4] 等技術(shù),摒棄傳統(tǒng) Transformer 的全參數(shù)激活模式,實現(xiàn)計算資源的“按需分配”。在推理時僅激活極少部分相關(guān)神經(jīng)元,尤其在處理長文本時,能將計算復雜度從二次方降低至線性,實現(xiàn)超高稀疏度,讓端側(cè)設(shè)備“跑得動、不發(fā)燙”。

軟硬協(xié)同加速:針對“內(nèi)存墻”瓶頸,我們?nèi)诤贤稒C采樣與極低比特量化技術(shù)。通過“小模型起草、大模型驗證”的協(xié)同解碼,以及將參數(shù)壓縮至 4 比特乃至更低,大幅降低內(nèi)存帶寬占用。我們開源的輕量端側(cè)模型 MiniCPM 系列,累計下載超 1700 萬次,并已落地眾多主流終端設(shè)備。


大模型的能力密度在不斷增強 [7]

端側(cè)智能不僅僅是技術(shù)路徑的選擇,更是價值取向的錨定。它通過將隱私閉環(huán)于設(shè)備、將響應提速至毫秒、將算力負擔優(yōu)化至可持續(xù),從根本上解決了智能普及中的信任、體驗與成本問題,是構(gòu)建未來個人化、可信賴數(shù)字伴侶的必由之路。

全模態(tài)智能:能聽會看的全模態(tài)感知能力

包括豆包手機助手在內(nèi)的當前 GUI Agent,在感知層面仍主要依賴“截圖 + 上傳”的靜態(tài)處理模式。要實現(xiàn)真正的“類人”助手體驗,智能體必須突破傳統(tǒng)視覺語言模型的模態(tài)壁壘,具備在端側(cè)深度處理文本、圖像、視頻、音頻等多模態(tài)信息的能力。我們認為,下一代端側(cè)智能感知將圍繞 “統(tǒng)一架構(gòu)下的全模態(tài)融合” 與 “實時流式的動態(tài)交互” 兩個維度演進。

第一,架構(gòu)演進需要從“多模態(tài)”走向“全模態(tài)”。當前主流多模態(tài)模型本質(zhì)仍是“拼接式”架構(gòu),即通過連接器淺層對齊視覺 / 音頻編碼器與語言模型。這種范式限制了對跨模態(tài)細微關(guān)聯(lián)(如語音語調(diào)與面部表情的同步性)的捕捉能力。隨著 GPT?4o 及 Gemini 系列模型的發(fā)布,全模態(tài)(Omni)正成為新前沿。這類模型旨在底層打通不同模態(tài)的表征空間,實現(xiàn)原生的理解與生成。在端側(cè)算力受限的挑戰(zhàn)下,我們的 MiniCPM?o 系列模型驗證了這一路徑的可行性:我們摒棄臃腫的外部組件堆疊,通過統(tǒng)一建模將語音理解生成、視覺理解與文本處理集成到高效端側(cè)基座中。這種架構(gòu)統(tǒng)一不僅顯著降低推理開銷,更使智能體能像人類一樣綜合處理并行信號,為未來覆蓋觸覺、溫度等更廣泛物理信號奠定基礎(chǔ)。我們相信,全模態(tài)感知能力是大模型走出屏幕、走進物理世界,支撐具身智能、自動駕駛等關(guān)鍵應用的重要基礎(chǔ)。

第二,交互演進需要從“靜態(tài)采樣”走向“動態(tài)流式”。真實世界的多模態(tài)信息流是動態(tài)連續(xù)的,而非靜態(tài)截圖。當前大部分端側(cè)智能體僅能處理離線采樣數(shù)據(jù),相當于對真實世界進行“切片”。這種“回合制”交互導致顯著延遲,無法滿足實時翻譯、視頻通話輔助等即時需求。為打破瓶頸,端側(cè)感知必須向流式演進。我們研發(fā)的 MiniCPM?o 2.6 通過多路時分復用的流式編碼技術(shù),在端側(cè)設(shè)備上實現(xiàn)了對動態(tài)信息流的實時響應。模型無需等待語音說完或視頻錄完,而是在接收信息的同時進行增量式理解與決策。這種流式架構(gòu)不僅大幅降低首 token 延遲,更實現(xiàn)“全雙工”交互——用戶可隨時打斷模型,模型也能敏銳捕捉插話時機。此外,針對流式處理可能丟失細節(jié)的問題,我們在底層融合了 LLaVA?UHD [5] 的高分辨率處理技術(shù),通過自適應切片策略,實現(xiàn)對任意長寬比圖像的低功耗、低延遲高清編碼?!傲魇絺鬏?+ 高清編碼”的組合,讓端側(cè)智能體既能流暢“看”視頻,也能精準捕捉一閃而過的文字細節(jié)(如屏幕報錯代碼),真正將電影《Her》中全天候、實時響應的智能伴侶帶入現(xiàn)實。


大模型多模態(tài)能力的發(fā)展歷史可視化

自主智能:大模型智能體的下一個技術(shù)突破

豆包手機助手的發(fā)布向行業(yè)展示,當大模型擁有足夠數(shù)據(jù)與參數(shù)時,其在 GUI 上的擬人化表現(xiàn)可令人驚嘆。然而,現(xiàn)階段的端側(cè)智能體(包括豆包、AutoGLM 等)在面對未見過的復雜場景時,成功率仍會明顯下降。要讓 AI 手機從“嘗鮮”走向“常用”,除了堆疊數(shù)據(jù),我們必須在智能體的泛化性、自主性與長程性這三個維度上實現(xiàn)機制級突破。


智能體的三大挑戰(zhàn)

長程性指的是人類使用手機完成任務(wù)往往是跨越多個 APP、持續(xù)數(shù)分鐘甚至數(shù)小時的長程交互。例如,“幫我基于這周郵件往來規(guī)劃差旅日程并預訂機酒”。這不僅需要跨應用操作,更要求智能體在漫長操作鏈中始終保持對核心目標的專注,不因中間彈窗或無關(guān)信息而“迷路”。目前的大模型受限于上下文窗口,往往“健忘”。隨著交互步驟增加,關(guān)鍵信息(如出發(fā)日期、預算上限)易丟失或被稀釋。真正的長程性需突破上下文窗口限制,引入類人的記憶架構(gòu):智能體應能自主決定將哪些關(guān)鍵信息寫入長期記憶,哪些保留在工作記憶,并主動遺忘干擾決策的噪音數(shù)據(jù),確保在長鏈操作中始終保持目標聚焦。

泛化性指的是智能體在沒有見過的任務(wù)上的勝任程度。當前 GUI Agent(如 UI?TARS)的能力很大程度上依賴于云側(cè)大模型見過的海量 APP 界面截圖與操作軌跡,本質(zhì)是“基于經(jīng)驗的泛化”。然而,真實移動互聯(lián)網(wǎng)環(huán)境高度碎片化且動態(tài)變化:APP 每日更新,界面布局可能進行 A/B 測試,同一 APP 在不同機型上的渲染也不同。若僅依賴云側(cè)模型“背題庫”式訓練,一旦遇到小眾 APP 或新版本界面,智能體便會癱瘓。未來的自主智能需具備零樣本泛化能力。這意味著智能體應像人類一樣,通過理解 GUI 設(shè)計的通用語言(如放大鏡代表搜索)與業(yè)務(wù)邏輯,在從未見過的全新 APP 中通過自主探索學會使用工具。這要求模型不再簡單記憶像素位置,而是構(gòu)建對數(shù)字世界的“世界模型”,理解操作與環(huán)境反饋間的因果關(guān)系,從而以更小參數(shù)規(guī)模實現(xiàn)對陌生環(huán)境的適應。

自主性指的是智能體應對動態(tài)環(huán)境的魯棒性與自我修正的能力。真實端側(cè)環(huán)境遠比沙盒模擬器復雜。網(wǎng)絡(luò)延遲、營銷彈窗、系統(tǒng)權(quán)限攔截、頁面加載失敗皆是常態(tài)。目前的 Agent 多采用線性“觀察?思考?行動”鏈路,一旦某步執(zhí)行失敗(如網(wǎng)絡(luò)卡頓彈出重試窗口、優(yōu)惠券領(lǐng)取失敗、廣告遮擋),智能體常因環(huán)境狀態(tài)與預期不符而直接報錯中止。真正擁有自主性的未來自主智能體應具備“反思”機制:

  • 執(zhí)行驗證:每執(zhí)行一步后,自主驗證環(huán)境反饋是否符合預期;

  • 錯誤恢復:遇到非預期狀態(tài)(如誤觸廣告進入第三方頁面)時,具備“回退”與“重新規(guī)劃”能力,甚至能通過探索性操作找到新路徑,而非機械請求人類接管。只有具備這種能力,用戶才敢真正放心地將手機交給智能體處理充滿不確定性的復雜任務(wù)。

上述三大能力的實現(xiàn),本質(zhì)上都依賴于同一個底層邏輯——智能體必須在與動態(tài)環(huán)境的交互中不斷學習和優(yōu)化。單純的監(jiān)督微調(diào)(SFT)只能模仿人類已有的軌跡,而無法應對未知的變化。因此,自主強化學習 是下一代智能體的核心引擎。在這方面,我們團隊的 PRIME 工作 [8] 將強化學習與過程獎勵模型相結(jié)合,讓智能體不僅關(guān)注最終結(jié)果,更能獲得每一步推理過程的細粒度反饋,大幅提升了復雜邏輯任務(wù)的訓練效率。在此基礎(chǔ)上,團隊的AgentCPM-GUI、字節(jié)的UI-TARS及智譜的 AutoGLM 均驗證了利用強化學習在 GUI 場景下進行大規(guī)模探索學習對 GUI Agent 泛化性、自主性提升的有效性。

總的來說,如果豆包手機助手當前的能力來自“讀萬卷書”(海量數(shù)據(jù)訓練),那么下一階段的自主智能則需要智能體學會“行萬里路”(在動態(tài)環(huán)境中自主探索與適應)。只有攻克泛化性、自主性和長程性三大難題,AI 手機才能從“聽話的執(zhí)行者”進化為真正“可信賴的智能助手”。

自主動智能:個性化助手的必備能力

從人機交互視角看,個人助手是否真正具備“輔助價值”,不取決于其功能數(shù)量或技術(shù)復雜度,而取決于一個核心標準:用戶為指導智能體完成任務(wù)所付出的精力,必須顯著小于用戶親自完成該任務(wù)所需的精力。一旦條件不成立,智能體便會從“助手”退化為“負擔”。

目前的豆包手機助手等端側(cè)智能體仍遵循“用戶下令?智能體執(zhí)行”的被動范式。這導致用戶在執(zhí)行復雜任務(wù)(如“幫我規(guī)劃周末去環(huán)球影城的行程”)時面臨巨大認知負荷——需像填表一樣依次確認出發(fā)時間、交通偏好、酒店預算和必玩項目。一旦交互成本超過直接操作 APP 的成本,智能體便成為“累贅”。因此,合格的個性化助手必須具備在最少用戶輸入條件下完成任務(wù)的能力。我們認為,下一代端側(cè)智能必須完成從“被動響應”到“主動智能”的范式躍遷。所謂主動智能,并非簡單“多做事”,而是指智能體能在不頻繁打擾用戶的前提下,持續(xù)感知環(huán)境、積累歷史經(jīng)驗,并基于這些信息對用戶的潛在需求進行預測和準備。

第一,從“被動指令執(zhí)行”到“主動意圖預測”。當前助手多停留在字面解析階段,依賴用戶給出完整、明確的提示詞。真正的個性化助手需具備“讀心”能力,即基于端側(cè)積累的歷史行為、偏好演化及當前環(huán)境狀態(tài)(時間、位置、屏幕內(nèi)容),構(gòu)建高精度用戶畫像。智能體不再被動等待喚醒,而是持續(xù)在后臺進行環(huán)境感知與推理。例如,當用戶周五晚上搜索“周邊游”時,模型應結(jié)合歷史數(shù)據(jù)自動識別“喜歡安靜、預算中等、帶寵物”的隱式約束,直接過濾嘈雜的熱門景點。這種從“只聽你說什么”到“懂你沒說什么”的跨越,是智能體建立用戶信任的基石。

第二,從“分步指導交互”到“預先填充確認”。為解決“教 AI 做事太累”的痛點,交互必須從費力的“填空題”轉(zhuǎn)變?yōu)檩p松的“選擇題”。主動智能體基于意圖預判,能自動生成含關(guān)鍵參數(shù)的預填充指令。例如,在用戶打開打車軟件的瞬間,智能體根據(jù)日程與當前時間,直接彈出“打車去公司,預計 30 元”的建議卡片。用戶只需點擊“確認”,無需手動輸入目的地。這種機制將用戶認知負擔從高強度“指導”降至低強度“審閱”。同時,主動性必須嚴守“克制”原則:僅當預測置信度極高或?qū)τ脩魞r值顯著時才主動介入,確保智能體是“默契的伴侶”而非“打擾的彈窗”。

在端側(cè)實現(xiàn)這種高水平的主動智能并非遙不可及。我們的研究團隊在 Proactive Agent [6] 工作中驗證了其技術(shù)可行性。針對主動服務(wù)缺乏訓練數(shù)據(jù)的難題,我們創(chuàng)新構(gòu)建環(huán)境模擬器,通過模擬用戶在代碼編寫、文章寫作、智能家居等場景下的交互序列,生成大規(guī)?!坝脩?環(huán)境”交互數(shù)據(jù)集。實驗證明,基于此數(shù)據(jù)訓練的端側(cè)模型能敏銳捕捉用戶隱式意圖。這表明我們完全有能力在端側(cè)打造出具備深度洞察力的下一代個人助手。

綜上所述,主動智能不是個性化助手的“加分項”,而是其走向?qū)嵱门c可信的基礎(chǔ)能力。只有當智能體能夠以更低交互成本承擔更多決策前與執(zhí)行中的工作,個人助手才能真正從“會對話的工具”進化為“值得依賴的協(xié)作者”。


主動智能:從被動響應到主動服務(wù)(由 Gemini 生成)

未來展望:手機助手與端側(cè)智能體

基于技術(shù)成熟度與市場動態(tài),我們對未來短期、中期及長期的行業(yè)格局做出如下研判:

在短期(1 年內(nèi)),我們判斷更多手機助手將上市,應用與 OS 的博弈加劇。目前,字節(jié)(UI?TARS)、智譜(AutoGLM)、面壁(AgentCPM?GUI)等團隊已證明 GUI Agent 具備商業(yè)化落地基礎(chǔ)。未來幾個月,我們將看到更多手機助手上市,“軟硬對抗”將全面爆發(fā):互聯(lián)網(wǎng)大廠試圖通過“應用層 OS 化”保住流量入口;手機廠商則必會死守 OS 底層權(quán)限,推出自研系統(tǒng)級智能體以捍衛(wèi)主場。這種利益沖突將引發(fā)劇烈對抗:應用廠商可能通過加密傳輸、動態(tài) UI 渲染等技術(shù)手段,對抗 GUI Agent 的視覺讀取與模擬點擊。傳統(tǒng) Web 端的“爬蟲與反爬蟲”對抗將在移動終端 GUI 層面重演。此階段競爭將極其激烈,但也會反向推動技術(shù)能力爆發(fā)式增長。

而到中期(2~3 年),自主學習能力將走向成熟,持續(xù)成長的“個人專屬助手”形態(tài)會逐漸確立。在基礎(chǔ)功能需求滿足后,智能助手真正的差異化壁壘在于 “個性化”。云側(cè)大模型雖強,卻是“千人一面”的通用專家;唯有端側(cè)模型能近距離接觸用戶全量數(shù)據(jù)。我們判斷,隨著端側(cè)模型測試時學習技術(shù)的成熟,智能助手將從“靜態(tài)工具”進化為“持續(xù)成長的個人專屬助手”。它能基于用戶歷史行為數(shù)據(jù)持續(xù)自我迭代——知道你點咖啡的糖度偏好,熟悉你打車時的常用路線。這種“越用越聰明、越用越懂你”的特性只能由端側(cè)模型實現(xiàn),并將成為用戶無法遷移的體驗壁壘。


大模型高效發(fā)展道路:能力躍遷,能效提升

放眼長期(3?5 年),端云協(xié)同架構(gòu)走向終局,AGI 時代的新型端側(cè)硬件形態(tài)涌現(xiàn)。高隱私操作(聊天、支付、相冊)與高頻輕量任務(wù)(定鬧鐘、調(diào)亮度)完全由端側(cè)模型執(zhí)行,形成本地閉環(huán),確保數(shù)據(jù)主權(quán)與毫秒級響應。端側(cè)算力無法解決的超復雜推理,或需連接廣泛互聯(lián)網(wǎng)服務(wù)的需求(如“全網(wǎng)比價并下單”),則在用戶顯式授權(quán)與脫敏后路由至云側(cè)專家模型處理。隨著端側(cè)智能與云側(cè)智能深度融合,用戶對終端的交互將不再局限于屏幕,更自然的語音、手勢交互將催生 AGI 時代的新硬件形態(tài)。手機可能不再是唯一載體,以智能座艙、AI 眼鏡為代表的新型端側(cè)硬件將涌現(xiàn),承載 AGI 時代的個人助理功能。


AGI 時代必將出現(xiàn)新型智能硬件

結(jié)語

豆包手機助手的出現(xiàn),如同一面鏡子,既映照出 GUI Agent 從實驗室走向?qū)嵱玫募夹g(shù)跨越,也折射出端側(cè)智能在隱私、泛化與交互范式上的現(xiàn)實挑戰(zhàn)。它告訴我們:大模型若想真正融入每個人的數(shù)字生活,就不能只停留在“對話”,而必須學會“行動”;不能只依賴“云端”,而必須扎根“端側(cè)”。而在互聯(lián)網(wǎng)應用市場資源高度整合、手機等硬件巨頭格局森然的當下,創(chuàng)新的出現(xiàn)必然不會一蹴而就,新玩家的入局也必定舉步維艱。我們看到在過去半個月中,一個個 APP 被字節(jié)跳動官方宣布不再被豆包手機助手所支持,用戶們最開始的興奮感也逐步消退。然而,現(xiàn)在這并不是結(jié)束,甚至不是結(jié)束的開始。但,這或許是開始的結(jié)束。

OpenBMB 社區(qū)長期關(guān)注大模型的普惠化發(fā)展,MiniCPM 系列端側(cè)大模型正是在端側(cè)智能的思路牽引下應運而生。目前,MiniCPM 系列端側(cè)大模型已經(jīng)在最具落地條件的智能座艙等領(lǐng)域扎根發(fā)展。智能座艙不僅需要毫秒級的響應速度來處理導航、安全預警和娛樂系統(tǒng),更需要深度學習用戶習慣,實現(xiàn)無縫的個性化服務(wù),并對數(shù)據(jù)隱私和安全性有極高的要求。而在未來,隨著芯片算力的不斷演進、大模型能力密度的不斷增強,AIPC、手機助手乃至具身機器人的智能應用場景都將陸續(xù)成熟,端側(cè)智能將會成為驅(qū)動智能硬件發(fā)展的越來越重要的動力,豆包手機助手的下一個形態(tài)也將會不再受到如今的質(zhì)疑和困擾,迎來新生。

未來已來,路仍漫長。從被動執(zhí)行到主動服務(wù),從單一模態(tài)到全息感知,從固定規(guī)則到自主進化——端側(cè)智能的每一次突破,都將使我們離那個“懂你、護你、助你”的個人超級助手更近一步。這不僅是技術(shù)的競賽,更是對信任、隱私與人本價值的回歸。我們相信,當智能最終在每個人掌心安全、高效且體貼地運行時,那才是人工智能真正閃耀的時刻。

? 參考文獻

[1] Chen, Wentong, et al. "GUICourse: From General Vision Language Model to Versatile GUI Agent." Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2025.

[2] Zhang, Zhong, et al. "AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning." Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2025: 155–180.

[3] Song, Chenyang, et al. "BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity." Second Conference on Language Modeling.

[4] Zhao, Weilin, et al. "Infllm-v2: Dense-sparse switchable attention for seamless short-to-long adaptation." arXiv preprint arXiv:2509.24663 (2025).

[5] Guo, Zonghao, et al. "Llava-uhd: an lmm perceiving any aspect ratio and high-resolution images." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024.

[6] Lu, Yaxi, et al. "Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance." The Thirteenth International Conference on Learning Representations.

[7] Xiao, C., Cai, J., Zhao, W. et al. Densing law of LLMs. Nat Mach Intell7, 1823–1833 (2025).

[8] Cui, Ganqu, et al. "Process reinforcement through implicit rewards." arXiv preprint arXiv:2502.01456 (2025).

技術(shù)人的年度儀式感! 年度盤點與趨勢洞察 啟動!

《2025 年度盤點與趨勢洞察》由 InfoQ 技術(shù)編輯組策劃。覆蓋大模型、Agent、具身智能、AI Native 開發(fā)范式、AI 工具鏈與開發(fā)、AI+ 傳統(tǒng)行業(yè)等方向,通過長期跟蹤、與業(yè)內(nèi)專家深度訪談等方式,對重點領(lǐng)域進行關(guān)鍵技術(shù)進展、核心事件和產(chǎn)業(yè)趨勢的洞察盤點。

力求以體系化視角幫助讀者理解年度技術(shù)演化的底層邏輯、創(chuàng)新方向與落地價值,并為新一年決策提供參考。內(nèi)容將在 InfoQ 媒體矩陣陸續(xù)放出,歡迎大家持續(xù)關(guān)注。


今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
三峽大壩運營二十余年的 “賬本” 對外披露,當初高達2500億的投入,如今是否已經(jīng)收回?

三峽大壩運營二十余年的 “賬本” 對外披露,當初高達2500億的投入,如今是否已經(jīng)收回?

史海孤雁
2026-01-15 21:41:23
聶衛(wèi)平葬禮,長子捧遺像,兩任妻子未現(xiàn)身,現(xiàn)任蘭莉婭主持現(xiàn)場

聶衛(wèi)平葬禮,長子捧遺像,兩任妻子未現(xiàn)身,現(xiàn)任蘭莉婭主持現(xiàn)場

另子維愛讀史
2026-01-18 20:32:21
俄羅斯人自己先捅破了窗戶紙:外蒙古和遠東,怕不是要“回家”了

俄羅斯人自己先捅破了窗戶紙:外蒙古和遠東,怕不是要“回家”了

福建平子
2026-01-20 06:52:46
亞足聯(lián)官宣!中國隊VS越南隊再收一個好消息,贏1-0=進決賽

亞足聯(lián)官宣!中國隊VS越南隊再收一個好消息,贏1-0=進決賽

何老師呀
2026-01-19 20:02:22
美媒哀嚎:西方糧商的好日子到頭了,中國再也不會給其買單了

美媒哀嚎:西方糧商的好日子到頭了,中國再也不會給其買單了

近史博覽
2026-01-19 15:07:06
曝中超勁旅更名為“浙江杭州”!死忠組織怒發(fā)文抵制:請尊重球迷

曝中超勁旅更名為“浙江杭州”!死忠組織怒發(fā)文抵制:請尊重球迷

我愛英超
2026-01-19 22:58:28
西貝官微兩度轉(zhuǎn)發(fā)“人民日報再評西貝關(guān)店事件”,還加了15個感嘆號:西貝賈國龍一定對照反思,學習改進

西貝官微兩度轉(zhuǎn)發(fā)“人民日報再評西貝關(guān)店事件”,還加了15個感嘆號:西貝賈國龍一定對照反思,學習改進

極目新聞
2026-01-19 20:36:40
這就是毛主席父親的真實容貌,都看看吧,這可不是演員扮演的!

這就是毛主席父親的真實容貌,都看看吧,這可不是演員扮演的!

萬物知識圈
2026-01-05 09:10:33
曼城球員周薪榜:格伊25萬英鎊,哈蘭德52.5萬英鎊高居榜首

曼城球員周薪榜:格伊25萬英鎊,哈蘭德52.5萬英鎊高居榜首

懂球帝
2026-01-20 09:19:30
中央批準跨省履新后,張迎春任自治區(qū)副主席,此前任湖南省委常委

中央批準跨省履新后,張迎春任自治區(qū)副主席,此前任湖南省委常委

上觀新聞
2026-01-20 11:54:04
最小紅軍向軒:7歲投身革命9歲長征路,1955年授銜他獲封什么軍銜

最小紅軍向軒:7歲投身革命9歲長征路,1955年授銜他獲封什么軍銜

磊子講史
2026-01-14 11:16:27
特朗普八國大征稅,會進一步將世界推向中國嗎?

特朗普八國大征稅,會進一步將世界推向中國嗎?

新民周刊
2026-01-20 09:09:53
41歲女神張瀟予去世,紋身染發(fā)愛喝酒,好友曝死因家人葬禮上痛哭

41歲女神張瀟予去世,紋身染發(fā)愛喝酒,好友曝死因家人葬禮上痛哭

古希臘掌管松餅的神
2026-01-19 11:21:07
小面罩引爆TikTok市場,一周狂銷80萬,賣家發(fā)財了

小面罩引爆TikTok市場,一周狂銷80萬,賣家發(fā)財了

跨境派Pro
2026-01-19 14:12:10
2場7記三分再轟25分,火箭21歲射手撐起二陣!中產(chǎn)合同恐留不住他

2場7記三分再轟25分,火箭21歲射手撐起二陣!中產(chǎn)合同恐留不住他

熊哥愛籃球
2026-01-20 12:18:57
核電唯一獨角獸,特高壓嚴重低估大龍頭,主力重倉殺入

核電唯一獨角獸,特高壓嚴重低估大龍頭,主力重倉殺入

財報翻譯官
2026-01-20 10:20:45
在縣長家當保姆,夫人看到我的手鐲后,她說:我家也有一個

在縣長家當保姆,夫人看到我的手鐲后,她說:我家也有一個

五元講堂
2025-06-17 12:03:41
才剛下課!阿隆索下家曝光!10億豪門送邀請,聯(lián)手愛徒,英超變天

才剛下課!阿隆索下家曝光!10億豪門送邀請,聯(lián)手愛徒,英超變天

阿泰希特
2026-01-20 11:00:21
年終獎八千同事七萬,老板找我續(xù)約,我淡定遞上離職信他慌了

年終獎八千同事七萬,老板找我續(xù)約,我淡定遞上離職信他慌了

曉艾故事匯
2026-01-06 09:08:51
郜林一家近照,42歲發(fā)福不少,老婆是超模,退役當老板很幸福

郜林一家近照,42歲發(fā)福不少,老婆是超模,退役當老板很幸福

大西體育
2026-01-19 18:25:06
2026-01-20 12:31:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領(lǐng)域技術(shù)資訊。
1257文章數(shù) 109關(guān)注度
往期回顧 全部

科技要聞

去年預虧60億后再投百億 兩大車企緊抱華為

頭條要聞

貝克漢姆長子發(fā)長文公開指責父母:試圖破壞我的婚姻

頭條要聞

貝克漢姆長子發(fā)長文公開指責父母:試圖破壞我的婚姻

體育要聞

新的時代!東契奇生涯首奪全明星票王 此前10年詹姆斯7次奪魁

娛樂要聞

貝克漢姆長子發(fā)文決裂:全家都在演戲

財經(jīng)要聞

2026年,7個趨勢正在爆發(fā)

汽車要聞

奇瑞張貴兵:墨甲不做秀技術(shù)的企業(yè) 只做痛點終結(jié)者

態(tài)度原創(chuàng)

本地
時尚
健康
公開課
軍事航空

本地新聞

云游遼寧|漫步千年小城晨昏,“康”復好心情

碼住抄作業(yè)!春節(jié)見人不翻車就靠這8樣!

血常規(guī)3項異常,是身體警報!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

古美關(guān)系高度緊張 古巴啟動"戰(zhàn)爭狀態(tài)"

無障礙瀏覽 進入關(guān)懷版