国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

告別想完再做卡頓!清華StreamingVLA讓VLA邊想邊行動,提速2.4倍

0
分享至



作者介紹:本文由清華大學電子工程系 NICS-EFC 實驗室與聯(lián)想合作完成

史奕然 清華大學深圳國際研究生院 數據與信息研究院 電子與通信工程專業(yè)在讀碩士研究生 導師是廖慶敏教授,研究方向是:視覺 - 文本大模型的高效訓練與推理

郭東琦 清華大學電子工程系本科生

趙天辰 清華大學電子工程系高能效計算實驗室博士生,導師是汪玉教授,研究方向主要是:基座模型構建的 EfficientML 算法與 Infra 協(xié)同優(yōu)化

視覺 - 語言 - 動作(VLA)模型為具身智能帶來了強大的泛化能力,但其 “觀測 - 生成 - 執(zhí)行” 三階段串行執(zhí)行的模式,導致機器人在動作間頻繁停頓,嚴重影響了交互的流暢性與實時性。針對這一問題,本文提出 StreamingVLA 框架,通過引入動作流匹配與自適應提前觀測兩項技術,分別實現(xiàn) “生成與執(zhí)行” 及 “觀測與執(zhí)行” 兩個維度的并行處理,使模型能夠以 “流式” 方式,異步進行動作的生成和執(zhí)行。

在 LIBERO 基準測試中,StreamingVLA 在保持 94.9% 高成功率(與基線模型 95.1% 基本持平)的同時,將單動作延遲縮短至 31.6 毫秒,實現(xiàn) 2.4 倍端到端加速,并將執(zhí)行過程中的卡頓時間從 232.3 毫秒大幅壓縮至 36.0 毫秒,降幅達 6.5 倍。在真機實驗中,StreamingVLA 使得平均動作延遲由 271.49 毫秒降低到 170.88 毫秒,實現(xiàn) 1.58 倍加速,為 VLA 模型在真實場景中的高效部署提供了新的解決方案。



圖:StreamingVLA 的整體框架與效果



視頻鏈接:https://mp.weixin.qq.com/s/iOaGIpFHn9I8TI3Pxg5xfQ

首先需要明確當前 VLA 模型部署的核心矛盾,隨著 VLA 模型規(guī)模的不斷擴大,其在實際部署中面臨的效率問題日益突出,尤其是在資源受限的邊緣設備上,高延遲與執(zhí)行卡頓成為制約其應用的關鍵瓶頸。

現(xiàn)有 VLA 模型通常采用同步執(zhí)行流水線,即 “場景觀測 - 動作生成 - 動作執(zhí)行” 三個階段依次進行,每一階段必須等待前一階段完成后才能開始。動作的生成需要等待場景觀測 VLM 處理完成之后才能開始,動作執(zhí)行需要等待完整的動作生成,而下一輪的場景觀測又需要等待全部的動作執(zhí)行完成。這種串行機制導致機器人在執(zhí)行過程中頻繁停頓,動作缺乏連貫性。以當前主流的 Pi0.5 模型為例,其執(zhí)行過程中存在的空閑等待時間(即卡頓時間)嚴重影響了任務的執(zhí)行流暢度與用戶體驗。

針對這一問題,本文提出 StreamingVLA,一種支持異步并行執(zhí)行的 VLA 框架。通過對 VLA 執(zhí)行流程的系統(tǒng)性分析,識別出造成延遲與卡頓的關鍵因素,并在此基礎上引入兩項核心技術:基于狀態(tài)建模的動作流匹配與動作顯著性感知的自適應提前觀測。這兩項技術分別實現(xiàn)了 “動作生成與動作執(zhí)行” 以及 “場景觀測與動作執(zhí)行” 兩個維度的并行化,從而在不犧牲模型性能的前提下,顯著提升執(zhí)行效率與流暢度。



  • Arxiv Link: https://arxiv.org/abs/2603.28565
  • Project Page:https://ghahahahag.github.io/StreamingVLA_Website/
  • Github Link:https://github.com/gen-robot/StramingVLA

一、系統(tǒng)性分析:識別 VLA 動作卡頓的本質原因,提出延時分析框架

為深入理解 VLA 執(zhí)行過程中的效率瓶頸,本文首先對以 Pi0.5 為代表的典型 VLA 模型進行了詳細的運行時序分析(如下圖所示)。該類模型由視覺語言模型(VLM)與基于擴散的動作專家組成,其執(zhí)行流程可劃分為三個主要階段:

首先,觀測階段中,VLM 根據當前圖像、語言指令與機器人狀態(tài)生成隱層特征(KV Cache);其次,動作生成階段中,動作專家基于這些特征通過擴散過程生成一個包含多個未來動作的動作塊;最后,執(zhí)行階段中,機器人依次執(zhí)行這些動作,完成后進入下一輪循環(huán)(如圖左下側所示)。

在傳統(tǒng)同步執(zhí)行模式下,三個階段嚴格串行,彼此等待。這意味著在每次動作執(zhí)行完畢后,系統(tǒng)必須等待下一次觀測與動作生成全部完成才能繼續(xù)執(zhí)行,由此產生的卡頓時間等于觀測時間與動作生成時間之和。實際測試表明,這一等待時間相當可觀,是導致機器人動作不連貫的主要根源。

基于上述分析,明確了優(yōu)化目標:在盡可能保持模型性能的前提下,同時降低每個動作的平均延遲與卡頓時間。為此,本文提出通過重疊不同階段的時間來替代單純壓縮各階段延遲的傳統(tǒng)思路,希望實現(xiàn) “動作生成與動作執(zhí)行” 以及 “場景觀測與動作執(zhí)行” 兩個維度的并行化,從而實現(xiàn) “流式” 執(zhí)行(如圖右下側)。



圖:StreamingVLA 對執(zhí)行時序的系統(tǒng)性分析與優(yōu)化

二、方案設計

(一)動作流匹配:實現(xiàn)生成與執(zhí)行的并行



圖:基于狀態(tài)建模的動作流匹配方法

在傳統(tǒng) VLA 模型的執(zhí)行流水線中,動作生成與執(zhí)行階段嚴格串行,這是造成系統(tǒng)效率低下的主要原因之一。具體而言,在動作塊生成機制下,動作專家通過多步擴散去噪過程一次性生成包含多個未來動作的動作塊,只有當整個動作塊完全生成后,機器人才能開始執(zhí)行其中的第一個動作。這種 “先全部生成,再依次執(zhí)行” 的模式,使得動作生成與執(zhí)行之間無法產生任何時間重疊。

為此,本文引入了基于狀態(tài)建模的動作流匹配方法。該方法的核心理念是將動作生成過程從 “一次性生成一個動作塊” 轉變?yōu)?“連續(xù)演化一個狀態(tài)”。模型不再直接預測動作的絕對值,而是維護一個累積了歷史動作的 “動作空間狀態(tài)”,并預測該狀態(tài)隨時間演化的 “速度場”。每一步,模型根據當前狀態(tài)與觀測信息預測速度場,通過簡單的時間積分得到當前時刻的動作輸出,同時更新狀態(tài)。這一過程使得每個動作可以在生成后立即被執(zhí)行,而模型則繼續(xù)基于更新后的狀態(tài)生成下一個動作,從而實現(xiàn)了動作生成與執(zhí)行在時間軸上的無縫重疊。

然而將這一方法適配到大型 VLA 模型與 Libero 復雜基準任務的過程中,面臨兩個關鍵挑戰(zhàn)。第一,復雜控制場景中模型輸出的動作需經過控制器才能轉換為物理運動,使得動作與物理狀態(tài)之間不再保持線性關系。為此,本文對狀態(tài)建模進行擴展,引入 “動作空間狀態(tài)” 作為模型內部維護的狀態(tài)變量,并通過預計算完整軌跡的動作空間狀態(tài),確保其在訓練過程中與物理空間狀態(tài)對齊。第二,大型模型中的歸一化層會破壞 “狀態(tài)加動作等于新狀態(tài)” 這一流匹配框架所依賴的關鍵可加性。本文對此進行針對性修改,移除偏移項并統(tǒng)一縮放因子,使得歸一化后的變量仍然滿足可加性,在保持訓練穩(wěn)定的同時完好保留了流匹配的核心數學結構。

通過上述擴展與調整,動作流匹配得以在大型 VLA 模型中成功部署,顯著縮短了動作生成與執(zhí)行之間的等待時間,為實現(xiàn) “生成 - 執(zhí)行” 維度的并行奠定了堅實基礎。

(二)自適應提前觀測:實現(xiàn)觀測與執(zhí)行的并行



圖:動作顯著性感知的自適應提前觀測

在動作流匹配解決了 “生成 - 執(zhí)行” 并行問題之后,系統(tǒng)延遲的另一主要來源 ——“觀測” 與 “執(zhí)行” 之間的串行等待 —— 便成為進一步優(yōu)化的關鍵。若能使 VLM 在機器人尚未完成全部動作時就提前開始下一輪觀測的處理,則觀測與執(zhí)行的時間便能夠產生重疊,從而進一步縮短卡頓時間。提前觀測技術正是針對這一目標提出的,其核心思想是在機器人執(zhí)行當前動作塊的部分動作后即開始下一輪觀測的 VLM 推理。

然而直接進行樸素的提前觀測會導致獲得錯誤的場景信息,最終導致模型性能的顯著下降。因此本文提出一種自適應的提前觀測方法,根據動作顯著性來動態(tài)決定是否提前觀測。

動作顯著性,即某一動作對后續(xù)觀測結果的影響程度。高顯著性動作(如大幅度移動)會引發(fā)環(huán)境的劇烈變化,若在尚未執(zhí)行此類動作時就提前觀測,VLM 得到的環(huán)境信息與實際物理環(huán)境之間將出現(xiàn)嚴重不匹配,生成的后續(xù)動作自然難以準確。相反,低顯著性動作對環(huán)境變化影響甚微,提前觀測造成的誤差也相應較小。

為了量化動作顯著性這一指標,本文設計了一個基于 Transformer 的輕量級預測器,用于動態(tài)評估尚未執(zhí)行的動作的顯著性。該預測器以當前時刻的圖像 embedding 和剩余未執(zhí)行的動作序列作為輸入,輸出執(zhí)行這些動作后圖像 embedding 的預測變化量。預測器以實際執(zhí)行后觀測到的圖像 embedding 變化作為監(jiān)督信號進行訓練,其參數量遠小于完整 VLM,訓練成本也相對較低。在推理階段,系統(tǒng)調用該預測器估算剩余動作的顯著性:若預測變化量低于預設閾值,則提前啟動下一輪觀測,實現(xiàn)觀測與執(zhí)行的并行;若高于閾值,則等待動作執(zhí)行完畢后再進行觀測,以確保 VLM 獲取準確的環(huán)境信息。該預測器運行時的額外開銷僅占模型總推理時間的約 5%,訓練成本也遠低于全模型微調,卻能帶來可觀的加速收益。

三、實驗結果:雙重優(yōu)異的性能與效率

(一)模擬環(huán)境測試

本文在 LIBERO 仿真環(huán)境的四個任務集上對 StreamingVLA 進行了全面評估。實驗結果表明,StreamingVLA 在保持與基線模型(Pi0.5)相當的成功率(94.9%)的前提下,實現(xiàn)了顯著的效率提升。相較于一次觀測生成 10 個動作的 Pi0.5(h=10),單動作延遲從 49.9 毫秒降低至 31.6 毫秒,實現(xiàn)了 1.57 倍的加速;卡頓時間從 230.8 毫秒銳減至 36.0 毫秒,降幅達 6.45 倍。



(二)消融實驗

消融實驗進一步驗證了各模塊的有效性。狀態(tài)對齊是動作流匹配成功的關鍵,缺乏對齊會直接導致訓練失敗,而引入對齊后模型成功率躍升至 97.1%,同時延遲與卡頓均大幅降低。自適應提前觀測相比隨機提前觀測,在相同觸發(fā)頻率下將成功率從 90.9% 提升至 94.9%,充分證明了其智能調度的有效性。



(三)真機實驗

為進一步驗證 StreamingVLA 在真實物理環(huán)境中的有效性,本文將其部署于 Franka Panda 機械臂平臺,在桌面工作空間下執(zhí)行抓取 - 放置任務。該任務要求機械臂從指定位置抓取物體并放置于目標位置,是檢驗動作執(zhí)行精度與感知更新及時性的典型場景。實驗采用基于 Pi0.5 架構的模型,動作視界設為 8?;€配置下,原始 Pi0.5 策略使用 8 個動作視界與 4 步重規(guī)劃;StreamingVLA 則采用相同視界但以流式方式生成動作。實驗結果表明,StreamingVLA 的平均動作延遲為 170.88 毫秒,而原始 Pi0.5 基線模型的平均動作延遲為 271.49 毫秒。這一結果驗證了 StreamingVLA 在真實物理系統(tǒng)中同樣能夠顯著提升控制效率,為實時機器人操作提供了關鍵的速度保障。

四、總結與展望

本文針對 VLA 模型在實際部署中面臨的高延遲與執(zhí)行卡頓問題,提出了 StreamingVLA 框架。通過對執(zhí)行流程的系統(tǒng)性分析,本文識別出關鍵瓶頸,并引入動作流匹配與自適應提前觀測兩項核心技術,分別實現(xiàn)了 “動作生成 - 動作執(zhí)行” 與 “場景觀測 - 動作執(zhí)行” 兩個維度的并行處理。實驗結果表明,StreamingVLA 在不犧牲模型性能的前提下,實現(xiàn)了顯著的速度提升與流暢度改善。

這一工作為研究者提供了更深入的啟發(fā):在構建高效的具身智能系統(tǒng)時,優(yōu)化不應僅停留在模型壓縮層面,更應關注執(zhí)行流程的協(xié)同與并行。StreamingVLA 所展現(xiàn)的 “流式” 執(zhí)行思想,不僅適用于 VLA 模型,也為其他多階段、多模態(tài)的實時交互系統(tǒng)提供了新的設計思路,有望推動智能系統(tǒng)在真實場景中的高效部署與廣泛應用。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
C羅首次出現(xiàn)在亞冠二級比賽,41歲老將帶病拼亞冠

C羅首次出現(xiàn)在亞冠二級比賽,41歲老將帶病拼亞冠

林子說事
2026-04-20 01:21:13
杜月笙面館吃飯,一伙地痞流氓找他要保護費,杜月笙:嫌命長嗎?

杜月笙面館吃飯,一伙地痞流氓找他要保護費,杜月笙:嫌命長嗎?

千秋文化
2026-04-01 20:35:51
國乒公布出征倫敦世乒賽時間,世界排名更新,梁靖崑丟冠軍賽資格

國乒公布出征倫敦世乒賽時間,世界排名更新,梁靖崑丟冠軍賽資格

體育大學僧
2026-04-20 11:20:34
這一次,上海樓市很多人要被拋棄了

這一次,上海樓市很多人要被拋棄了

魔都財觀
2026-04-20 07:41:26
5月—9月,要上市的6款SUV

5月—9月,要上市的6款SUV

小怪吃美食
2026-04-20 11:30:09
鄭麗文判斷準確,解放軍下通牒,賴清德將登機離臺

鄭麗文判斷準確,解放軍下通牒,賴清德將登機離臺

謝綸郵輪攝影
2026-04-20 12:24:39
等不到特朗普訪華了,美國提前對華攤牌:要求秘魯把中國趕出港口

等不到特朗普訪華了,美國提前對華攤牌:要求秘魯把中國趕出港口

安珈使者啊
2026-04-19 11:44:14
破防!雷軍15小時京滬續(xù)航自證清白,懇求全網幫幫小米

破防!雷軍15小時京滬續(xù)航自證清白,懇求全網幫幫小米

雷科技
2026-04-18 12:38:28
身體亮紅燈!白鹿官宣超長休整,暫停新劇只為轉型蓄力

身體亮紅燈!白鹿官宣超長休整,暫停新劇只為轉型蓄力

一禾的世界
2026-04-20 10:56:59
過分,韓國北面歧視中國游客:“你所做的就是你國家的面貌?!?>
    </a>
        <h3>
      <a href=設計癖
2026-04-18 12:50:09
這大體格 氣質真好,40歲女性的典范,屬于萬里挑一,很大氣

這大體格 氣質真好,40歲女性的典范,屬于萬里挑一,很大氣

手工制作阿殲
2026-04-20 08:10:04
深夜猝死的人增多!醫(yī)生反復強調:吃完晚飯后,盡量少做這4件事

深夜猝死的人增多!醫(yī)生反復強調:吃完晚飯后,盡量少做這4件事

岐黃傳人孫大夫
2026-04-18 11:45:03
4月20日油價變化,汽柴油下調780元/噸,今天降幅增加180元/噸!

4月20日油價變化,汽柴油下調780元/噸,今天降幅增加180元/噸!

豬友巴巴
2026-04-20 09:04:16
生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

蜉蝣說
2026-03-17 15:58:31
曝杜蘭特很可能G2復出!總分0-1或火線歸來 火箭將帥都盼他回歸

曝杜蘭特很可能G2復出!總分0-1或火線歸來 火箭將帥都盼他回歸

追球者
2026-04-20 12:58:42
每體:據相關人士透露,梅西收購科爾內利亞大約花費200萬歐

每體:據相關人士透露,梅西收購科爾內利亞大約花費200萬歐

懂球帝
2026-04-19 15:11:13
一地下黨被敵堵在屋內,房東大媽扭頭罵:死丫頭,還不趕緊倒馬桶

一地下黨被敵堵在屋內,房東大媽扭頭罵:死丫頭,還不趕緊倒馬桶

青史如煙
2026-04-19 08:40:59
李修賢談萬梓良現(xiàn)狀:酒吧駐場不丟人,為人仗義,事業(yè)婚姻都不順

李修賢談萬梓良現(xiàn)狀:酒吧駐場不丟人,為人仗義,事業(yè)婚姻都不順

以茶帶書
2026-04-14 16:39:49
愛潑斯坦文件曝光!證人實錘了:愛潑斯坦把梅拉尼婭介紹給特朗普

愛潑斯坦文件曝光!證人實錘了:愛潑斯坦把梅拉尼婭介紹給特朗普

街上的行人很刺眼
2026-04-20 11:45:12
不歡迎中國人的7個國家,不待見寫在臉上,中國游客仍蜂擁而至

不歡迎中國人的7個國家,不待見寫在臉上,中國游客仍蜂擁而至

史行途
2026-04-20 00:15:27
2026-04-20 14:31:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12809文章數 142632關注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

媒體:伊朗剛說不談 美國立即開打

頭條要聞

媒體:伊朗剛說不談 美國立即開打

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關曉彤撕下體面

財經要聞

月之暗面IPO迷局

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

房產
數碼
手機
公開課
軍事航空

房產要聞

重磅!??诒闭緛砹?!多項信息曝光,過海時間將大幅縮短!

數碼要聞

EPOMAKER推出全配列磁軸鍵盤HE108,10000mAh電池續(xù)航500hr

手機要聞

蘋果iOS 27曝光:主屏幕編輯菜單新增“撤銷”與“重做”按鈕

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版