VLA這條技術(shù)線能走通嗎？

2026-02-23 21:53:28　來源: 機器人大講堂

安徽舉報

分享至

當(dāng)GPT-4V、Claude這類視覺語言模型在互聯(lián)網(wǎng)圖文數(shù)據(jù)的海洋里乘風(fēng)破浪時，機器人領(lǐng)域的研究者們正試圖把這套玩法搬到機械臂和移動機器人身上。視覺語言動作模型（VLA）應(yīng)運而生，它被寄予厚望，被看作是打通人機交互、實現(xiàn)通用機器人的關(guān)鍵路徑。

但喧囂之下，行業(yè)當(dāng)中也出現(xiàn)了一些質(zhì)疑與思考，機器人領(lǐng)域的真實數(shù)據(jù)，真的能做到像 VLM 訓(xùn)練那樣的超大規(guī)模量級嗎？如果做不到，又該如何僅憑有限數(shù)據(jù)，去論證 VLA 這條技術(shù)路線本身就走不通？

靠超大規(guī)模參數(shù)對機器人數(shù)據(jù)進行暴力擬合，訓(xùn)出來的模型真的能在真機上實現(xiàn)有效泛化嗎？VLA 和成熟的 VLM 之間，真正的技術(shù)鴻溝到底在哪？

現(xiàn)在的 VLA 還都停留在做一些即插即用的簡單任務(wù)，這樣的推理速度，真的能支撐現(xiàn)實中高動態(tài)、高實時性的復(fù)雜任務(wù)嗎？

01.

數(shù)據(jù)量是天然的鴻溝！百萬級軌跡依舊難以實現(xiàn)高效泛化能力

提到VLM的訓(xùn)練，動輒數(shù)十億的圖文對是標(biāo)配。這些數(shù)據(jù)唾手可得，從互聯(lián)網(wǎng)的海量網(wǎng)頁到Y(jié)ouTube的視頻庫，只要有足夠的算力，就能源源不斷地抓取投喂。反觀機器人領(lǐng)域，即便是號稱史上最大規(guī)模的Open X-Embodiment數(shù)據(jù)集，也只有170萬條軌跡，涵蓋22款不同機器人。

這個數(shù)字聽起來不算小，但放到深度學(xué)習(xí)的尺度里，連VLM數(shù)據(jù)量的零頭都夠不上。更關(guān)鍵的是，機器人數(shù)據(jù)的采集成本高得離譜。有業(yè)內(nèi)資深人士表示，依靠機器人專家示教一小時，往往只能產(chǎn)出幾十條有效數(shù)據(jù)，人力和時間成本加起來高達數(shù)千元。而且這些數(shù)據(jù)大多集中在pick-and-place這類重復(fù)性任務(wù)上，任務(wù)多樣性遠不如互聯(lián)網(wǎng)上五花八門的圖文內(nèi)容。

有人寄希望于仿真平臺破局。PhysX、MuJoCo、Isaac Sim這些工具確實能批量生成機器人運動數(shù)據(jù)，但Sim2Real的鴻溝始終橫亙在前。仿真環(huán)境里的物理參數(shù)、物體摩擦力、材質(zhì)反射率都是理想化設(shè)定，和真實世界的復(fù)雜情況相去甚遠。就算用上Domain Randomization、Domain Adaptation這些技術(shù)來縮小差距，最終效果也充滿不確定性，能不能在真機上穩(wěn)定復(fù)現(xiàn)，全看運氣。

深度學(xué)習(xí)的Scaling Law是繞不開的鐵律，數(shù)據(jù)量、模型參數(shù)、計算資源三者缺一不可。用遠達不到要求的少量數(shù)據(jù)去訓(xùn)練VLA，最后模型性能不佳，到底是數(shù)據(jù)不夠的鍋，還是VLA架構(gòu)本身不適用？這個問題，沒人能給出確切答案。

有行業(yè)人士提出兩個觀察指標(biāo)，一是泛化性測試，如果在少量多樣化任務(wù)中，VLA的泛化能力明顯弱于模仿學(xué)習(xí)加微調(diào)的傳統(tǒng)方法，那或許能說明架構(gòu)存在缺陷。二是看邊際收益，要是數(shù)據(jù)量從1k漲到10k時，模型性能提升明顯，但從10k擴增到100k后，提升變得微乎其微，那大概率是架構(gòu)容量不足，或者是數(shù)據(jù)質(zhì)量跟不上了。不過這些都只是間接證據(jù)，要徹底證明VLA走不通，需要大規(guī)模實驗的負面結(jié)果支撐。但在追求正向成果的科研圈，誰又會主動發(fā)布負面結(jié)果呢？這本質(zhì)上更像是一個負面的悖論。

02.

暴力堆參行不通？機器人需要的是物理因果不是統(tǒng)計關(guān)聯(lián)

既然數(shù)據(jù)量不夠，那能不能像NLP領(lǐng)域那樣，靠超大規(guī)模參數(shù)暴力擬合機器人數(shù)據(jù)？畢竟GPT系列已經(jīng)證明，參數(shù)和數(shù)據(jù)量到位后，模型會涌現(xiàn)出意想不到的能力，從GPT-3的少樣本學(xué)習(xí)到GPT-4的復(fù)雜推理，都是Scaling Law的功勞。

但機器人領(lǐng)域和NLP領(lǐng)域有著本質(zhì)區(qū)別。語言是離散符號系統(tǒng)，即便組合方式再多，也有內(nèi)在規(guī)律可循。物理世界卻是連續(xù)、高維且非線性的，一個普通的杯子，材質(zhì)、重量、形狀的變化就能衍生出無數(shù)種情況，靠模型死記硬背根本不現(xiàn)實。

更關(guān)鍵的是，機器人模型的精度要求遠比語言模型高。語言模型產(chǎn)生幻覺，輸出幾句錯誤內(nèi)容，用戶大概率能理解?？蓹C器人要是出現(xiàn)“幻覺”，抓取位置偏差2厘米，就是成功和失敗的天壤之別。語言模型可以靠統(tǒng)計關(guān)聯(lián)蒙混過關(guān)，機器人卻必須理解真實的物理因果關(guān)系，否則稍微受到外力干擾，就會當(dāng)場“翻車”。

這意味著，單純靠堆參數(shù)和數(shù)據(jù)的scale思路，在機器人領(lǐng)域可能行不通。VLA需要引入更強的歸納偏置，才能真正適配物理世界的任務(wù)需求。

03.

VLA與VLM的核心鴻溝不止是輸出那么簡單

很多人以為，VLA只是VLM的延伸，無非是把輸出從文本token換成了機器人動作。但實際上，兩者的差距遠比想象中要大。

首先是輸出空間的差異。VLM輸出的是離散的token序列，有明確的概率分布可以遵循。VLA輸出的是連續(xù)的動作信號，比如關(guān)節(jié)角度、末端位姿，連續(xù)分布的建模難度本身就遠超離散分布。

其次是反饋機制的不同。VLM訓(xùn)練時，文本反饋清晰明確，對錯一目了然。VLA的訓(xùn)練卻只有稀疏的成功或失敗信號，大部分時候需要靠強化學(xué)習(xí)反復(fù)試錯，才能調(diào)整動作策略。這種低效的反饋方式，極大增加了訓(xùn)練難度。

還有一個容易被忽視的點，就是時序依賴的重要性。VLA需要處理動力學(xué)層面的時序關(guān)聯(lián)，t時刻的動作會直接影響t+1時刻的機器人狀態(tài)，誤差會隨著時間不斷累積。這對模型的時序建模能力提出了極高要求，也是VLM不需要面對的挑戰(zhàn)。

正因如此，把VLM的那套架構(gòu)直接照搬過來做VLA，顯然是行不通的。研究者們也在探索各種解決方案，比如用VQ-VAE把連續(xù)動作離散化，或者在模型中引入接觸動力學(xué)、穩(wěn)定性約束等物理先驗。但目前來看，這些嘗試都還處于初步階段，離真正解決問題還有很長的路要走。

04.

推理速度的致命傷：高動態(tài)任務(wù)面前，VLA根本跟不上

除了訓(xùn)練層面的難題，VLA的推理速度更是卡在了實際應(yīng)用的門檻上。

目前典型的VLA模型，參數(shù)量大多在70億到800億之間，參考RT-2基于PaLM-E的架構(gòu)就能看出端倪。在A100這種頂級算力平臺上，單次推理的延遲也需要50到200毫秒。

但機器人的控制頻率要求，遠比這個數(shù)字要苛刻。低動態(tài)的工業(yè)機械臂，比如UR系列、Franka Emika，操作任務(wù)的控制頻率在10到20Hz，也就是50到100毫秒一次，VLA的推理速度勉強能跟上?？傻搅酥袆討B(tài)任務(wù)，比如PR2、Fetch這類移動操作機器人，控制頻率提升到50到100Hz，需要10到20毫秒完成一次推理，VLA就顯得力不從心了。

至于高動態(tài)任務(wù)，像波士頓動力的Atlas機器人、MIT的Cheetah獵豹機器人，控制頻率高達100到1000Hz，要求1到10毫秒內(nèi)完成決策。這個速度下，VLA想要完成視覺-語言-動作的全流程推理，無異于天方夜譚。

有人說可以通過技術(shù)手段優(yōu)化推理速度。模型剪枝、量化確實能提速，但代價是精度下降；換用小模型，泛化能力又會大打折扣；異步推理的方案，在需要實時反饋的高動態(tài)任務(wù)面前，更是毫無用處。

高動態(tài)任務(wù)需要的是反應(yīng)式控制，機器人要根據(jù)環(huán)境的快速變化實時調(diào)整動作。而VLA本質(zhì)上是個“黑盒”模型，想要讓它在毫秒級時間內(nèi)完成復(fù)雜決策，難度堪比讓帕金森患者去參加奧運會。

05.

分層架構(gòu)：是無奈的折中，還是最終的出路？

為了解決推理延遲的問題，不少研究團隊把目光投向了分層架構(gòu)。這個思路很直接：把VLA放在高層做決策規(guī)劃，底層用傳統(tǒng)控制器負責(zé)精細控制。

具體來說，高層VLA只需要理解“把紅色方塊放到藍色碗里”這類自然語言指令，輸出粗粒度的軌跡航路點就行，推理速度可以放寬到100毫秒級別。底層則用PID、MPC這些成熟的傳統(tǒng)控制算法，以毫秒級的速度跟蹤航路點，完成精準(zhǔn)動作。

不得不說，這個方案確實能緩解實時性的問題，但隨之而來的質(zhì)疑也很尖銳：這樣的架構(gòu)，還算得上end-to-end的VLA嗎？這和VLA最初的設(shè)計初衷背道而馳。如果最終還是要依賴傳統(tǒng)控制器，那VLA的價值到底在哪里？難道只是一個花里胡哨的任務(wù)規(guī)劃器？和傳統(tǒng)的任務(wù)規(guī)劃加運動規(guī)劃方案，又有什么本質(zhì)區(qū)別？

翻看當(dāng)下的VLA論文，這種感覺會更加強烈。很多研究都存在嚴(yán)重的選擇性篩選問題，只展示成功的實驗案例，對失敗率絕口不提。而且實驗場景大多限定在固定的實驗室環(huán)境里，用幾個固定物體反復(fù)測試，得出的成功率看似亮眼，卻經(jīng)不起真實場景的考驗。

真要把這樣的機器人放到陌生的廚房做飯，或者送到工廠車間搬運零件，能穩(wěn)定完成任務(wù)的寥寥無幾。

06.

VLA到底過渡方案還是未來方向？

站在當(dāng)下看VLA，更像是具身智能發(fā)展路上的一個過渡方案。就像深度學(xué)習(xí)早期，研究者們試過DBN、RBM、Autoencoder等各種架構(gòu)，最后才沉淀出CNN、Transformer這樣的經(jīng)典模型。

VLA現(xiàn)在的火爆，很大程度上是沾了Transformer在其他領(lǐng)域的光?？吹絋ransformer在NLP、CV領(lǐng)域大放異彩，研究者們自然想把它搬到機器人領(lǐng)域試試水。再加上大廠有足夠的資源堆數(shù)據(jù)、堆算力，能做出令人眼前一亮的demo，進一步帶動了學(xué)術(shù)界的跟風(fēng)熱潮。畢竟在科研圈，跟著熱點走更容易發(fā)論文，這也是無可厚非的現(xiàn)實。

但從長遠來看，機器人領(lǐng)域終究要回歸自身特性。VLA或許能在特定場景下發(fā)揮作用，但想要實現(xiàn)真正的通用機器人，大概率需要研究者們跳出Transformer的固有框架，設(shè)計出更貼合機器人動力學(xué)、物理規(guī)律的專用架構(gòu)。

當(dāng)然，我們也不能完全否定VLA的潛力。畢竟GPT-4的出現(xiàn)，已經(jīng)讓我們見識到了Scaling Law的巨大威力。誰也不敢保證，當(dāng)VLA的參數(shù)和數(shù)據(jù)量達到某個臨界點時，不會涌現(xiàn)出意想不到的能力。

只是在這個過程中，盲目迷信Scaling Law，忽視機器人領(lǐng)域的特殊性，無疑是危險的。因此VLA到底靠譜不靠譜，現(xiàn)在下結(jié)論還為時過早。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.