網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全面梳理 VLA 20大挑戰(zhàn)的深度綜述，方向清晰可見，每周更新，助力時(shí)刻掌握最新突破！

2025-12-25 09:19:11　來源: AI科技大本營

北京舉報(bào)

分享至

【編者按】Vision-Language-Action（VLA）正在把“看得懂、說得明白、做得出來”的機(jī)器人從演示推向真實(shí)系統(tǒng)。但模型、數(shù)據(jù)、范式爆發(fā)式增長(zhǎng)的同時(shí)，也帶來一個(gè)現(xiàn)實(shí)困境：新入門者不知道從哪里學(xué)起，從業(yè)者也難以判斷該從哪些維度系統(tǒng)性提升能力。這篇由樹根科技、三一集團(tuán)耘創(chuàng)新實(shí)驗(yàn)室、倫敦國王學(xué)院、港理工、達(dá)姆施塔特工業(yè)大學(xué)，挪威阿哥德大學(xué)，帝國理工大學(xué)等單位聯(lián)合完成的最新綜述，給出了一張清晰的“問題全景圖”和學(xué)習(xí)路線，并提供一個(gè)持續(xù)更新的在線參考框架。

近期，具身智能（Embodied AI）已成為人工智能與機(jī)器人領(lǐng)域最活躍、同時(shí)也最具探索空間的前沿方向之一。從類 GPT 機(jī)器人助手的演示，到多模態(tài)大模型逐步走向真實(shí)機(jī)器人平臺(tái)，“讓機(jī)器看得見、聽得懂、會(huì)行動(dòng)”正從概念驗(yàn)證走向系統(tǒng)化探索。

然而，隨著模型規(guī)模迅速膨脹、數(shù)據(jù)集與方法不斷涌現(xiàn)，領(lǐng)域內(nèi)部也愈發(fā)顯現(xiàn)出一種結(jié)構(gòu)性的困惑：剛進(jìn)入這一方向的研究者往往難以判斷應(yīng)當(dāng)從何入手；而已身處其中的從業(yè)者也常常面臨一個(gè)更具體的問題——究竟該從哪些維度、以什么順序系統(tǒng)性提升 VLA 的能力？在快速擴(kuò)張與路徑分化并存的當(dāng)下，單純羅列模型與方法已難以提供有效指引，更需要從核心挑戰(zhàn)出發(fā)，對(duì)問題結(jié)構(gòu)與發(fā)展脈絡(luò)進(jìn)行系統(tǒng)梳理。

實(shí)際研究與工程落地過程中，這種結(jié)構(gòu)性的困惑并非停留在理論層面。作為一家致力于“賦萬物智能，助工業(yè)進(jìn)步，創(chuàng)社會(huì)富足”的科技公司，樹根科技錨定工業(yè)智能，在真實(shí)工業(yè)場(chǎng)景中持續(xù)探索軟硬一體具身智能系統(tǒng)的落地實(shí)踐。團(tuán)隊(duì)在真實(shí)工業(yè)場(chǎng)景的前沿探索中，直面穩(wěn)定性、泛化性等關(guān)鍵挑戰(zhàn)。也正是在這樣的背景下逐漸意識(shí)到：除了單點(diǎn)能力的持續(xù)突破外，更需看到全局，從整體結(jié)構(gòu)上厘清問題本身。

在這一背景下，一篇綜述論文《An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges》（《視覺-語言-動(dòng)作模型剖析：從模塊到里程碑和挑戰(zhàn)》）發(fā)布，旨在為這一快速演進(jìn)卻結(jié)構(gòu)日益復(fù)雜的研究領(lǐng)域提供一個(gè)清晰、系統(tǒng)的參考框架。

論文鏈接：https://arxiv.org/abs/2512.11362
項(xiàng)目主頁：https://github.com/SuyuZ1/VLA-Survey-Anatomy
實(shí)時(shí)更新網(wǎng)站地址：https://suyuz1.github.io/VLA-Survey-Anatomy/

兩項(xiàng)核心貢獻(xiàn)：不再只是羅列工作，而是理清問題結(jié)構(gòu)

這項(xiàng)工作不僅是一篇系統(tǒng)綜述，更是構(gòu)建了一個(gè)持續(xù)演進(jìn)、每周更新的 VLA 研究參照體系（https://suyuz1.github.io/Survery/），用于系統(tǒng)跟蹤 VLA 相關(guān)研究工作的最新進(jìn)展、校準(zhǔn)學(xué)術(shù)研究方向。具體更新的內(nèi)容會(huì)按照本文的整體分類方法（模塊—里程碑—挑戰(zhàn)）進(jìn)行整理與歸類；相關(guān)內(nèi)容將每周一上午固定更新到項(xiàng)目網(wǎng)站。同時(shí)，我們也會(huì)在 GitHub 同步維護(hù)更新記錄與索引，歡迎大家一起補(bǔ)充、討論與提交 PR，共同把它維護(hù)成一個(gè)長(zhǎng)期可用的開源社區(qū)。終極目標(biāo)是長(zhǎng)期服務(wù)于社區(qū)對(duì) VLA 問題結(jié)構(gòu)的共同理解。

在持續(xù)更新的基礎(chǔ)上，論文本身也希望解決兩類常見痛點(diǎn)：一是很多綜述把“挑戰(zhàn)”放在結(jié)尾，缺少系統(tǒng)拆解；二是章節(jié)組織偏碎，信息雖多，卻難以形成連貫、演進(jìn)的問題脈絡(luò)，不利于讀者建立從基礎(chǔ)到前沿的整體認(rèn)知。

貢獻(xiàn)一：把挑戰(zhàn)提升為全文主線。我們將 VLA 發(fā)展中反復(fù)出現(xiàn)卻尚未被系統(tǒng)梳理的關(guān)鍵瓶頸，作為全文的分析主線，并圍繞能力演進(jìn)路徑歸納出五大核心挑戰(zhàn)（及其子問題），為理解現(xiàn)有工作與孕育新研究提供清晰的問題定位點(diǎn)。

貢獻(xiàn)二：按自然認(rèn)知順序構(gòu)建學(xué)習(xí)路線。我們?cè)谡w結(jié)構(gòu)上貼合研究者理解新領(lǐng)域的自然順序，構(gòu)建一條由基礎(chǔ)到前沿的清晰路線：先建立模塊級(jí)共同語言，再沿時(shí)間線理解關(guān)鍵里程碑，最后回到挑戰(zhàn)框架進(jìn)行系統(tǒng)定位。

綜述使用方法：不同階段讀者的使用路線圖

這篇綜述并非只面向少數(shù)“圈內(nèi)人”，而是被刻意設(shè)計(jì)成一份真正能用、且會(huì)長(zhǎng)期發(fā)揮價(jià)值的工具型綜述。讀完之后，讀者將對(duì) VLA 領(lǐng)域形成更清晰、更完整的整體認(rèn)知框架：不僅能夠快速梳理出核心技術(shù)脈絡(luò)與關(guān)鍵問題，還可以高效定位當(dāng)前 VLA 真正受限的能力環(huán)節(jié)，并對(duì)“下一步應(yīng)當(dāng)如何改進(jìn)、從哪里入手”形成初步而可靠的判斷。

對(duì)新入門者：先建立整體認(rèn)知，再逐步深入

如果你對(duì) VLA 領(lǐng)域還不算熟悉，但希望系統(tǒng)入手，這篇論文可以作為一條清晰的切入路徑：

從基礎(chǔ)模塊入手，建立對(duì)完整 VLA 系統(tǒng)組成方式的整體把握，理解感知、表征、規(guī)劃與控制之間的功能分工及其常見設(shè)計(jì)取舍；
沿里程碑章節(jié)建立演進(jìn)視角，把握關(guān)鍵能力是在何時(shí)、因何種問題需求而出現(xiàn)，區(qū)分長(zhǎng)期核心問題與階段性技術(shù)解法；
以五大挑戰(zhàn)作為統(tǒng)一參照系，迅速了解前沿研究熱點(diǎn)&學(xué)術(shù)問題，將分散的模型與方法放回其所試圖解決的核心問題中，形成穩(wěn)定的問題定位能力。

通過這一閱讀路徑，新入門的讀者可以在較短時(shí)間內(nèi)系統(tǒng)補(bǔ)全 VLA 領(lǐng)域的核心知識(shí)脈絡(luò)，建立起對(duì)該領(lǐng)域整體結(jié)構(gòu)與關(guān)鍵問題的清晰認(rèn)知。

對(duì)從業(yè)者：以挑戰(zhàn)為錨點(diǎn)，精準(zhǔn)定位能力提升空間

如果你已經(jīng)在做 VLA 相關(guān)研究或工程實(shí)踐，這篇綜述更適合作為一張高效的能力定位與提升路線圖，幫助你在復(fù)雜方法空間中迅速找準(zhǔn)真正值得投入的方向：幫助你在復(fù)雜方法空間中迅速找準(zhǔn)學(xué)術(shù)研究中真正值得投入的方向，并在科研工作中可以更清晰地界定研究問題、明確創(chuàng)新落點(diǎn)，從而提升科研工作的聚焦度和效率。

從五大挑戰(zhàn)切入，直接對(duì)照當(dāng)前系統(tǒng)在表征、執(zhí)行、泛化、安全或數(shù)據(jù)與評(píng)測(cè)等層面的核心瓶頸，快速鎖定最具提升潛力的能力短板，而不必在零散方法比較中反復(fù)試錯(cuò)；
圍繞已定位的挑戰(zhàn)回溯技術(shù)路徑，結(jié)合對(duì)應(yīng)的模塊設(shè)計(jì)與里程碑工作，理解不同技術(shù)路線在解決同一類問題時(shí)的關(guān)鍵假設(shè)、能力邊界與實(shí)際代價(jià)；
借助持續(xù)更新的內(nèi)容形成動(dòng)態(tài)判斷，區(qū)分哪些方向正在快速成熟，哪些問題仍處于探索階段，從而更理性地分配時(shí)間與研究精力。

在這種用法下，這篇綜述的價(jià)值不在于“覆蓋多少工作”，而在于幫助從業(yè)者以更低的認(rèn)知成本，持續(xù)、有效地定位和提升 VLA 系統(tǒng)的關(guān)鍵能力。

基礎(chǔ)模塊解析：先建立一套統(tǒng)一的技術(shù)共同語言

在結(jié)構(gòu)設(shè)計(jì)上，文章首先在Basic Modules 章節(jié)中對(duì) VLA 系統(tǒng)的基礎(chǔ)構(gòu)成進(jìn)行系統(tǒng)拆解：從感知、表征到?jīng)Q策與控制，以模塊為單位梳理不同方法在視覺編碼、語言理解、跨模態(tài)融合、規(guī)劃?rùn)C(jī)制與動(dòng)作生成等關(guān)鍵設(shè)計(jì)上的共性與差異。

這一部分的價(jià)值在于：當(dāng)你面對(duì)大量論文與工程實(shí)現(xiàn)時(shí)，能夠先用一套穩(wěn)定的“模塊級(jí)詞匯表”對(duì)齊討論對(duì)象，避免在不同論文的術(shù)語體系中反復(fù)迷路，也為后續(xù)的時(shí)間線回顧與挑戰(zhàn)分析奠定統(tǒng)一基準(zhǔn)。

里程碑回顧：沿時(shí)間軸看清 VLA 的范式遷移

在建立模塊級(jí)認(rèn)知基礎(chǔ)之后，論文沿時(shí)間軸系統(tǒng)回顧了 VLA 的關(guān)鍵演進(jìn)階段，試圖回答一個(gè)核心問題：VLA 是如何一步步從早期概念驗(yàn)證，發(fā)展到今天多路線并行、面向真實(shí)部署的通用框架的？

整體上，這一演進(jìn)過程并非單一路線的線性推進(jìn)，而是多條技術(shù)路徑不斷分化、交匯與重組的結(jié)果。論文所覆蓋的里程碑工作，基本囊括了當(dāng)前 VLA 研究的主要技術(shù)譜系。

起點(diǎn)：具身問答與長(zhǎng)時(shí)序任務(wù)：EmbodiedQA 明確了具身智能的閉環(huán)問題定義，ALFRED 將語言指令與長(zhǎng)時(shí)序任務(wù)系統(tǒng)化，奠定了 VLA 的任務(wù)與評(píng)測(cè)基礎(chǔ)。
轉(zhuǎn)折：大模型統(tǒng)一建模：RT-1 / RT-2 實(shí)現(xiàn)視覺、語言到動(dòng)作的端到端學(xué)習(xí)，PaLM-E 進(jìn)一步統(tǒng)一多模態(tài)輸入空間，Diffusion Policy 則將生成式建模引入連續(xù)控制。
統(tǒng)一嘗試：語義× 控制：π0 / π0.5 與 OpenVLA 探索在單一框架中連接高層決策與低層動(dòng)作，并推動(dòng)開源實(shí)踐。
推理能力：鏈?zhǔn)脚c物理約束推理：Cosmos-Reason1 標(biāo)準(zhǔn)化物理落地推理流程，CoT-VLA 通過顯式視覺中間目標(biāo)引入可訓(xùn)練的鏈?zhǔn)酵评怼?/p>
當(dāng)前方向：閉環(huán)學(xué)習(xí)與世界模型：VLA-RL、LUMOS 以及世界模型方法共同推動(dòng)系統(tǒng)具備在線學(xué)習(xí)、反思糾錯(cuò)與后果預(yù)測(cè)能力。

總體來看，這一時(shí)間線覆蓋了從對(duì)齊、大模型、開源框架，到強(qiáng)化學(xué)習(xí)與世界模型等多條核心技術(shù)路線，勾勒出 VLA 從“能跑 demo”走向“可持續(xù)、可擴(kuò)展具身智能體”的范式遷移，也為后續(xù)圍繞核心挑戰(zhàn)的系統(tǒng)分析提供了清晰的發(fā)展脈絡(luò)定位。

五大挑戰(zhàn)：VLA 真正卡在哪里？

如果拋開模型規(guī)模和 benchmark 分?jǐn)?shù)，VLA 目前真正的瓶頸究竟在哪里？這篇綜述的核心并不在于“又總結(jié)了多少模型”，而是試圖直面一個(gè)更現(xiàn)實(shí)的問題：為什么 VLA 看起來進(jìn)展飛快，但距離穩(wěn)定、可規(guī)模化落地，依然存在明顯鴻溝？

作者將當(dāng)前紛繁復(fù)雜的技術(shù)難點(diǎn)系統(tǒng)收斂為五大挑戰(zhàn)，并將其作為全文主線，而非論文結(jié)尾的例行展望。這種組織方式本身傳達(dá)了一個(gè)判斷：當(dāng)下 VLA 的瓶頸并不主要來自“模型不夠多”，而是來自對(duì)問題結(jié)構(gòu)理解不夠清楚。

從整體上看，這五大挑戰(zhàn)覆蓋了一個(gè) VLA 系統(tǒng)從“感知世界”到“真實(shí)部署”的完整路徑。無論你在做架構(gòu)設(shè)計(jì)、數(shù)據(jù)采集、系統(tǒng)集成，還是評(píng)測(cè)與基準(zhǔn)構(gòu)建，都可以在這套挑戰(zhàn)框架中定位自己工作的落點(diǎn)。

挑戰(zhàn) 1：表征（Representation）

盡管多模態(tài)模型在語義對(duì)齊方面進(jìn)展顯著，但在真實(shí)物理環(huán)境中，語言表達(dá)的抽象意圖依然難以被穩(wěn)定、精確地映射為連續(xù)動(dòng)作。視覺、語言與動(dòng)作的統(tǒng)一并不僅是特征拼接或投影，而涉及空間結(jié)構(gòu)、時(shí)間一致性與物理因果關(guān)系的長(zhǎng)期建模。

這也是為什么世界模型、物理感知以及更原生的多模態(tài)表示被視為突破瓶頸的關(guān)鍵方向。

挑戰(zhàn) 2：執(zhí)行（Execution）

大量工作已經(jīng)表明，“理解指令”并不等價(jià)于“可靠執(zhí)行”。在長(zhǎng)時(shí)序、多約束任務(wù)中，系統(tǒng)需要在任務(wù)拆解、規(guī)劃決策與底層控制之間保持高度一致，同時(shí)應(yīng)對(duì)環(huán)境擾動(dòng)、執(zhí)行誤差與不確定性。

這一挑戰(zhàn)決定了 VLA 是停留在 demo 層面，還是具備真正工程可用性。（對(duì)工業(yè)場(chǎng)景而言，往往不是“做不出來”，而是“做得不穩(wěn)”。）

挑戰(zhàn) 3：泛化（Generalization）

現(xiàn)實(shí)世界的變化遠(yuǎn)超訓(xùn)練數(shù)據(jù)覆蓋：場(chǎng)景、物體、工具，甚至機(jī)器人本體都可能改變。綜述指出，許多方法仍高度依賴特定數(shù)據(jù)分布或固定硬件配置，在跨任務(wù)、跨場(chǎng)景乃至跨機(jī)器人時(shí)性能顯著下降。

因此，如何實(shí)現(xiàn)跨分布遷移、持續(xù)學(xué)習(xí)以及對(duì)新環(huán)境的快速適應(yīng)，是 VLA 從專項(xiàng)能力走向通用能力必須跨越的門檻。

挑戰(zhàn) 4：安全（Safety）

當(dāng) VLA 面向真實(shí)應(yīng)用，“做不出來”已不再是最嚴(yán)重的問題，更大的風(fēng)險(xiǎn)在于“做錯(cuò)了卻無法被及時(shí)發(fā)現(xiàn)”。安全不僅意味著避免危險(xiǎn)動(dòng)作，還包括決策過程的可解釋性、對(duì)不確定性的感知能力，以及在高風(fēng)險(xiǎn)情況下主動(dòng)暫停、澄清或請(qǐng)求人類介入的機(jī)制。

這些能力決定了 VLA 是否具備被信任與規(guī)�；渴鸬那疤帷＃ㄔ诟唢L(fēng)險(xiǎn)工況下，“可靠可控”常比“更聰明”更重要。）

挑戰(zhàn) 5：數(shù)據(jù)與評(píng)測(cè)（Dataset & Evaluation）

如果缺乏高質(zhì)量、多樣化的數(shù)據(jù)來源，以及統(tǒng)一、細(xì)粒度的評(píng)測(cè)標(biāo)準(zhǔn)，領(lǐng)域很容易陷入“各刷各的分?jǐn)?shù)”。成功率難以全面反映系統(tǒng)能力，過程質(zhì)量、魯棒性、失敗恢復(fù)等維度同樣關(guān)鍵。

數(shù)據(jù)與評(píng)測(cè)不僅是基礎(chǔ)設(shè)施問題，也在很大程度上塑造了研究社區(qū)關(guān)注和優(yōu)化的方向。

問題鏈路視角：五大挑戰(zhàn)并非孤立。表征決定執(zhí)行上限，執(zhí)行影響泛化能力，泛化與安全共同約束真實(shí)部署可行性，而數(shù)據(jù)與評(píng)測(cè)貫穿始終，決定這些能力能否被客觀衡量與持續(xù)改進(jìn)。

面向未來的 VLA 愿景：從開環(huán)執(zhí)行走向閉環(huán)自治

在總結(jié)現(xiàn)有研究的基礎(chǔ)上，綜述描繪了未來可能方向：例如“原生多模態(tài)架構(gòu)”（從訓(xùn)練伊始就統(tǒng)一模態(tài)表示）、融合物理與語義的因果世界模型（能預(yù)測(cè)后果、推演未來），以及具備“自我覺察”的智能體（理解自己為何行動(dòng)，并能在閉環(huán)中反思與糾錯(cuò)）。

這勾勒出下一代具身智能體的雛形：不僅會(huì)做事，還能在真實(shí)世界里做得穩(wěn)、做得對(duì)、做得可控。

總體而言，這項(xiàng)工作不僅勾勒了 VLA 領(lǐng)域的全景結(jié)構(gòu)，更試圖提供一套可長(zhǎng)期復(fù)用的認(rèn)知與判斷框架——讓讀者在一次系統(tǒng)閱讀后，真正看清這個(gè)領(lǐng)域在做什么、難點(diǎn)卡在哪里，以及未來該沿著哪些方向持續(xù)推進(jìn)。在模型與范式快速更迭的背景下，它更像是一張可反復(fù)對(duì)照的“問題全景圖”，幫助研究者與從業(yè)者在不斷變化的技術(shù)浪潮中保持方向感與判斷力。（投稿或?qū)で髨?bào)道：zhanghy@csdn.net ）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.