網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

超越VLA與世界模型,銀河通用發(fā)布LDA,全譜系數(shù)據(jù)跑通Scaling Law

2026-04-29 10:08:15　來源: 機(jī)器之心Pro

北京舉報

分享至

編輯｜+0

近期，具身智能領(lǐng)域儼然是神仙打架。

先是 Generalist AI 發(fā)布 GEN-1 引發(fā)行業(yè)震動，以極高的數(shù)據(jù)效率和閉環(huán)控制能力刷新了各項操作紀(jì)錄。

兩周之后，具身賽道的另一位重量級玩家 Physical Intelligence 也發(fā)布了新模型 π 0.7，主打「組合與泛化」，實(shí)現(xiàn)了對 VLA 架構(gòu)的進(jìn)一步升級。

盡管兩者的技術(shù)哲學(xué)迥異，但它們都在試圖解決同一個核心痛點(diǎn)：數(shù)據(jù)。

在語言模型的發(fā)展歷程中，GPT-2 之所以成為關(guān)鍵里程碑，是因?yàn)樗屨Z言模型不再依賴少量高質(zhì)量標(biāo)注數(shù)據(jù)，進(jìn)入了持續(xù) Scaling 的時代。

但在具身智能領(lǐng)域，這個問題尚未被真正解決：機(jī)器人，該怎么把這些亂糟糟的真實(shí)世界數(shù)據(jù)「吃」進(jìn)去？

就在這一背景下，銀河通用聯(lián)合清華北大英偉達(dá)等眾多機(jī)構(gòu)聯(lián)合發(fā)布了跨本體「隱式世界-動作基礎(chǔ)模型」LDA-1B，將目光投向了具身智能 Scaling Law 的這個終極命題：如何讓模型有效利用互聯(lián)網(wǎng)規(guī)模的異構(gòu)數(shù)據(jù)。

簡單來說，LDA-1B 是一個在隱式空間中統(tǒng)一世界模型與 VLA 的基礎(chǔ)模型，憑借對異構(gòu)數(shù)據(jù)的全面整合，它處理了超過 3 萬小時的各類具身數(shù)據(jù)，最核心的突破在于：無論是虛擬與現(xiàn)實(shí)的數(shù)據(jù)（虛實(shí)共融），人類操作與機(jī)器采集的記錄（人機(jī)混合），優(yōu)質(zhì)示范與低質(zhì)量的「臟數(shù)據(jù)」（質(zhì)量參差），甚至是有無動作標(biāo)簽的素材，它都能實(shí)現(xiàn)統(tǒng)一且有效的利用。

換句話說：一個模型，開始能夠「充分利用全部數(shù)據(jù)，并讓所有數(shù)據(jù)各盡其用」。

LDA-1B 核心架構(gòu)總覽：通過統(tǒng)一的隱空間動力學(xué)，實(shí)現(xiàn)對 3 萬小時海量異構(gòu)數(shù)據(jù)的通用攝取。

在 RoboCasa-GR1 基準(zhǔn)測試中，LDA-1B 以 55.4% 的成功率超越 GR00T-N1.6（47.6%）和 π 0.5，并在真實(shí)世界靈巧操作與長程任務(wù)中展現(xiàn)出顯著優(yōu)勢。

值得一提的是，該研究論文已成功被機(jī)器人領(lǐng)域頂級會議 RSS 接收（今年僅有 210 篇錄用），目前該模型代碼已正式開源。

論文標(biāo)題：LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion
論文地址：https://arxiv.org/abs/2602.12215
項目鏈接：https://pku-epic.github.io/LDA/
代碼地址：https://github.com/jiangranlv/LDA-1B

喂什么，怎么喂？

要理解 LDA-1B 的突破，首先要看它吃下了什么。

長期以來，真實(shí)機(jī)器人數(shù)據(jù)規(guī)模有限，人類視頻缺乏動作標(biāo)注，而仿真數(shù)據(jù)又面臨真實(shí)性約束，導(dǎo)致不同類型的數(shù)據(jù)彼此割裂。

這次銀河通用的突破，離不開其構(gòu)建的完整數(shù)據(jù)基礎(chǔ)設(shè)施——銀河星數(shù)（AstraData）。基于這一體系，他們搭建了一個「五層數(shù)據(jù)金字塔」：囊括了互聯(lián)網(wǎng)數(shù)據(jù)（底層）、人類行為數(shù)據(jù)（次底層）、多本體合成仿真數(shù)據(jù)（中間層）、真實(shí)遙操數(shù)據(jù)（高層）以及真機(jī)自主運(yùn)行數(shù)據(jù)（頂層）。

為了支撐這個 1.6B 參數(shù)的基礎(chǔ)模型，研究團(tuán)隊基于這套體系構(gòu)建了極具規(guī)模的通用具身交互數(shù)據(jù)集EI-30K

但在把數(shù)據(jù)喂給模型之前，有兩個棘手的問題必須解決。

第一個問題是格式與動作對齊。

機(jī)器人數(shù)據(jù)和人類數(shù)據(jù)來自不同設(shè)備，執(zhí)行器更是五花八門（夾爪、靈巧手、吸盤）。團(tuán)隊不僅將其全部轉(zhuǎn)換成標(biāo)準(zhǔn)的 LeRobot 格式，更首次系統(tǒng)性地提出了「統(tǒng)一末端執(zhí)行器動作空間」的跨本體解決方案。

對于機(jī)器人，這被定義為 6-DoF 末端執(zhí)行器位姿加上夾爪寬度或靈巧手關(guān)節(jié)；對于人類，則是 6-DoF 手腕位姿和完整的 MANO 手部參數(shù)。

這使得模型不再需要去死記硬背「某臺機(jī)器人的關(guān)節(jié)怎么動」，而是將所有動作統(tǒng)一映射到「手如何與物體發(fā)生作用」的物理本質(zhì)上，為跨本體泛化掃清了障礙。

第二個問題是，數(shù)據(jù)質(zhì)量良莠不齊，怎么用？

傳統(tǒng)做法是只用專家數(shù)據(jù)，把低質(zhì)量的直接丟掉。LDA-1B 的選擇不一樣，它采用按質(zhì)分配，讓每一類數(shù)據(jù)做它最適合的事：

高質(zhì)量帶動作數(shù)據(jù)：全面參與策略學(xué)習(xí)和動力學(xué)訓(xùn)練，享有最高權(quán)限。

次優(yōu) / 嘈雜動作數(shù)據(jù)：不參與策略學(xué)習(xí)，專門用于動力學(xué)和視覺預(yù)測訓(xùn)練。動作做錯了沒關(guān)系，杯子掉在地上、重力導(dǎo)致的碰撞等物理規(guī)律是真實(shí)可靠的。它通過動力學(xué)分支從這些低質(zhì)量數(shù)據(jù)中汲取有效信息，實(shí)驗(yàn)顯示，加入 30% 的低質(zhì)量軌跡后，模型任務(wù)成功率反而提升了 10%。

無動作純視頻：主要是人類第一視角視頻。它們?nèi)煌度氲揭曈X預(yù)測任務(wù)中，讓模型在沒有動作標(biāo)簽的情況下，純靠「看」來吸收關(guān)于物理世界如何自然演化的視覺先驗(yàn)。

這帶來的變化非常大：低質(zhì)量數(shù)據(jù)不再是廢料、無標(biāo)注視頻也能直接參與訓(xùn)練。

正是這種最科學(xué)的數(shù)據(jù)分工，讓具身智能的數(shù)據(jù)規(guī)模得以直接放大，也真正在邏輯上為通用機(jī)器人走向零售揀選、工業(yè)搬運(yùn)和家庭服務(wù)等大規(guī)模商業(yè)部署鋪平了道路。

VLA 和世界模型，能不能不二選一？

有了海量數(shù)據(jù)，接下來就是用什么模型來消化它們。

過去幾年，主流答案是前文 π 0.7 所代表的 VLA：看圖、聽指令、輸出動作，鏈路干凈，響應(yīng)也快。但它本質(zhì)上是在做海量數(shù)據(jù)的模式匹配，缺乏真正的物理常識。一旦遇到重心偏移、摩擦力突變等沒見過的物理邊界情況，就極易翻車。

另一條路是世界模型。它不急著輸出動作，而是先在腦子里預(yù)測未來：如果我這么做，世界會怎么變？但在「如何表征這個世界」上，大多世界模型主要側(cè)重像素級視頻的生成，雖然視頻逼真，但物理動力學(xué)并不是學(xué)習(xí)的重點(diǎn)

LDA-1B 的思路，是干脆別選了，直接在隱空間里深度融合。

它引入了將 World Model 與 Action Model 統(tǒng)一的WAM框架。雖然這一方向如今已是大熱點(diǎn)，但早在 2025 年 3 月，銀河通用就發(fā)表了論文，在全球范圍內(nèi)首次對 WAM 的概念進(jìn)行了結(jié)構(gòu)化定義。

LDA-1B 正是這一前瞻路線的自然延伸，它讓模型在統(tǒng)一框架下同時學(xué)習(xí)四類能力：策略學(xué)習(xí)、前向動力學(xué)、逆向動力學(xué)、視覺預(yù)測。

從命名就能看出這一點(diǎn)——Latent Dynamics Action Model：隱空間中建模世界的狀態(tài)變化，同時直接輸出可執(zhí)行的動作策略。

怎么實(shí)現(xiàn)「一個模型，四種能力」？

具體到執(zhí)行層面，LDA-1B 是如何讓一切運(yùn)轉(zhuǎn)起來的？答案在于三個統(tǒng)一。

第一步：統(tǒng)一任務(wù)形式

在 LDA-1B 里，策略學(xué)習(xí)、前向動力學(xué)、逆向動力學(xué)與視覺預(yù)測全部被改寫成同一種形式：預(yù)測未來的狀態(tài) + 預(yù)測未來的動作。

為了在同一個網(wǎng)絡(luò)里搞定這件事，模型引入了「任務(wù)嵌入（Task Embedding）」和「寄存器 Token（Register Token）」機(jī)制。

通過激活不同的 Task Embedding，模型可以在四種模式間靈活切換。比如專心做「策略控制」時，就用一個視覺 Register Token 占住未來畫面的坑位，全力推演動作；做「視覺預(yù)測」時則反過來。

這也就是說，模型不再死板地劃分「控制」和「建模」。通過巧妙的 Token 切換，所有的任務(wù)都被轉(zhuǎn)化成了同一道「填空題」的不同變種，在同一套網(wǎng)絡(luò)底層里自如流轉(zhuǎn)。

第二步：統(tǒng)一表征空間

統(tǒng)一任務(wù)之后，還有一個問題：在哪個空間里統(tǒng)一？

LDA-1B 的選擇是：不用像素，用 DINO latent。

傳統(tǒng)的像素級模型或使用 VAE 重構(gòu)的隱空間，很容易將物體的幾何結(jié)構(gòu)、外觀和動態(tài)變化糅合在一起（比如把算力浪費(fèi)在預(yù)測背景墻紙的光影變化上），導(dǎo)致大規(guī)模訓(xùn)練效率極低。

DINO 特征的特點(diǎn)是：對雜亂背景不敏感，但對物體的語義和空間幾何結(jié)構(gòu)極度敏感。這讓模型在推演物理規(guī)律時，能專注于「物體的交互與狀態(tài)改變」，而不是外觀本身。

換句話說：LDA-1B 不是在「看世界」，而是在「理解結(jié)構(gòu)化的世界」。這一步從根本上決定了它為什么能 Scale。

第三步：統(tǒng)一模型架構(gòu)

統(tǒng)一任務(wù) + 統(tǒng)一表征之后，最后一步：用什么模型去學(xué)？

LDA-1B 選擇了多模態(tài) Diffusion Transformer（MM-DiT）。它同時處理兩條流：動作序列和未來視覺，通過共享注意力機(jī)制讓兩者互相影響。

一句話總結(jié)就是：動作和視覺是分開的，但「思考過程」是共享的。

這帶來一個很關(guān)鍵的效果：模型在預(yù)測動作時，會參考「未來世界會變成什么樣」；在預(yù)測世界時，也會考慮「動作會帶來什么影響」。

其本質(zhì)就是：把因果關(guān)系寫進(jìn)了注意力結(jié)構(gòu)里。

三步加在一起——統(tǒng)一任務(wù)形式、統(tǒng)一表征空間、統(tǒng)一模型架構(gòu)——讓模型在同一套框架里，同時學(xué)會「怎么動」和「世界會怎么變」。此時，它才真正擁有了一個統(tǒng)一的「大腦」：既能做敏銳的行動者，又能化身精準(zhǔn)的預(yù)測家。

理論講完了，看看實(shí)戰(zhàn)效果

在實(shí)驗(yàn)部分，LDA-1B 在多個維度上展現(xiàn)了這種一體化架構(gòu)帶來的降維打擊。

得益于這種結(jié)構(gòu)化隱空間帶來的一體化架構(gòu)，LDA-1B 無論是在任務(wù)成功率還是泛化表現(xiàn)上，都以極具說服力的數(shù)據(jù)，直接秒殺了包括大參數(shù) GR00T 、π 0.5 在內(nèi)的一眾現(xiàn)有模型。

團(tuán)隊做了個消融實(shí)驗(yàn)：把 LDA-1B 里的 DINO 隱空間，換回傳統(tǒng)的 VAE 像素級重構(gòu)，其他什么都不動。結(jié)果：成功率從 55.4% 跌到 20.0%，直接腰斬。所以 DINO 隱空間不是加分項，它是 Scaling Law 能在具身智能上跑通的前提。

走進(jìn)工廠與家庭

到了真實(shí)世界（Galbot 和 Unitree 機(jī)器人），LDA-1B 在真實(shí)場景中所展現(xiàn)出的「靈性」，才是其最具震撼力的地方。

通過演示視頻的，我們可以清晰地看到該模型如何突破傳統(tǒng)具身智能的瓶頸，真正解決商業(yè)落地的痛點(diǎn)。

面對此前從未出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)集中的 Galbot 機(jī)器人，LDA-1B 展現(xiàn)了極強(qiáng)的少樣本跨本體泛化能力，這改變了以往機(jī)器人換個底座就要重新訓(xùn)練周期的困境。

LDA-1B 僅需約 1 小時的后訓(xùn)練數(shù)據(jù)，就能迅速理解新硬件的動力學(xué)特性。這種極高的適配效率，是模型能夠從實(shí)驗(yàn)室走向零售門店、物流倉庫等多元環(huán)境的基礎(chǔ)。

在典型的長程任務(wù)中，機(jī)器人需要應(yīng)對嚴(yán)格的步驟依賴：

接到指令后，機(jī)器人必須按序完成疊放、轉(zhuǎn)移、擺盤與加料，任意一步抓取或放置失誤都會導(dǎo)致后續(xù)全亂；用戶改變指令以后，也能理解意圖變更并實(shí)時調(diào)整動作序列，自主糾偏完成新目標(biāo)。

同時，在高自由度靈巧手方面，面對摩擦力極度復(fù)雜的「翻牛排」任務(wù)，LDA-1B 憑借對物理常識的深刻理解，實(shí)現(xiàn)了超高成功率，證明它不是單純的動作模仿，而是真正掌握了接觸性任務(wù)的物理邏輯。

將一排杯子精確疊成金字塔形，每一層的堆疊都依賴上一層的穩(wěn)定，對雙臂協(xié)同與力控提出極高要求。

傳統(tǒng)模型常因單步誤差累積導(dǎo)致全盤失敗，而 LDA-1B 憑借在隱空間進(jìn)行的動力學(xué)推演，能夠預(yù)測動作的物理后果并實(shí)時糾偏。

結(jié)語

回頭看這一波具身智能的浪潮，軌跡和 LLM 的發(fā)展驚人地相似。

最早大家手工寫規(guī)則；后來發(fā)現(xiàn)大力出奇跡，開始用海量數(shù)據(jù)做行為克隆；而現(xiàn)在，單靠模仿已經(jīng)摸到了物理常識的天花板。銀河通用的 LDA-1B 給出了一種很有意思的思路：通過一個統(tǒng)一的模型，把所有異構(gòu)數(shù)據(jù)都用好，既能「深思熟慮」，又能「說動就動」，終于能像語言模型一樣，從海量異構(gòu)數(shù)據(jù)中持續(xù)學(xué)習(xí)世界本身。

目前，銀河通用已將 LDA-1B 的核心算法與代碼體系全面開源，希望推動行業(yè)從封閉優(yōu)化走向開放共建。更重要的是，這一能力并非孤立存在，它將作為核心的通用數(shù)據(jù)吞吐與跨本體學(xué)習(xí)能力，快速匯入銀河通用的全人形通用基礎(chǔ)模型——「銀河星腦（AstraBrain）」中。

在未來的路線圖里，團(tuán)隊已經(jīng)明確了幾個關(guān)鍵的進(jìn)化方向：首先是嘗試將視覺表示與隱空間動力學(xué)進(jìn)行端到端的聯(lián)合學(xué)習(xí)，不再受限于固定特征；其次是引入更豐富的感知模態(tài)，并探索如何自動優(yōu)化不同質(zhì)量數(shù)據(jù)在訓(xùn)練中的分工角色。

文中視頻鏈接：https://mp.weixin.qq.com/s/ShFejS4jjsPwuUME9KYKnw

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.