網易首頁 > 網易號 > 正文申請入駐

當世界模型開始“指揮雙手”，螞蟻靈波的具身路線更清晰了

2026-01-31 09:47:07　來源: 硅星人

北京舉報

分享至

作者｜郭海惟
郵箱｜ guohaiwei@pingwest.com

馬上要過年了，螞蟻旗下的靈波科技這幾天像是下餃子一樣，連續(xù)發(fā)了一堆具身的新成果。

他們1月27日先是發(fā)了開源高精度空間感知模型 LingBot-Depth，次日則發(fā)了具身大模型 LingBot-VLA。

作為一家機器人公司最常見的核心產品，當大家以為VLA已經是這一波技術宣發(fā)的終局時，螞蟻又水靈靈地端出來了兩款世界模型，而且兩款世界模型的定位都不一樣。

這大概就是大集團做具身大腦的魅力吧。要么不出手，一出手就是一整個LingBot家族。

29日官宣的“世界模型”叫LingBot-World。

螞蟻方面將它定位成一個的開源版的Genie3。它可以生成一個高保真、可控制且邏輯一致的模擬環(huán)境。與Genie3類似，它擁有許多世界知識、力圖理解世界的物理規(guī)律。

而昨天官宣的“世界模型”，則叫LingBot-VA。

從名字可以看出來，相比于VLA，VA直接將Video和Action對應了起來。官方將它稱之為“自回歸視頻-動作世界模型”。通過自回歸模型的方式，LingBot-VA可以通過視頻去預測下一個動作，再重新解碼成機器中一個個具體的操作，從而實現大腦與真實世界交互中的自我進化的同時，也大幅提高了視頻學習的效率。

看完技術報告，上述兩個模型都有很好的表現。

LingBot-World：

在視頻質量、動態(tài)程度、長時序一致性與交互能力等關鍵指標上達到了領先地位。

而LingBot-VA：

在 LIBERO 和 RoboTwin 等主流基準測試中，分別以 98.5% 和 92%+ 的成功率大幅領先現有模型。在針對具身控制中常見的“長時漂移”難題，復雜任務成功率超過 98%。

而且還能做到幫你做實驗：

做早餐等日常的操作：

而在昨天，Genie3終于開放了公開了世界模型的入口，給目前火熱的世界模型市場又添了一把火。

相比于Genie3的世界模型之路，螞蟻靈波的世界模型路徑更加有指向性：

即有思考地賦能“開源”的“具身生態(tài)”。

相比于Genie3，LingBot-World和LingBot-VA都是開源的。LingBot-World這相當于讓很多具身開發(fā)者擁有了自己的模擬訓練場，成本更低，具備二次開發(fā)的潛力；而LingBot-VA則讓世界模型能夠直接上機驗證部署。

螞蟻方面表示，“未來 VLA 與世界模型的深度融合將釋放更大的協(xié)同潛力，這也是我們通往通用具身智能的核心路徑。”

從做夢者到模擬者

當下的世界模型大致可以粗略分成三類：

第一類大概是以Lecun新創(chuàng)業(yè)的AMI Lab為代表，他們的目標是想要做一個智能上限的突破。第二類則是偏向于構建對真實世界的仿真模擬，比如剛才提到的Genie3。第三類是想要做智駕與機器人控制的，最具代表性的便是特斯拉從FSD到Optimus的戰(zhàn)略構想。

Lecun的構想終究還是太理想。從這次的發(fā)布來看，螞蟻靈波可以說是為數不多同時對兩條路徑都想去做探索的具身玩家。

而螞蟻靈波兩篇技術報告，其實分別對兩條路線的探索意義給出了自己的建議。

首先，LingBot-World的引言是這樣說的：

理解和模擬物理世界的人工智能長期被視作CV和機器學習的圣杯……而當前最先進的視頻生成模型本質上做夢者（Dreamer）而不是模擬者（Simulator）。因為它本質是基于統(tǒng)計相關性的像素幻覺，而缺乏堅實的對物理法則的理解。

這段話很好理解：很多視頻生成的“世界”只是造了一個樣子，就像人做夢一樣。夢里的世界只是和現實長得像，可能稍微把測試模型在上面跑一跑，牛頓的棺材板就按不住了。

螞蟻靈波是如何分別在兩條路線上實現這個任務的呢？

LingBot-World認為，如果要從視頻生成轉變成世界模型，這背后至少有三個瓶頸：高質量交互數據稀缺、標準擴散架構難以維持較長時間的敘事和結構的一致性、傳統(tǒng)模式的計算開銷巨大。

為此，團隊做了三件事情：

第一，他們做了一個數據引擎：這個數據引擎的語義可以分層，數據可以擴展。因此，這個引擎可以將“糾纏”的表征分離開來，進而處理各種不同類型的數據。

螞蟻靈波將他們的數據引擎分成了三個協(xié)同組件：數據獲取、數據剖析、數據標注。

數據主要來自于真實世界視頻、游戲視頻以及利用虛幻引擎制作的合成渲染數據。再利用一套標注流程，將數據轉化成可訓練的資產。

第二，不僅數據分層了，他們將訓練也同樣分成了三個部分：

首先，先用通用視頻來訓練，即建設視頻生成的基本能力（establish the general video prior)，從而保證模型的高保真紋理等能力。

接下來引入MoE架構，注入世界知識和動作可控制性。這樣模型就具備了基本的世界知識。

最后，加入實時推理架構。采用因果注意力適配和少步蒸餾，將雙向擴散模型轉換為高效的自回歸系統(tǒng)。

而由于去掉了費時費力的雙向擴散模型，整個系統(tǒng)的延遲低于1秒，成本潛力也得到了優(yōu)化。

螞蟻靈波在技術報告里放出來了一些demo。

Demo顯示，LingBot-World 能力可以根據prompt給出豐富的一致性視角：

也可以通過視頻探索來做場景的三維重建：

更重要的是：這是一個完全開源的模型。

所以它可以被用作非常多的用途，除了一些事件生成、三維建模、視角探索，也可以用來做智能體的模擬訓練等等，或許未來還可以被探索出更加豐富的玩法。

給機器人的世界加入因果

而LingBot-VA的思路有所相似也有所不同。

相同的是，他們都對數據層面做了更多的探索，在模型方面也都引入了自回歸的框架來改進模型的效率。但不同的是，螞蟻靈波這次希望利用一種“統(tǒng)一”的方式來嘗試解決目前VLA的局限性。

而這個“統(tǒng)一”的答案其實就是LingBot-VA，一個“自回歸視頻-動作世界模型”。

螞蟻靈波說他們看了市面上的很多解決方案，但各有各的問題。

比如交互式神經模擬器、基于塊或段的視頻-動作擴散模型、用于數據或目標合成的離線視頻生成器等等，但這些方法雖然吸引人，但難以實時反饋和記憶的問題，而且缺乏與物理現實中的因果關系。

所以說，他們想用自回歸模型來解決這個問題。

思路其實并不復雜：

其實本質就是用一段視頻去預測下一段視頻的狀態(tài)。而當模型知道下一段視頻流中的狀態(tài)時，便可以反推并解碼成具體的執(zhí)行動作。

這樣一來，由于視頻與動作之間存在明確的時間和邏輯關系，便自然就構成了很明確的物理現實世界中的因果關系。

而執(zhí)行這套思路的方式，便是LingBot-VA的MoT（Mix-of-Transformer）架構。

如下圖所示，在MoT架構中，一邊是Transformer生成的視頻流，另一邊是Transformer生成的動作流。將兩個"流"在序列中交錯排列，便將高維視頻 Token 與低維動作 Token 映射到了統(tǒng)一的潛空間里。

在具體操作上，LingBot-VA用了很多種方式，來實現“視頻流”和“動作流”之間的“對齊”和“融合”。

比如，考慮到視頻會存在冗余（畢竟現在機器人的操作都相對慢），所以會對具體的視頻做稀疏化的處理。但動作流視頻和視頻流視頻的需要的稀疏程度其實是各不相同的。那么與之對應的，每個視頻幀對應的動作也會有相應的變化。如此才能保證高效生成視頻的同時，還能保持較高頻的控制能力。

再比如，由于視頻流和動作流的模態(tài)特征存在差異，LingBot-VA也會調用單獨的Transformer模塊來進行單獨的處理和對齊等工作。

而在噪聲處理中，推理過程中的視頻token的消耗數量則會遠遠多于動作的token，所以也引入了噪聲增強策略，針對性地只對部分內容進行去噪——比如，動作預測就不需要完全去噪，而完全可以從部分噪聲的視頻中直接學習。

此外，LingBot-VA還會給模型加入注意力掩碼機制，從而保證這套系統(tǒng)的預測是真的由自回歸系統(tǒng)的預測得出的，而不是模型自己生成的。

聰明如你可以看到：這整套模型中不僅有多個Transformer架構的模型，還要將模型與模型之間進行對齊、解碼，再用自回歸模型去做預測和匹配。那計算壓力陡增，必然會讓模型的響應能力變得遲鈍。

為了讓這套系統(tǒng)可以更好地跑在真機上，LingBot-VA引入異步推理流水線將動作預測與電機執(zhí)行并行化處理，從而實現高效控制。

這套模型的優(yōu)勢是，它其實是一個“閉環(huán)”的機制——因為它可以低成本且及時地獲取真實世界的及時反饋。

只要機子在跑，那么機子的每一步預測都會不斷和真實世界交互并修正幻覺的問題。理論上來說，只要跑的時間足夠久，積累的數據足夠多，那么模型就會不斷變強。

而且由于這套系統(tǒng)的核心是自回歸，所以必須依賴一個緩存系統(tǒng)，這讓它也自然擁有了一定的記憶功能。而且實測下來，這套記憶能力表現還是不錯的。

在計數和尋物兩項記憶任務中，LingBot-VA都拿下了滿分的成績。

螞蟻靈波拿這套系統(tǒng)跑了一些Demo測評，主要也是對標目前行業(yè)領先的π0.5模型，可以看到在六個項目的得分表現還不錯。尤其在完成度指標和經典的“疊被子”測試場景中，有比較大的領先優(yōu)勢。

而且由于它采用了自回歸的架構，再加上大規(guī)模多源數據預訓練，所以對場景的學習能力非常強。

根據真機實測的數據，一個場景僅需 30~50 條演示數據即可完成適配。這對于VLA架構的大腦來說同樣是不可想象的。

總結

螞蟻靈波作為剛入局的具身新玩家，連續(xù)發(fā)四個技術工作，讓這家新公司已然有了一點“生態(tài)”的樣子了。

比如第一個發(fā)布的LingBot-Depth 模型，提供高精度的空間感知能力，讓機器人真正"看清"物理世界；

VLA 是具身操作的主流路線，靈波打造LingBot-VLA 基模并開源開放，在 Depth 的賦能下實現精準的物理操作，且具備突出的跨本體、跨任務的泛化能力。

而LingBot-World則是構建了模擬的仿真空間，讓它得以成為大腦的虛擬訓練場；

LingBot-VA則探索了模型與環(huán)境交互新范式，降低模型對環(huán)境的學習成本，提高了環(huán)境反饋的效率，為機器人基礎模型從“反應式控制”走向“可推演、可閉環(huán)的行動生成”提供了可驗證的技術選項。

但無論如何他們卻有著一些共同的技術審美：

他們都深度擁抱開源，堅信開源生態(tài)的價值，力圖參與到開源的基礎建設中，幫助更多的生態(tài)參與者走得更深更遠；

他們都緊密圍繞著行業(yè)發(fā)展的第一性需求展開，走理想主義與現實主義的一條平衡之道。可能其中并非所有的技術都是最酷的，但卻都是實實在在處理今天一些實際的開源生態(tài)問題，豐富了開源具身工具庫的生態(tài)位。

而以上都螞蟻在具身生態(tài)的一個開始。而當更多的玩家走進開源，或許有一天具身開源生態(tài)真的能走出更大的共識。而世界模型也會發(fā)展出更多創(chuàng)造性的解法。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.