網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

對話螞蟻靈波首席科學(xué)家沈宇軍：2萬小時真機(jī)數(shù)據(jù)，用“慢功夫”做具身智能｜甲子光年

2026-02-08 13:12:11　來源: 甲子光年

北京舉報

分享至

在基座模型階段，螞蟻靈波選擇那條“慢”但正確的路。

作者｜周悅

編輯｜王博

1956年的好萊塢電影《禁忌星球》里，有一個名叫Robby的機(jī)器人。

它力大無窮、邏輯嚴(yán)密，卻被設(shè)定了一條不可違背的禁令——不能傷害人類。這是人類對機(jī)器人走入現(xiàn)實世界最早的想象之一。

Robby機(jī)器人（圖左），圖片來源：電影《禁忌星球》

七十年后，這個名字在螞蟻集團(tuán)（以下簡稱“螞蟻”）內(nèi)部被重新提起。從Robby到Robbyant，最終定格為旗下具身智能公司的名字“螞蟻靈波”。

此前，外界對螞蟻靈波的認(rèn)知，大多停留在2025年外灘大會上那臺會炒菜的R1機(jī)器人，一個生動直觀，但更像技術(shù)層面展示的Demo。

Robbyant-R1，圖片來源：螞蟻靈波

但在2026年1月底，這種印象被迅速改寫。

短短一周內(nèi)，螞蟻靈波密集發(fā)布了四個具身智能模型：LingBot-Depth、LingBot-VLA、LingBot-World、LingBot-VA，并同步開放了模型權(quán)重、代碼。LingBot-Depth還將開源200萬對高質(zhì)量RGB-深度配對數(shù)據(jù)集，LingBot-VLA 開源了完整后訓(xùn)練工具鏈。

不同于行業(yè)常見的“半開源”，這幾乎是一次將工程體系整體攤開的發(fā)布，在開源社區(qū)引發(fā)不小反響。

其中，LingBot-World引發(fā)的關(guān)注度最高。作為世界模型，它能夠生成高保真高動態(tài)的物理交互場景，效果直觀，肉眼可見，迅速登頂X平臺科技板塊熱榜和Hugging Face熱門論文榜。

但如果只看這一次“出圈”，反而容易忽略螞蟻靈波真正的選擇。

在具身智能領(lǐng)域，技術(shù)路線尚未收斂，選擇并不少。螞蟻靈波選擇的，卻是一條更慢但更扎實的路線。

在 VLA 模型的訓(xùn)練中，螞蟻靈波團(tuán)隊聯(lián)合星海圖、松靈機(jī)器人等合作伙伴，積累了涵蓋 9 種主流雙臂機(jī)器人配置、總計約20,000 小時的真實世界操作數(shù)據(jù)，是當(dāng)前開源社區(qū)中真機(jī)數(shù)據(jù)規(guī)模最大的VLA 模型。在 GM-100 的真機(jī)測評中，取得了標(biāo)志性意義的高分，超越了Pi0.5。

同時，螞蟻靈波團(tuán)隊還堅定布局具身世界模型，率先推出了業(yè)界首個自回歸視覺—動作世界模型。這背后是螞蟻靈波作為具身世界模型拓荒者，對下一代具身模型技術(shù)路線的判斷。LingBot-VA 發(fā)布不到一周，英偉達(dá)也發(fā)布了 VA 模型。

螞蟻靈波為什么偏要選擇這條難走的路？

近期，在接受「甲子光年」專訪時，螞蟻靈波首席科學(xué)家沈宇軍給出的判斷是：具身智能仍處于“GPT-1時刻”。在他們看來，數(shù)據(jù)稀缺、范式未定，這是一場沒有捷徑可走的硬戰(zhàn)。

這一判斷并非憑空而來。

在學(xué)術(shù)訓(xùn)練之外，沈宇軍經(jīng)歷過從算法研究到真實落地的反復(fù)試錯。這讓他對模型能力與工程現(xiàn)實之間的差距格外關(guān)注。正因此，他更傾向于將當(dāng)前階段視為具身智能的“GPT-1 時刻”，而不是押注短期可見的效果。

基于“GPT-1時刻”這一判斷，螞蟻靈波團(tuán)隊構(gòu)建了一套打持久戰(zhàn)的完整體系：

LingBot-Depth：解決感知層“看不清”的問題，為上層模型提供穩(wěn)定、精準(zhǔn)的視覺輸入；
LingBot-World：負(fù)責(zé)世界模擬與數(shù)據(jù)生成，緩解真實數(shù)據(jù)不足的問題；
LingBot-VLA：基于海量真實數(shù)據(jù)，學(xué)會如何執(zhí)行基礎(chǔ)動作；
LingBot-VA：引入因果預(yù)測，探索更高層次的規(guī)劃和控制能力。

沈宇軍將這套體系形容為“四個模型‘一盤棋’”，它們是同一系統(tǒng)中的不同模塊，而非彼此獨立。

在團(tuán)隊內(nèi)部，圍繞取舍的爭論并不少見，甚至?xí)芭淖雷映臣堋?。但一旦方向定下，所有人又會擰成一股繩死磕到底。這也決定了這支團(tuán)隊的氣質(zhì)：一支愿意啃硬骨頭的隊伍。

從百靈大模型，到靈光、阿福等AI助手，再到今天把模型推向物理世界的靈波，螞蟻在AI路徑上補(bǔ)上了此前缺失的一段，一條“基礎(chǔ)模型-通用應(yīng)用-實體交互”的全棧路徑，正在清晰浮現(xiàn)出來。

1.四個模型“一盤棋”

甲子光年：螞蟻集團(tuán)一直被看做金融科技企業(yè)，這次突然密集發(fā)布四個具身智能模型，確實讓很多人意外。首先好奇一個問題，螞蟻靈波這個名字有什么特殊的來歷嗎？

沈宇軍：這挺有意思的。Robby是好萊塢科幻電影（《禁忌星球》）里最早的機(jī)器人名字之一。而我們團(tuán)隊又來自螞蟻，所以就叫Robbyant。

而在中文里，Robby的音譯正好是“靈波”，跟我們的百靈大模型（Ling）一脈相承。具身模型叫LingBot，既是Ling系列的延伸，同時讀快一點也很像“靈波”，代表了我們對機(jī)器人靈動、敏捷的最初想象。

甲子光年：帶著螞蟻的光環(huán)，又正好撞上Google Project Genie的時間點上發(fā)布，你們覺得當(dāng)前的反饋符合預(yù)期嗎？

沈宇軍：整體上還是符合預(yù)期。我們是2024年11月成立，過去一年幾乎沒有對外發(fā)聲。

具身智能模型跟大語言模型不太一樣，C端用戶很難立刻感知。更多還是同行、專業(yè)人士的反饋。我們也更愿意把評價權(quán)交給社區(qū)——模型、代碼、權(quán)重、數(shù)據(jù)集都開源了，好不好用，由社區(qū)來給出真實判斷。

甲子光年：這次一口氣開源了LingBot-Depth、LingBot-VLA、LingBot-World、LingBot-VA四個模型。這是四個模型框架是一開始就規(guī)劃好的嗎，還是迭代出來的？

沈宇軍：從一開始我們就比較篤定。機(jī)器人最終要部署在物理世界里，繞不開兩個核心問題：一是輸入端，也就是機(jī)器人能獲取哪些信號；二是智能端，拿到這些信號之后，如何形成決策。

這次發(fā)布的一些模型，比如 LingBot-VLA、LingBot-VA，都是我們在這兩個方向上的探索。但坦率講，我們也清楚，這還遠(yuǎn)遠(yuǎn)不夠。我們更希望，具身智能最終能形成一套屬于自己（螞蟻靈波）的范式。

對我們來說，內(nèi)部始終只有“一盤棋”。這四個模型是同一張大拼圖里的不同模塊，只是隨著進(jìn)展逐步釋放出來。所以這次大家看到的這些模型，其實只是這盤棋中的一些局部碎片。

甲子光年：這四個模型之間怎么串成一條完整的路徑？

沈宇軍：機(jī)器人最終部署在物理世界里，傳感器誤差和硬件誤差是繞不開的現(xiàn)實問題。LingBot-Depth對應(yīng)最底層感知能力，輸入層數(shù)據(jù)質(zhì)量，基本決定智能層上限，未來螞蟻靈波的大多數(shù)模型都會用到它。

比如在LingBot-VLA里，我們展示過一個用法，把LingBot-Depth的特征蒸餾進(jìn)去，解決空間盲視的問題。

這次發(fā)布的LingBot-World和LingBot-VA，則是探索性的嘗試。

整個行業(yè)目前都面臨同一個問題：數(shù)據(jù)依然緊缺。在數(shù)據(jù)有限的情況下，想真正通過Scaling Up把模型能力完全釋放出來，為時尚早。

在無法完全釋放Scaling Up潛力的情況下，我們階段性地借助了數(shù)字世界中已經(jīng)完成Scaling的模型能力，如多模態(tài)和視頻生成模型，來作為過渡。

我們一直在嘗試把這些數(shù)字世界中預(yù)訓(xùn)練好的能力，引入到具身智能里，這正是LingBot-VLA和LingBot-VA出現(xiàn)的背景。當(dāng)然，在實踐中我們也發(fā)現(xiàn)，它們本身同樣存在局限。

而LingBot-World則是我們在驗證技術(shù)路線時的“沿途下蛋”。

甲子光年：這也正是外界最好奇的點。LingBot-World在C端的關(guān)注度最高，很多人覺得它更像AIGC或視頻生成，為什么你們反而說它是“沿途下蛋”？

沈宇軍：確實有不少人會覺得，LingBot-World看起來和具身智能有點遠(yuǎn)，但其實不是這樣。

在內(nèi)部，LingBot-World和LingBot-VA并不是兩條獨立路線，而是耦合得非常深，甚至可以說是同一套技術(shù)體系的不同側(cè)重，前者更多使用通用數(shù)據(jù)，后者更多使用具身數(shù)據(jù)。

底層的數(shù)據(jù)引擎、代碼框架和優(yōu)化方法，都高度共通。只是這次對外發(fā)布時，我們沒有把這些細(xì)節(jié)全部展開。

之所以說它是“沿途下蛋”，是因為在最早做具身智能時，我們并不能確定視頻生成這條路一定能走通，而世界模型這個方向可以更快給我們反饋，比如長時間推理能力和生成質(zhì)量。

如果一項技術(shù)在世界模型里都跑不通，它在具身智能中大概率也走不遠(yuǎn)；反過來，視頻生成能力越強(qiáng)，其實對機(jī)器人是有正向收益的。從這個角度看，這些模型最終指向的都是同一個目標(biāo)：具身智能。

甲子光年：這套架構(gòu)大概是什么時候定型的？中間有過自我懷疑的時刻嗎？

沈宇軍：大概在2025年11月左右，我們已經(jīng)看到了比較有希望的結(jié)果，那時每一條路線大概都做到了80%。倒沒有覺得“完全走不通”的時刻，但真正難的是后面那20%。那是一種持續(xù)的消耗感。我們沒有哪一刻想過放棄，更多是覺得“煎熬”。因為從驗證到真正達(dá)到工業(yè)級標(biāo)準(zhǔn)，這個過程比我們最初預(yù)想的要困難得多。

甲子光年：下一步的目標(biāo)是什么？

沈宇軍：這次發(fā)布之后，我們對這兩套模型的邊界有了比之前更清楚的認(rèn)識——不敢說已經(jīng)完全明晰，但至少看到了各自的短板。

往下看，我們大致會采取“兩條腿走路”的方式：一方面持續(xù)積累具身智能數(shù)據(jù)；另一條方面等數(shù)據(jù)量達(dá)到一定規(guī)模后，從零搭建真正面向具身智能的預(yù)訓(xùn)練模型，而不再依賴VLM或視頻生成模型。這條路徑有點類似自動駕駛的發(fā)展過程。

在數(shù)據(jù)尚未積累到那個階段之前，這兩套模型仍然會結(jié)合使用。至于具體如何結(jié)合，可以關(guān)注我們后續(xù)的工作。

2.LingBot-VA是關(guān)鍵下注

甲子光年：這次發(fā)布的LingBot-VA技術(shù)路線備受關(guān)注。它的出發(fā)點是什么？想要解決主流VLA路線的什么痛點？

沈宇軍：當(dāng)前主流VLA路線的邏輯是“看圖說話”：給一張圖像，加上預(yù)訓(xùn)練好的語言或視覺語言模型，預(yù)測下一步動作，這條路是有效的。

但在機(jī)器人領(lǐng)域，它缺失了一個關(guān)鍵要素Dynamic Prior（動態(tài)先驗）。機(jī)器人本身在學(xué)動作，而圖片本身沒有動作信息。

所以一個很自然的想法是，能不能引入視頻層面的先驗？因為視頻本身記錄了人和物體的動作。這也是LingBot-VA模型設(shè)計中最簡單、也是最直接的一層哲學(xué)。

當(dāng)模型已經(jīng)見過各種各樣的操作視頻之后，即便在下游只用少量任務(wù)數(shù)據(jù)進(jìn)行fine-tune或adaptation，它本身也已經(jīng)具備了動作層面的經(jīng)驗。

甲子光年：這種引入“視頻先驗”的思路在實際任務(wù)中有什么具體優(yōu)勢？

沈宇軍：最大的優(yōu)勢是記憶能力。舉個例子，讓機(jī)器人擦三次盤子。對VLA來說，第一次擦完和第二次擦完，看到的畫面（Observation）幾乎是一樣的。

如果沒有記憶，模型就會陷入“看到盤子——去擦”的死循環(huán)，一直擦下去。但LingBot-VA采用的是自回歸結(jié)構(gòu)，天然具備比較好的記憶能力。在這些 memory test（記憶測試）上，它的表現(xiàn)會顯著優(yōu)于VLA架構(gòu)。

其次是少量樣本下的泛化能力?，F(xiàn)在機(jī)器人在部署到新的環(huán)境時，通常都需要重新采集一些數(shù)據(jù)。而VA的核心優(yōu)勢在于，它的視頻先驗已經(jīng)編碼了大量的動態(tài)信息。

模型中學(xué)到的動作先驗越強(qiáng)，在面對沒有見過的新場景時，模型進(jìn)行 adaptation 所需要的新數(shù)據(jù)就越少。

甲子光年：在LingBot-VA模型里，最難的部分是偏模型結(jié)構(gòu)本身，還是在推理系統(tǒng)和工程化部署上？

沈宇軍：難點主要在工程部署這一塊。模型結(jié)構(gòu)本身的收斂，我們其實在比較早期就已經(jīng)跑通了。后續(xù)更多的工作，主要集中在數(shù)據(jù)的scaling up，以及訓(xùn)練效率的優(yōu)化上，但這些本質(zhì)上都屬于infra層面的事情。

真正給我們帶來比較大挑戰(zhàn)的，是模型在真實系統(tǒng)里的部署，這也是我認(rèn)為目前VA相比VLA 的一個明顯劣勢。

在真機(jī)部署中，我們遇到的第一個問題就是延遲顯著上升。測試結(jié)果顯示，VLA 通?？梢钥刂圃?strong>100 毫秒左右，而 VA 往往需要300–400毫秒，差距主要來自視頻生成帶來的額外開銷。

因此，我們在工程上投入了大量精力去做異步推理框架以及系統(tǒng)側(cè)的加速優(yōu)化。

甲子光年：這似乎有個矛盾，VA好像去掉了中間的language（語言）層，這聽起來更像人類的肌肉記憶或者下意識的動作，理論上應(yīng)該推理速度更快，但實際驗證推理反而更慢，這矛盾嗎？

沈宇軍：我覺得不矛盾。首先需要澄清，VA并不是沒有l(wèi)anguage，模型仍然通過語言來接收人類指令，這一點和直覺理解可能不太一樣。

第二是關(guān)于推理速度。速度更多取決于工程和infra（基礎(chǔ)設(shè)施）層面的優(yōu)化，而不是模型范式本身。更現(xiàn)實的問題是，現(xiàn)有的工程基礎(chǔ)設(shè)施，能否支撐這種范式把速度提上來，這也是接下來需要解決的核心問題。

最終都是輸入輸出形式相同，差異在于中間的對齊順序。傳統(tǒng)VLM是先對齊vision和language，VLA則是在這個vision–language空間里，再把a(bǔ)ction往里對齊。

而VA強(qiáng)調(diào)的是另一條路徑：先對齊 video（motion、dynamics）和 action，也就是先解決“怎么動”。最終都是輸入輸出形式相同，差異在于中間的對齊路徑。

第二點是推理速度。VA在理念上確實更接近人類的肌肉記憶或下意識動作，這個理解沒問題。

現(xiàn)在慢，并不是因為這種范式本身慢，而是因為實現(xiàn)方式還依賴像素級的視頻生成，需要先把畫面“畫”出來。這一步在訓(xùn)練階段很有價值，但對實時推理并非必要。

從長期看，隨著具身數(shù)據(jù)規(guī)模擴(kuò)大，更適合機(jī)器人實時執(zhí)行的預(yù)訓(xùn)練模型會出現(xiàn)。到那時，基于動作和動態(tài)的“肌肉記憶”，反而可能比當(dāng)前這種顯式推理更快。

甲子光年：LingBot-VA真機(jī)部署時遇到哪些典型問題？

沈宇軍：最大的問題還是幻覺。視頻模型有時候會“無中生有”，比如桌上明明沒有瓶子，模型生成畫面里卻多了一個瓶子，導(dǎo)致機(jī)械臂去抓空氣。

目前的解法是提高刷新率，一幀一幀地生成和修正。只要刷新得夠快，利用真實世界的觀測不斷校準(zhǔn)，單幀的幻覺就不會累積錯誤。另一個方向是后訓(xùn)練獎勵模型、引入強(qiáng)化學(xué)習(xí)去約束幻覺，這也是持續(xù)探索的方向。

甲子光年：再聊聊LingBot-World。它發(fā)布時正好撞上Google Project Genie更新，C端討論很熱烈。你們怎么看待 LingBot-World 和 Genie3、Sora這兩個模型的異同？

沈宇軍：我其實不太想用“差異”這個詞來形容，更準(zhǔn)確地說是定位不一樣。

如果和Sora放在一起看，我覺得通義萬相、Sora、Veo 3、可靈，這些本質(zhì)上是一條賽道，它們的目標(biāo)是做視頻生成的基模。

而我們和 Genie3并不是在做一個基模，我們是基于已有模型，在后面做世界建模相關(guān)的事情。嚴(yán)格來說，我們更像是視頻生成體系里的一個子方向，而不是最大的那條主賽道。

LingBot-World生成場景，視頻來源：螞蟻靈波官網(wǎng)

甲子光年：如果把LingBot-World和Genie 3做一個更直接的對比呢？

沈宇軍：Genie 3發(fā)布更早、迭代更久，很多關(guān)鍵能力并沒有開源，我們也很難做真正意義上的對比。

還有一個繞不開的因素是算力體系。Google 很大的優(yōu)勢在于TPU。舉個例子，TPU架構(gòu)對Ring Attention（環(huán)狀注意力）這類技術(shù)非常友好。但在GPU體系下，卡間的通信帶寬會受到限制，要在工程上實現(xiàn)同等性能，難度大得多。

我們的模型是真正開源出來的。如果開發(fā)者想改模型結(jié)構(gòu)、想做二創(chuàng)，那在LingBot-World這條路線上，這是可以做的。

甲子光年：你們的世界模型最終會走向哪里？會獨立成一個產(chǎn)品嗎？

沈宇軍：LingBot-World并不是一個獨立存在的終點，它最終一定會回到機(jī)器人。

開發(fā)世界模型是為了驗證視頻生成路線在具身智能中到底行不行——這叫“沿途下蛋”。如果視頻生成都做不好，那基于視頻的機(jī)器人控制就更別想了。

可以期待下一版LingBot-World，會和機(jī)器人更貼近。到那個階段，大家可能就不會再覺得LingBot-World和LingBot-VA像是兩條分開的線。

LingBot-VA已經(jīng)在這一步做了一些探索。

3.具身智能Scaling Law的“隱形陷阱”

甲子光年：在LingBot-VLA的論文標(biāo)題里，你們用了一個詞Pragmatic（務(wù)實的）。為什么要特意強(qiáng)調(diào)“實用性”？

沈宇軍：這次更多是面向開源社區(qū)。過去半年里，“超越Pi0.5”的說法很多，但實際情況是，Pi0.5依然是被大量高校和研究者實際使用的好模型。既然大家還在用，它一定有價值。

我們強(qiáng)調(diào)pragmatic，不是為了宣稱超越誰，而是希望把模型真實地交出來，讓社區(qū)自己評測。所以這次發(fā)布里，我們沒有刻意談“超不超越”，而是把模型、后訓(xùn)練與加速優(yōu)化的完整代碼一并開源。

很多“開源”其實只是“半開源”，但這次我們把模型、代碼，甚至部分?jǐn)?shù)據(jù)集都放出來，尤其LingBot-VLA連后訓(xùn)練代碼庫也全部開放。只有真正被用起來，問題才會暴露，這正是我們開源的初衷。

LingBot-VLA模型概要，圖片來源：螞蟻靈波官網(wǎng)

甲子光年：驗證ScalingLaw用了2萬小時數(shù)據(jù)和9種機(jī)器人構(gòu)型。這對外界來說可能只是一個數(shù)字，但在工程上究竟意味著什么？

沈宇軍：外界容易輕視工程，覺得無非是把2000小時的數(shù)據(jù)難度乘以10倍。但我們發(fā)現(xiàn)復(fù)雜度是指數(shù)級上升的。很多“坑”只有數(shù)據(jù)量大到一定程度，才會發(fā)現(xiàn)并且掉進(jìn)去。這背后有三個原因。

第一，國內(nèi)真正訓(xùn)練過2萬小時規(guī)模VLA、還把模型開源出來給社區(qū)用的公司很少。2萬小時訓(xùn)練數(shù)據(jù)背后，前端采集量遠(yuǎn)不止2萬小時，中間有數(shù)據(jù)漏斗：采集、清洗、篩選都會損耗。

第二，我們做 LingBot-VLA 不是為了證明能力，而是希望社區(qū)真的能用起來。所以除了模型本身，我們在代碼庫、訓(xùn)練流程和復(fù)用性上都下了很多功夫，目標(biāo)不是demo，而是可落地。

第三，也是最重要的一點：這種規(guī)模的數(shù)據(jù)和模型，本質(zhì)上是一個系統(tǒng)工程。包括數(shù)據(jù)如何組織、管線如何設(shè)計、如何穩(wěn)定處理；這次我們做了大約300個任務(wù)的評測，同時跑五六個模型，本身就是非常復(fù)雜的工程協(xié)同。

這種復(fù)雜度，不是單一科研機(jī)構(gòu)能解決的。我們先把這些坑踩一遍，再把結(jié)果開源給社區(qū)。

LingBot-VLA 9種機(jī)器人本體，圖片來源：螞蟻靈波官網(wǎng)

甲子光年：哪些“坑”讓你們覺得很suffer？

沈宇軍：很多所謂的“坑”，只有在數(shù)據(jù)量達(dá)到一定程度才會暴露出來。比如數(shù)據(jù)規(guī)模上來后，存儲怎么設(shè)計？高并發(fā)訪問、訓(xùn)練調(diào)度怎么做？多團(tuán)隊協(xié)作時流程如何對齊？

如果系統(tǒng)設(shè)計不到位，就會出現(xiàn)大量隱性問題：數(shù)據(jù)被重復(fù)處理、被刪掉又重新拉回；某一輪質(zhì)檢沒通過，但信息沒同步，下游仍然當(dāng)成合格數(shù)據(jù)；模型訓(xùn)練異常，最后追溯發(fā)現(xiàn)問題出在很早期的數(shù)據(jù)處理階段。排查這些問題的成本，遠(yuǎn)遠(yuǎn)高于調(diào)模型或換結(jié)構(gòu)。

其實模型架構(gòu)本身，我們很早就定型了。但從架構(gòu)定型到最終發(fā)布，中間消耗精力最多的，并不是算法設(shè)計，而是系統(tǒng)工程、流程設(shè)計和協(xié)同問題。

所以這次把模型、代碼、后訓(xùn)練腳本盡量完整地開源，希望后來的研究者不用再從 0 到 1 把這些坑重新踩一遍，站在新的起點往前走。

4.“我們還在GPT-1時刻”

甲子光年：在具身智能數(shù)據(jù)路線上，你們堅定地選擇了“真機(jī)數(shù)據(jù)”，而對“合成數(shù)據(jù)”持保留態(tài)度。為什么？

沈宇軍：這兩條路線這兩年討論很多，我們的選擇相對明確：在具身智能的基座模型階段，更傾向真實數(shù)據(jù)。

我們更堅定選擇真實數(shù)據(jù)，是基于工業(yè)界的判斷。真機(jī)采集降本的速度，會快于物理引擎質(zhì)變的速度。

如果是“成本高”，隨著設(shè)備升級和工具鏈成熟，行業(yè)總能把價格打下來；但如果是“物理保真度”不夠，那需要基礎(chǔ)科學(xué)和頂級人才的漫長攻關(guān)。

作為一家做基座模型的公司，我們必須讓模型學(xué)習(xí)真實的物理規(guī)律。當(dāng)然，仿真數(shù)據(jù)在后訓(xùn)練階段依然有價值，但在基座模型階段，我們選擇那條“慢”但正確的路。

甲子光年：這次推進(jìn)如此徹底的開源（包括代碼和數(shù)據(jù)管線），背后的考量是什么？

沈宇軍：原因很簡單。不想做井底之蛙，也不想讓大家重復(fù)造輪子。具身智能還處在技術(shù)路線未收斂的早期。只靠內(nèi)部評測，很容易陷入思維盲區(qū)；只有讓社區(qū)用起來，才能發(fā)現(xiàn)那些我們預(yù)料不到的bug和用法。

學(xué)界不缺想法，缺的是一個“能站上去的底座”。我們提供底座，讓大家在此基礎(chǔ)上往前走，而不是每個人都從0到1去復(fù)現(xiàn)一遍基礎(chǔ)工作。

甲子光年：你們有沒有考慮過做一款自己的機(jī)器人本體？

沈宇軍：從個人直覺上判斷，機(jī)器人很難出現(xiàn)一種構(gòu)型通吃所有場景的情況。平整地面適合輪式，復(fù)雜地形需要足式。不同場景對負(fù)載、速度、成本的要求天差地別。

如果具身智能想在足夠多的真實場景落地，它必須是跨本體的。除非未來真出現(xiàn)了通用本體，但在現(xiàn)階段，我們更傾向于做一套適配不同身體的通用大腦。

甲子光年：類比語言模型，你覺得具身智能模型現(xiàn)在大概處在什么階段？什么時候能被看作GPT-3時刻？

沈宇軍：我個人覺得可能還在GPT-1階段。

一個核心問題是，行業(yè)里還沒有一個真正屬于具身智能的原生預(yù)訓(xùn)練模型。我們在用多模態(tài)模型、視頻模型，是在拼湊能力。

它們各有優(yōu)勢，也有明顯短板，如果我們想改底層邏輯，會發(fā)現(xiàn)改不動，因為沒有一個為物理世界量身定制的基座。

我認(rèn)為GPT-3時刻是數(shù)據(jù)量足夠大，從頭訓(xùn)練出了那個原生的具身基座后，那時它不再是生成視頻，而是天生理解物理交互、高效執(zhí)行動作。

甲子光年：那什么時候算是ChatGPT時刻？

沈宇軍：在我看來，ChatGPT時刻發(fā)生在有了基模之后，大家找到了一種方式，讓它可以非常快速地適配不同機(jī)器人和不同任務(wù)。

比如one-shot、five-shot，人類示范幾次，它就能學(xué)會一個新任務(wù)。如果做到這一步，機(jī)器人行業(yè)才真正具備大規(guī)模發(fā)展的可能性——任何團(tuán)隊只要采幾條數(shù)據(jù)、微調(diào)一下就能跑通新任務(wù)——機(jī)器人行業(yè)才真正具備了大規(guī)模爆發(fā)的可能。

甲子光年：距離GPT-3時刻還有多遠(yuǎn)？

沈宇軍：我個人的判斷是，至少三年。這個時間其實可以拆成三步：

第一，解決數(shù)據(jù)怎么采（高效采集）；
第二，解決數(shù)據(jù)怎么選（質(zhì)量分布與Scaling）；
第三，真正訓(xùn)出原生基礎(chǔ)模型。

如果樂觀一點看，也許可以一年解決一個關(guān)鍵問題。如果整個行業(yè)是在一起加速，我個人認(rèn)為2026、2027、2028年，有可能分別跨過這些節(jié)點。

5.螞蟻靈波的“MagicMoment”

甲子光年：螞蟻切入具身，出乎很多人意外，做具身智能，你們真正的“獨門武器”是什么？

沈宇軍：如果一定要選一個最核心的優(yōu)勢，我會先說團(tuán)隊本身。

這支團(tuán)隊在想象力、工程能力和“啃硬骨頭”的耐力上，都非常強(qiáng)。大家過去分散在不同技術(shù)方向，各自積累了不少能力，借著機(jī)器人這個新賽道，真正擰成了一股繩。

另一點也需要客觀地說，螞蟻集團(tuán)在AI方向上的長期投入，為我們提供了非常扎實的基礎(chǔ)設(shè)施底座。

無論是算力、存儲，還是整體工程體系，這些能力本身并不是為靈波單獨準(zhǔn)備的，但在這次快速迭代過程中，起到了關(guān)鍵支撐作用。

甲子光年：聽說你們內(nèi)部在研發(fā)過程中也有不少爭論？

沈宇軍：是的。但我們最大的優(yōu)勢是彼此相信。大家的爭執(zhí)不是為了針對個人，而是為了技術(shù)路線。我們允許激烈的沖突，但一旦事情定下來，所有人都會沿著既定方向死磕。

這一點我其實挺自豪的。對于一個以Researcher（研究員）為主的團(tuán)隊，最怕的不是沒人才，而是人才太多、方向不統(tǒng)一，最后變成一盤散沙。

甲子光年：在大廠做研究，會面臨OKR的壓力嗎，你們?nèi)绾纹胶鈱W(xué)術(shù)探索和商業(yè)落地？

沈宇軍：這是一個OKR方式的問題。我不認(rèn)為我們擁有絕對的“學(xué)術(shù)自由”，我們擁有的是“路徑自由”。

首要原則是目標(biāo)不能變，手段可以變。今年要攻克這個問題，此路不通就換條路，但一旦定下目標(biāo)，這座山頭必須拿下。

其次是不做空中樓閣。我們做的一切研究，哪怕短期落不了地，也必須是奔著“未來能落地”設(shè)計的。如果一個Idea純粹為了新穎性，完全不考慮落地，我們堅決不做。

甲子光年：回看過去一年，對你個人或團(tuán)隊來說，有沒有一個特別的Magic Moment？

沈宇軍：我會選2025年11月底。那是LingBot-Depth模型第一次在真實測試中跑贏現(xiàn)有方案的時刻，這打響了第一槍，讓我們相信這條路能走通。

我們第一次看到一個接近工業(yè)級標(biāo)準(zhǔn)、真正“走得通”的結(jié)果，也讓我們開始認(rèn)真思考能不能把這些模型串起來，作為一個整體來推進(jìn)，甚至一起開源。

在那之前，大家其實都很辛苦，但一直沒有看到一個明確的正反饋。那一刻算是第一次看到方向是對的。從那之后，團(tuán)隊整體的信心明顯提升。

另一個對我個人比較有感觸的節(jié)點，是2026年1月15日，四個模型全部封版。那意味著模型不再迭代，只為發(fā)布做準(zhǔn)備。對我來說，更像是給自己、也給團(tuán)隊交了一份階段性答卷。

甲子光年：封版那一刻，團(tuán)隊有沒有什么儀式感的慶祝？比如吃頓大餐，或者給自己放個假？

沈宇軍：那倒沒有，封版后只是代碼不再動了，但人還得接著熬。過去這一年，我們?nèi)∠嗽镜膱F(tuán)建，大家都很拼，一直到模型正式發(fā)布，才稍微喘了一口氣。

甲子光年：不過我們看近期看國內(nèi)外開發(fā)者對這些模型的評價還不錯。

沈宇軍：反饋到底算不算好，其實我們自己不敢下判斷，我不喜歡夸大成果。這次的技術(shù)報告，我們堅持只陳述客觀事實。既然選擇了開源——模型給了，代碼給了，權(quán)重也給了——那評價權(quán)就在社區(qū)開發(fā)者手里。喜歡也好，不喜歡也好，我們更希望聽到真實的聲音。

甲子光年：2026年，你們有什么計劃？

沈宇軍：我認(rèn)為有三個重點。

第一，數(shù)據(jù)的scale up，這是最核心的基礎(chǔ)。
第二，我們已經(jīng)比較清楚地看到了多模態(tài)和視頻生成各自的短板，接下來會更有針對性地補(bǔ)這些問題，把它們的優(yōu)勢真正發(fā)揮出來。
第三，是移動能力。這次發(fā)布主要集中在操作（manipulation），移動相關(guān)還沒有展開。今年在移動和探索能力上，我們會有一些新的進(jìn)展。

機(jī)器人遲早會遇到一個問題：被放進(jìn)一個完全陌生的環(huán)境時，怎么辦？沒有高精地圖、沒有GPS，只告訴它“我要去某個地方”，它能不能自己探索、找到路徑。我覺得這是機(jī)器人真正落地時，非?；A(chǔ)、也非常關(guān)鍵的能力。

甲子光年：如果把靈波當(dāng)成一個人來看，你們覺得他現(xiàn)在大概幾歲？

沈宇軍：那就是一歲吧。靈波去年成立，到現(xiàn)在正好一歲。

（封面圖來源：電影《禁忌星球》）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.