国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話螞蟻靈波首席科學(xué)家沈宇軍:2萬小時真機(jī)數(shù)據(jù),用“慢功夫”做具身智能|甲子光年

0
分享至



在基座模型階段,螞蟻靈波選擇那條“慢”但正確的路。

作者|周悅

編輯|王博

1956年的好萊塢電影《禁忌星球》里,有一個名叫Robby的機(jī)器人。

它力大無窮、邏輯嚴(yán)密,卻被設(shè)定了一條不可違背的禁令——不能傷害人類。這是人類對機(jī)器人走入現(xiàn)實世界最早的想象之一。


Robby機(jī)器人(圖左),圖片來源:電影《禁忌星球》

七十年后,這個名字在螞蟻集團(tuán)(以下簡稱“螞蟻”)內(nèi)部被重新提起。從Robby到Robbyant,最終定格為旗下具身智能公司的名字“螞蟻靈波”。

此前,外界對螞蟻靈波的認(rèn)知,大多停留在2025年外灘大會上那臺會炒菜的R1機(jī)器人,一個生動直觀,但更像技術(shù)層面展示的Demo。


Robbyant-R1,圖片來源:螞蟻靈波

但在2026年1月底,這種印象被迅速改寫。

短短一周內(nèi),螞蟻靈波密集發(fā)布了四個具身智能模型:LingBot-Depth、LingBot-VLA、LingBot-World、LingBot-VA,并同步開放了模型權(quán)重、代碼。LingBot-Depth還將開源200萬對高質(zhì)量RGB-深度配對數(shù)據(jù)集,LingBot-VLA 開源了完整后訓(xùn)練工具鏈。

不同于行業(yè)常見的“半開源”,這幾乎是一次將工程體系整體攤開的發(fā)布,在開源社區(qū)引發(fā)不小反響。

其中,LingBot-World引發(fā)的關(guān)注度最高。作為世界模型,它能夠生成高保真高動態(tài)的物理交互場景,效果直觀,肉眼可見,迅速登頂X平臺科技板塊熱榜和Hugging Face熱門論文榜。

但如果只看這一次“出圈”,反而容易忽略螞蟻靈波真正的選擇。

在具身智能領(lǐng)域,技術(shù)路線尚未收斂,選擇并不少。螞蟻靈波選擇的,卻是一條更慢但更扎實的路線。

在 VLA 模型的訓(xùn)練中,螞蟻靈波團(tuán)隊聯(lián)合星海圖、松靈機(jī)器人等合作伙伴,積累了涵蓋 9 種主流雙臂機(jī)器人配置、總計約20,000 小時的真實世界操作數(shù)據(jù),是當(dāng)前開源社區(qū)中真機(jī)數(shù)據(jù)規(guī)模最大的VLA 模型。在 GM-100 的真機(jī)測評中,取得了標(biāo)志性意義的高分,超越了Pi0.5。

同時,螞蟻靈波團(tuán)隊還堅定布局具身世界模型,率先推出了業(yè)界首個自回歸視覺—動作世界模型。這背后是螞蟻靈波作為具身世界模型拓荒者,對下一代具身模型技術(shù)路線的判斷。LingBot-VA 發(fā)布不到一周,英偉達(dá)也發(fā)布了 VA 模型。

螞蟻靈波為什么偏要選擇這條難走的路?

近期,在接受「甲子光年」專訪時,螞蟻靈波首席科學(xué)家沈宇軍給出的判斷是:具身智能仍處于“GPT-1時刻”。在他們看來,數(shù)據(jù)稀缺、范式未定,這是一場沒有捷徑可走的硬戰(zhàn)。

這一判斷并非憑空而來。

在學(xué)術(shù)訓(xùn)練之外,沈宇軍經(jīng)歷過從算法研究到真實落地的反復(fù)試錯。這讓他對模型能力與工程現(xiàn)實之間的差距格外關(guān)注。正因此,他更傾向于將當(dāng)前階段視為具身智能的“GPT-1 時刻”,而不是押注短期可見的效果。

基于“GPT-1時刻”這一判斷,螞蟻靈波團(tuán)隊構(gòu)建了一套打持久戰(zhàn)的完整體系:

  • LingBot-Depth:解決感知層“看不清”的問題,為上層模型提供穩(wěn)定、精準(zhǔn)的視覺輸入;

  • LingBot-World:負(fù)責(zé)世界模擬與數(shù)據(jù)生成,緩解真實數(shù)據(jù)不足的問題;

  • LingBot-VLA:基于海量真實數(shù)據(jù),學(xué)會如何執(zhí)行基礎(chǔ)動作;

  • LingBot-VA:引入因果預(yù)測,探索更高層次的規(guī)劃和控制能力。

沈宇軍將這套體系形容為“四個模型‘一盤棋’”,它們是同一系統(tǒng)中的不同模塊,而非彼此獨立。

在團(tuán)隊內(nèi)部,圍繞取舍的爭論并不少見,甚至?xí)芭淖雷映臣堋?。但一旦方向定下,所有人又會擰成一股繩死磕到底。這也決定了這支團(tuán)隊的氣質(zhì):一支愿意啃硬骨頭的隊伍。

從百靈大模型,到靈光、阿福等AI助手,再到今天把模型推向物理世界的靈波,螞蟻在AI路徑上補(bǔ)上了此前缺失的一段,一條“基礎(chǔ)模型-通用應(yīng)用-實體交互”的全棧路徑,正在清晰浮現(xiàn)出來。

1.四個模型“一盤棋”

甲子光年:螞蟻集團(tuán)一直被看做金融科技企業(yè),這次突然密集發(fā)布四個具身智能模型,確實讓很多人意外。首先好奇一個問題,螞蟻靈波這個名字有什么特殊的來歷嗎?

沈宇軍:這挺有意思的。Robby是好萊塢科幻電影(《禁忌星球》)里最早的機(jī)器人名字之一。而我們團(tuán)隊又來自螞蟻,所以就叫Robbyant。

而在中文里,Robby的音譯正好是“靈波”,跟我們的百靈大模型(Ling)一脈相承。具身模型叫LingBot,既是Ling系列的延伸,同時讀快一點也很像“靈波”,代表了我們對機(jī)器人靈動、敏捷的最初想象。

甲子光年:帶著螞蟻的光環(huán),又正好撞上Google Project Genie的時間點上發(fā)布,你們覺得當(dāng)前的反饋符合預(yù)期嗎?

沈宇軍:整體上還是符合預(yù)期。我們是2024年11月成立,過去一年幾乎沒有對外發(fā)聲。

具身智能模型跟大語言模型不太一樣,C端用戶很難立刻感知。更多還是同行、專業(yè)人士的反饋。我們也更愿意把評價權(quán)交給社區(qū)——模型、代碼、權(quán)重、數(shù)據(jù)集都開源了,好不好用,由社區(qū)來給出真實判斷。

甲子光年:這次一口氣開源了LingBot-Depth、LingBot-VLA、LingBot-World、LingBot-VA四個模型。這是四個模型框架是一開始就規(guī)劃好的嗎,還是迭代出來的?

沈宇軍:從一開始我們就比較篤定。機(jī)器人最終要部署在物理世界里,繞不開兩個核心問題:一是輸入端,也就是機(jī)器人能獲取哪些信號;二是智能端,拿到這些信號之后,如何形成決策。

這次發(fā)布的一些模型,比如 LingBot-VLA、LingBot-VA,都是我們在這兩個方向上的探索。但坦率講,我們也清楚,這還遠(yuǎn)遠(yuǎn)不夠。我們更希望,具身智能最終能形成一套屬于自己(螞蟻靈波)的范式。

對我們來說,內(nèi)部始終只有“一盤棋”。這四個模型是同一張大拼圖里的不同模塊,只是隨著進(jìn)展逐步釋放出來。所以這次大家看到的這些模型,其實只是這盤棋中的一些局部碎片。

甲子光年:這四個模型之間怎么串成一條完整的路徑?

沈宇軍:機(jī)器人最終部署在物理世界里,傳感器誤差和硬件誤差是繞不開的現(xiàn)實問題。LingBot-Depth對應(yīng)最底層感知能力,輸入層數(shù)據(jù)質(zhì)量,基本決定智能層上限,未來螞蟻靈波的大多數(shù)模型都會用到它。

比如在LingBot-VLA里,我們展示過一個用法,把LingBot-Depth的特征蒸餾進(jìn)去,解決空間盲視的問題。

這次發(fā)布的LingBot-World和LingBot-VA,則是探索性的嘗試。

整個行業(yè)目前都面臨同一個問題:數(shù)據(jù)依然緊缺。在數(shù)據(jù)有限的情況下,想真正通過Scaling Up把模型能力完全釋放出來,為時尚早。

在無法完全釋放Scaling Up潛力的情況下,我們階段性地借助了數(shù)字世界中已經(jīng)完成Scaling的模型能力,如多模態(tài)和視頻生成模型,來作為過渡。

我們一直在嘗試把這些數(shù)字世界中預(yù)訓(xùn)練好的能力,引入到具身智能里,這正是LingBot-VLA和LingBot-VA出現(xiàn)的背景。當(dāng)然,在實踐中我們也發(fā)現(xiàn),它們本身同樣存在局限。

而LingBot-World則是我們在驗證技術(shù)路線時的“沿途下蛋”。

甲子光年:這也正是外界最好奇的點。LingBot-World在C端的關(guān)注度最高,很多人覺得它更像AIGC或視頻生成,為什么你們反而說它是“沿途下蛋”?

沈宇軍:確實有不少人會覺得,LingBot-World看起來和具身智能有點遠(yuǎn),但其實不是這樣。

在內(nèi)部,LingBot-World和LingBot-VA并不是兩條獨立路線,而是耦合得非常深,甚至可以說是同一套技術(shù)體系的不同側(cè)重,前者更多使用通用數(shù)據(jù),后者更多使用具身數(shù)據(jù)。

底層的數(shù)據(jù)引擎、代碼框架和優(yōu)化方法,都高度共通。只是這次對外發(fā)布時,我們沒有把這些細(xì)節(jié)全部展開。

之所以說它是“沿途下蛋”,是因為在最早做具身智能時,我們并不能確定視頻生成這條路一定能走通,而世界模型這個方向可以更快給我們反饋,比如長時間推理能力和生成質(zhì)量。

如果一項技術(shù)在世界模型里都跑不通,它在具身智能中大概率也走不遠(yuǎn);反過來,視頻生成能力越強(qiáng),其實對機(jī)器人是有正向收益的。從這個角度看,這些模型最終指向的都是同一個目標(biāo):具身智能。

甲子光年:這套架構(gòu)大概是什么時候定型的?中間有過自我懷疑的時刻嗎?

沈宇軍:大概在2025年11月左右,我們已經(jīng)看到了比較有希望的結(jié)果,那時每一條路線大概都做到了80%。倒沒有覺得“完全走不通”的時刻,但真正難的是后面那20%。那是一種持續(xù)的消耗感。我們沒有哪一刻想過放棄,更多是覺得“煎熬”。因為從驗證到真正達(dá)到工業(yè)級標(biāo)準(zhǔn),這個過程比我們最初預(yù)想的要困難得多。

甲子光年:下一步的目標(biāo)是什么?

沈宇軍:這次發(fā)布之后,我們對這兩套模型的邊界有了比之前更清楚的認(rèn)識——不敢說已經(jīng)完全明晰,但至少看到了各自的短板。

往下看,我們大致會采取“兩條腿走路”的方式:一方面持續(xù)積累具身智能數(shù)據(jù);另一條方面等數(shù)據(jù)量達(dá)到一定規(guī)模后,從零搭建真正面向具身智能的預(yù)訓(xùn)練模型,而不再依賴VLM或視頻生成模型。這條路徑有點類似自動駕駛的發(fā)展過程。

在數(shù)據(jù)尚未積累到那個階段之前,這兩套模型仍然會結(jié)合使用。至于具體如何結(jié)合,可以關(guān)注我們后續(xù)的工作。

2.LingBot-VA是關(guān)鍵下注

甲子光年:這次發(fā)布的LingBot-VA技術(shù)路線備受關(guān)注。它的出發(fā)點是什么?想要解決主流VLA路線的什么痛點?

沈宇軍:當(dāng)前主流VLA路線的邏輯是“看圖說話”:給一張圖像,加上預(yù)訓(xùn)練好的語言或視覺語言模型,預(yù)測下一步動作,這條路是有效的。

但在機(jī)器人領(lǐng)域,它缺失了一個關(guān)鍵要素Dynamic Prior(動態(tài)先驗)。機(jī)器人本身在學(xué)動作,而圖片本身沒有動作信息。

所以一個很自然的想法是,能不能引入視頻層面的先驗?因為視頻本身記錄了人和物體的動作。這也是LingBot-VA模型設(shè)計中最簡單、也是最直接的一層哲學(xué)。

當(dāng)模型已經(jīng)見過各種各樣的操作視頻之后,即便在下游只用少量任務(wù)數(shù)據(jù)進(jìn)行fine-tune或adaptation,它本身也已經(jīng)具備了動作層面的經(jīng)驗。

甲子光年:這種引入“視頻先驗”的思路在實際任務(wù)中有什么具體優(yōu)勢?

沈宇軍:最大的優(yōu)勢是記憶能力。舉個例子,讓機(jī)器人擦三次盤子。對VLA來說,第一次擦完和第二次擦完,看到的畫面(Observation)幾乎是一樣的。

如果沒有記憶,模型就會陷入“看到盤子——去擦”的死循環(huán),一直擦下去。但LingBot-VA采用的是自回歸結(jié)構(gòu),天然具備比較好的記憶能力。在這些 memory test(記憶測試)上,它的表現(xiàn)會顯著優(yōu)于VLA架構(gòu)。

其次是少量樣本下的泛化能力?,F(xiàn)在機(jī)器人在部署到新的環(huán)境時,通常都需要重新采集一些數(shù)據(jù)。而VA的核心優(yōu)勢在于,它的視頻先驗已經(jīng)編碼了大量的動態(tài)信息。

模型中學(xué)到的動作先驗越強(qiáng),在面對沒有見過的新場景時,模型進(jìn)行 adaptation 所需要的新數(shù)據(jù)就越少。

甲子光年:在LingBot-VA模型里,最難的部分是偏模型結(jié)構(gòu)本身,還是在推理系統(tǒng)和工程化部署上?

沈宇軍:難點主要在工程部署這一塊。模型結(jié)構(gòu)本身的收斂,我們其實在比較早期就已經(jīng)跑通了。后續(xù)更多的工作,主要集中在數(shù)據(jù)的scaling up,以及訓(xùn)練效率的優(yōu)化上,但這些本質(zhì)上都屬于infra層面的事情。

真正給我們帶來比較大挑戰(zhàn)的,是模型在真實系統(tǒng)里的部署,這也是我認(rèn)為目前VA相比VLA 的一個明顯劣勢。

在真機(jī)部署中,我們遇到的第一個問題就是延遲顯著上升。測試結(jié)果顯示,VLA 通??梢钥刂圃?strong>100 毫秒左右,而 VA 往往需要300–400毫秒,差距主要來自視頻生成帶來的額外開銷。

因此,我們在工程上投入了大量精力去做異步推理框架以及系統(tǒng)側(cè)的加速優(yōu)化。

甲子光年:這似乎有個矛盾,VA好像去掉了中間的language(語言)層,這聽起來更像人類的肌肉記憶或者下意識的動作,理論上應(yīng)該推理速度更快,但實際驗證推理反而更慢,這矛盾嗎?

沈宇軍:我覺得不矛盾。首先需要澄清,VA并不是沒有l(wèi)anguage,模型仍然通過語言來接收人類指令,這一點和直覺理解可能不太一樣。

第二是關(guān)于推理速度。速度更多取決于工程和infra(基礎(chǔ)設(shè)施)層面的優(yōu)化,而不是模型范式本身。更現(xiàn)實的問題是,現(xiàn)有的工程基礎(chǔ)設(shè)施,能否支撐這種范式把速度提上來,這也是接下來需要解決的核心問題。

最終都是輸入輸出形式相同,差異在于中間的對齊順序。傳統(tǒng)VLM是先對齊vision和language,VLA則是在這個vision–language空間里,再把a(bǔ)ction往里對齊。

而VA強(qiáng)調(diào)的是另一條路徑:先對齊 video(motion、dynamics)和 action,也就是先解決“怎么動”。最終都是輸入輸出形式相同,差異在于中間的對齊路徑。

第二點是推理速度。VA在理念上確實更接近人類的肌肉記憶或下意識動作,這個理解沒問題。

現(xiàn)在慢,并不是因為這種范式本身慢,而是因為實現(xiàn)方式還依賴像素級的視頻生成,需要先把畫面“畫”出來。這一步在訓(xùn)練階段很有價值,但對實時推理并非必要。

從長期看,隨著具身數(shù)據(jù)規(guī)模擴(kuò)大,更適合機(jī)器人實時執(zhí)行的預(yù)訓(xùn)練模型會出現(xiàn)。到那時,基于動作和動態(tài)的“肌肉記憶”,反而可能比當(dāng)前這種顯式推理更快。

甲子光年:LingBot-VA真機(jī)部署時遇到哪些典型問題?

沈宇軍:最大的問題還是幻覺。視頻模型有時候會“無中生有”,比如桌上明明沒有瓶子,模型生成畫面里卻多了一個瓶子,導(dǎo)致機(jī)械臂去抓空氣。

目前的解法是提高刷新率,一幀一幀地生成和修正。只要刷新得夠快,利用真實世界的觀測不斷校準(zhǔn),單幀的幻覺就不會累積錯誤。另一個方向是后訓(xùn)練獎勵模型、引入強(qiáng)化學(xué)習(xí)去約束幻覺,這也是持續(xù)探索的方向。

甲子光年:再聊聊LingBot-World。它發(fā)布時正好撞上Google Project Genie更新,C端討論很熱烈。你們怎么看待 LingBot-World 和 Genie3、Sora這兩個模型的異同?

沈宇軍:我其實不太想用“差異”這個詞來形容,更準(zhǔn)確地說是定位不一樣。

如果和Sora放在一起看,我覺得通義萬相、Sora、Veo 3、可靈,這些本質(zhì)上是一條賽道,它們的目標(biāo)是做視頻生成的基模。

而我們和 Genie3并不是在做一個基模,我們是基于已有模型,在后面做世界建模相關(guān)的事情。嚴(yán)格來說,我們更像是視頻生成體系里的一個子方向,而不是最大的那條主賽道。

LingBot-World生成場景,視頻來源:螞蟻靈波官網(wǎng)

甲子光年:如果把LingBot-World和Genie 3做一個更直接的對比呢?

沈宇軍:Genie 3發(fā)布更早、迭代更久,很多關(guān)鍵能力并沒有開源,我們也很難做真正意義上的對比。

還有一個繞不開的因素是算力體系。Google 很大的優(yōu)勢在于TPU。舉個例子,TPU架構(gòu)對Ring Attention(環(huán)狀注意力)這類技術(shù)非常友好。但在GPU體系下,卡間的通信帶寬會受到限制,要在工程上實現(xiàn)同等性能,難度大得多。

我們的模型是真正開源出來的。如果開發(fā)者想改模型結(jié)構(gòu)、想做二創(chuàng),那在LingBot-World這條路線上,這是可以做的。

甲子光年:你們的世界模型最終會走向哪里?會獨立成一個產(chǎn)品嗎?

沈宇軍:LingBot-World并不是一個獨立存在的終點,它最終一定會回到機(jī)器人。

開發(fā)世界模型是為了驗證視頻生成路線在具身智能中到底行不行——這叫“沿途下蛋”。如果視頻生成都做不好,那基于視頻的機(jī)器人控制就更別想了。

可以期待下一版LingBot-World,會和機(jī)器人更貼近。到那個階段,大家可能就不會再覺得LingBot-World和LingBot-VA像是兩條分開的線。

LingBot-VA已經(jīng)在這一步做了一些探索。

3.具身智能Scaling Law的“隱形陷阱”

甲子光年:在LingBot-VLA的論文標(biāo)題里,你們用了一個詞Pragmatic(務(wù)實的)。為什么要特意強(qiáng)調(diào)“實用性”?

沈宇軍:這次更多是面向開源社區(qū)。過去半年里,“超越Pi0.5”的說法很多,但實際情況是,Pi0.5依然是被大量高校和研究者實際使用的好模型。既然大家還在用,它一定有價值。

我們強(qiáng)調(diào)pragmatic,不是為了宣稱超越誰,而是希望把模型真實地交出來,讓社區(qū)自己評測。所以這次發(fā)布里,我們沒有刻意談“超不超越”,而是把模型、后訓(xùn)練與加速優(yōu)化的完整代碼一并開源。

很多“開源”其實只是“半開源”,但這次我們把模型、代碼,甚至部分?jǐn)?shù)據(jù)集都放出來,尤其LingBot-VLA連后訓(xùn)練代碼庫也全部開放。只有真正被用起來,問題才會暴露,這正是我們開源的初衷。


LingBot-VLA模型概要,圖片來源:螞蟻靈波官網(wǎng)

甲子光年:驗證ScalingLaw用了2萬小時數(shù)據(jù)和9種機(jī)器人構(gòu)型。這對外界來說可能只是一個數(shù)字,但在工程上究竟意味著什么?

沈宇軍:外界容易輕視工程,覺得無非是把2000小時的數(shù)據(jù)難度乘以10倍。但我們發(fā)現(xiàn)復(fù)雜度是指數(shù)級上升的。很多“坑”只有數(shù)據(jù)量大到一定程度,才會發(fā)現(xiàn)并且掉進(jìn)去。這背后有三個原因。

第一,國內(nèi)真正訓(xùn)練過2萬小時規(guī)模VLA、還把模型開源出來給社區(qū)用的公司很少。2萬小時訓(xùn)練數(shù)據(jù)背后,前端采集量遠(yuǎn)不止2萬小時,中間有數(shù)據(jù)漏斗:采集、清洗、篩選都會損耗。

第二,我們做 LingBot-VLA 不是為了證明能力,而是希望社區(qū)真的能用起來。所以除了模型本身,我們在代碼庫、訓(xùn)練流程和復(fù)用性上都下了很多功夫,目標(biāo)不是demo,而是可落地。

第三,也是最重要的一點:這種規(guī)模的數(shù)據(jù)和模型,本質(zhì)上是一個系統(tǒng)工程。包括數(shù)據(jù)如何組織、管線如何設(shè)計、如何穩(wěn)定處理;這次我們做了大約300個任務(wù)的評測,同時跑五六個模型,本身就是非常復(fù)雜的工程協(xié)同。

這種復(fù)雜度,不是單一科研機(jī)構(gòu)能解決的。我們先把這些坑踩一遍,再把結(jié)果開源給社區(qū)。


LingBot-VLA 9種機(jī)器人本體,圖片來源:螞蟻靈波官網(wǎng)

甲子光年:哪些“坑”讓你們覺得很suffer?

沈宇軍:很多所謂的“坑”,只有在數(shù)據(jù)量達(dá)到一定程度才會暴露出來。比如數(shù)據(jù)規(guī)模上來后,存儲怎么設(shè)計?高并發(fā)訪問、訓(xùn)練調(diào)度怎么做?多團(tuán)隊協(xié)作時流程如何對齊?

如果系統(tǒng)設(shè)計不到位,就會出現(xiàn)大量隱性問題:數(shù)據(jù)被重復(fù)處理、被刪掉又重新拉回;某一輪質(zhì)檢沒通過,但信息沒同步,下游仍然當(dāng)成合格數(shù)據(jù);模型訓(xùn)練異常,最后追溯發(fā)現(xiàn)問題出在很早期的數(shù)據(jù)處理階段。排查這些問題的成本,遠(yuǎn)遠(yuǎn)高于調(diào)模型或換結(jié)構(gòu)。

其實模型架構(gòu)本身,我們很早就定型了。但從架構(gòu)定型到最終發(fā)布,中間消耗精力最多的,并不是算法設(shè)計,而是系統(tǒng)工程、流程設(shè)計和協(xié)同問題。

所以這次把模型、代碼、后訓(xùn)練腳本盡量完整地開源,希望后來的研究者不用再從 0 到 1 把這些坑重新踩一遍,站在新的起點往前走。

4.“我們還在GPT-1時刻”

甲子光年:在具身智能數(shù)據(jù)路線上,你們堅定地選擇了“真機(jī)數(shù)據(jù)”,而對“合成數(shù)據(jù)”持保留態(tài)度。為什么?

沈宇軍:這兩條路線這兩年討論很多,我們的選擇相對明確:在具身智能的基座模型階段,更傾向真實數(shù)據(jù)。

我們更堅定選擇真實數(shù)據(jù),是基于工業(yè)界的判斷。真機(jī)采集降本的速度,會快于物理引擎質(zhì)變的速度。

如果是“成本高”,隨著設(shè)備升級和工具鏈成熟,行業(yè)總能把價格打下來;但如果是“物理保真度”不夠,那需要基礎(chǔ)科學(xué)和頂級人才的漫長攻關(guān)。

作為一家做基座模型的公司,我們必須讓模型學(xué)習(xí)真實的物理規(guī)律。當(dāng)然,仿真數(shù)據(jù)在后訓(xùn)練階段依然有價值,但在基座模型階段,我們選擇那條“慢”但正確的路。

甲子光年:這次推進(jìn)如此徹底的開源(包括代碼和數(shù)據(jù)管線),背后的考量是什么?

沈宇軍:原因很簡單。不想做井底之蛙,也不想讓大家重復(fù)造輪子。具身智能還處在技術(shù)路線未收斂的早期。只靠內(nèi)部評測,很容易陷入思維盲區(qū);只有讓社區(qū)用起來,才能發(fā)現(xiàn)那些我們預(yù)料不到的bug和用法。

學(xué)界不缺想法,缺的是一個“能站上去的底座”。我們提供底座,讓大家在此基礎(chǔ)上往前走,而不是每個人都從0到1去復(fù)現(xiàn)一遍基礎(chǔ)工作。

甲子光年:你們有沒有考慮過做一款自己的機(jī)器人本體?

沈宇軍:從個人直覺上判斷,機(jī)器人很難出現(xiàn)一種構(gòu)型通吃所有場景的情況。平整地面適合輪式,復(fù)雜地形需要足式。不同場景對負(fù)載、速度、成本的要求天差地別。

如果具身智能想在足夠多的真實場景落地,它必須是跨本體的。除非未來真出現(xiàn)了通用本體,但在現(xiàn)階段,我們更傾向于做一套適配不同身體的通用大腦。

甲子光年:類比語言模型,你覺得具身智能模型現(xiàn)在大概處在什么階段?什么時候能被看作GPT-3時刻?

沈宇軍:我個人覺得可能還在GPT-1階段。

一個核心問題是,行業(yè)里還沒有一個真正屬于具身智能的原生預(yù)訓(xùn)練模型。我們在用多模態(tài)模型、視頻模型,是在拼湊能力。

它們各有優(yōu)勢,也有明顯短板,如果我們想改底層邏輯,會發(fā)現(xiàn)改不動,因為沒有一個為物理世界量身定制的基座。

我認(rèn)為GPT-3時刻是數(shù)據(jù)量足夠大,從頭訓(xùn)練出了那個原生的具身基座,那時它不再是生成視頻,而是天生理解物理交互、高效執(zhí)行動作。

甲子光年:那什么時候算是ChatGPT時刻?

沈宇軍:在我看來,ChatGPT時刻發(fā)生在有了基模之后,大家找到了一種方式,讓它可以非常快速地適配不同機(jī)器人和不同任務(wù)。

比如one-shot、five-shot,人類示范幾次,它就能學(xué)會一個新任務(wù)。如果做到這一步,機(jī)器人行業(yè)才真正具備大規(guī)模發(fā)展的可能性——任何團(tuán)隊只要采幾條數(shù)據(jù)、微調(diào)一下就能跑通新任務(wù)——機(jī)器人行業(yè)才真正具備了大規(guī)模爆發(fā)的可能。

甲子光年:距離GPT-3時刻還有多遠(yuǎn)?

沈宇軍:我個人的判斷是,至少三年。這個時間其實可以拆成三步:

  • 第一,解決數(shù)據(jù)怎么采(高效采集);

  • 第二,解決數(shù)據(jù)怎么選(質(zhì)量分布與Scaling);

  • 第三,真正訓(xùn)出原生基礎(chǔ)模型。

如果樂觀一點看,也許可以一年解決一個關(guān)鍵問題。如果整個行業(yè)是在一起加速,我個人認(rèn)為2026、2027、2028年,有可能分別跨過這些節(jié)點。

5.螞蟻靈波的“MagicMoment”

甲子光年:螞蟻切入具身,出乎很多人意外,做具身智能,你們真正的“獨門武器”是什么?

沈宇軍:如果一定要選一個最核心的優(yōu)勢,我會先說團(tuán)隊本身。

這支團(tuán)隊在想象力、工程能力和“啃硬骨頭”的耐力上,都非常強(qiáng)。大家過去分散在不同技術(shù)方向,各自積累了不少能力,借著機(jī)器人這個新賽道,真正擰成了一股繩。

另一點也需要客觀地說,螞蟻集團(tuán)在AI方向上的長期投入,為我們提供了非常扎實的基礎(chǔ)設(shè)施底座。

無論是算力、存儲,還是整體工程體系,這些能力本身并不是為靈波單獨準(zhǔn)備的,但在這次快速迭代過程中,起到了關(guān)鍵支撐作用。

甲子光年:聽說你們內(nèi)部在研發(fā)過程中也有不少爭論?

沈宇軍:是的。但我們最大的優(yōu)勢是彼此相信。大家的爭執(zhí)不是為了針對個人,而是為了技術(shù)路線。我們允許激烈的沖突,但一旦事情定下來,所有人都會沿著既定方向死磕。

這一點我其實挺自豪的。對于一個以Researcher(研究員)為主的團(tuán)隊,最怕的不是沒人才,而是人才太多、方向不統(tǒng)一,最后變成一盤散沙。

甲子光年:在大廠做研究,會面臨OKR的壓力嗎,你們?nèi)绾纹胶鈱W(xué)術(shù)探索和商業(yè)落地?

沈宇軍:這是一個OKR方式的問題。我不認(rèn)為我們擁有絕對的“學(xué)術(shù)自由”,我們擁有的是“路徑自由”。

首要原則是目標(biāo)不能變,手段可以變。今年要攻克這個問題,此路不通就換條路,但一旦定下目標(biāo),這座山頭必須拿下。

其次是不做空中樓閣。我們做的一切研究,哪怕短期落不了地,也必須是奔著“未來能落地”設(shè)計的。如果一個Idea純粹為了新穎性,完全不考慮落地,我們堅決不做。

甲子光年:回看過去一年,對你個人或團(tuán)隊來說,有沒有一個特別的Magic Moment?

沈宇軍:我會選2025年11月底。那是LingBot-Depth模型第一次在真實測試中跑贏現(xiàn)有方案的時刻,這打響了第一槍,讓我們相信這條路能走通。

我們第一次看到一個接近工業(yè)級標(biāo)準(zhǔn)、真正“走得通”的結(jié)果,也讓我們開始認(rèn)真思考能不能把這些模型串起來,作為一個整體來推進(jìn),甚至一起開源。

在那之前,大家其實都很辛苦,但一直沒有看到一個明確的正反饋。那一刻算是第一次看到方向是對的。從那之后,團(tuán)隊整體的信心明顯提升。

另一個對我個人比較有感觸的節(jié)點,是2026年1月15日,四個模型全部封版。那意味著模型不再迭代,只為發(fā)布做準(zhǔn)備。對我來說,更像是給自己、也給團(tuán)隊交了一份階段性答卷。

甲子光年:封版那一刻,團(tuán)隊有沒有什么儀式感的慶祝?比如吃頓大餐,或者給自己放個假?

沈宇軍:那倒沒有,封版后只是代碼不再動了,但人還得接著熬。過去這一年,我們?nèi)∠嗽镜膱F(tuán)建,大家都很拼,一直到模型正式發(fā)布,才稍微喘了一口氣。

甲子光年:不過我們看近期看國內(nèi)外開發(fā)者對這些模型的評價還不錯。

沈宇軍:反饋到底算不算好,其實我們自己不敢下判斷,我不喜歡夸大成果。這次的技術(shù)報告,我們堅持只陳述客觀事實。既然選擇了開源——模型給了,代碼給了,權(quán)重也給了——那評價權(quán)就在社區(qū)開發(fā)者手里。喜歡也好,不喜歡也好,我們更希望聽到真實的聲音。

甲子光年:2026年,你們有什么計劃?

沈宇軍:我認(rèn)為有三個重點。

  • 第一,數(shù)據(jù)的scale up,這是最核心的基礎(chǔ)。

  • 第二,我們已經(jīng)比較清楚地看到了多模態(tài)和視頻生成各自的短板,接下來會更有針對性地補(bǔ)這些問題,把它們的優(yōu)勢真正發(fā)揮出來。

  • 第三,是移動能力。這次發(fā)布主要集中在操作(manipulation),移動相關(guān)還沒有展開。今年在移動和探索能力上,我們會有一些新的進(jìn)展。

機(jī)器人遲早會遇到一個問題:被放進(jìn)一個完全陌生的環(huán)境時,怎么辦?沒有高精地圖、沒有GPS,只告訴它“我要去某個地方”,它能不能自己探索、找到路徑。我覺得這是機(jī)器人真正落地時,非?;A(chǔ)、也非常關(guān)鍵的能力。

甲子光年:如果把靈波當(dāng)成一個人來看,你們覺得他現(xiàn)在大概幾歲?

沈宇軍:那就是一歲吧。靈波去年成立,到現(xiàn)在正好一歲。

(封面圖來源:電影《禁忌星球》)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
朝鮮閱兵式現(xiàn)場大將僅剩5人!戰(zhàn)略軍直接被裁?

朝鮮閱兵式現(xiàn)場大將僅剩5人!戰(zhàn)略軍直接被裁?

IN朝鮮
2026-02-28 10:45:32
特朗普苦等4天中方終于回信,對美開出兩大條件,做不到訪華免談

特朗普苦等4天中方終于回信,對美開出兩大條件,做不到訪華免談

安珈使者啊
2026-03-01 12:15:35
為什么北京像莫斯科?

為什么北京像莫斯科?

虔青
2026-02-26 11:39:20
1973年,毛主席問楊振寧:萬壽無疆科學(xué)嗎?楊振寧的回答,讓主席笑了

1973年,毛主席問楊振寧:萬壽無疆科學(xué)嗎?楊振寧的回答,讓主席笑了

寄史言志
2026-01-24 17:53:13
1949年傅作義任水利部長遭閑置,主席當(dāng)面質(zhì)問,周恩來聽聞當(dāng)即發(fā)火

1949年傅作義任水利部長遭閑置,主席當(dāng)面質(zhì)問,周恩來聽聞當(dāng)即發(fā)火

磊子講史
2026-01-14 10:12:21
讓領(lǐng)導(dǎo)先走?以色列徹底改變了戰(zhàn)爭習(xí)慣,自此食肉者得三思而后行

讓領(lǐng)導(dǎo)先走?以色列徹底改變了戰(zhàn)爭習(xí)慣,自此食肉者得三思而后行

尋途
2025-08-22 20:22:00
哈梅內(nèi)伊的死,將了特朗普的軍!哈梅內(nèi)伊最后“陽謀”,有多毒?

哈梅內(nèi)伊的死,將了特朗普的軍!哈梅內(nèi)伊最后“陽謀”,有多毒?

軍機(jī)Talk
2026-03-01 14:05:59
印度游客添亂,泰國悔悟:還是中國游客香

印度游客添亂,泰國悔悟:還是中國游客香

華山穹劍
2026-02-27 19:47:38
網(wǎng)傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應(yīng)

網(wǎng)傳新能源汽車開征“里程稅” 收費0.12元/公里 多地回應(yīng)

快科技
2026-02-27 21:58:15
騎士106-102籃網(wǎng)!阿特金森賽后把話挑明,哈登復(fù)出帶來一大變化

騎士106-102籃網(wǎng)!阿特金森賽后把話挑明,哈登復(fù)出帶來一大變化

魚崖大話籃球
2026-03-02 10:21:28
香港昂船洲政府船塢發(fā)生爆炸,已造成5人受傷

香港昂船洲政府船塢發(fā)生爆炸,已造成5人受傷

界面新聞
2026-03-02 12:00:42
演都不演了!剛復(fù)出就開演唱會,票價賣到1280,到底誰給的自信

演都不演了!剛復(fù)出就開演唱會,票價賣到1280,到底誰給的自信

樂悠悠娛樂
2026-03-01 10:27:25
34歲文萊最帥王子當(dāng)父親了,兩年前結(jié)婚,漂亮王妃和他門當(dāng)戶對

34歲文萊最帥王子當(dāng)父親了,兩年前結(jié)婚,漂亮王妃和他門當(dāng)戶對

小書生吃瓜
2026-02-15 22:41:52
護(hù)照姐丟人丟到國外!老外紛紛舉護(hù)照玩梗,洋老公:她只是保姆

護(hù)照姐丟人丟到國外!老外紛紛舉護(hù)照玩梗,洋老公:她只是保姆

寒士之言本尊
2025-10-09 11:12:44
英國宣布參與對伊朗軍事行動 戰(zhàn)機(jī)已升空

英國宣布參與對伊朗軍事行動 戰(zhàn)機(jī)已升空

桂系007
2026-02-28 23:56:12
法官問為何不交物業(yè)費,業(yè)主反問:不交稅違法,不交費違法嗎

法官問為何不交物業(yè)費,業(yè)主反問:不交稅違法,不交費違法嗎

蜉蝣說
2026-02-03 16:31:54
張一鳴第一個IPO,要來了?

張一鳴第一個IPO,要來了?

字母榜
2026-03-02 11:57:54
哈梅內(nèi)伊真死了,二兒子掌控軍隊,三兒子掌控政府,大兒子消失了

哈梅內(nèi)伊真死了,二兒子掌控軍隊,三兒子掌控政府,大兒子消失了

關(guān)系新篇章
2026-03-01 18:00:53
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

八斗小先生
2025-12-26 09:33:27
一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

閱毒君
2026-01-05 07:05:06
2026-03-02 13:08:49
甲子光年
甲子光年
中國科技產(chǎn)業(yè)化前沿智庫
3354文章數(shù) 9261關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

體育要聞

卡里克主場5連勝!隊史第2人通過最大考驗

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

中東局勢影響如何?十大券商策略來了

汽車要聞

預(yù)售11.28萬起 狐全新阿爾法S5標(biāo)配寧德時代

態(tài)度原創(chuàng)

旅游
健康
數(shù)碼
本地
公開課

旅游要聞

游客點贊!甘孜州終身門票政策昨日迎來“開門紅”

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

軍規(guī)可靠:聯(lián)想發(fā)布ThinkTab X11強(qiáng)固型Android平板電腦

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版