網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

世界模型混戰(zhàn)，螞蟻炸出開(kāi)源牌

2026-01-29 18:43:43　來(lái)源: AI前線

北京舉報(bào)

分享至

作者 | 姚戈

世界模型領(lǐng)域迎來(lái)了一個(gè)重要開(kāi)源模型。

今天，螞蟻集團(tuán)旗下的具身智能公司“螞蟻靈波”，正式發(fā)布并開(kāi)源其通用世界模型 LingBot-World。與許多閉源方案不同，螞蟻靈波選擇全面開(kāi)源代碼和模型權(quán)重，而且不綁定任何特定硬件或平臺(tái)。

去年 DeepMind 發(fā)布的 Genie 3，讓人們看到了世界模型能夠根據(jù)文本或圖像提示，實(shí)時(shí)生成一個(gè)可探索的動(dòng)態(tài)虛擬世界。LingBot-World 沿襲了這條路線，并在交互能力、高動(dòng)態(tài)穩(wěn)定性、長(zhǎng)時(shí)序連貫性以及物理一致性等維度取得了突破。

更令人驚喜的是，LingBot-World 呈現(xiàn)出從“生成”到“模擬”的跨越。隨著模型規(guī)模的擴(kuò)大，靈波團(tuán)隊(duì)觀察到，LingBot-World 開(kāi)始表現(xiàn)出遠(yuǎn)超普通視頻生成的復(fù)雜行為，涌現(xiàn)出對(duì)空間關(guān)系、時(shí)間連續(xù)性和物理規(guī)律的理解。

可以看到，鴨子腿部蹬水的動(dòng)作、水面對(duì)擾動(dòng)的響應(yīng)、以及鴨子身體與水之間的相互作用都比較符合物理規(guī)律。

這顯示出模型不僅記住了視覺(jué)表象，還在某種程度上理解了流體力學(xué)等基礎(chǔ)物理機(jī)制。同時(shí)，水面對(duì)擾動(dòng)的反應(yīng)，顯示出模型對(duì)因果關(guān)系的理解。

用戶切換視角后再回來(lái)時(shí)，環(huán)境中的智能體（比如這只貓）仍能保持持久記憶。智能體即使沒(méi)有被觀察到，也能持續(xù)行動(dòng)。這確保了當(dāng)視角回歸時(shí)，世界狀態(tài)會(huì)自然推進(jìn)。

當(dāng)環(huán)境中智能體（這只貓）碰到沙發(fā)后，沒(méi)有穿透沙發(fā)，反而向空地走去?？梢钥吹?，LingBot-World 遵循了空間的邏輯，讓智能體運(yùn)動(dòng)具有物理的合理性。

這是一個(gè)長(zhǎng)達(dá) 9 分 20 秒的視頻，沒(méi)有經(jīng)過(guò)任何剪輯和拼貼。視頻為用戶第一視角，從一座破舊的古希臘神廟出發(fā)，沿城市小徑前行，經(jīng)過(guò)一座新古典主義建筑，再向左進(jìn)入一片復(fù)原的古希臘建筑群。

在近十分鐘內(nèi)，畫(huà)面保持了較為穩(wěn)定的物理狀態(tài)和視覺(jué)質(zhì)量，這在目前的視頻生成模型和世界模型中都比較罕見(jiàn)。

不過(guò)，在視頻最后幾分鐘，建筑之間的位置關(guān)系似乎被模型遺忘了。在 7:00，新古典主義建筑和復(fù)原式古希臘建筑群是連接在一起的；但 7:31，從復(fù)原式古希臘建筑群望向新古典主義建筑時(shí)，新古典主義建筑消失了。8:30 回到新古典主義建筑時(shí)，它成為了一棟孤立的房子。

盡管存在這些細(xì)節(jié)瑕疵，LingBot-World 的進(jìn)步依然顯著——單次生成接近 10 分鐘的連貫視頻，很可能刷新了當(dāng)前視頻 / 世界模型的長(zhǎng)度紀(jì)錄。作為對(duì)比，Veo 3 和 Sora 2 的單次生成上限分別為 8 秒和 25 秒，Runway Gen-3 Alpha 為 40 秒，Kling 最長(zhǎng)支持 2 分鐘。

與其他交互世界模型相比，LingBot-World 在開(kāi)源、提供 720p 分辨率的情況下，還保證了高動(dòng)態(tài)程度和長(zhǎng)生成跨度。

在 VBench 測(cè)試中，LingBot-World 全面領(lǐng)先于 Yume-1.5 和 HY World-1.5 等先進(jìn)開(kāi)源模型，證明了自己不僅是一個(gè)視頻生成器，更是一個(gè)強(qiáng)大的交互式模擬器。通過(guò)接收用戶輸入的動(dòng)作指令，它能夠生成高度動(dòng)態(tài)且物理一致的視覺(jué)反饋，保持在高動(dòng)態(tài)度下的整體一致性，使視頻內(nèi)容在長(zhǎng)時(shí)間段內(nèi)始終與最初的提示保持一致。

在看到大語(yǔ)言模型的局限后，世界模型成為火熱賽道。Google、李飛飛、Yann LeCun 以及眾多科學(xué)家紛紛指出，LLM 無(wú)法很好地理解物理世界、因果關(guān)系，而“世界模型”是 AI 走向真實(shí)物理世界深度理解的一個(gè)解。

至于“世界模型”究竟該長(zhǎng)什么樣，行業(yè)至今尚無(wú)統(tǒng)一標(biāo)準(zhǔn)。

李飛飛的 Marble 正專注理解空間關(guān)系；英偉達(dá)把世界模型細(xì)分為預(yù)測(cè)模型、風(fēng)格遷移模型、推理模型；DeepMind 團(tuán)隊(duì)的 Genie 3，則試圖在同一個(gè)模型中，實(shí)現(xiàn)端到端的實(shí)時(shí)渲染。

路線的分歧，也反應(yīng)了行業(yè)需求的多樣性，以及尋找解決方案的困難——無(wú)論是智能駕駛、具身智能，還是游戲，都在尋找各自需要的智能方案，以及合適的開(kāi)發(fā)范式和入口。

螞蟻靈波的世界模型方案更接近 Genie 3，旨在成為一個(gè)通用模型，為 Agent、具身智能、游戲、仿真等領(lǐng)域提供理解世界物理規(guī)律的基礎(chǔ)設(shè)施平臺(tái)。

通過(guò)開(kāi)源其訓(xùn)練方法、模型權(quán)重等內(nèi)容，螞蟻靈波不僅展示了其在具身智能領(lǐng)域的戰(zhàn)略布局，也為行業(yè)提供了探索世界模型更多可能性的契機(jī)，幫助降低驗(yàn)證世界模型的門檻。

這一周，螞蟻靈波對(duì)外集中發(fā)布和開(kāi)源模型研究成果，相繼發(fā)布并開(kāi)源空間感知模型 LingBot-Depth、具身大模型 LingBot-VLA。

如今，隨著 LingBot-World 的發(fā)布，螞蟻靈波正從幕后走向臺(tái)前。螞蟻靈波的目標(biāo)是打造一個(gè)開(kāi)放、通用的智能基座，與越來(lái)越多行業(yè)和廠商共建生態(tài)。這一次，它用開(kāi)源的方式，向世界拋出了自己的世界模型范式。

構(gòu)建世界模型的夢(mèng)想和努力

在深入探討螞蟻團(tuán)隊(duì)通用世界模型的細(xì)節(jié)之前，我們需要花點(diǎn)時(shí)間，回顧一下 1990 年世界模型的開(kāi)始。這將幫助我們更清楚地理解過(guò)去 30 多年中“世界模型”研究的變與不變、當(dāng)前世界模型技術(shù)路線之爭(zhēng)的焦點(diǎn)，從而更好地理解螞蟻是在怎樣的方向和基礎(chǔ)上努力。

世界模型 40 年，變與不變

1990 年，強(qiáng)化學(xué)習(xí)領(lǐng)域奠基人、2024 圖靈獎(jiǎng)獲得者 Richard S. Sutton 在人類認(rèn)知學(xué)習(xí)過(guò)程的啟發(fā)下，在論文《Dyna, an Integrated Architecture for Learning, Planning, and Reacting》中提出了一個(gè)開(kāi)創(chuàng)性架構(gòu)：智能體不應(yīng)只靠真實(shí)世界試錯(cuò)學(xué)習(xí)，而應(yīng)構(gòu)建一個(gè)內(nèi)部世界模型，在“腦?！敝心M動(dòng)作后果，低成本地進(jìn)行規(guī)劃與策略優(yōu)化。

備注：圖片來(lái)自 Dyna 論文。圖片呈現(xiàn)的是 Dyna 框架的核心邏輯，智能體的目標(biāo)是最大化其在時(shí)間維度上累積獲得的總獎(jiǎng)勵(lì)。

在 Dyna 框架中，世界模型也被稱為動(dòng)作模型，它被視為一個(gè)“黑盒子”，輸入當(dāng)前的情境和動(dòng)作，輸出對(duì)下一個(gè)情境和即時(shí)獎(jiǎng)勵(lì)的預(yù)測(cè)。模型的作用是模擬現(xiàn)實(shí)世界，Agent 通過(guò)與現(xiàn)實(shí)世界的持續(xù)互動(dòng)產(chǎn)生經(jīng)驗(yàn)，并利用這些經(jīng)驗(yàn)通過(guò)監(jiān)督學(xué)習(xí)方法來(lái)改進(jìn)模型，使其更接近真實(shí)的物理規(guī)律。

在 2026 年回顧這篇 36 年前的論文，會(huì)發(fā)現(xiàn)這份古早的研究為理解當(dāng)下復(fù)雜的技術(shù)路線之爭(zhēng)提供了共同的根基——

對(duì)世界模型的探究，起源于對(duì)人類、機(jī)器，以及更廣泛的智能體如何學(xué)習(xí)和行動(dòng)的好奇。

而“世界模型”作為一種方法，提出的解決方案是在模擬出的世界中，讓智能體學(xué)習(xí)、行動(dòng)、獲得反饋和迭代。

Dyna 這篇論文的核心理念，成為了今天世界模型的研究的底層思路。

不管是 NVIDIA Cosmos、World labs、Google Genie，還是 LingBot-World，都沿襲了 Dyna 的核心理念：世界模型是為智能體提供“模擬經(jīng)驗(yàn)”的內(nèi)部環(huán)境，使得智能體可以在一個(gè)虛擬的環(huán)境中進(jìn)行規(guī)劃和策略訓(xùn)練。

在不同方向的探索中，我們可以得到的共識(shí)是：世界模型從多樣化的輸入數(shù)據(jù)中學(xué)習(xí)對(duì)真實(shí)世界環(huán)境的內(nèi)部表征，包括物理規(guī)律、空間動(dòng)態(tài)和因果關(guān)系等。這些表征幫助模型預(yù)測(cè)未來(lái)狀態(tài)，模擬動(dòng)作序列，并支持復(fù)雜的規(guī)劃與決策，而不需要反復(fù)進(jìn)行真實(shí)世界的實(shí)驗(yàn)。

36 年過(guò)去，我們正站在大語(yǔ)言模型的陰影和語(yǔ)境中討論世界模型。LLM 在理解真實(shí)物理世界、及模擬 / 預(yù)測(cè)未來(lái)后果等方面的局限，正加速科研和商業(yè)領(lǐng)域?qū)κ澜缒Ｐ偷奶剿鳌?/p>

在 2025 年的一次訪談中，Dyna 的創(chuàng)作者 Richard S. Sutton 強(qiáng)調(diào)，LLM 已經(jīng)走到了瓶頸。他指出，LLM 的核心缺陷在于，它們僅僅是在模仿人類行為，而無(wú)法理解世界、預(yù)測(cè)現(xiàn)實(shí)世界中的未來(lái)事件。他提倡放棄基于 LLM 的路徑，轉(zhuǎn)而開(kāi)發(fā)基于強(qiáng)化學(xué)習(xí)、擁有世界轉(zhuǎn)換模型（Transition model of the world）。這種世界模型不僅能學(xué)習(xí)獎(jiǎng)勵(lì)，還能從所有感官信息中獲取環(huán)境的豐富理解，最終能夠預(yù)測(cè)“如果做某事，后果將是什么”。

大語(yǔ)言模型在理解真實(shí)物理世界的不足，以及模擬 / 預(yù)測(cè)未來(lái)后果的不足，讓一批科學(xué)家轉(zhuǎn)向，在世界模型中尋找解法。

李飛飛認(rèn)為 LLM 缺乏對(duì)物理世界的感知，提出“空間智能”（Spatial Intelligence）是 AI 的下一個(gè)北極星，AI 需要理解三維空間、幾何、物理規(guī)則以及因果關(guān)系，才能從“理解文本”邁向“理解并作用于物理世界”。

Yann LeCun 則批評(píng) LLM 依賴文本概率預(yù)測(cè)，感知學(xué)習(xí)世界的方式背道而馳。為此，他推廣 JEPA（聯(lián)合嵌入預(yù)測(cè)架構(gòu)），并成立 AMI Labs，通過(guò)世界模型的路徑實(shí)現(xiàn) AGI，探索如何讓 AI 系統(tǒng)具備理解物理世界、持久記憶、邏輯推理以及復(fù)雜任務(wù)規(guī)劃能力。

DeepMind 聯(lián)合創(chuàng)始人兼 CEO Demis Hassabis 在今年 1 月的對(duì)談節(jié)目中強(qiáng)調(diào)，目前的 AI 系統(tǒng)還不能理解物理世界、因果關(guān)系、行為如何影響結(jié)果，而精確的世界模型是實(shí)現(xiàn)科學(xué)發(fā)現(xiàn)或理論創(chuàng)新的關(guān)鍵。他表示，Genie 這樣的模型還只是“胚胎期世界模型”，Genie 體現(xiàn)出的，生成關(guān)于世界的內(nèi)容的能力，某種程度上體現(xiàn)了模型理解了世界的知識(shí)。

Google AI 團(tuán)隊(duì)深度押注了世界模型的發(fā)展，并認(rèn)為它會(huì)在 2026 年贏得重大發(fā)展。Hassabis 在談及 2026 年的突破和期待時(shí)提到，“最令我興奮的，莫過(guò)于進(jìn)一步推動(dòng)‘世界模型’的發(fā)展，提升其運(yùn)行效率，從而使其能夠真正被用于我們通用模型中的‘規(guī)劃’環(huán)節(jié)。”這可能意味著，未來(lái)世界模型將融入 Gemini 這樣的基礎(chǔ)模型中。

世界模型的路線分歧

在探索 AGI 的道路時(shí)，螞蟻集團(tuán)也看到了世界模型的潛力。

作為螞蟻集團(tuán)旗下的具身智能企業(yè)，螞蟻靈波的定位是“智能基座公司”，致力于打造一個(gè)能夠理解世界、物理規(guī)律以及時(shí)空演化的 AI 系統(tǒng)。而世界模型正是實(shí)現(xiàn)這一目標(biāo)的重要方式之一。

盡管各方都將世界模型視為未來(lái)的關(guān)鍵技術(shù)，然而不同公司選擇的路徑卻各不相同?？傮w上，這些路徑可以分為生成式和非生成式兩類，兩種路徑的核心區(qū)別在于預(yù)測(cè)空間。

NVIDIA Cosmos、DeepMind Genie 和 World Labs 都是生成式路徑的代表。

Cosmos 和 Genie 主要使用由像素構(gòu)成的觀測(cè)空間，利用大規(guī)模高維視覺(jué)數(shù)據(jù)訓(xùn)練，通過(guò)特定的時(shí)空架構(gòu)設(shè)計(jì)，讓模型產(chǎn)生對(duì)三維物理世界的理解。Genie 3 官網(wǎng)中特別提到“Genie 3 的一致性是一種涌現(xiàn)能力……Genie 3 生成的世界更為動(dòng)態(tài)和豐富，因?yàn)樗鼈兪腔谑澜缑枋龊陀脩魟?dòng)作逐幀創(chuàng)建的?！?/p>

World Labs 則另辟蹊徑，將預(yù)測(cè)空間設(shè)定為在 3D 空間中帶有位姿的幀，通過(guò)查詢待生成幀的位姿來(lái)生成新圖像。其發(fā)布的 RTFM 模型表明：“模型對(duì)世界的記憶（存儲(chǔ)在各個(gè)幀中）具備了空間結(jié)構(gòu)；它將帶有位姿信息的幀視作一種‘空間存儲(chǔ)’，這賦予了模型一種弱先驗(yàn)——即所建模的世界是三維歐幾里得空間，而無(wú)需強(qiáng)迫模型顯式預(yù)測(cè)該世界中的物體幾何結(jié)構(gòu)?！?/p>

非生成路徑的代表是 Yann LeCun 的聯(lián)合嵌入預(yù)測(cè)架構(gòu)（Joint Embedding Predictive Architecture, JEPA）。JEPA 通過(guò)編碼器將輸入轉(zhuǎn)化為潛空間（Latent Space），并在該空間內(nèi)預(yù)測(cè)未來(lái)抽象表征（Embeddings），從而無(wú)需進(jìn)行像素級(jí)的重建。

螞蟻靈波的 LingBot-World 選擇了類似 Genie 的路徑，試圖在此基礎(chǔ)上解決從視頻生成到世界模擬之間的技術(shù)障礙。

拆解 LingBot-World

在前文的案例和分析中，我們看到螞蟻靈波的 LingBot-World 沿襲了 Gienie 的生成式路線，同時(shí)在交互能力、高動(dòng)態(tài)穩(wěn)定性、長(zhǎng)時(shí)序連貫性以及物理一致性上表現(xiàn)驚艷。

在此基礎(chǔ)上，螞蟻靈波選擇開(kāi)源代碼和模型權(quán)重，并在論文中完整披露了從數(shù)據(jù)采集到訓(xùn)練部署的全鏈路設(shè)計(jì)，鼓勵(lì)社區(qū)測(cè)試、使用和復(fù)現(xiàn)。

即使是在近 10 分鐘的超長(zhǎng)視頻中、或是快速運(yùn)動(dòng)下，畫(huà)面中的物體依然保持了較為穩(wěn)定的幾何物理特性，沒(méi)有出現(xiàn)視頻生成模型常見(jiàn)的崩壞。這種穩(wěn)定性，源于其獨(dú)特的數(shù)據(jù)引擎和模型架構(gòu)設(shè)計(jì)。

數(shù)據(jù)引擎

許多從視頻生成模型切入世界模型研發(fā)的團(tuán)隊(duì)，很快會(huì)撞到數(shù)據(jù)瓶頸。

互聯(lián)網(wǎng)上浩如煙海的短視頻大多是“被動(dòng)”記錄，缺乏因果鏈條。對(duì)于世界模型而言，它需要理解的是動(dòng)作和后果之間的關(guān)系。

比如：“按下 W 鍵向前走，門是否會(huì)打開(kāi)？”“繞到建筑背面，窗戶是否依然存在？”這類智能體動(dòng)作與環(huán)境反饋之間的因果閉環(huán)，在普通視頻中幾乎不存在，在真實(shí)世界中規(guī)?；杉某杀疽埠芨?。

為了構(gòu)建“動(dòng)作 - 反饋”的閉環(huán)，LingBot-World 打造了從采集、處理到標(biāo)注的流程。

LingBot-World 的數(shù)據(jù)包含通用視頻、游戲數(shù)據(jù)和合成渲染數(shù)據(jù)，以確保訓(xùn)練語(yǔ)料的豐富性、高質(zhì)量和交互性。為游戲數(shù)據(jù)，靈波團(tuán)隊(duì)還開(kāi)發(fā)了專門的平臺(tái)，捕獲 RGB 幀并嚴(yán)格對(duì)齊用戶的輸入和相機(jī)參數(shù)。合成數(shù)據(jù)由 Unreal Engine 生成，帶有精確相機(jī)數(shù)據(jù)和自定義軌跡。

備注：LingBot-World 數(shù)據(jù)處理和標(biāo)注流程

在數(shù)據(jù)處理層面，靈波團(tuán)隊(duì)首先對(duì)原始視頻進(jìn)行質(zhì)量篩選與切分，生成結(jié)構(gòu)清晰的視頻片段；然后借助 VLM 視頻的視覺(jué)質(zhì)量、場(chǎng)景類型和視角等，結(jié)合幾何標(biāo)注提供必要的 3D 結(jié)構(gòu)先驗(yàn)，產(chǎn)出元數(shù)據(jù)。

在此基礎(chǔ)上，團(tuán)隊(duì)引入三種不同粒度的描述標(biāo)注，涵蓋視頻全過(guò)程的宏觀描述、去除了動(dòng)作和相機(jī)數(shù)據(jù)的靜態(tài)描寫(xiě)，以及帶有時(shí)間標(biāo)注的描述。

模型構(gòu)建和訓(xùn)練

LingBot-World 將世界模型定義為一個(gè)條件生成過(guò)程，模擬由智能體動(dòng)作驅(qū)動(dòng)的視覺(jué)狀態(tài)演化。

從模型構(gòu)建和訓(xùn)練過(guò)程，我們可以看到，LingBot-World 是從“視頻生成模型”起步，通過(guò)不同階段訓(xùn)練，讓模型從“生成”走向“模擬”。

從目標(biāo)函數(shù)上看，這種模擬本質(zhì)上是一種概率預(yù)測(cè) 。

LingBot-World 的目標(biāo)函數(shù)明確表達(dá)了這一思想：

即在最大化給定歷史幀 ( ) 和動(dòng)作序列 ( ) 的條件下，預(yù)測(cè)下一幀狀態(tài) ( ) 的似然概率。

簡(jiǎn)單來(lái)說(shuō)，就是讓模型學(xué)會(huì)根據(jù)過(guò)去看到的畫(huà)面和執(zhí)行過(guò)的動(dòng)作，盡可能準(zhǔn)確地預(yù)測(cè)下一幀畫(huà)面。

為了避免直接從零訓(xùn)練導(dǎo)致的計(jì)算開(kāi)銷和模式崩塌，LingBot-World 采取了分階段的訓(xùn)練策略。

預(yù)訓(xùn)練負(fù)責(zé)建立穩(wěn)健的通用視頻先驗(yàn)，確保高保真開(kāi)放域生成；中訓(xùn)練注入世界知識(shí)和動(dòng)作可控性，使模型能夠模擬具有一致交互邏輯的長(zhǎng)期堅(jiān)持動(dòng)態(tài)；后訓(xùn)練使架構(gòu)適應(yīng)實(shí)時(shí)交互，采用因果注意力和少步蒸餾以實(shí)現(xiàn)低延遲和嚴(yán)格因果性。

備注：LingBot-World 模型訓(xùn)練流程。

從“生成視頻”到“模擬世界”，LingBot-World 帶來(lái)的可能性

LingBot-World 的意義絕不僅在于生成一段精美的視頻，而在于它提供了一個(gè)高保真的物理交互沙盒，成為具身智能、自動(dòng)駕駛與虛擬現(xiàn)實(shí)等下游任務(wù)的通用基礎(chǔ)設(shè)施。

LingBot-World 最直觀的突破在于它賦予了通過(guò)自然語(yǔ)言控制模擬過(guò)程。例如，通過(guò)輸入“冬季”或“夜晚”，模型會(huì)渲染出城堡結(jié)冰或夜晚燈光變化的物理效果，同時(shí)支持向“像素風(fēng)”或“蒸汽朋克”等風(fēng)格的切換。還可以在具體場(chǎng)景中精確注入特定物體。例如，在城堡上空觸發(fā)煙花，或在噴泉中生成魚(yú)和鳥(niǎo)。

備注：在環(huán)境中生成煙花效果

備注：改變環(huán)境整體風(fēng)格

在自動(dòng)駕駛訓(xùn)練中，這種能力極具價(jià)值。算法團(tuán)隊(duì)可以人為制造“鬼探頭”、極端天氣或突發(fā)交通沖突，構(gòu)建出嚴(yán)苛的因果推理環(huán)境，從而低成本地解決智駕中的長(zhǎng)尾問(wèn)題。

深層物理特性的穩(wěn)定性，則為這種模擬提供了實(shí)際應(yīng)用的底座。得益于模型展現(xiàn)的長(zhǎng)程記憶，生成的視頻序列具備了較高的 3D 一致性，這使得視覺(jué)信息可以直接轉(zhuǎn)化為場(chǎng)景點(diǎn)云，從而服務(wù)于 3D 重建或高精度仿真任務(wù)。

備注：LingBot-World 具有很好的 3D 一致性?？梢钥吹?，視角變化的情況下，房間結(jié)構(gòu)和物理性狀仍然保持穩(wěn)定。

這種穩(wěn)定性試圖觸及具身智能訓(xùn)練中的一個(gè)核心痛點(diǎn)：機(jī)器人的導(dǎo)航或復(fù)雜操作往往涉及跨越長(zhǎng)時(shí)序的決策序列。LingBot-World 展現(xiàn)的 10 分鐘級(jí)別生成能力，在理論上為多步驟任務(wù)提供了更穩(wěn)定的物理一致性。如果這種長(zhǎng)程模擬能有效控制累積誤差，將有助于機(jī)器人在虛擬環(huán)境中進(jìn)行高頻次、深度、低成本試錯(cuò)。

在此基礎(chǔ)上，LingBot-World 與 LingBot-VLA（視覺(jué) - 語(yǔ)言 - 動(dòng)作模型）的結(jié)合，勾勒出了一種具身大腦的閉環(huán)方案。在這種設(shè)定下，世界模型充當(dāng)了機(jī)器人的“內(nèi)部模擬器”：在 VLA 模型輸出最終指令前，系統(tǒng)可以在虛擬空間中先行演練不同的動(dòng)作軌跡，評(píng)估其物理后果，從而篩選出更符合物理規(guī)律且具備安全性的執(zhí)行路徑。

令人驚喜的是，利用訓(xùn)練 LingBot-World 的數(shù)據(jù)，螞蟻靈波團(tuán)隊(duì)還微調(diào)出了動(dòng)作智能體。智能體可以被置于 LingBot-World 打造的環(huán)境中，Agent 的動(dòng)作改變會(huì)實(shí)時(shí)重塑環(huán)境狀態(tài)，而環(huán)境的演變則反過(guò)來(lái)決定 Agent 的下一步?jīng)Q策。

備注：靈波團(tuán)隊(duì)利用 LingBot-World 相同數(shù)據(jù)訓(xùn)練處的自主智能體，能在生成的世界中自主規(guī)劃并執(zhí)行動(dòng)作。

這種互動(dòng)揭示了世界模型在“模擬沙盒”之外的另一種可能——它不僅能理解環(huán)境對(duì)智能體變化的響應(yīng)，也具備預(yù)測(cè)智能體動(dòng)作流的能力。

這意味著，世界模型未來(lái)或許不僅僅是訓(xùn)練智能體的工具，也有可能成為驅(qū)動(dòng)智能體（包括機(jī)器人）的底座。

項(xiàng)目官網(wǎng)：

https://technology.robbyant.com/lingbot-world

論文連接：

https://arxiv.org/abs/2601.20540

代碼和模型權(quán)重下載:

https://github.com/robbyant/lingbot-world

https://huggingface.co/robbyant/lingbot-world

https://www.modelscope.cn/models/Robbyant/lingbot-world-base-cam

會(huì)議推薦

InfoQ 2026 全年會(huì)議規(guī)劃已上線！從 AI Infra 到 Agentic AI，從 AI 工程化到產(chǎn)業(yè)落地，從技術(shù)前沿到行業(yè)應(yīng)用，全面覆蓋 AI 與軟件開(kāi)發(fā)核心賽道！集結(jié)全球技術(shù)先鋒，拆解真實(shí)生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點(diǎn)，探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能，獲取實(shí)戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察，高效實(shí)現(xiàn)技術(shù)價(jià)值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點(diǎn)，搶占 2026 智能升級(jí)發(fā)展先機(jī)！

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.