国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

世界模型混戰(zhàn),螞蟻炸出開(kāi)源牌

0
分享至


作者 | 姚戈

世界模型領(lǐng)域迎來(lái)了一個(gè)重要開(kāi)源模型。

今天,螞蟻集團(tuán)旗下的具身智能公司“螞蟻靈波”,正式發(fā)布并開(kāi)源其通用世界模型 LingBot-World。與許多閉源方案不同,螞蟻靈波選擇全面開(kāi)源代碼和模型權(quán)重,而且不綁定任何特定硬件或平臺(tái)。

去年 DeepMind 發(fā)布的 Genie 3,讓人們看到了世界模型能夠根據(jù)文本或圖像提示,實(shí)時(shí)生成一個(gè)可探索的動(dòng)態(tài)虛擬世界。LingBot-World 沿襲了這條路線,并在交互能力、高動(dòng)態(tài)穩(wěn)定性、長(zhǎng)時(shí)序連貫性以及物理一致性等維度取得了突破。

更令人驚喜的是,LingBot-World 呈現(xiàn)出從“生成”到“模擬”的跨越。隨著模型規(guī)模的擴(kuò)大,靈波團(tuán)隊(duì)觀察到,LingBot-World 開(kāi)始表現(xiàn)出遠(yuǎn)超普通視頻生成的復(fù)雜行為,涌現(xiàn)出對(duì)空間關(guān)系、時(shí)間連續(xù)性和物理規(guī)律的理解。

可以看到,鴨子腿部蹬水的動(dòng)作、水面對(duì)擾動(dòng)的響應(yīng)、以及鴨子身體與水之間的相互作用都比較符合物理規(guī)律。

這顯示出模型不僅記住了視覺(jué)表象,還在某種程度上理解了流體力學(xué)等基礎(chǔ)物理機(jī)制。同時(shí),水面對(duì)擾動(dòng)的反應(yīng),顯示出模型對(duì)因果關(guān)系的理解。

用戶切換視角后再回來(lái)時(shí),環(huán)境中的智能體(比如這只貓)仍能保持持久記憶。智能體即使沒(méi)有被觀察到,也能持續(xù)行動(dòng)。這確保了當(dāng)視角回歸時(shí),世界狀態(tài)會(huì)自然推進(jìn)。

當(dāng)環(huán)境中智能體(這只貓)碰到沙發(fā)后,沒(méi)有穿透沙發(fā),反而向空地走去??梢钥吹?,LingBot-World 遵循了空間的邏輯,讓智能體運(yùn)動(dòng)具有物理的合理性。

這是一個(gè)長(zhǎng)達(dá) 9 分 20 秒的視頻,沒(méi)有經(jīng)過(guò)任何剪輯和拼貼。視頻為用戶第一視角,從一座破舊的古希臘神廟出發(fā),沿城市小徑前行,經(jīng)過(guò)一座新古典主義建筑,再向左進(jìn)入一片復(fù)原的古希臘建筑群。

在近十分鐘內(nèi),畫(huà)面保持了較為穩(wěn)定的物理狀態(tài)和視覺(jué)質(zhì)量,這在目前的視頻生成模型和世界模型中都比較罕見(jiàn)。

不過(guò),在視頻最后幾分鐘,建筑之間的位置關(guān)系似乎被模型遺忘了。在 7:00,新古典主義建筑和復(fù)原式古希臘建筑群是連接在一起的;但 7:31,從復(fù)原式古希臘建筑群望向新古典主義建筑時(shí),新古典主義建筑消失了。8:30 回到新古典主義建筑時(shí),它成為了一棟孤立的房子。

盡管存在這些細(xì)節(jié)瑕疵,LingBot-World 的進(jìn)步依然顯著——單次生成接近 10 分鐘的連貫視頻,很可能刷新了當(dāng)前視頻 / 世界模型的長(zhǎng)度紀(jì)錄。作為對(duì)比,Veo 3 和 Sora 2 的單次生成上限分別為 8 秒和 25 秒,Runway Gen-3 Alpha 為 40 秒,Kling 最長(zhǎng)支持 2 分鐘。

與其他交互世界模型相比,LingBot-World 在開(kāi)源、提供 720p 分辨率的情況下,還保證了高動(dòng)態(tài)程度和長(zhǎng)生成跨度。


在 VBench 測(cè)試中,LingBot-World 全面領(lǐng)先于 Yume-1.5 和 HY World-1.5 等先進(jìn)開(kāi)源模型,證明了自己不僅是一個(gè)視頻生成器,更是一個(gè)強(qiáng)大的交互式模擬器。通過(guò)接收用戶輸入的動(dòng)作指令,它能夠生成高度動(dòng)態(tài)且物理一致的視覺(jué)反饋,保持在高動(dòng)態(tài)度下的整體一致性,使視頻內(nèi)容在長(zhǎng)時(shí)間段內(nèi)始終與最初的提示保持一致。


在看到大語(yǔ)言模型的局限后,世界模型成為火熱賽道。Google、李飛飛、Yann LeCun 以及眾多科學(xué)家紛紛指出,LLM 無(wú)法很好地理解物理世界、因果關(guān)系,而“世界模型”是 AI 走向真實(shí)物理世界深度理解的一個(gè)解。

至于“世界模型”究竟該長(zhǎng)什么樣,行業(yè)至今尚無(wú)統(tǒng)一標(biāo)準(zhǔn)。

李飛飛的 Marble 正專注理解空間關(guān)系;英偉達(dá)把世界模型細(xì)分為預(yù)測(cè)模型、風(fēng)格遷移模型、推理模型;DeepMind 團(tuán)隊(duì)的 Genie 3,則試圖在同一個(gè)模型中,實(shí)現(xiàn)端到端的實(shí)時(shí)渲染。

路線的分歧,也反應(yīng)了行業(yè)需求的多樣性,以及尋找解決方案的困難——無(wú)論是智能駕駛、具身智能,還是游戲,都在尋找各自需要的智能方案,以及合適的開(kāi)發(fā)范式和入口。

螞蟻靈波的世界模型方案更接近 Genie 3,旨在成為一個(gè)通用模型,為 Agent、具身智能、游戲、仿真等領(lǐng)域提供理解世界物理規(guī)律的基礎(chǔ)設(shè)施平臺(tái)。

通過(guò)開(kāi)源其訓(xùn)練方法、模型權(quán)重等內(nèi)容,螞蟻靈波不僅展示了其在具身智能領(lǐng)域的戰(zhàn)略布局,也為行業(yè)提供了探索世界模型更多可能性的契機(jī),幫助降低驗(yàn)證世界模型的門檻。

這一周,螞蟻靈波對(duì)外集中發(fā)布和開(kāi)源模型研究成果,相繼發(fā)布并開(kāi)源空間感知模型 LingBot-Depth、具身大模型 LingBot-VLA。

如今,隨著 LingBot-World 的發(fā)布,螞蟻靈波正從幕后走向臺(tái)前。螞蟻靈波的目標(biāo)是打造一個(gè)開(kāi)放、通用的智能基座,與越來(lái)越多行業(yè)和廠商共建生態(tài)。這一次,它用開(kāi)源的方式,向世界拋出了自己的世界模型范式。

構(gòu)建世界模型的夢(mèng)想和努力

在深入探討螞蟻團(tuán)隊(duì)通用世界模型的細(xì)節(jié)之前,我們需要花點(diǎn)時(shí)間,回顧一下 1990 年世界模型的開(kāi)始。這將幫助我們更清楚地理解過(guò)去 30 多年中“世界模型”研究的變與不變、當(dāng)前世界模型技術(shù)路線之爭(zhēng)的焦點(diǎn),從而更好地理解螞蟻是在怎樣的方向和基礎(chǔ)上努力。

世界模型 40 年,變與不變

1990 年,強(qiáng)化學(xué)習(xí)領(lǐng)域奠基人、2024 圖靈獎(jiǎng)獲得者 Richard S. Sutton 在人類認(rèn)知學(xué)習(xí)過(guò)程的啟發(fā)下,在論文《Dyna, an Integrated Architecture for Learning, Planning, and Reacting》中提出了一個(gè)開(kāi)創(chuàng)性架構(gòu):智能體不應(yīng)只靠真實(shí)世界試錯(cuò)學(xué)習(xí),而應(yīng)構(gòu)建一個(gè)內(nèi)部世界模型,在“腦?!敝心M動(dòng)作后果,低成本地進(jìn)行規(guī)劃與策略優(yōu)化。


備注:圖片來(lái)自 Dyna 論文。圖片呈現(xiàn)的是 Dyna 框架的核心邏輯,智能體的目標(biāo)是最大化其在時(shí)間維度上累積獲得的總獎(jiǎng)勵(lì)。

在 Dyna 框架中,世界模型也被稱為動(dòng)作模型,它被視為一個(gè)“黑盒子”,輸入當(dāng)前的情境和動(dòng)作,輸出對(duì)下一個(gè)情境和即時(shí)獎(jiǎng)勵(lì)的預(yù)測(cè)。模型的作用是模擬現(xiàn)實(shí)世界,Agent 通過(guò)與現(xiàn)實(shí)世界的持續(xù)互動(dòng)產(chǎn)生經(jīng)驗(yàn),并利用這些經(jīng)驗(yàn)通過(guò)監(jiān)督學(xué)習(xí)方法來(lái)改進(jìn)模型,使其更接近真實(shí)的物理規(guī)律。

在 2026 年回顧這篇 36 年前的論文,會(huì)發(fā)現(xiàn)這份古早的研究為理解當(dāng)下復(fù)雜的技術(shù)路線之爭(zhēng)提供了共同的根基——

對(duì)世界模型的探究,起源于對(duì)人類、機(jī)器,以及更廣泛的智能體如何學(xué)習(xí)和行動(dòng)的好奇。

而“世界模型”作為一種方法,提出的解決方案是在模擬出的世界中,讓智能體學(xué)習(xí)、行動(dòng)、獲得反饋和迭代。

Dyna 這篇論文的核心理念,成為了今天世界模型的研究的底層思路。

不管是 NVIDIA Cosmos、World labs、Google Genie,還是 LingBot-World,都沿襲了 Dyna 的核心理念:世界模型是為智能體提供“模擬經(jīng)驗(yàn)”的內(nèi)部環(huán)境,使得智能體可以在一個(gè)虛擬的環(huán)境中進(jìn)行規(guī)劃和策略訓(xùn)練。

在不同方向的探索中,我們可以得到的共識(shí)是:世界模型從多樣化的輸入數(shù)據(jù)中學(xué)習(xí)對(duì)真實(shí)世界環(huán)境的內(nèi)部表征,包括物理規(guī)律、空間動(dòng)態(tài)和因果關(guān)系等。這些表征幫助模型預(yù)測(cè)未來(lái)狀態(tài),模擬動(dòng)作序列,并支持復(fù)雜的規(guī)劃與決策,而不需要反復(fù)進(jìn)行真實(shí)世界的實(shí)驗(yàn)。

36 年過(guò)去,我們正站在大語(yǔ)言模型的陰影和語(yǔ)境中討論世界模型。LLM 在理解真實(shí)物理世界、及模擬 / 預(yù)測(cè)未來(lái)后果等方面的局限,正加速科研和商業(yè)領(lǐng)域?qū)κ澜缒P偷奶剿鳌?/p>

在 2025 年的一次訪談中,Dyna 的創(chuàng)作者 Richard S. Sutton 強(qiáng)調(diào),LLM 已經(jīng)走到了瓶頸。他指出,LLM 的核心缺陷在于,它們僅僅是在模仿人類行為,而無(wú)法理解世界、預(yù)測(cè)現(xiàn)實(shí)世界中的未來(lái)事件。他提倡放棄基于 LLM 的路徑,轉(zhuǎn)而開(kāi)發(fā)基于強(qiáng)化學(xué)習(xí)、擁有世界轉(zhuǎn)換模型(Transition model of the world)。這種世界模型不僅能學(xué)習(xí)獎(jiǎng)勵(lì),還能從所有感官信息中獲取環(huán)境的豐富理解,最終能夠預(yù)測(cè)“如果做某事,后果將是什么”。

大語(yǔ)言模型在理解真實(shí)物理世界的不足,以及模擬 / 預(yù)測(cè)未來(lái)后果的不足,讓一批科學(xué)家轉(zhuǎn)向,在世界模型中尋找解法。

李飛飛認(rèn)為 LLM 缺乏對(duì)物理世界的感知,提出“空間智能”(Spatial Intelligence)是 AI 的下一個(gè)北極星,AI 需要理解三維空間、幾何、物理規(guī)則以及因果關(guān)系,才能從“理解文本”邁向“理解并作用于物理世界”。

Yann LeCun 則批評(píng) LLM 依賴文本概率預(yù)測(cè),感知學(xué)習(xí)世界的方式背道而馳。為此,他推廣 JEPA(聯(lián)合嵌入預(yù)測(cè)架構(gòu)),并成立 AMI Labs,通過(guò)世界模型的路徑實(shí)現(xiàn) AGI,探索如何讓 AI 系統(tǒng)具備理解物理世界、持久記憶、邏輯推理以及復(fù)雜任務(wù)規(guī)劃能力。

DeepMind 聯(lián)合創(chuàng)始人兼 CEO Demis Hassabis 在今年 1 月的對(duì)談節(jié)目中強(qiáng)調(diào),目前的 AI 系統(tǒng)還不能理解物理世界、因果關(guān)系、行為如何影響結(jié)果,而精確的世界模型是實(shí)現(xiàn)科學(xué)發(fā)現(xiàn)或理論創(chuàng)新的關(guān)鍵。他表示,Genie 這樣的模型還只是“胚胎期世界模型”,Genie 體現(xiàn)出的,生成關(guān)于世界的內(nèi)容的能力,某種程度上體現(xiàn)了模型理解了世界的知識(shí)。

Google AI 團(tuán)隊(duì)深度押注了世界模型的發(fā)展,并認(rèn)為它會(huì)在 2026 年贏得重大發(fā)展。Hassabis 在談及 2026 年的突破和期待時(shí)提到,“最令我興奮的,莫過(guò)于進(jìn)一步推動(dòng)‘世界模型’的發(fā)展,提升其運(yùn)行效率,從而使其能夠真正被用于我們通用模型中的‘規(guī)劃’環(huán)節(jié)。”這可能意味著,未來(lái)世界模型將融入 Gemini 這樣的基礎(chǔ)模型中。

世界模型的路線分歧

在探索 AGI 的道路時(shí),螞蟻集團(tuán)也看到了世界模型的潛力。

作為螞蟻集團(tuán)旗下的具身智能企業(yè),螞蟻靈波的定位是“智能基座公司”,致力于打造一個(gè)能夠理解世界、物理規(guī)律以及時(shí)空演化的 AI 系統(tǒng)。而世界模型正是實(shí)現(xiàn)這一目標(biāo)的重要方式之一。

盡管各方都將世界模型視為未來(lái)的關(guān)鍵技術(shù),然而不同公司選擇的路徑卻各不相同??傮w上,這些路徑可以分為生成式和非生成式兩類,兩種路徑的核心區(qū)別在于預(yù)測(cè)空間。

NVIDIA Cosmos、DeepMind Genie 和 World Labs 都是生成式路徑的代表。

Cosmos 和 Genie 主要使用由像素構(gòu)成的觀測(cè)空間,利用大規(guī)模高維視覺(jué)數(shù)據(jù)訓(xùn)練,通過(guò)特定的時(shí)空架構(gòu)設(shè)計(jì),讓模型產(chǎn)生對(duì)三維物理世界的理解。Genie 3 官網(wǎng)中特別提到“Genie 3 的一致性是一種涌現(xiàn)能力……Genie 3 生成的世界更為動(dòng)態(tài)和豐富,因?yàn)樗鼈兪腔谑澜缑枋龊陀脩魟?dòng)作逐幀創(chuàng)建的?!?/p>

World Labs 則另辟蹊徑,將預(yù)測(cè)空間設(shè)定為在 3D 空間中帶有位姿的幀,通過(guò)查詢待生成幀的位姿來(lái)生成新圖像。其發(fā)布的 RTFM 模型表明:“模型對(duì)世界的記憶(存儲(chǔ)在各個(gè)幀中)具備了空間結(jié)構(gòu);它將帶有位姿信息的幀視作一種‘空間存儲(chǔ)’,這賦予了模型一種弱先驗(yàn)——即所建模的世界是三維歐幾里得空間,而無(wú)需強(qiáng)迫模型顯式預(yù)測(cè)該世界中的物體幾何結(jié)構(gòu)?!?/p>

非生成路徑的代表是 Yann LeCun 的聯(lián)合嵌入預(yù)測(cè)架構(gòu)(Joint Embedding Predictive Architecture, JEPA)。JEPA 通過(guò)編碼器將輸入轉(zhuǎn)化為潛空間(Latent Space),并在該空間內(nèi)預(yù)測(cè)未來(lái)抽象表征(Embeddings),從而無(wú)需進(jìn)行像素級(jí)的重建。

螞蟻靈波的 LingBot-World 選擇了類似 Genie 的路徑,試圖在此基礎(chǔ)上解決從視頻生成到世界模擬之間的技術(shù)障礙。

拆解 LingBot-World

在前文的案例和分析中,我們看到螞蟻靈波的 LingBot-World 沿襲了 Gienie 的生成式路線,同時(shí)在交互能力、高動(dòng)態(tài)穩(wěn)定性、長(zhǎng)時(shí)序連貫性以及物理一致性上表現(xiàn)驚艷。

在此基礎(chǔ)上,螞蟻靈波選擇開(kāi)源代碼和模型權(quán)重,并在論文中完整披露了從數(shù)據(jù)采集到訓(xùn)練部署的全鏈路設(shè)計(jì),鼓勵(lì)社區(qū)測(cè)試、使用和復(fù)現(xiàn)。

即使是在近 10 分鐘的超長(zhǎng)視頻中、或是快速運(yùn)動(dòng)下,畫(huà)面中的物體依然保持了較為穩(wěn)定的幾何物理特性,沒(méi)有出現(xiàn)視頻生成模型常見(jiàn)的崩壞。這種穩(wěn)定性,源于其獨(dú)特的數(shù)據(jù)引擎和模型架構(gòu)設(shè)計(jì)。

數(shù)據(jù)引擎

許多從視頻生成模型切入世界模型研發(fā)的團(tuán)隊(duì),很快會(huì)撞到數(shù)據(jù)瓶頸。

互聯(lián)網(wǎng)上浩如煙海的短視頻大多是“被動(dòng)”記錄,缺乏因果鏈條。對(duì)于世界模型而言,它需要理解的是動(dòng)作和后果之間的關(guān)系。

比如:“按下 W 鍵向前走,門是否會(huì)打開(kāi)?”“繞到建筑背面,窗戶是否依然存在?”這類智能體動(dòng)作與環(huán)境反饋之間的因果閉環(huán),在普通視頻中幾乎不存在,在真實(shí)世界中規(guī)?;杉某杀疽埠芨?。

為了構(gòu)建“動(dòng)作 - 反饋”的閉環(huán),LingBot-World 打造了從采集、處理到標(biāo)注的流程。

LingBot-World 的數(shù)據(jù)包含通用視頻、游戲數(shù)據(jù)和合成渲染數(shù)據(jù),以確保訓(xùn)練語(yǔ)料的豐富性、高質(zhì)量和交互性。為游戲數(shù)據(jù),靈波團(tuán)隊(duì)還開(kāi)發(fā)了專門的平臺(tái),捕獲 RGB 幀并嚴(yán)格對(duì)齊用戶的輸入和相機(jī)參數(shù)。合成數(shù)據(jù)由 Unreal Engine 生成,帶有精確相機(jī)數(shù)據(jù)和自定義軌跡。


備注:LingBot-World 數(shù)據(jù)處理和標(biāo)注流程

在數(shù)據(jù)處理層面,靈波團(tuán)隊(duì)首先對(duì)原始視頻進(jìn)行質(zhì)量篩選與切分,生成結(jié)構(gòu)清晰的視頻片段;然后借助 VLM 視頻的視覺(jué)質(zhì)量、場(chǎng)景類型和視角等,結(jié)合幾何標(biāo)注提供必要的 3D 結(jié)構(gòu)先驗(yàn),產(chǎn)出元數(shù)據(jù)。

在此基礎(chǔ)上,團(tuán)隊(duì)引入三種不同粒度的描述標(biāo)注,涵蓋視頻全過(guò)程的宏觀描述、去除了動(dòng)作和相機(jī)數(shù)據(jù)的靜態(tài)描寫(xiě),以及帶有時(shí)間標(biāo)注的描述。

模型構(gòu)建和訓(xùn)練

LingBot-World 將世界模型定義為一個(gè)條件生成過(guò)程,模擬由智能體動(dòng)作驅(qū)動(dòng)的視覺(jué)狀態(tài)演化。

從模型構(gòu)建和訓(xùn)練過(guò)程,我們可以看到,LingBot-World 是從“視頻生成模型”起步,通過(guò)不同階段訓(xùn)練,讓模型從“生成”走向“模擬”。

從目標(biāo)函數(shù)上看,這種模擬本質(zhì)上是一種概率預(yù)測(cè) 。

LingBot-World 的目標(biāo)函數(shù)明確表達(dá)了這一思想:

即在最大化給定歷史幀 ( ) 和動(dòng)作序列 ( ) 的條件下,預(yù)測(cè)下一幀狀態(tài) ( ) 的似然概率。

簡(jiǎn)單來(lái)說(shuō),就是讓模型學(xué)會(huì)根據(jù)過(guò)去看到的畫(huà)面和執(zhí)行過(guò)的動(dòng)作,盡可能準(zhǔn)確地預(yù)測(cè)下一幀畫(huà)面。

為了避免直接從零訓(xùn)練導(dǎo)致的計(jì)算開(kāi)銷和模式崩塌,LingBot-World 采取了分階段的訓(xùn)練策略。

預(yù)訓(xùn)練負(fù)責(zé)建立穩(wěn)健的通用視頻先驗(yàn),確保高保真開(kāi)放域生成;中訓(xùn)練注入世界知識(shí)和動(dòng)作可控性,使模型能夠模擬具有一致交互邏輯的長(zhǎng)期堅(jiān)持動(dòng)態(tài);后訓(xùn)練使架構(gòu)適應(yīng)實(shí)時(shí)交互,采用因果注意力和少步蒸餾以實(shí)現(xiàn)低延遲和嚴(yán)格因果性。


備注:LingBot-World 模型訓(xùn)練流程。

從“生成視頻”到“模擬世界”,LingBot-World 帶來(lái)的可能性

LingBot-World 的意義絕不僅在于生成一段精美的視頻,而在于它提供了一個(gè)高保真的物理交互沙盒,成為具身智能、自動(dòng)駕駛與虛擬現(xiàn)實(shí)等下游任務(wù)的通用基礎(chǔ)設(shè)施。

LingBot-World 最直觀的突破在于它賦予了通過(guò)自然語(yǔ)言控制模擬過(guò)程。例如,通過(guò)輸入“冬季”或“夜晚”,模型會(huì)渲染出城堡結(jié)冰或夜晚燈光變化的物理效果,同時(shí)支持向“像素風(fēng)”或“蒸汽朋克”等風(fēng)格的切換。還可以在具體場(chǎng)景中精確注入特定物體。例如,在城堡上空觸發(fā)煙花,或在噴泉中生成魚(yú)和鳥(niǎo)。

備注:在環(huán)境中生成煙花效果

備注:改變環(huán)境整體風(fēng)格

在自動(dòng)駕駛訓(xùn)練中,這種能力極具價(jià)值。算法團(tuán)隊(duì)可以人為制造“鬼探頭”、極端天氣或突發(fā)交通沖突,構(gòu)建出嚴(yán)苛的因果推理環(huán)境,從而低成本地解決智駕中的長(zhǎng)尾問(wèn)題。

深層物理特性的穩(wěn)定性,則為這種模擬提供了實(shí)際應(yīng)用的底座。得益于模型展現(xiàn)的長(zhǎng)程記憶,生成的視頻序列具備了較高的 3D 一致性,這使得視覺(jué)信息可以直接轉(zhuǎn)化為場(chǎng)景點(diǎn)云,從而服務(wù)于 3D 重建或高精度仿真任務(wù)。

備注:LingBot-World 具有很好的 3D 一致性??梢钥吹?,視角變化的情況下,房間結(jié)構(gòu)和物理性狀仍然保持穩(wěn)定。

這種穩(wěn)定性試圖觸及具身智能訓(xùn)練中的一個(gè)核心痛點(diǎn):機(jī)器人的導(dǎo)航或復(fù)雜操作往往涉及跨越長(zhǎng)時(shí)序的決策序列。LingBot-World 展現(xiàn)的 10 分鐘級(jí)別生成能力,在理論上為多步驟任務(wù)提供了更穩(wěn)定的物理一致性。如果這種長(zhǎng)程模擬能有效控制累積誤差,將有助于機(jī)器人在虛擬環(huán)境中進(jìn)行高頻次、深度、低成本試錯(cuò)。

在此基礎(chǔ)上,LingBot-World 與 LingBot-VLA(視覺(jué) - 語(yǔ)言 - 動(dòng)作模型)的結(jié)合,勾勒出了一種具身大腦的閉環(huán)方案。在這種設(shè)定下,世界模型充當(dāng)了機(jī)器人的“內(nèi)部模擬器”:在 VLA 模型輸出最終指令前,系統(tǒng)可以在虛擬空間中先行演練不同的動(dòng)作軌跡,評(píng)估其物理后果,從而篩選出更符合物理規(guī)律且具備安全性的執(zhí)行路徑。

令人驚喜的是,利用訓(xùn)練 LingBot-World 的數(shù)據(jù),螞蟻靈波團(tuán)隊(duì)還微調(diào)出了動(dòng)作智能體。智能體可以被置于 LingBot-World 打造的環(huán)境中,Agent 的動(dòng)作改變會(huì)實(shí)時(shí)重塑環(huán)境狀態(tài),而環(huán)境的演變則反過(guò)來(lái)決定 Agent 的下一步?jīng)Q策。

備注:靈波團(tuán)隊(duì)利用 LingBot-World 相同數(shù)據(jù)訓(xùn)練處的自主智能體,能在生成的世界中自主規(guī)劃并執(zhí)行動(dòng)作。

這種互動(dòng)揭示了世界模型在“模擬沙盒”之外的另一種可能——它不僅能理解環(huán)境對(duì)智能體變化的響應(yīng),也具備預(yù)測(cè)智能體動(dòng)作流的能力。

這意味著,世界模型未來(lái)或許不僅僅是訓(xùn)練智能體的工具,也有可能成為驅(qū)動(dòng)智能體(包括機(jī)器人)的底座。

項(xiàng)目官網(wǎng):

https://technology.robbyant.com/lingbot-world

論文連接:

https://arxiv.org/abs/2601.20540

代碼和模型權(quán)重下載:

https://github.com/robbyant/lingbot-world

https://huggingface.co/robbyant/lingbot-world

https://www.modelscope.cn/models/Robbyant/lingbot-world-base-cam

會(huì)議推薦

InfoQ 2026 全年會(huì)議規(guī)劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產(chǎn)業(yè)落地,從技術(shù)前沿到行業(yè)應(yīng)用,全面覆蓋 AI 與軟件開(kāi)發(fā)核心賽道!集結(jié)全球技術(shù)先鋒,拆解真實(shí)生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點(diǎn),探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能,獲取實(shí)戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察,高效實(shí)現(xiàn)技術(shù)價(jià)值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點(diǎn),搶占 2026 智能升級(jí)發(fā)展先機(jī)!

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
長(zhǎng)城汽車魏建軍承認(rèn)抄襲路虎海報(bào):責(zé)任主要在我,愿承擔(dān)全部法律和經(jīng)濟(jì)責(zé)任

長(zhǎng)城汽車魏建軍承認(rèn)抄襲路虎海報(bào):責(zé)任主要在我,愿承擔(dān)全部法律和經(jīng)濟(jì)責(zé)任

新浪財(cái)經(jīng)
2026-03-06 20:19:19
4換1!湖人牛逼??!他真的出問(wèn)題了

4換1!湖人牛逼?。∷娴某鰡?wèn)題了

小染說(shuō)臺(tái)球
2026-03-08 15:30:57
一個(gè)人可以廢物到什么程度?網(wǎng)友:這是爛泥扶不上墻!

一個(gè)人可以廢物到什么程度?網(wǎng)友:這是爛泥扶不上墻!

另子維愛(ài)讀史
2026-02-28 21:00:25
baby化濃妝穿旗袍唱歌!煙不離手還請(qǐng)男模,表情浮夸詭異疑精神失常

baby化濃妝穿旗袍唱歌!煙不離手還請(qǐng)男模,表情浮夸詭異疑精神失常

八卦王者
2026-03-08 11:57:29
1-0!巴薩3連勝:西甲4分領(lǐng)跑,后11輪2場(chǎng)惡戰(zhàn),贏1場(chǎng)基本奪冠

1-0!巴薩3連勝:西甲4分領(lǐng)跑,后11輪2場(chǎng)惡戰(zhàn),贏1場(chǎng)基本奪冠

體育知多少
2026-03-08 07:12:35
中天科技:被嚴(yán)重低估的“算力血管”龍頭,新一輪漲價(jià)潮最大贏家

中天科技:被嚴(yán)重低估的“算力血管”龍頭,新一輪漲價(jià)潮最大贏家

Thurman在昆明
2026-03-08 12:45:29
北京四國(guó)手+上海三巨頭+廣廈王炸!CBA新規(guī)逼瘋廣東,奪冠沒(méi)戲了

北京四國(guó)手+上海三巨頭+廣廈王炸!CBA新規(guī)逼瘋廣東,奪冠沒(méi)戲了

緋雨兒
2026-03-08 14:36:26
伊朗發(fā)射超重型導(dǎo)彈復(fù)仇 美稱不會(huì)達(dá)成任何協(xié)議 聯(lián)合國(guó)警告局勢(shì)可能失控

伊朗發(fā)射超重型導(dǎo)彈復(fù)仇 美稱不會(huì)達(dá)成任何協(xié)議 聯(lián)合國(guó)警告局勢(shì)可能失控

健身狂人
2026-03-08 16:04:55
女子拿錯(cuò)凳被潑螺螄粉湯后續(xù),黑衣女好友及家人受牽連,本人社死

女子拿錯(cuò)凳被潑螺螄粉湯后續(xù),黑衣女好友及家人受牽連,本人社死

吃貨的分享
2026-03-08 13:13:26
鄒市明一家國(guó)外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

鄒市明一家國(guó)外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

小徐講八卦
2026-03-01 05:51:11
2026年養(yǎng)老金確定上漲,漲幅有驚喜,還有好消息

2026年養(yǎng)老金確定上漲,漲幅有驚喜,還有好消息

阿曇你好
2026-03-08 14:33:33
73歲關(guān)牧村離婚36年,不見(jiàn)前夫卻允許唯一的兒子前去探望

73歲關(guān)牧村離婚36年,不見(jiàn)前夫卻允許唯一的兒子前去探望

青杉依舊啊啊
2026-03-05 07:17:48
美國(guó)議員:禁止ASML向中國(guó)提供一切設(shè)備,不給中國(guó)任何機(jī)會(huì),從根源上拖垮中國(guó)先進(jìn)制程

美國(guó)議員:禁止ASML向中國(guó)提供一切設(shè)備,不給中國(guó)任何機(jī)會(huì),從根源上拖垮中國(guó)先進(jìn)制程

芯火相承
2026-03-08 16:39:08
劉亞樓被稱為103,號(hào)稱東野三號(hào)首長(zhǎng),實(shí)際有9位排他前面:都是誰(shuí)

劉亞樓被稱為103,號(hào)稱東野三號(hào)首長(zhǎng),實(shí)際有9位排他前面:都是誰(shuí)

舊史新譚
2026-03-08 14:11:09
相親遇到奇葩是啥體驗(yàn)?網(wǎng)友:看完渾身不舒服,你能給我賠點(diǎn)錢嗎

相親遇到奇葩是啥體驗(yàn)?網(wǎng)友:看完渾身不舒服,你能給我賠點(diǎn)錢嗎

帶你感受人間冷暖
2026-03-07 02:04:39
倪萍看望蔡磊,稱很受鼓舞,蔡磊發(fā)文:攻克漸凍癥的勝利晚會(huì),倪萍老師來(lái)主持,就這么愉快地約定了!其身體功能評(píng)分已降至個(gè)位數(shù)

倪萍看望蔡磊,稱很受鼓舞,蔡磊發(fā)文:攻克漸凍癥的勝利晚會(huì),倪萍老師來(lái)主持,就這么愉快地約定了!其身體功能評(píng)分已降至個(gè)位數(shù)

每日經(jīng)濟(jì)新聞
2026-03-08 00:00:00
軍事專家稱:照這么打下去,等伊朗導(dǎo)彈打光了,美國(guó)就笑到最后了

軍事專家稱:照這么打下去,等伊朗導(dǎo)彈打光了,美國(guó)就笑到最后了

我心縱橫天地間
2026-03-08 14:01:34
兩會(huì)外長(zhǎng)會(huì)丨王毅:解決臺(tái)灣問(wèn)題,實(shí)現(xiàn)祖國(guó)完全統(tǒng)一不可阻擋

兩會(huì)外長(zhǎng)會(huì)丨王毅:解決臺(tái)灣問(wèn)題,實(shí)現(xiàn)祖國(guó)完全統(tǒng)一不可阻擋

澎湃新聞
2026-03-08 11:52:04
網(wǎng)紅安靜公主自曝肛裂,今年手術(shù)做太多,被建議休息半個(gè)月再檢查

網(wǎng)紅安靜公主自曝肛裂,今年手術(shù)做太多,被建議休息半個(gè)月再檢查

君笙的拂兮
2026-03-05 07:22:01
他倆官宣結(jié)婚,朋友圈都炸了!

他倆官宣結(jié)婚,朋友圈都炸了!

黎兜兜
2026-03-07 21:19:02
2026-03-08 17:24:49
AI前線 incentive-icons
AI前線
面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1347文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

OpenClaw最大的推手是閑魚(yú)和小紅書(shū)

頭條要聞

伊朗軍方公布"家底":具備打至少6個(gè)月高強(qiáng)度戰(zhàn)爭(zhēng)能力

頭條要聞

伊朗軍方公布"家底":具備打至少6個(gè)月高強(qiáng)度戰(zhàn)爭(zhēng)能力

體育要聞

大傷后被交易,他說(shuō):22歲的我已經(jīng)死了

娛樂(lè)要聞

周迅新戀情曝光,李亞鵬等人已成過(guò)去

財(cái)經(jīng)要聞

油價(jià)要失控?

汽車要聞

9分鐘充飽 全新騰勢(shì)Z9GT首搭閃充技術(shù)26.98萬(wàn)起

態(tài)度原創(chuàng)

游戲
房產(chǎn)
健康
親子
公開(kāi)課

外媒盤點(diǎn)六大利器!新Xbox能否終結(jié)主機(jī)戰(zhàn)爭(zhēng)劣勢(shì)?

房產(chǎn)要聞

傳統(tǒng)學(xué)區(qū)房熄火?2月海口二手房爆火的板塊竟然是…

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

親子要聞

泰國(guó)老丈人滿心是欣欣 上班都沒(méi)心思 就想早點(diǎn)回家陪娃

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版