国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

螞蟻靈波,第一次讓我對世界模型的感受具象化了

0
分享至

和身邊投資人、創(chuàng)業(yè)者朋友聊,AI圈近幾年,每年都有能擾動所有人注意力的大詞:

23年是大模型,24年是具身智能,25年是Agent……

那么26年的關(guān)鍵詞的是什么呢?

一個很高頻提及的,是世界模型。

就在今天1月29日,螞蟻集團旗下的具身智能公司靈波科技,發(fā)布了世界模型 LingBot-World,并且全面開源。


https://technology.robbyant.com/lingbot-world

過去兩年的視頻生成模型,大體還停留在抽卡式影像拼接,但這次,更像是給 AI 安裝了一個可以長期運轉(zhuǎn)、能被人實時操控、還能記住世界狀態(tài)的「數(shù)字宇宙引擎」。

給大家看一下真實的部署后的效果:

比當時讓人感慨「物理學不存在了」的Sora,更進了一步。

它不只能生成好看的視頻,還嘗試回答一個更大的問題:AI 能不能在一個持續(xù)存在、可交互、符合物理直覺的世界里長期演化。


我只覺得,這次開源,如果理解為一個新模型發(fā)布就太小了,至少為很多AI團隊26年的發(fā)展方向指了條路——

把世界模型從論文概念,推進到工程可復現(xiàn)、社區(qū)可參與、產(chǎn)業(yè)可落地的階段。

在視頻保真度、動態(tài)幅度、長時一致性、實時交互能力上,LingBot-World整體水位,已經(jīng)不亞于Google Genie 3這一代閉源世界模型。


但它直接開源了權(quán)重和推理代碼,比去年DeepSeek R1的開源還要徹底。

似乎,很多行業(yè)都要因此改變了:具身智能、自動駕駛、游戲開發(fā),都將擁有一個高保真、可控、低成本試錯的數(shù)字演練場和新的AI引擎。


生成的一幀一幀畫面,第一次看到的時候,真的很震撼……

而完整的視頻呈現(xiàn),則是進一步把現(xiàn)實空間和物理場景,還原到了一個近乎超越真實的程度。

長記憶、廣視角、高連續(xù)的視覺呈現(xiàn),是靈波給我?guī)淼牡谝粋€驚喜。

像故宮這種宏大場景,非常豐富的建筑群,在連續(xù)性和一致性上都達到了很高的水準。

01. 從生成視頻到模擬世界:范式真的變了

靈波這次開源的技術(shù)路線,從關(guān)鍵數(shù)據(jù)的獲取到處理,再到建模、計算和訓練,都和之前的視頻模型及世界模型有很大不同。


世界模型最難的不是網(wǎng)絡結(jié)構(gòu),是數(shù)據(jù)。

普通網(wǎng)絡視頻無法提供“動作—環(huán)境變化”對齊信號,而這卻正是世界模型必須學習的因果。

LingBot-World構(gòu)建了一套混合數(shù)據(jù)引擎:

一部分來自清洗后的真實視頻,提供視覺多樣性;

一部分來自游戲錄制,嚴格對齊用戶操作、相機位姿和畫面;

還有一部分來自 Unreal Engine 合成管線,直接導出無 UI 干擾的純凈畫面和精確相機參數(shù)。

更關(guān)鍵的是他們設計了分層語義標注體系:

敘事級 caption、場景靜態(tài) caption、時間密集 caption 三層描述,把“環(huán)境是什么”和“鏡頭/動作發(fā)生了什么”解耦。


這種標注方式的本質(zhì),是在幫模型區(qū)分“世界狀態(tài)”和“觀察方式”,這對學習穩(wěn)定世界表征極其重要。

可以說,這套數(shù)據(jù)引擎不只是為 LingBot-World 服務,而是為未來所有開源世界模型提供了一個可參考的工業(yè)級范式。


過去的視頻大模型,很大程度上還是統(tǒng)計和概率:根據(jù)像素時序分布去猜下一幀長什么樣。

這類模型擅長做短視頻、情緒氛圍、鏡頭語言,但一旦時間拉長,問題就會暴露——角色換臉、建筑變形、物體消失、空間拓撲錯亂,都屬于典型的長時漂移(long-term drift)。

LingBot-World試圖跨過這道坎,它開始不再把任務定義為“生成一段視頻”,而去學習一個世界狀態(tài)在動作驅(qū)動下如何演進。

論文中把問題形式化為:在已有歷史畫面和動作序列的條件下,預測未來一段時間的世界狀態(tài)分布。

這種建模方式,在我看來已經(jīng)超出了視覺生成的范疇,轉(zhuǎn)向了“環(huán)境動力學建?!?。


這種差異尤其關(guān)鍵。

因為一旦模型真的學到“動作 → 世界變化”的因果關(guān)系,它就不只是內(nèi)容生成工具,變成了可被智能體利用的模擬器。

對機器人來說,它可以在這里先“想象”一條路徑再去現(xiàn)實執(zhí)行;

對自動駕駛來說,它可以在虛擬世界里經(jīng)歷極端長尾場景;

對游戲來說,它意味著開放世界不再依賴手工腳本,而可以實時生成、實時響應。

更重要的是,這種世界建模天然要求記憶能力。

LingBot-World 展示了一個非常具有象征意義的能力:鏡頭移開一個房子60秒,再轉(zhuǎn)回來,那個房子還在,結(jié)構(gòu)一致,位置合理。

不管是高速運動視角、俯拍還是仰拍,相關(guān)景象、物體始終出現(xiàn)在物理合理的位置。

游戲場景的迅速切換、形態(tài)及動作變化,很真實自然。

這說明模型內(nèi)部已經(jīng)形成了一種隱式的空間記憶和狀態(tài)延續(xù)的能力,已經(jīng)不是只盯著當前畫面做局部預測。

這也是給我的第二個驚喜——對物理世界的還原,尤其運動狀態(tài)或者游戲建模,非常遵循物理規(guī)律,而且能把復雜動態(tài)處理好。

02. 10分鐘無損長視頻:世界模型真正的門檻

長視頻穩(wěn)定生成不是錦上添花,是世界模型是否可用的生死線。

因為任何真實任務,比如找路、搬運、探索,比如物流、交通,都不是 5 秒鐘能完成的。

LingBot-World 通過多階段訓練和并行化推理,把連續(xù)穩(wěn)定生成時間推進到了接近 10 分鐘,并且在長時間鏡頭切換后,場景結(jié)構(gòu)仍能維持一致。

以此來看,模型開始具備長程任務承載能力,不再只是短時視覺玩具。

論文里有一個很關(guān)鍵的訓練策略:逐步拉長視頻時長的課程學習(curriculum learning)。


從原始數(shù)據(jù),到視頻片段,再到最終數(shù)據(jù)和敘事結(jié)構(gòu)。

模型會先在 5 秒視頻上建立基本視頻先驗,再逐步擴展到 60 秒甚至更長序列,讓它在高噪聲階段更多關(guān)注全局結(jié)構(gòu),從而減少長時漂移。

先學畫面,再學世界,分階段演化,把一個視頻生成模型,一步步馴化成了世界模擬器,感覺還是很有創(chuàng)意的。


同時,LingBot-World采用了 MoE(Mixture of Experts)結(jié)構(gòu),把擴散過程拆成高噪聲專家和低噪聲專家:

前者負責世界整體布局,后者負責細節(jié)打磨。

既保持了高分辨率視頻能力,又讓長程結(jié)構(gòu)更穩(wěn)定。

看這個結(jié)構(gòu)設計,靈波團隊沒有說是全盤推倒重來,是在現(xiàn)有視頻大模型技術(shù)棧上,做了有針對性的世界化改造。

看實際效果,各種細節(jié)也可圈可點。

03. 真正可玩:實時交互 + 文本觸發(fā)世界事件

如果只有長視頻,沒有實時性,它仍然只是離線渲染器。

LingBot-World另一個跨越式進展是:在約 16 FPS 吞吐下,把端到端交互延遲壓到 1 秒以內(nèi)。

也就是說,用戶按下鍵盤,畫面幾乎立刻響應,已經(jīng)接近可玩體驗的門檻。

技術(shù)上,他們做了兩件關(guān)鍵的事:

一是把雙向擴散模型蒸餾成因果自回歸結(jié)構(gòu),用 block causal attention 保留局部雙向信息,同時滿足全局時間因果;

二是通過 few-step distillation,把原本多步采樣壓縮成少步推理,才能實現(xiàn)準實時生成。


這個階段的訓練,本質(zhì)是在把“畫質(zhì)優(yōu)先的老師模型”壓縮成“速度優(yōu)先但邏輯仍在的學生模型”。

更有意思的是文本觸發(fā)世界事件能力。

用戶可以輸入“下雪”“夜晚”“像素風”“煙花”等提示,世界會在保持幾何結(jié)構(gòu)一致的前提下發(fā)生風格或物理狀態(tài)變化。

上一代世界模型,更多是簡單的風格遷移,但是靈波這次,是在一個持續(xù)世界狀態(tài)上施加條件干預。

從應用角度看,這就是未來數(shù)字孿生和訓練環(huán)境構(gòu)造的核心能力:人可以系統(tǒng)性地改變環(huán)境變量,不用重新生成一段無關(guān)視頻。

終于開始有了可以實時編輯、互動、修改變量的能力。

04. 開源的真正重量:不是模型,而是生態(tài)位

還有幾個讓我印象很深的亮點:

首先是動態(tài)離屏記憶,使模型能維持對視野外物體的持久性記憶,確保其在未被觀察時仍能自然演進;

其次是探索生成邊界,通過極高的時空相干性,支持生成超長且畫質(zhì)穩(wěn)定的高保真環(huán)境;

最后是具身物理約束,模型能夠遵循真實的碰撞動力學和空間邏輯,防止物體穿模或忽略物理屏障,從而生成符合物理規(guī)律的真實畫面。


基于這些持續(xù)涌現(xiàn),不斷演化的特質(zhì),一個世界模型生態(tài)的雛形已經(jīng)出現(xiàn)。

之前提到的游戲渲染、3D場景,還只是虛擬生態(tài)的延伸;而靈波代表的世界模型的觸角,已經(jīng)真實觸達了物理現(xiàn)實。

比如說,現(xiàn)實世界里,機器人訓練最大的瓶頸是:長程復雜任務數(shù)據(jù)極度稀缺。

真實機器人跑一次實驗成本高、周期長、風險大。

LingBot-World 就提供了一種折中方案:在一個高保真、長時一致、可交互的數(shù)字世界里,先進行大規(guī)模試錯。

它能支持不同光照、擺放變化、風格變化,天然具備 domain randomization 的效果,這對提升現(xiàn)實泛化能力至關(guān)重要。


同時,論文還展示了從生成視頻中進行 3D 重建的能力,點云結(jié)構(gòu)跨幀一致,說明模型內(nèi)部已經(jīng)隱式維持了幾何一致性。

這意味著世界模型未來可能成為3D 數(shù)據(jù)生成的源頭工廠,反向為具身感知模型提供訓練材料。

從更長遠看,我覺得這類模型是在搭建一個認知傳感器:

智能體可以在這里形成對物理世界的長期預測能力,已經(jīng)不需要每一步都依賴真實sensor。

05. 世界模型,開始有“世界味”了

現(xiàn)在世界范圍內(nèi),最強的世界模型幾乎都閉源,導致研究者們,很難真正復現(xiàn)可交互的模型的能力。

LingBot-World是第一次,把權(quán)重、推理代碼公開。

這也是在向社區(qū)釋放一個信號:世界模型不該只存在于少數(shù)巨頭實驗室,可以真正走進更多行業(yè)。

仔細研究下來,我只覺得,這一步對生態(tài)的意義,可能比模型本身更大。

因為一旦開源社區(qū)開始圍繞世界模型做數(shù)據(jù)構(gòu)建、控制接口、物理增強、記憶模塊擴展,就會形成一整條新的技術(shù)棧,終于不再是只停留在視頻生成賽道了。

當然,它還遠未完美。

論文里也坦誠:記憶仍是涌現(xiàn)能力、不穩(wěn)定;動作空間有限;細粒度物體交互困難;推理成本高;多智能體尚未支持。

但這些問題的存在,本身說明它已經(jīng)從演示級模型進入了可工程迭代的階段。


最后我想說,LingBot-World 代表的不僅是一次模型刷新,更是一次方向確認:

AI 正在從生成內(nèi)容,走向生成可被持續(xù)體驗、被智能體利用、被人類實時介入的世界。

當視頻長度變成分鐘級,當鏡頭離開再回來物體仍在,當你按下鍵盤世界就響應,當一句話可以改變天氣和風格——這已經(jīng)不是生成或者消費AI作品,是真的在進入 AI 構(gòu)建的環(huán)境。

對靈波而言,世界模型還有個很重要的意義:為具身智能搭建一個可以反復試錯、低成本進化的數(shù)字現(xiàn)實。

在真實物理世界中,機器人每一次訓練都昂貴且緩慢,而世界模型讓智能體能夠在虛擬環(huán)境里提前經(jīng)歷長時序任務、理解“動作如何改變環(huán)境”的因果關(guān)系,并逐步形成穩(wěn)定的規(guī)劃與決策能力。

當這些能力在數(shù)字世界中被充分打磨后,再遷移到現(xiàn)實世界,具身智能的落地速度和泛化能力才真正具備規(guī)模化可能。

在這條路上,LingBot-World 讓開源陣營第一次站到了第一梯隊門口。

接下來,真正的變化,可能不在論文,就在接下來長出來的具身智能新系統(tǒng)、新智能體和新應用里。

2026年,世界模型這個核心命題,螞蟻靈波已經(jīng)打響了關(guān)鍵的一槍……

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
戲劇性轉(zhuǎn)變:通牒到期,美伊停火

南風窗
2026-04-08 14:07:48

國務院國資委設立新機構(gòu)!

國務院國資委設立新機構(gòu)!

新浪財經(jīng)
2026-04-09 03:07:03
賣掉深圳唯一住房,全部身家押注“冷門”賽道,如今他成全國第一

賣掉深圳唯一住房,全部身家押注“冷門”賽道,如今他成全國第一

電商在線
2026-03-03 15:19:04
伊朗壓箱底大殺器洗地,以色列一發(fā)不敢攔,美軍來了也只能干瞪眼

伊朗壓箱底大殺器洗地,以色列一發(fā)不敢攔,美軍來了也只能干瞪眼

健身狂人
2026-04-09 18:02:11
管理過的身材,勝過一切的“奢侈品” ???

管理過的身材,勝過一切的“奢侈品” ???

飛娛日記
2026-03-09 09:16:39
薛之謙漂金發(fā)慘變鬼剃頭! 頭皮冒水泡「全是斷發(fā)」:撐1周沒洗頭

薛之謙漂金發(fā)慘變鬼剃頭! 頭皮冒水泡「全是斷發(fā)」:撐1周沒洗頭

ETtoday星光云
2026-04-09 18:22:04
A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

另子維愛讀史
2026-04-09 19:26:01
長安逸動藍鯨超擎官圖發(fā)布 百公里城區(qū)油耗2.98L/第200萬輛下線

長安逸動藍鯨超擎官圖發(fā)布 百公里城區(qū)油耗2.98L/第200萬輛下線

音樂時光的娛樂
2026-04-09 15:32:07
吳克群在《人民日報》撰文:我雖曾獲得世俗意義上的成功,生活卻越來越單薄……

吳克群在《人民日報》撰文:我雖曾獲得世俗意義上的成功,生活卻越來越單薄……

都市快報橙柿互動
2026-04-09 13:02:09
夫妻過了六十歲。盡量要同居!不是情,是命!別不聽

夫妻過了六十歲。盡量要同居!不是情,是命!別不聽

阿凱銷售場
2026-04-10 01:56:29
消失30天,伊朗新領(lǐng)袖穆杰塔巴持續(xù)隱身,美以鉆地彈威脅曝光!

消失30天,伊朗新領(lǐng)袖穆杰塔巴持續(xù)隱身,美以鉆地彈威脅曝光!

米師傅安裝
2026-04-10 01:05:32
被魯蜜罵怕了!邱彪凌晨回應被喊“下課”:心涼了,自身水平有限

被魯蜜罵怕了!邱彪凌晨回應被喊“下課”:心涼了,自身水平有限

大嘴爵爺侃球
2026-04-09 19:32:59
伊能靜公開與秦昊結(jié)婚真相,證實庾澄慶當年未說謊

伊能靜公開與秦昊結(jié)婚真相,證實庾澄慶當年未說謊

蕭鑟科普解說
2026-04-08 23:31:02
美國AI三巨頭聯(lián)手限制蒸餾:最便宜的那條路,被掐斷了

美國AI三巨頭聯(lián)手限制蒸餾:最便宜的那條路,被掐斷了

盧松松
2026-04-08 14:07:41
伊朗最高領(lǐng)袖:將繼續(xù)利用封鎖霍爾木茲海峽這一戰(zhàn)略杠桿

伊朗最高領(lǐng)袖:將繼續(xù)利用封鎖霍爾木茲海峽這一戰(zhàn)略杠桿

國際在線
2026-04-06 06:53:08
力挺幕僚參選臺北市議員,韓國瑜陪同車掃催票:大家多幫忙

力挺幕僚參選臺北市議員,韓國瑜陪同車掃催票:大家多幫忙

海峽導報社
2026-04-09 17:33:02
中國人口破億的省只有2個,人口不足5000萬的有16個省

中國人口破億的省只有2個,人口不足5000萬的有16個省

孤云朗境
2026-03-23 20:16:07
一則“墳前告示”網(wǎng)絡走紅!網(wǎng)友:祖宗因巨額財產(chǎn)來源不明罪被抓

一則“墳前告示”網(wǎng)絡走紅!網(wǎng)友:祖宗因巨額財產(chǎn)來源不明罪被抓

火山詩話
2026-04-09 09:37:41
55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

55年授銜,當主席看到名單中有個熟悉的名字,大筆一揮:他不是少將

睡前講故事
2025-12-12 13:58:11
47歲女人吃嫩草后坦言:和年輕小伙子在一起半年,真的是太可怕了

47歲女人吃嫩草后坦言:和年輕小伙子在一起半年,真的是太可怕了

游戲收藏指南
2026-03-15 23:54:36
2026-04-10 03:35:00
AI異類 incentive-icons
AI異類
從硅谷到中關(guān)村,AI信息與測評
148文章數(shù) 6關(guān)注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

以色列總理:同意與黎巴嫩直接談判

頭條要聞

以色列總理:同意與黎巴嫩直接談判

體育要聞

8萬人面前心臟驟停 現(xiàn)在他還站在球場上

娛樂要聞

金莎官宣結(jié)婚 與老公孫丞瀟相差18歲

財經(jīng)要聞

?;鹩謶伊?,最糟糕的情況要來了?

汽車要聞

文飛掌舵,給神行者帶來了什么?

態(tài)度原創(chuàng)

家居
房產(chǎn)
教育
本地
公開課

家居要聞

清新自然 復古風尚

房產(chǎn)要聞

利潤暴跌44%!那個春節(jié)被罵慘了的海峽股份 正在經(jīng)歷什么?

教育要聞

一年英碩是父母給你另一張地圖的體驗卡!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版