国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

螞蟻深夜開源比肩Genie 3的世界模型,我也看到了具身智能的未來。

0
分享至

AI圈最近是卷瘋了嗎,模型跟不要錢一樣kuku的往外發(fā)。

今天凌晨的時候。

螞蟻在毫無預(yù)兆的情況下,他們旗下的具身智能公司,靈波科技,開源了一個非常非常離譜的世界模型。

LingBot-World。


我其實本身是真的沒有當回事的,就是因為我對世界模型還比較關(guān)注,就隨手點進去看了眼。

結(jié)果,我真的有點停不下來了,我在這個頁面里,花了半個小時的時候,幾乎看完了所有的案例。

我是真的覺得有點離譜,幾乎可以對標Google Genie 3的質(zhì)量,而且,開源。

我直接放個case。

一個1分鐘的,第一人稱探索的視角。

我不知道你們是什么感覺,如果玩游戲很多的朋友,可能會說,這有啥稀奇的,不就是一個普通的游戲里面的那種廢棄小鎮(zhèn)場景嗎,不就是第一人稱在里面探索嗎。

對,但是如果你知道,這一切的源頭,這個世界里面所有的一切,都是根據(jù)你的方向鍵,用視頻動態(tài)生成的。

我相信你一定會有不一樣的感覺。

這是一個完完全全的,一邊探索一邊生成的世界。

這個視頻里面的一切,都是實時交互的,實時按鍵實時運動的。

言出法隨,指哪打哪。

我凌晨1點多,第一次看到這個demo,同時意識到,這是一個世界模型的時候,我其實是起了一些雞皮疙瘩的。

還有這個,實時生成的巨物壓迫感,真的非常的真實了。

最離譜的是這個。

一個10分鐘的視頻,他們讓模型一個人就這么沿著古建筑群瞎逛,逛了整 整十分鐘,中間確實偶爾有一些變形,但是,到最后了,這個古建筑居然沒有崩掉,太離譜了。

之前測過一個叫 Odyssey的世界模型產(chǎn)品。

別說10分鐘了,1分鐘就直接崩成這樣了。


而且毫無記憶能力,我只要一回頭,這個世界就變了樣,而且是每回頭一次,它就變一次。

相當?shù)膰樔?。?!?/p>

如果說要跟Sora、可靈這種視頻生成模型最大的區(qū)別是什么,我那覺得,一個是預(yù)先錄制的電影,另一個是可實時演算的模擬器。

視頻生成模型,是他已經(jīng)把整部電影拍完、剪好,加好特效,然后放給你看。

畫面很精美,故事很完整,但你是純粹的觀眾,只能被動接受,無法改變?nèi)魏问隆?/p>

而LingBot-World,你按W,它就往前生成世界,你按A,它就往左拓開空間。

你輸一句“下雨了”,天空就真的變陰云密布,你說“來點煙花”,遠處城堡上空立刻炸開一朵。

所有的一切,都是邊走邊算出來的,而不是提前渲染好放給你看。

前者是敘事的終點,后者是世界的起點。

太離譜了,要知道,這個模型,是跟之前Google Genie 3的路線一致,是可實時生成的世界模型。

老粉可能還記得,我去年寫過。

這篇文章到現(xiàn)在也是我覺得是我的一個很大的遺憾,它明明那么強,可是我沒有把它寫火讓更多的人看到,這是我的問題。

我一直都非常關(guān)注這種可交互的實時生成的世界模型,但是坦率的講,Genie 3之后,幾乎再無同類,而且已經(jīng)幾個月了,Genie 3到現(xiàn)在也不能體驗上。

但今天,不僅有了,而且,還開源,甚至他們,把論文都發(fā)出來了。

真的有點不敢相信這是我之前認知里那個螞蟻。。。

項目網(wǎng)址在此: https://technology.robbyant.com/lingbot-world


目前已經(jīng)在github上開源了第一個版本,另外兩個版本等待放出。


這三個版本我大概解釋一下。

LingBot-World-Base (Cam) 代表Base系列里帶Camera Poses控制的版本。

你在推理時會額外喂相機位姿或相機運動軌跡這類信號,所以它更擅長把鏡頭運動做得可控,適合你想明確指定推進鏡頭、環(huán)繞、俯仰、平移這類拍法的場景。

表里寫的480P和720P也對應(yīng)它當前提供的推理配置,這個版本目前已經(jīng)放出權(quán)重和下載鏈接。

LingBot-World-Base (Act) 代表Base系列里帶Actions控制的版本。

這里的 Actions 更像“動作指令”或“行為控制”,讓你能用更結(jié)構(gòu)化的方式去約束主體怎么動,往哪走,抬手,轉(zhuǎn)身之類。

它的目標是把可控性從鏡頭擴展到行為層面,目前等待開源中。

LingBot-World-Fast代表Fast系列,核心取向是低延遲與實時交互,一般會通過結(jié)構(gòu)改造與加速手段,把推理做得更適合流式生成和邊交互邊出畫面。

代價通常是質(zhì)量上限會比 Base 略低一點點,優(yōu)勢是響應(yīng)更快更像實時世界模擬,延遲能低于1秒,能做到每秒16幀,目前等待開源中。

模型參數(shù)量在28B左右,推理應(yīng)該在14B。

在看完了所有的case,以及論文以后。

我給它總結(jié)了3個特點。

分別是長時記憶很穩(wěn)定、風(fēng)格泛化性極強、很棒的動作代理。

一. 長時記憶很穩(wěn)定

說實話,我們看世界模型,最核心的一個東西,看的一定是長時記憶。

就跟我們用文本大模型一樣,他能不能記住前面的那么多的信息,這個事非常的重要。

而在世界模型里,這個事,尤為重要,甚至就是第一位的。

如果沒有長時記憶的模型,你可以想一想這個場景,你去廁所拉屎,打開了廁所門,進門,掀開馬桶蓋,一回頭,廁所門沒了,變成了一個不知道通往哪的過道,你再一回頭,馬桶也沒了,變成了一個小女孩就這么瞪著你。

現(xiàn)在是凌晨3點20多,我寫下這段話的時候,我還忍不住回頭看了好幾次,我說實話,我真的突然有點慌。。。

這就是沒有長時記憶的問題。

可能在文字輸出的時候,他不記得之前的事了,可能影響還沒那么大。

但是在一個可以互動的世界里,如果沒有了長時記憶,那就成了徹頭徹尾的恐怖片了,我們俗稱,鬼打墻。。。

而 LingBot-World解決了這個問題。

比如說這個case。

可以看到,在這個過程中,在這個廊橋上,不管你怎么走,前看后看左看右看,那些建筑也絕對一直都在,甚至高墻和后面的建筑的遮擋關(guān)系,都會隨著你行走的距離而改變,當你扭頭看向別處的時候,回頭看,還在。

這個長時記憶,就太牛逼了。

還有這個。

從看到這個開始,然后從肚皮下面穿越過去,在差不多的時候,你可以看到,你的視角是真的穿過了這個異獸的橫向面積,讓你感受到很真實。

而沒有長時記憶的世界模型,可能在你穿的時候,直接就在它的肚皮下面穿了將近1分多鐘,甚至就在那鬼打墻了一直穿不過去,明顯時間尺度和距離尺度都不對。

而Lingbot-World在這點上,就表現(xiàn)的非常好。

二. 風(fēng)格泛化性極強

很多的世界模型,其實在風(fēng)格上都比較固定。

只能搞現(xiàn)實世界的,就是超寫實的那種,但是一旦涉及到非寫實的,一般效果就非常的差了。

但是lingbot-World居然保持的相當好。

比如這個例子。

明顯能感覺到,雖然大劍還稍微有一點點不穩(wěn)定,但是其他的地方,保持的非常好,已經(jīng)媲美一些游戲的質(zhì)感了。

還有這個。

在這種畫風(fēng)下,整個世界模型沒有崩塌,這一點其實非常的難能可貴。

核心其實在于LingBot-World在訓(xùn)練的時候,真實視頻、游戲錄像、UE合成場景,全塞在一鍋里里面訓(xùn)了,他們搞了大量游戲世界的數(shù)據(jù),還有UE的合成數(shù)據(jù)。

現(xiàn)實世界的視頻負責(zé)教它物理世界大概長啥樣,游戲世界負責(zé)教它人類在虛擬世界里是怎么玩的,然后合成世界則負責(zé)補齊那些現(xiàn)實很難系統(tǒng)采集的視角,比如各種極端運動軌跡、復(fù)雜相機路徑、極限視角。

對模型來說,這三種東西在輸入上其實是統(tǒng)一的。

就是都是一幀一幀的視頻,外加相機位置、動作指令、文本描述。

它其實并不會像人類那樣心里有一條線,說哦這是真實的,哦這邊是游戲,它看到的只是不同分布的像素序列。

這一點其實有點像機器人領(lǐng)域的域隨機化。

就是很多具身公司,在做仿真訓(xùn)練的時候,經(jīng)常會把地面材質(zhì)、光照、物體貼圖全打亂,讓機器人習(xí)慣各種詭異的組合,這樣下放到真實世界的成功率反而更高。

Lingbot-World在這塊做的相當好。

三. 很棒的動作代理

世界模型如果只會自己滾動,不會被控制,那最多也就是一個超長、有記憶的屏保。

真正好玩的是,當你把WASD和方向鍵綁上去,甚至把一個動作代理塞進去,在你操控的同時,里面的角色還可以自主行動和規(guī)劃。

從而涌現(xiàn)出一些全新的事件和玩法,而不是那種單純的,步行模擬器,只會單純的走路和跑步而已。

比如這個。

你可以明顯的看到,這個布偶隨著方向的變化,而自主在房間里進行運動,在過程中還碰到了沙發(fā),從而掉頭,避免了穿模。

還有這個。

并不是千篇一律的滑行,而是有急停、有變道,有自主運動。

這一點也是完全不一樣的點,是我從來沒有見過的,很新,也很強。

看了下論文,LingBot-World在動作這塊,主要干了兩條線的事。

一條線是最直接的,你自己按鍵。

你按 W,它往前生成,你按S,它往后拉,你長按A,它會幫你推演側(cè)身走一段路應(yīng)該是什么樣子,這個看著好像理所當然,但其實背后代表著模型已經(jīng)學(xué)會了一種還蠻重要的東西。

動作不是單幀的,而是一個連續(xù)意圖。

你按一下W,它不會只管下一幀往前挪一點點,而是會在內(nèi)部自動幫你補出一整個往前走兩三步的節(jié)奏,把腿步伐、相機抖動、視差變化協(xié)同起來。

否則你按W一下停一下,畫面只會抖成幀動畫。

另一條線,是他們搞的那個AI玩自己世界的動作代理。

你可以把它理解成給LingBot-World添了一個玩家。

這個玩家看不到底層張量,它只看畫面和一些文字提示,然后決定“我要往哪走”“我要不要拐彎”“我要不要停下來多看一眼”。

論文里是用一個微調(diào)的視覺語言模型來做這件事,看一幀圖,輸出接下來幾秒鐘的命令,讓 LingBot-World去執(zhí)行。

所以還真的挺有意思的,就真的像,我們在玩游戲的感覺。

只不過這個游戲,我們是觀測者,我們決定向什么方向去,而AI,會在生成的空間,自主運動。

這一點,確實是一個非常有意思的創(chuàng)新。

LingBot-World很強,很有意思,讓我突然有了一種。

24年春節(jié)2月16號的時候,同樣的深夜,同樣的凌晨,看到Sora的那一刻。

世界模型,一直是一個全新的、未被探索、還有廣闊空間的領(lǐng)域。

他不僅對游戲、對影視、對娛樂都有非常強的意義。

而真正我覺得最核心的場景,其實是為了具身智能,一個優(yōu)秀的、泛化能力強的世界模型,也能為具身的訓(xùn)練,為他們對現(xiàn)實世界的理解和長程任務(wù),提供低成本高保真的試錯空間。

世界模型,也是AI真正由虛到實,進入我們現(xiàn)實空間中的必要條件之一。

而螞蟻,居然是螞蟻。

把這個進程,向前推了一大步。

并且直接選擇開源,造福所有人。

我很少會對一個技術(shù)demo感到興奮,而最近的興奮,坦誠的講,幾乎都來自世界模型。

而LingBot-World讓我又有了當年最開始玩AI的那種感覺。

世界模型成熟之后,來臨的,必然就是井噴式的、進入我們實體世界的、隨處可見的具身智能們。

而那時。

才是我心中,真正的AI時代。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
童錦程胖了10斤,吃飯被路人拍到,發(fā)福了不少,過年都不回家

童錦程胖了10斤,吃飯被路人拍到,發(fā)福了不少,過年都不回家

蒂蒂茱家
2026-03-01 12:44:50
國網(wǎng)4萬億落地方向明確,電網(wǎng)設(shè)備ETF(159326)全市場最“純”電網(wǎng)產(chǎn)品,規(guī)模續(xù)創(chuàng)新高

國網(wǎng)4萬億落地方向明確,電網(wǎng)設(shè)備ETF(159326)全市場最“純”電網(wǎng)產(chǎn)品,規(guī)模續(xù)創(chuàng)新高

每日經(jīng)濟新聞
2026-03-02 09:24:04
大量彈藥耗在伊朗,特朗普呼吁對話,美媒指出關(guān)鍵:中美沖突咋辦

大量彈藥耗在伊朗,特朗普呼吁對話,美媒指出關(guān)鍵:中美沖突咋辦

荷蘭豆愛健康
2026-03-02 14:44:09
伊朗權(quán)力突變!拉里賈尼負責(zé)美伊談判,軍方負責(zé)撂狠話

伊朗權(quán)力突變!拉里賈尼負責(zé)美伊談判,軍方負責(zé)撂狠話

老馬拉車莫少裝
2026-03-02 15:02:59
中國男籃世預(yù)賽出線形勢

中國男籃世預(yù)賽出線形勢

刺猬籃球
2026-03-02 09:50:27
六十年前三線建設(shè)曾被質(zhì)疑,如今看來,毛主席的決策顯現(xiàn)深遠智慧

六十年前三線建設(shè)曾被質(zhì)疑,如今看來,毛主席的決策顯現(xiàn)深遠智慧

老踝是個手藝人
2026-02-23 17:26:29
馮小剛的兩個女兒:養(yǎng)女住美國大別墅,親生女擠北京老小區(qū)

馮小剛的兩個女兒:養(yǎng)女住美國大別墅,親生女擠北京老小區(qū)

BenSir本色說
2026-03-01 22:04:58
胡明軒無緣大名單原因出爐!賀希寧親承膝蓋傷勢,盡快康復(fù)吧!

胡明軒無緣大名單原因出爐!賀希寧親承膝蓋傷勢,盡快康復(fù)吧!

籃球資訊達人
2026-03-02 13:48:24
產(chǎn)蛋比不過雞,長肉比不過鴨,人類為何要馴服兇猛的大鵝?

產(chǎn)蛋比不過雞,長肉比不過鴨,人類為何要馴服兇猛的大鵝?

翰林冷知識
2026-03-01 11:52:05
小米汽車一定要把電池做好 同檔力爭最安全!雷軍:電池研發(fā)團隊超220人 電池專利提交486篇

小米汽車一定要把電池做好 同檔力爭最安全!雷軍:電池研發(fā)團隊超220人 電池專利提交486篇

快科技
2026-03-02 13:29:03
為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

快看張同學(xué)
2026-03-02 10:21:18
被加拿大養(yǎng)父母拋棄,回國認親的張云鵬經(jīng)歷悲慘,親爹媽早已離異

被加拿大養(yǎng)父母拋棄,回國認親的張云鵬經(jīng)歷悲慘,親爹媽早已離異

觀察鑒娛
2026-03-01 14:36:25
美以發(fā)起對伊朗新一輪軍事打擊,以伊空軍實力對比懸殊

美以發(fā)起對伊朗新一輪軍事打擊,以伊空軍實力對比懸殊

看航空
2026-03-02 15:20:03
1949年傅作義任水利部長遭閑置,主席當面質(zhì)問,周恩來聽聞當即發(fā)火

1949年傅作義任水利部長遭閑置,主席當面質(zhì)問,周恩來聽聞當即發(fā)火

磊子講史
2026-01-14 10:12:21
沖前四!卡里克給曼聯(lián)的致命一課:錯了10年,根本不是主帥的鍋

沖前四!卡里克給曼聯(lián)的致命一課:錯了10年,根本不是主帥的鍋

佳佳說奇事故事
2026-02-19 20:49:33
伊朗強硬派被趕盡殺絕,親美派總統(tǒng)安然無恙,順利接掌大權(quán)

伊朗強硬派被趕盡殺絕,親美派總統(tǒng)安然無恙,順利接掌大權(quán)

石江月
2026-03-02 13:13:41
直到看見蔣萬安給兒子們起的名字,就知道他骨子里的身份瞞不住

直到看見蔣萬安給兒子們起的名字,就知道他骨子里的身份瞞不住

小熊侃史
2026-02-23 13:00:17
上海電影院現(xiàn)場被捉奸,帶情夫當老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場被捉奸,帶情夫當老公面出軌,狗血女主角真容曝光

靜若梨花
2026-03-01 16:25:46
曝卡里克中場激勵曼聯(lián)翻盤內(nèi)幕!9場平英超紀錄,拉爵恐唯有轉(zhuǎn)正

曝卡里克中場激勵曼聯(lián)翻盤內(nèi)幕!9場平英超紀錄,拉爵恐唯有轉(zhuǎn)正

羅米的曼聯(lián)博客
2026-03-02 09:34:11
樓市走到現(xiàn)在,有一種“預(yù)感”越來越強烈了!或超出很多人的想象

樓市走到現(xiàn)在,有一種“預(yù)感”越來越強烈了!或超出很多人的想象

阿離家居
2026-03-01 16:25:00
2026-03-02 16:16:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
465文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

體育要聞

卡里克主場5連勝!隊史第2人通過最大考驗

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

手機
藝術(shù)
房產(chǎn)
家居
游戲

手機要聞

OPPO Find N6核心亮點曝光:滿級防水+久用無折痕,刷新折疊屏體驗

藝術(shù)要聞

2025北京青年美術(shù)作品展 | 油畫作品選刊

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

家居要聞

萬物互聯(lián) 享科技福祉

三角洲玩家沒續(xù)艦長遭主播毀號!一億資產(chǎn)30秒清空

無障礙瀏覽 進入關(guān)懷版