国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

智源悟界 · Emu3.5 重塑世界模型格局:首提多模態(tài) Scaling 范式,AI 理解世界再進(jìn)化

0
分享至



再次刷新世界模型天花板。

世界模型賽道又卷出了新高度。

今天,北京智源人工智能研究院(BAAI)發(fā)布大規(guī)模多模態(tài)世界模型“悟界·Emu3.5”,它不僅能以驚人的逼真度模擬復(fù)雜的動(dòng)態(tài)物理世界,還揭示了“多模態(tài)Scaling范式”的存在。

話不多說(shuō),讓我們先看效果。

?世界探索

?具身操作

?視覺(jué)指導(dǎo)

輸入Prompt “如何制作蝦仁芹菜餃子”,模型輸出從原料、拌餡兒、包餃子、煮餃子到最后上菜的過(guò)程,按步驟、有邏輯、符合事實(shí),而且圖像生動(dòng)逼真。


?視覺(jué)故事

?圖像編輯和生成

從OpenAI 的Sora到Goolge DeepMind 的Genie,從Yann LeCun的JEPA到李飛飛團(tuán)隊(duì)的Marble,巨頭菁英們紛紛入局,已經(jīng)充分證明了世界模型的潛力。

然而,當(dāng)視覺(jué)的“逼真度”趨于極限,一個(gè)更根本的問(wèn)題浮出水面:

是否存在一條統(tǒng)一、簡(jiǎn)潔且可規(guī)模化擴(kuò)展的路徑,從第一性原理出發(fā),讓模型從海量的多模態(tài)數(shù)據(jù)中,自主學(xué)習(xí)到世界運(yùn)行的內(nèi)在因果與規(guī)律,讓模型真正(以自己的方式)掌握我們這個(gè)物理世界運(yùn)行的根本規(guī)律?

這正是智源研究院想要回答的問(wèn)題。

01

悟界·Emu3.5:大道至簡(jiǎn)與規(guī)模化的力量

2024年10月,智源發(fā)布了原生多模態(tài)世界模型“悟界·Emu3”,該模型基于單個(gè)Transformer模型進(jìn)行“下一個(gè)token預(yù)測(cè)”,無(wú)需擴(kuò)散模型或組合方法,實(shí)現(xiàn)了圖像、文本、視頻的大一統(tǒng)。模型一經(jīng)上線便在技術(shù)社區(qū)引發(fā)熱議。

不過(guò),Emu3的成功也引出了更多值得探討的議題——模型如何高效學(xué)習(xí)長(zhǎng)視頻?如何實(shí)現(xiàn)通用的多模態(tài)交互?如何在萬(wàn)億乃至更多 token 下高效推理?

Emu3.5繼承并深化了Emu3的技術(shù)哲學(xué):基于一個(gè)極其簡(jiǎn)單、統(tǒng)一的自回歸預(yù)測(cè)目標(biāo)“下一狀態(tài)預(yù)測(cè)(Next-State Prediction,NSP)”,加上一個(gè)足夠通用的模型架構(gòu),并在海量的多模態(tài)數(shù)據(jù)上充分訓(xùn)練。

而答案,也自動(dòng)涌現(xiàn)。

1.原生多模態(tài)統(tǒng)一架構(gòu)

悟界·Emu3.5是一個(gè)單一的34B 稠密Transformer模型。不同模態(tài)的信息,從輸入端開(kāi)始便被統(tǒng)一編碼為離散的Token序列。整個(gè)處理過(guò)程都是在一個(gè)端到端的、自回歸框架內(nèi)原生完成,實(shí)現(xiàn)了真正的模態(tài)統(tǒng)一。

2.“預(yù)測(cè)下一狀態(tài)”的單一目標(biāo)

Emu3.5的訓(xùn)練目標(biāo)只有一個(gè):預(yù)測(cè)交錯(cuò)的視覺(jué)-語(yǔ)言序列下一個(gè)最有可能的狀態(tài)(State)。這個(gè)目標(biāo)看似簡(jiǎn)單,卻迫使模型學(xué)會(huì)洞察現(xiàn)實(shí)世界如何運(yùn)行。正如 LLM通過(guò)預(yù)測(cè)“下一個(gè)token”來(lái)學(xué)習(xí)人類(lèi)語(yǔ)言,Emu3.5 通過(guò)預(yù)測(cè)“下一個(gè)狀態(tài)”,學(xué)會(huì)了動(dòng)態(tài)物理世界的“語(yǔ)法”。

3.超 10 萬(wàn)億 Token 的多模態(tài)數(shù)據(jù)集

智源Emu團(tuán)隊(duì)構(gòu)建了一個(gè)超過(guò) 10 萬(wàn)億 token 的多模態(tài)數(shù)據(jù)集。其中,最關(guān)鍵的組成部分是訓(xùn)練時(shí)長(zhǎng)總計(jì)約 790 年的視頻,以及這些視頻對(duì)應(yīng)的語(yǔ)音轉(zhuǎn)錄文本,兩者合在一起構(gòu)成了視頻-文本交錯(cuò)數(shù)據(jù)(Video-Text Interleaved Data)。

通過(guò)將視頻幀與其對(duì)應(yīng)的語(yǔ)音轉(zhuǎn)錄文本交錯(cuò)排列進(jìn)行訓(xùn)練,模型能沉浸式地接觸到時(shí)空、物理、因果等世界信息。

4.首次揭示多模態(tài)Scaling范式

Emu3.5的技術(shù)報(bào)告指出,隨著預(yù)訓(xùn)練計(jì)算量的持續(xù)增加,模型在分布外(Out-of-Distribution,OOD)的全新任務(wù)上的錯(cuò)誤率呈現(xiàn)出可預(yù)測(cè)的、平滑的下降曲線。這意味著模型學(xué)到的世界知識(shí),能夠穩(wěn)定地泛化至訓(xùn)練數(shù)據(jù)之外的未知領(lǐng)域。


悟界·Emu3.5 的優(yōu)化過(guò)程平滑穩(wěn)定,并在多個(gè)驗(yàn)證集上展現(xiàn)出強(qiáng)大且一致的泛化表現(xiàn)

從 Emu3 到 Emu3.5,模型規(guī)模從 8B 增加到 34B,視頻數(shù)據(jù)訓(xùn)練量從 15 年擴(kuò)展至 790 年,研究人員觀察到一系列核心指標(biāo),包括時(shí)序一致性、跨模態(tài)語(yǔ)義推理、具身交互規(guī)劃等核心指標(biāo),均有了顯著提升。

這一發(fā)現(xiàn)的重要性,不亞于當(dāng)年GPT-3論文揭示語(yǔ)言模型Scaling Law的情景。

Scaling Law之所以重要,在于進(jìn)步是可預(yù)測(cè)的,不再需要“撞大運(yùn)”式地調(diào)整模型結(jié)構(gòu)或訓(xùn)練技巧,只要持續(xù)增加投入,模型的性能就會(huì)穩(wěn)定提升。

對(duì)于企業(yè)和研究機(jī)構(gòu)而言,多模態(tài)Scaling范式的存在,意味著世界模型的研究也能夠從“煉金術(shù)”時(shí)代進(jìn)入“工程學(xué)”時(shí)代。

如果投入產(chǎn)出比是可計(jì)算的,無(wú)疑會(huì)極大地增強(qiáng)整個(gè)行業(yè)對(duì)大規(guī)模投入世界模型研發(fā)的信心。

02

開(kāi)啟多模態(tài)世界模型的新時(shí)代

世界模型之所以成為必爭(zhēng)之地,在于其戰(zhàn)略意義:誰(shuí)掌握了最強(qiáng)的世界模型,誰(shuí)就掌握了通往通用機(jī)器人、L5自動(dòng)駕駛乃至AGI的鑰匙。

Emu3.5提出的“原生多模態(tài)+單一自回歸”的技術(shù)范式,以及其所揭示的多模態(tài)Scaling范式,為整個(gè)領(lǐng)域提供了一條清晰的進(jìn)化路線。

這也預(yù)示著,接下來(lái)的世界模型競(jìng)賽,將不再僅僅是生成視頻的質(zhì)量比拼,而是模型規(guī)模、數(shù)據(jù)規(guī)模、對(duì)物理世界理解深度等等的全方位的競(jìng)爭(zhēng)。

我們正站在一個(gè)新時(shí)代的門(mén)檻上。智源悟界·Emu3.5,或?qū)⒊蔀橥苿?dòng)機(jī)器從認(rèn)知到行動(dòng)、從虛擬走向現(xiàn)實(shí)的那座關(guān)鍵里程碑。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
瓊瑤選角出昏招,何晴被迫演配角,播出后觀眾都傻眼了

瓊瑤選角出昏招,何晴被迫演配角,播出后觀眾都傻眼了

小欣欣聊體育
2025-12-19 10:51:41
你聽(tīng)過(guò)最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

你聽(tīng)過(guò)最勁爆的瓜是啥?網(wǎng)友:被大八歲的補(bǔ)習(xí)班老師表白了

帶你感受人間冷暖
2025-11-26 00:10:06
六十年難遇的特殊冬至,今年我們?cè)撎崆皽?zhǔn)備了嗎?

六十年難遇的特殊冬至,今年我們?cè)撎崆皽?zhǔn)備了嗎?

眼界看視野
2025-12-18 21:27:28
原來(lái)這些看似天然臉的明星都是超級(jí)換臉達(dá)人,有的人連國(guó)籍都改了

原來(lái)這些看似天然臉的明星都是超級(jí)換臉達(dá)人,有的人連國(guó)籍都改了

喜歡歷史的阿繁
2025-12-19 09:33:03
《阿凡達(dá)3》避坑指南,頂配版本兩個(gè)選擇,IMAX絕非最佳

《阿凡達(dá)3》避坑指南,頂配版本兩個(gè)選擇,IMAX絕非最佳

光影新天地
2025-12-16 16:35:20
石破茂預(yù)言果然應(yīng)驗(yàn),中方還沒(méi)開(kāi)始反制,日企就已經(jīng)撐不住了

石破茂預(yù)言果然應(yīng)驗(yàn),中方還沒(méi)開(kāi)始反制,日企就已經(jīng)撐不住了

白淺娛樂(lè)聊
2025-12-19 08:24:36
央國(guó)企干部年輕化怪象:30 歲當(dāng)處長(zhǎng)卻帶不動(dòng)兵,老員工被迫躺平?

央國(guó)企干部年輕化怪象:30 歲當(dāng)處長(zhǎng)卻帶不動(dòng)兵,老員工被迫躺平?

時(shí)尚的弄潮
2025-12-14 13:57:30
50歲一家五口存款僅三萬(wàn),網(wǎng)友熱議心酸故事。

50歲一家五口存款僅三萬(wàn),網(wǎng)友熱議心酸故事。

特約前排觀眾
2025-12-19 00:15:05
放棄爭(zhēng)奪數(shù)百億遺產(chǎn),帶著女兒遠(yuǎn)遁美國(guó),如今才知道她有多清醒

放棄爭(zhēng)奪數(shù)百億遺產(chǎn),帶著女兒遠(yuǎn)遁美國(guó),如今才知道她有多清醒

夢(mèng)史
2025-12-16 11:07:49
牡丹花下死,“縱欲過(guò)度”的張雨綺、終究為自己的行為付出了代價(jià)

牡丹花下死,“縱欲過(guò)度”的張雨綺、終究為自己的行為付出了代價(jià)

山野盧員外
2025-12-19 10:43:12
深度長(zhǎng)文:人類(lèi)數(shù)學(xué)史上的三次危機(jī),第三次至今仍沒(méi)有解決!

深度長(zhǎng)文:人類(lèi)數(shù)學(xué)史上的三次危機(jī),第三次至今仍沒(méi)有解決!

宇宙時(shí)空
2025-12-07 16:52:26
NBA明星比斯利有望加盟廣東宏遠(yuǎn)?CBA格局或?qū)氐鬃兲欤?>
    </a>
        <h3>
      <a href=籃球看比賽
2025-12-19 11:40:39
張小泉名下浙A邁巴赫被拍賣(mài),已被強(qiáng)制執(zhí)行超31億元

張小泉名下浙A邁巴赫被拍賣(mài),已被強(qiáng)制執(zhí)行超31億元

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-12-18 13:24:14
金正恩自己都沒(méi)想到,他下令出兵俄羅斯,會(huì)給朝鮮帶來(lái)這么多驚喜

金正恩自己都沒(méi)想到,他下令出兵俄羅斯,會(huì)給朝鮮帶來(lái)這么多驚喜

小嶯說(shuō)故事
2025-12-11 21:08:23
王傳君因健康問(wèn)題退出《千里江山圖》劇組、發(fā)文感謝王陽(yáng)緊急救場(chǎng)

王傳君因健康問(wèn)題退出《千里江山圖》劇組、發(fā)文感謝王陽(yáng)緊急救場(chǎng)

黃謀仕
2025-12-19 10:45:29
快船慘敗雷霆!倫納德帶隊(duì)丟分,鄧恩祖巴茨瑕疵大,沒(méi)哈登真不行

快船慘敗雷霆!倫納德帶隊(duì)丟分,鄧恩祖巴茨瑕疵大,沒(méi)哈登真不行

細(xì)話籃球
2025-12-19 11:41:08
海南“封關(guān)”,也不可能是“下一個(gè)深圳”

海南“封關(guān)”,也不可能是“下一個(gè)深圳”

鄭子蒙
2025-12-19 06:04:56
島內(nèi)緊盯“福建艦入列后首過(guò)臺(tái)?!?>
    </a>
        <h3>
      <a href=環(huán)球網(wǎng)資訊
2025-12-18 07:26:33
恥辱一戰(zhàn),西部第5火箭被西部倒1鵜鶘逆轉(zhuǎn)25分;鵜鶘平隊(duì)史紀(jì)錄

恥辱一戰(zhàn),西部第5火箭被西部倒1鵜鶘逆轉(zhuǎn)25分;鵜鶘平隊(duì)史紀(jì)錄

懂球帝
2025-12-19 12:19:52
演員任敏生理期穿泳裝南極跳海,強(qiáng)忍不適玩刺激,回船后喝酒暖身

演員任敏生理期穿泳裝南極跳海,強(qiáng)忍不適玩刺激,回船后喝酒暖身

失寵的小野豬
2025-12-19 10:27:22
2025-12-19 12:39:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7012文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

頭條要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

體育要聞

沒(méi)有塔圖姆,還有塔禿姆

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車(chē)要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬(wàn)

態(tài)度原創(chuàng)

教育
時(shí)尚
本地
數(shù)碼
藝術(shù)

教育要聞

“考考考老師的法寶”應(yīng)該休矣

“煙管褲”今年冬天爆火,怎么搭都時(shí)髦!

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

數(shù)碼要聞

虛幻引擎5.7對(duì)比5.4測(cè)試:GPU最高提升25%、CPU最高提升35%

藝術(shù)要聞

諸樂(lè)三的寫(xiě)意花鳥(niǎo)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版