国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多模態(tài)預(yù)訓(xùn)練,才是大模型的下一條路?Yann LeCun、謝賽寧參與

0
分享至



機器之心編輯部

基礎(chǔ)模型時代,大模型能力的爆發(fā),很大程度上源于在海量文本上的預(yù)訓(xùn)練。然而問題在于,文本本質(zhì)上只是人類對現(xiàn)實世界的一種抽象表達,是對真實世界信息的有損壓縮。

借用柏拉圖《洞穴寓言》的比喻:語言模型已經(jīng)非常擅長描述洞穴墻壁上的影子,卻從未真正看到投射這些影子的實體。它們能夠很好地捕捉符號,但卻難以理解物理世界中高保真的物理規(guī)律、幾何結(jié)構(gòu)以及因果關(guān)系。

在這種哲學(xué)層面的局限之外,還存在一個更現(xiàn)實的天花板:高質(zhì)量的文本數(shù)據(jù)是有限的,而且正逐漸接近枯竭。

相比之下,視覺世界擁有幾乎無限的信號來源,那些洞穴之外的信息,記錄著現(xiàn)實世界最原始的動態(tài)變化,而這些恰恰是語言所無法完整表達的。

因此,未來的發(fā)展路徑需要走出影子的世界,直接去建?,F(xiàn)實本身。

為此,來自 Meta、紐約大學(xué)的研究者轉(zhuǎn)向統(tǒng)一的多模態(tài)預(yù)訓(xùn)練(unified multimodal pretraining):不再把視覺信號當(dāng)作一種輔助輸入,而是將其與語言一樣,視為模型中的一等公民(first-class citizen)。



  • 論文地址:https://arxiv.org/pdf/2603.03276v1
  • 論文標題:Beyond Language Modeling: An Exploration of Multimodal Pretraining

本文一作為 Shengbang Tong(童晟邦)、Divid Fan 和 John Nguyen。著名研究者 Yann LeCun 和謝賽寧亦有參與。

當(dāng)前,統(tǒng)一多模態(tài)預(yù)訓(xùn)練的科學(xué)研究版圖仍然相當(dāng)不清晰。盡管近期的一些研究已經(jīng)開始嘗試超越純語言預(yù)訓(xùn)練,但整個設(shè)計空間仍充滿了各種相互干擾的變量。

與從零開始同時學(xué)習(xí)視覺和語言不同,目前大多數(shù)方法仍然依賴以預(yù)訓(xùn)練語言模型為初始化。這種范式的核心目標,是盡量保留原有的語言能力,同時逐步讓模型適應(yīng)多模態(tài)任務(wù)。

然而,這些預(yù)訓(xùn)練語言模型中已經(jīng)包含的大量知識,會對實驗結(jié)果產(chǎn)生干擾,使研究者難以判斷模型能力究竟來自統(tǒng)一多模態(tài)訓(xùn)練本身,還是來自語言預(yù)訓(xùn)練階段繼承的能力。因此,視覺與語言之間最基礎(chǔ)的學(xué)習(xí)機制以及它們的擴展關(guān)系(scaling relationship)至今仍缺乏清晰理解。

本文試圖為這一領(lǐng)域提供更清晰的實證認識,將研究重點放在預(yù)訓(xùn)練階段,因為模型的大部分核心能力正是在這一階段形成的。

在實現(xiàn)方法上,他們從零開始訓(xùn)練一個統(tǒng)一模型,并采用 Transfusion 框架:

  • 對語言使用 next-token 預(yù)測;
  • 對視覺使用擴散建模。

訓(xùn)練數(shù)據(jù)涵蓋文本、視頻、圖文對,以及帶有動作條件的視頻數(shù)據(jù)。

同時,本文還設(shè)計了一系列可控實驗來逐一隔離關(guān)鍵變量,并在一個全面的任務(wù)體系上進行評估,任務(wù)范圍從語言能力評測、視覺理解與生成,一直延伸到世界模型中的規(guī)劃能力(planning)。

具體而言,本文從以下幾個維度展開研究:

視覺表示:論文評估了多種視覺表示方式,范圍從變分自編碼器(VAE)、語義表示(semantic representations)到原始像素。研究結(jié)果表明,表示自編碼器(Representation Autoencoder,RAE)是最優(yōu)的視覺表示方式。(第 3 節(jié))

數(shù)據(jù):論文研究了多種數(shù)據(jù)組合方式,從純文本和視頻數(shù)據(jù)到圖文對數(shù)據(jù)以及帶動作條件的視頻數(shù)據(jù)。實驗發(fā)現(xiàn),不同模態(tài)之間的相互干擾非常小,在某些情況下甚至?xí)a(chǎn)生正向協(xié)同效應(yīng)。(第 4 節(jié))

世界建模:論文將評測擴展到導(dǎo)航世界模型(Navigation World Model, NWM)場景,并將動作直接表示為文本 token。實驗表明,模型的物理預(yù)測能力主要來自通用的多模態(tài)預(yù)訓(xùn)練(如視頻數(shù)據(jù)),而不是依賴特定領(lǐng)域的數(shù)據(jù)。(第 5 節(jié))

架構(gòu)設(shè)計:他們在統(tǒng)一多模態(tài)框架下研究了 MoE 架構(gòu)的設(shè)計選擇,并觀察到模型在訓(xùn)練過程中會自然形成模態(tài)分離與統(tǒng)一并存的結(jié)構(gòu)。(第 6 節(jié))

擴展規(guī)律(Scaling Properties):通過 IsoFLOP 實驗推導(dǎo)了統(tǒng)一預(yù)訓(xùn)練過程中視覺與語言的擴展規(guī)律(scaling laws)。結(jié)果發(fā)現(xiàn)存在一種擴展不對稱性:視覺任務(wù)對數(shù)據(jù)規(guī)模的需求明顯高于語言。同時發(fā)現(xiàn) MoE 架構(gòu)能夠有效彌合這種差距。(第 7 節(jié))

統(tǒng)一多模態(tài)預(yù)訓(xùn)練中的視覺表示

這一小節(jié)研究了三類視覺編碼器:

VAE 系列,包括 Stable Diffusion 的 SD-VAE 以及 FLUX.1;

語義編碼器,既包括語言監(jiān)督訓(xùn)練的編碼器,也包括自監(jiān)督編碼器;

最后,本文還研究了直接使用原始像素作為輸入的方案。相關(guān)實驗結(jié)果見圖 4。



文本性能。無論使用哪種視覺表示,模型的文本困惑度(perplexity)都與純文本訓(xùn)練的基線模型相當(dāng),有時甚至略好,其中原始像素輸入表現(xiàn)最好。不過,這種差異非常有限,說明多模態(tài)預(yù)訓(xùn)練并不會顯著影響模型的語言能力,無論使用哪種視覺表示,其語言能力都與僅使用文本訓(xùn)練的模型基本一致。

視覺生成與理解。語義編碼器在視覺理解和視覺生成兩類任務(wù)上都持續(xù)優(yōu)于基于 VAE 的編碼器。例如,SigLIP 2 不僅在 VQA 上優(yōu)于 FLUX.1,在圖像生成基準測試(如 DPGBench 和 GenEval)上也表現(xiàn)更好。

這一結(jié)果呼應(yīng)了 RAE 的研究發(fā)現(xiàn):高維視覺表示在生成任務(wù)上的效果至少與低維 VAE 潛表示相當(dāng),甚至更好。這說明,一個統(tǒng)一的視覺編碼器就足以同時支持視覺理解和生成任務(wù)。后續(xù)實驗中將 SigLIP 2 作為默認視覺編碼器。

建議 1:采用單一的基于 RAE 的視覺編碼器(例如 SigLIP 2),可以同時在視覺理解和視覺生成任務(wù)上取得優(yōu)異表現(xiàn),從而簡化模型架構(gòu),并且不會損害模型的文本性能。

理解數(shù)據(jù)的影響

預(yù)訓(xùn)練數(shù)據(jù)組成統(tǒng)一多模態(tài)預(yù)訓(xùn)練的前提是利用所有可用數(shù)據(jù)。然而,目前尚不清楚每種數(shù)據(jù)類型對最終模型是起到貢獻作用還是干擾作用。為了更好地理解這一點,團隊研究了三種具有代表性的混合數(shù)據(jù):

  • 文本 + 視頻(不帶文本注釋的原始視頻);
  • 文本 + MetaCLIP(圖像 - 文本對);
  • 文本 + 視頻 + MetaCLIP + 動作(上述所有內(nèi)容 + 動作條件視頻)。

所有多模態(tài)模型均在約 1 萬億個 token 上進行訓(xùn)練(5200 億文本 + 5200 億多模態(tài)數(shù)據(jù)),并與在 5200 億文本 token 上訓(xùn)練的純文本基準模型進行比較。

結(jié)果如下圖所示,團隊發(fā)現(xiàn)「文本 + 視頻」組合在 DCLM 驗證集和內(nèi)部 Notes 語料庫上均取得了所有混合數(shù)據(jù)中最佳的困惑度。在 DCLM 上,「文本 + 視頻」甚至超越了純文本基準模型,這表明:視頻數(shù)據(jù)與語言建模至少是兼容的,甚至可能是有益的。這也意味著視覺本身并不是導(dǎo)致模態(tài)競爭的主要原因。



另一方面,「文本 + MetaCLIP」在所有混合數(shù)據(jù)中表現(xiàn)出的困惑度最差。而「文本 + 視頻 + MetaCLIP + 動作」相比純文本基準模型僅有輕微退化,這表明:視頻 + 動作軌跡與文本也是互補的。

團隊推測,文本性能的退化源于引入圖像說明導(dǎo)致的文本分布偏移。

其次,團隊還觀察到,在所有混合數(shù)據(jù)中,相對于純文本基準模型,在分布外(OOD)程度更高的 Notes 語料庫上困惑度均有所下降,但相對趨勢保持一致。這表明多模態(tài)預(yù)訓(xùn)練可能會在文本泛化能力上引入微小的權(quán)衡(Trade-off)。

建議 2:在訓(xùn)練中使用多模態(tài)數(shù)據(jù)(例如視頻、圖文對等)。視覺數(shù)據(jù)不會降低語言建模能力,而多樣化的預(yù)訓(xùn)練數(shù)據(jù)還能為下游任務(wù)帶來協(xié)同效應(yīng),例如世界建模(world modeling)和 VQA 等任務(wù)。

邁向統(tǒng)一多模態(tài)模型中的世界建模

基于這樣一個觀察:語言與視覺是互補的,且多模態(tài)預(yù)訓(xùn)練能夠顯著提升視覺問答(VQA)能力,團隊進一步探索:在不對模型架構(gòu)做任何修改的情況下,多模態(tài)模型是否可以擴展到「世界建模(world modeling)」任務(wù)。

團隊采用 Navigation World Model(NWM)的設(shè)定,其中任務(wù)是:在給定當(dāng)前上下文狀態(tài)和導(dǎo)航動作的條件下,預(yù)測下一視覺狀態(tài):



不過,與 NWM 將導(dǎo)航動作(如平移與旋轉(zhuǎn)增量)編碼為專門設(shè)計的連續(xù)向量不同,團隊直接將動作表示為標準文本 token。

這樣一來,該任務(wù)就可以被統(tǒng)一表述為:



即「圖像 + 文本 → 圖像」的預(yù)測任務(wù),并在統(tǒng)一多模態(tài)模型中完成。如下圖所示,與 NWM 不同,團隊沒有引入任何動作專用適配器,也沒有修改模型架構(gòu)。



世界建模能力來自多模態(tài)預(yù)訓(xùn)練

團隊一直在思考一個問題:有效的世界建模能力,究竟主要來自特定領(lǐng)域的導(dǎo)航數(shù)據(jù),還是來自更廣泛的多模態(tài)能力?

為了驗證這一點,團隊對以下模型進行了比較:

  • 模型 A:基于 500 億(50B)NWMtoken 和 500 億多模態(tài)數(shù)據(jù)(文本、MetaCLIP、帶文本注釋的視頻或純視頻)訓(xùn)練的多模態(tài)模型;
  • 模型 B:僅基于 500 億 NWM 數(shù)據(jù)訓(xùn)練的基準模型。

結(jié)果如下圖所示,將特定領(lǐng)域的 NWM 數(shù)據(jù)從 500 億擴展到 1000 億 token 時,雖然在 ATE 和 RPE 上帶來了一定的改善,但多模態(tài)預(yù)訓(xùn)練的效果更好。



具體而言,添加純視頻數(shù)據(jù)帶來的提升最大,但包括 MetaCLIP 和文本在內(nèi)的所有其他模態(tài)也都有所幫助。這表明,世界建模更多地依賴于從多模態(tài)預(yù)訓(xùn)練中獲得的能力,而非特定領(lǐng)域的數(shù)據(jù)。這與早期研究的發(fā)現(xiàn)相吻合。

世界建模能力可從通用訓(xùn)練中遷移

另外,為了進一步分析世界建模能力的來源,團隊進行了消融實驗,在保持總訓(xùn)練預(yù)算固定為 2000 億 token 的情況下,改變 NWM 數(shù)據(jù)的比例。

結(jié)果如下圖所示,性能相對于領(lǐng)域數(shù)據(jù)量的增加迅速達到飽和。團隊觀察到,模型僅需 1% 的域內(nèi)數(shù)據(jù)即可達到極具競爭力的性能,比例更高時觀察到的收益微乎其微。



總的來說,這一發(fā)現(xiàn)加強了假設(shè):導(dǎo)航和 VQA 等能力主要來自通用多模態(tài)預(yù)訓(xùn)練,僅需要極少的域內(nèi)數(shù)據(jù)即可激活。

建議 3:統(tǒng)一的多模態(tài)預(yù)訓(xùn)練能夠解鎖世界建模(World Modeling)能力。只需將動作表示為文本 token,無需對模型架構(gòu)進行額外修改;相關(guān)能力可以通過通用訓(xùn)練自然涌現(xiàn),并且只需要極少的領(lǐng)域特定數(shù)據(jù)。

統(tǒng)一多模態(tài)架構(gòu)設(shè)計

在前面的實驗中,團隊僅僅將共享的 FFN(前饋網(wǎng)絡(luò)) 替換為模態(tài)專屬 FFN,就發(fā)現(xiàn)能取得顯著效果,這證明了適度的容量分離(capacity separation)具有很大潛力。

然而,模態(tài)專屬 FFN 會在兩種模態(tài)之間平均分配模型容量,而這種平均分配未必是理想的容量配置方式。

為此,團隊進一步探索 MoE 是否能夠通過解耦總?cè)萘颗c實際計算量,從而動態(tài)學(xué)習(xí)這種容量分離。

團隊研究了 MoE 在統(tǒng)一多模態(tài)預(yù)訓(xùn)練中的設(shè)計空間,主要是希望了解 MoE 是否能夠自動學(xué)習(xí)不同模態(tài)所需的容量分配,以及 MoE 是否能夠在多模態(tài)訓(xùn)練中形成專家專門化。

而實驗結(jié)果表明,模型確實會形成明顯的「專家專門化」現(xiàn)象,具體來說:一部分專家主要處理文本 token,另一部分專家主要處理視覺 token,而且這種分工是自動形成的,并不需要任何顯式的模態(tài)標簽或約束。

進一步統(tǒng)計結(jié)果顯示,隨著訓(xùn)練進行,專家之間的分工逐漸穩(wěn)定。某些專家?guī)缀踔唤邮瘴谋?token,而另一些專家則主要處理圖像 token,還有少數(shù)專家保持跨模態(tài)能力,能夠同時處理多種模態(tài)輸入。

這種現(xiàn)象說明:MoE 可以在不顯式設(shè)計模態(tài)結(jié)構(gòu)的情況下,自然形成功能分化。換句話說,模型會自動學(xué)習(xí)到不同模態(tài)所需的不同計算路徑。

而相比固定的模態(tài)專屬 FFN,MoE 具有兩個優(yōu)勢:

  • 動態(tài)容量分配:不同模態(tài)可以使用不同數(shù)量的專家。
  • 靈活的專家共享:一些專家可以同時服務(wù)于多種模態(tài)。

因此,MoE 為統(tǒng)一多模態(tài)模型提供了一種更加靈活的架構(gòu)方案。

建議 4:在統(tǒng)一模型中采用 MoE 架構(gòu)。它的效果優(yōu)于人為設(shè)計的模態(tài)分離策略,并且能夠從數(shù)據(jù)中自然學(xué)習(xí)出針對不同模態(tài)的專門化能力。

統(tǒng)一多模態(tài)模型的擴展律

本文同時推導(dǎo)了視覺與語言兩種模態(tài)的擴展規(guī)律(scaling laws),并進一步研究模型架構(gòu)如何影響這些擴展趨勢。

圖 23 展示了 Dense IsoFLOP 的結(jié)果。



圖 24 顯示統(tǒng)一模型的性能可以達到甚至超過單模態(tài)基線。



圖 25 展示了 MoE IsoFLOP 結(jié)果:



圖 26 比較了 MoE Multimodal + RAE(SigLIP 2) 與單模態(tài) MoE 基線在整個計算范圍內(nèi)的表現(xiàn)。結(jié)果表明 MoE 使得單一模型可以在兩種模態(tài)上同時達到接近單模態(tài)模型的性能,而且只需要極小的額外開銷。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
爆火,有人說幾天賺了26萬!近千人在騰訊樓下排隊,QQ最新宣布

爆火,有人說幾天賺了26萬!近千人在騰訊樓下排隊,QQ最新宣布

都市快報橙柿互動
2026-03-08 08:11:30
最大內(nèi)鬼被挖出!俄媒:卡尼確認完哈梅內(nèi)伊位置,會沒開完就溜了

最大內(nèi)鬼被挖出!俄媒:卡尼確認完哈梅內(nèi)伊位置,會沒開完就溜了

丁丁鯉史紀
2026-03-09 10:29:26
男子買新能源車跑網(wǎng)約車,續(xù)航僅200公里引發(fā)不滿!

男子買新能源車跑網(wǎng)約車,續(xù)航僅200公里引發(fā)不滿!

一絲不茍的法律人
2026-03-08 16:53:42
一種新型謀奪公民財產(chǎn)的方式值得警惕

一種新型謀奪公民財產(chǎn)的方式值得警惕

名人茍或
2026-03-08 06:03:53
臺灣即將有望統(tǒng)一!五大信號正在釋放:武力統(tǒng)一或?qū)⑦M入倒計時?

臺灣即將有望統(tǒng)一!五大信號正在釋放:武力統(tǒng)一或?qū)⑦M入倒計時?

南宗歷史
2026-03-08 22:36:31
靈活就業(yè)人數(shù)已突破2.8億!外賣、網(wǎng)約車、網(wǎng)紅與自媒體數(shù)量大增

靈活就業(yè)人數(shù)已突破2.8億!外賣、網(wǎng)約車、網(wǎng)紅與自媒體數(shù)量大增

火山詩話
2026-03-08 15:46:17
東莞32鎮(zhèn)街最新排名出爐,誰的GDP增速最猛?|東莞一周

東莞32鎮(zhèn)街最新排名出爐,誰的GDP增速最猛?|東莞一周

南方都市報
2026-03-08 21:04:44
5年來首次低頭!印度終于承認:拒絕進口中國產(chǎn)品,反而害了印度

5年來首次低頭!印度終于承認:拒絕進口中國產(chǎn)品,反而害了印度

胖福的小木屋
2026-03-08 14:35:24
為何要增加高中學(xué)位?因為不改現(xiàn)狀,五五分流根本撐不住

為何要增加高中學(xué)位?因為不改現(xiàn)狀,五五分流根本撐不住

老特有話說
2026-03-07 16:16:46
左右兩邊是打扮的漂亮,中間是真漂亮!

左右兩邊是打扮的漂亮,中間是真漂亮!

小椰的奶奶
2026-03-09 03:46:03
以色列掐斷中東電網(wǎng),卻帶火了中國神器!深圳這幫搞電池的太牛了

以色列掐斷中東電網(wǎng),卻帶火了中國神器!深圳這幫搞電池的太牛了

Thurman在昆明
2026-03-08 23:52:27
氣象主播的逆襲!肉絲無敵!

氣象主播的逆襲!肉絲無敵!

貴圈真亂
2026-03-09 13:06:16
牡丹花下死!這次自曝和張杰分手細節(jié)的段曦,沒給謝娜留一絲體面

牡丹花下死!這次自曝和張杰分手細節(jié)的段曦,沒給謝娜留一絲體面

做一個合格的吃瓜群眾
2026-03-04 20:31:49
美以聯(lián)軍這波操作太狠了

美以聯(lián)軍這波操作太狠了

難得君
2026-03-05 00:05:25
定了!2026高速收費新政正式落地:全國車主通行大變樣3月起執(zhí)行

定了!2026高速收費新政正式落地:全國車主通行大變樣3月起執(zhí)行

周哥一影視
2026-03-09 10:18:45
武大食堂4元“熬夜水”走紅日銷兩三百斤,醫(yī)生:配方合理但并非人人適用

武大食堂4元“熬夜水”走紅日銷兩三百斤,醫(yī)生:配方合理但并非人人適用

觀威海
2026-03-09 10:59:06
安洗瑩感嘆:今天不是我的日子 透露父母及爺爺奶奶都到英國觀戰(zhàn)

安洗瑩感嘆:今天不是我的日子 透露父母及爺爺奶奶都到英國觀戰(zhàn)

勁爆體壇
2026-03-09 07:42:31
逐玉成爆款:病嬌侯爺配殺豬女主,張凌赫田曦薇孔雪兒讓全網(wǎng)上頭

逐玉成爆款:病嬌侯爺配殺豬女主,張凌赫田曦薇孔雪兒讓全網(wǎng)上頭

新金牌娛樂觀察家
2026-03-09 09:33:40
快餐CEO集體試吃漢堡,只有麥當(dāng)勞受傷的世界達成了

快餐CEO集體試吃漢堡,只有麥當(dāng)勞受傷的世界達成了

4A廣告網(wǎng)
2026-03-09 10:35:00
亞美尼亞:面積僅2.97萬km2,創(chuàng)下數(shù)個世界之最,曾是世界中心

亞美尼亞:面積僅2.97萬km2,創(chuàng)下數(shù)個世界之最,曾是世界中心

鍋鍋愛歷史
2026-03-07 03:29:01
2026-03-09 14:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12450文章數(shù) 142579關(guān)注度
往期回顧 全部

科技要聞

沖上熱搜,馬化騰說沒想到“龍蝦”這么火

頭條要聞

穆杰塔巴"冒死"接班 或讓伊朗進入"復(fù)仇+軍管"模式

頭條要聞

穆杰塔巴"冒死"接班 或讓伊朗進入"復(fù)仇+軍管"模式

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂要聞

姆巴佩戀情確認!與26歲新歡共度良宵

財經(jīng)要聞

油價直逼120美元!

汽車要聞

對標奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

家居
教育
房產(chǎn)
公開課
軍事航空

家居要聞

獨棟獨院 精致親子墅

教育要聞

全國人大代表黃花春:對學(xué)生心理問題先當(dāng)耳朵再動嘴巴 #寫給未來的五年 #2026全國兩會

房產(chǎn)要聞

來了!2月海南樓市銷售TOP榜出爐!三亞又霸榜

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

王毅:解決臺灣問題 實現(xiàn)祖國完全統(tǒng)一不可阻擋

無障礙瀏覽 進入關(guān)懷版