網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

蘋(píng)果公司首創(chuàng)三模態(tài)AI模型：讓機(jī)器同時(shí)理解文字、圖片和聲音

2026-02-28 22:41:26　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由蘋(píng)果公司等多家世界知名科研機(jī)構(gòu)合作完成的研究發(fā)表于2026年的arXiv預(yù)印本平臺(tái)，論文編號(hào)為arXiv:2602.21472v1，標(biāo)志著人工智能發(fā)展史上的一個(gè)重要里程碑。參與這項(xiàng)研究的機(jī)構(gòu)包括蘋(píng)果公司、谷歌DeepMind、劍橋大學(xué)和麻省理工學(xué)院等頂尖科研院所，研究團(tuán)隊(duì)匯集了來(lái)自不同領(lǐng)域的專(zhuān)家學(xué)者。

要理解這項(xiàng)研究的突破性意義，我們不妨回想一下人類(lèi)學(xué)習(xí)語(yǔ)言的過(guò)程。當(dāng)一個(gè)嬰兒學(xué)會(huì)說(shuō)話時(shí)，他不僅要聽(tīng)到"蘋(píng)果"這個(gè)詞，還要看到紅彩的蘋(píng)果，甚至要觸摸和品嘗它，才能真正理解"蘋(píng)果"的含義。人類(lèi)的大腦天生就能將視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等各種感官信息融合在一起，形成對(duì)世界的完整認(rèn)知。然而，傳統(tǒng)的人工智能模型卻像是只有單一感官的機(jī)器人——有的只能"看"圖片，有的只能"聽(tīng)"聲音，有的只能"讀"文字，它們無(wú)法像人類(lèi)一樣同時(shí)處理多種信息。

蘋(píng)果研究團(tuán)隊(duì)面臨的挑戰(zhàn)就像是要制造一個(gè)既能聽(tīng)音樂(lè)、又能看畫(huà)作、還能讀詩(shī)歌的全能藝術(shù)家。以往的AI模型就像專(zhuān)業(yè)的單項(xiàng)冠軍：有的是閱讀文字的高手，有的擅長(zhǎng)識(shí)別圖片，還有的專(zhuān)門(mén)處理音頻。但現(xiàn)實(shí)世界中的任務(wù)往往需要同時(shí)運(yùn)用多種能力，比如根據(jù)一段文字描述生成相應(yīng)的圖片，或者聽(tīng)到一首歌后寫(xiě)出歌詞的意境。

研究團(tuán)隊(duì)的創(chuàng)新之處在于，他們開(kāi)發(fā)出了第一個(gè)能夠同時(shí)理解和生成文字、圖片、音頻三種不同類(lèi)型信息的統(tǒng)一AI模型，就像培養(yǎng)出了一個(gè)真正的全才藝術(shù)家。這個(gè)模型不僅能讀懂文字描述然后畫(huà)出相應(yīng)的圖片，還能聽(tīng)到一段語(yǔ)音后轉(zhuǎn)換成文字，甚至能根據(jù)文字內(nèi)容生成匹配的語(yǔ)音。更神奇的是，所有這些能力都集中在一個(gè)統(tǒng)一的"大腦"中，而不是三個(gè)分離的專(zhuān)門(mén)模塊。

傳統(tǒng)的多模態(tài)AI系統(tǒng)就像一個(gè)管弦樂(lè)團(tuán)，需要多個(gè)樂(lè)手各自演奏不同的樂(lè)器，然后通過(guò)指揮來(lái)協(xié)調(diào)。而蘋(píng)果團(tuán)隊(duì)開(kāi)發(fā)的這個(gè)模型更像一個(gè)能夠同時(shí)演奏多種樂(lè)器的全能音樂(lè)家，所有的技能都融合在同一個(gè)"演奏者"身上。這種統(tǒng)一的設(shè)計(jì)不僅提高了效率，還能讓不同模態(tài)之間的信息更好地相互促進(jìn)和補(bǔ)充。

這個(gè)AI模型采用了一種全新的技術(shù)路線，叫做"掩碼擴(kuò)散模型"。如果把傳統(tǒng)的AI訓(xùn)練過(guò)程比作按部就班地學(xué)習(xí)教科書(shū)，那么這種新方法更像是通過(guò)填空游戲來(lái)學(xué)習(xí)。研究人員會(huì)故意"遮住"一段文字中的某些詞匯、一張圖片中的某些區(qū)域，或者一段音頻中的某些片段，然后讓AI模型猜測(cè)這些被遮住的內(nèi)容應(yīng)該是什么。通過(guò)大量這樣的"填空練習(xí)"，模型逐漸學(xué)會(huì)了理解不同類(lèi)型信息之間的內(nèi)在聯(lián)系。

這種訓(xùn)練方式的巧妙之處在于，它不是簡(jiǎn)單地讓模型記住固定的輸入輸出對(duì)應(yīng)關(guān)系，而是讓模型學(xué)會(huì)在不完整信息的基礎(chǔ)上進(jìn)行推理和創(chuàng)造。就好比一個(gè)學(xué)生在做完形填空時(shí)，不僅要理解句子的語(yǔ)法結(jié)構(gòu)，還要把握整個(gè)段落的語(yǔ)義邏輯，這樣培養(yǎng)出來(lái)的理解能力更加深入和靈活。

研究團(tuán)隊(duì)在模型的設(shè)計(jì)和訓(xùn)練過(guò)程中遇到了許多技術(shù)挑戰(zhàn)。其中一個(gè)重要問(wèn)題是如何平衡不同類(lèi)型數(shù)據(jù)的學(xué)習(xí)效果。文字、圖片、音頻這三種信息的特點(diǎn)差異很大：文字是離散的符號(hào)序列，圖片是連續(xù)的視覺(jué)特征，音頻則是時(shí)間序列的波形信號(hào)。要讓一個(gè)統(tǒng)一的模型同時(shí)處理這三種截然不同的信息類(lèi)型，就像要訓(xùn)練一個(gè)運(yùn)動(dòng)員同時(shí)精通游泳、跑步和體操，需要找到合適的訓(xùn)練方法和節(jié)奏。

為了解決這個(gè)問(wèn)題，研究人員采用了一種巧妙的策略：將所有不同類(lèi)型的信息都轉(zhuǎn)換成統(tǒng)一的"令牌"格式，就像把不同語(yǔ)言的文檔都翻譯成同一種通用語(yǔ)言一樣。文字自然就是一個(gè)個(gè)詞匯令牌，而圖片和音頻則通過(guò)特殊的編碼器轉(zhuǎn)換成相應(yīng)的令牌序列。這樣一來(lái)，無(wú)論是文字、圖片還是音頻，在模型眼中都變成了同一種格式的信息流，可以用統(tǒng)一的方式來(lái)處理。

在模型的訓(xùn)練過(guò)程中，研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：不同模態(tài)的數(shù)據(jù)混合比例對(duì)最終效果有重要影響。他們嘗試了各種不同的配比方案，最終發(fā)現(xiàn)當(dāng)文字、圖片、音頻數(shù)據(jù)各占三分之一時(shí)，模型的整體表現(xiàn)最為均衡。這就像烹飪一道復(fù)合口味的菜肴，需要精確控制各種調(diào)料的比例，才能達(dá)到最佳的味覺(jué)效果。

一、統(tǒng)一架構(gòu)的技術(shù)突破

這項(xiàng)研究最引人注目的創(chuàng)新在于打破了傳統(tǒng)AI系統(tǒng)的技術(shù)壁壘。以往的多模態(tài)AI系統(tǒng)就像一座需要多個(gè)專(zhuān)門(mén)科室的醫(yī)院，有眼科專(zhuān)門(mén)看圖片、耳鼻喉科專(zhuān)門(mén)聽(tīng)聲音、內(nèi)科專(zhuān)門(mén)處理文字信息，各個(gè)科室之間雖然可以會(huì)診，但終究是分離運(yùn)作的。而蘋(píng)果團(tuán)隊(duì)開(kāi)發(fā)的這個(gè)模型更像是一位全科醫(yī)生，能夠同時(shí)運(yùn)用視覺(jué)、聽(tīng)覺(jué)、語(yǔ)言等多種"感官"來(lái)診斷和處理問(wèn)題。

這種統(tǒng)一架構(gòu)的核心技術(shù)叫做"三模態(tài)掩碼擴(kuò)散模型"，其工作原理類(lèi)似于一個(gè)高級(jí)的智能修復(fù)師。當(dāng)這個(gè)AI模型接收到一個(gè)包含文字、圖片、音頻的混合任務(wù)時(shí)，它會(huì)先隨機(jī)"損壞"其中的一部分信息，比如抹去圖片中的某些像素、靜音音頻中的某些片段、或者遮蓋文字中的某些單詞。然后模型需要根據(jù)剩余的信息來(lái)"修復(fù)"這些缺失的部分。

這個(gè)修復(fù)過(guò)程并不是一步完成的，而是通過(guò)多次迭代逐步完善的，就像一個(gè)藝術(shù)家在創(chuàng)作畫(huà)作時(shí)，先勾勒出大致輪廓，然后逐步添加細(xì)節(jié)，最后完成精致的作品。每一次迭代，模型都會(huì)參考所有可用的信息來(lái)源——文字的語(yǔ)義、圖片的視覺(jué)特征、音頻的聲學(xué)特性——來(lái)做出更準(zhǔn)確的預(yù)測(cè)。

研究團(tuán)隊(duì)在技術(shù)實(shí)現(xiàn)上采用了一個(gè)名為"統(tǒng)一詞匯表"的巧妙設(shè)計(jì)。傳統(tǒng)的多模態(tài)系統(tǒng)需要為不同類(lèi)型的數(shù)據(jù)維護(hù)不同的詞匯庫(kù)，就像一個(gè)圖書(shū)管理員需要分別管理中文書(shū)籍、英文書(shū)籍、圖畫(huà)書(shū)等不同類(lèi)型的藏書(shū)。而這個(gè)新系統(tǒng)創(chuàng)建了一個(gè)包含117,698個(gè)不同"詞匯"的超級(jí)詞典，其中包括100,281個(gè)文字詞匯、16,387個(gè)圖片特征詞匯、以及1,027個(gè)音頻特征詞匯。

這種統(tǒng)一的詞匯設(shè)計(jì)讓模型能夠無(wú)縫地在不同模態(tài)之間切換和關(guān)聯(lián)。當(dāng)模型看到文字"貓咪"時(shí)，它不僅理解這個(gè)詞的語(yǔ)義含義，還能關(guān)聯(lián)到相應(yīng)的視覺(jué)特征（毛茸茸、尖耳朵、胡須等）和聽(tīng)覺(jué)特征（喵喵叫聲）。這種跨模態(tài)的關(guān)聯(lián)能力讓模型在處理復(fù)合任務(wù)時(shí)表現(xiàn)出了前所未有的靈活性。

模型的神經(jīng)網(wǎng)絡(luò)架構(gòu)采用了最先進(jìn)的Transformer設(shè)計(jì)，包含24個(gè)處理層和3072個(gè)神經(jīng)元維度，總參數(shù)量達(dá)到30億個(gè)。這些參數(shù)就像是模型大腦中的"神經(jīng)連接"，通過(guò)6.4萬(wàn)億個(gè)訓(xùn)練樣本的學(xué)習(xí)，形成了對(duì)不同模態(tài)信息的深度理解能力。訓(xùn)練過(guò)程歷時(shí)100萬(wàn)個(gè)計(jì)算步驟，相當(dāng)于模型進(jìn)行了100萬(wàn)次"學(xué)習(xí)練習(xí)"。

二、智能訓(xùn)練策略的創(chuàng)新設(shè)計(jì)

研究團(tuán)隊(duì)在模型訓(xùn)練方面實(shí)現(xiàn)了多項(xiàng)技術(shù)突破，其中最重要的是解決了困擾業(yè)界已久的"最優(yōu)批量大小"問(wèn)題。在傳統(tǒng)的AI訓(xùn)練中，選擇合適的批量大小就像調(diào)節(jié)汽車(chē)的油門(mén)踏板深度——踩得太輕，車(chē)子跑得慢效率低；踩得太重，又可能熄火或者浪費(fèi)燃油。以往的研究人員需要通過(guò)大量實(shí)驗(yàn)來(lái)找到這個(gè)最佳的"踩踏板"深度，既耗時(shí)又昂貴。

蘋(píng)果研究團(tuán)隊(duì)通過(guò)引入一種叫做"隨機(jī)微分方程重參數(shù)化"的數(shù)學(xué)技術(shù)，徹底解決了這個(gè)問(wèn)題。這個(gè)技術(shù)的核心思想是將訓(xùn)練過(guò)程看作一個(gè)連續(xù)的數(shù)學(xué)過(guò)程，而不是離散的步驟序列。就好比傳統(tǒng)方法像是走樓梯需要精確控制每一步的高度，而新方法則像是坐電梯，可以平滑地調(diào)節(jié)到任何理想的高度。

這種重參數(shù)化技術(shù)帶來(lái)的好處是顯著的：研究人員不再需要為每個(gè)模型規(guī)模單獨(dú)尋找最優(yōu)的批量大小，而是可以根據(jù)可用的計(jì)算資源靈活調(diào)整。這就像擁有了一輛自動(dòng)變速汽車(chē)，可以根據(jù)路況自動(dòng)調(diào)節(jié)檔位，而不需要司機(jī)手動(dòng)操作離合器和變速桿。

在模型的超參數(shù)調(diào)優(yōu)方面，研究團(tuán)隊(duì)還采用了一種稱為"CompleteP + SDE縮放"的先進(jìn)方法。這種方法的巧妙之處在于，它可以將在小規(guī)模模型上找到的最優(yōu)參數(shù)設(shè)置，自動(dòng)縮放到大規(guī)模模型上。就好比一個(gè)廚師在家庭廚房里調(diào)試出了一道美味菜肴的配方，然后可以按比例放大到餐廳廚房的工業(yè)級(jí)制作中，而不需要重新試驗(yàn)所有的調(diào)料比例。

這種縮放方法不僅節(jié)省了大量的計(jì)算資源，還提高了實(shí)驗(yàn)的可重復(fù)性。研究團(tuán)隊(duì)通過(guò)在320M參數(shù)的小模型上進(jìn)行約3000次超參數(shù)搜索實(shí)驗(yàn)，找到了全局最優(yōu)的參數(shù)配置，然后成功地將這些參數(shù)縮放到30億參數(shù)的大模型上，獲得了出色的性能表現(xiàn)。

在數(shù)據(jù)處理方面，研究團(tuán)隊(duì)面臨的挑戰(zhàn)類(lèi)似于同時(shí)教一個(gè)學(xué)生學(xué)習(xí)三種完全不同的技能。他們需要確定文字、圖片、音頻三種數(shù)據(jù)的最佳混合比例，既要保證每種模態(tài)都得到充分的訓(xùn)練，又要避免某一種模態(tài)過(guò)度主導(dǎo)訓(xùn)練過(guò)程。

通過(guò)大量的實(shí)驗(yàn)，研究團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)三種模態(tài)的數(shù)據(jù)各占三分之一時(shí)，模型的綜合性能達(dá)到最優(yōu)。這個(gè)發(fā)現(xiàn)頗有些意外，因?yàn)橹庇X(jué)上可能認(rèn)為某種模態(tài)的數(shù)據(jù)應(yīng)該占更大比重。但實(shí)驗(yàn)結(jié)果表明，均衡的數(shù)據(jù)分布讓模型能夠在不同任務(wù)間保持穩(wěn)定的性能，避免了"偏科"現(xiàn)象。

訓(xùn)練數(shù)據(jù)的規(guī)模同樣令人印象深刻：模型總共接觸了3.4萬(wàn)億個(gè)文字令牌、10億個(gè)圖片樣本、和10億個(gè)音頻樣本。這相當(dāng)于讓模型閱讀了數(shù)百萬(wàn)本書(shū)籍、觀看了數(shù)百萬(wàn)張圖片、聆聽(tīng)了數(shù)百萬(wàn)小時(shí)的音頻內(nèi)容。如此大規(guī)模的多模態(tài)訓(xùn)練數(shù)據(jù)為模型提供了豐富的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)機(jī)會(huì)。

三、規(guī)模化定律的重要發(fā)現(xiàn)

研究團(tuán)隊(duì)在這項(xiàng)工作中最具前瞻性的貢獻(xiàn)之一，是系統(tǒng)性地研究了三模態(tài)AI模型的規(guī)?；?。這就像是為AI模型的發(fā)展制定了一張?jiān)敿?xì)的"成長(zhǎng)圖譜"，告訴我們隨著模型規(guī)模的增長(zhǎng)，性能會(huì)如何變化，需要多少數(shù)據(jù)才能達(dá)到最佳效果。

傳統(tǒng)的AI模型規(guī)?；芯恐饕P(guān)注單一模態(tài)，比如純文字模型或純圖像模型。而這項(xiàng)研究首次為多模態(tài)模型建立了完整的規(guī)?；?。研究團(tuán)隊(duì)訓(xùn)練了262個(gè)不同規(guī)模的模型，從幾千萬(wàn)參數(shù)的小模型到數(shù)十億參數(shù)的大模型，每個(gè)模型的訓(xùn)練數(shù)據(jù)量也在1到2000倍參數(shù)量之間變化。

通過(guò)對(duì)這些大量實(shí)驗(yàn)數(shù)據(jù)的分析，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人驚訝的規(guī)律：三模態(tài)擴(kuò)散模型比傳統(tǒng)的自回歸語(yǔ)言模型更加"數(shù)據(jù)高效"。簡(jiǎn)單來(lái)說(shuō)，就是這種新型模型能夠用更少的訓(xùn)練數(shù)據(jù)達(dá)到同樣的性能水平。這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)了一種新的學(xué)習(xí)方法，能讓學(xué)生用更少的時(shí)間掌握同樣的知識(shí)量。

具體來(lái)說(shuō)，研究團(tuán)隊(duì)發(fā)現(xiàn)對(duì)于一個(gè)30億參數(shù)的模型，傳統(tǒng)方法需要大約600億個(gè)訓(xùn)練令牌才能達(dá)到最優(yōu)性能，而新的三模態(tài)擴(kuò)散模型只需要大約480億個(gè)令牌。這種效率提升意味著訓(xùn)練成本的顯著降低和訓(xùn)練時(shí)間的大幅縮短。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)隨著模型規(guī)模的增長(zhǎng)，這種數(shù)據(jù)效率的優(yōu)勢(shì)會(huì)越來(lái)越明顯。對(duì)于更大規(guī)模的模型，三模態(tài)擴(kuò)散方法相比傳統(tǒng)方法的數(shù)據(jù)需求增長(zhǎng)得更慢。這就像是發(fā)現(xiàn)了一種新的交通工具，不僅本身就比傳統(tǒng)工具快，而且隨著距離的增加，速度優(yōu)勢(shì)會(huì)越來(lái)越明顯。

研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)建模，提出了一個(gè)精確的公式來(lái)描述模型性能與規(guī)模和數(shù)據(jù)量之間的關(guān)系。這個(gè)公式的形式為：L = E + (A·N^(-a/b) + B·D^(-1))^b，其中N是模型參數(shù)量，D是訓(xùn)練數(shù)據(jù)量，而其他字母則是通過(guò)實(shí)驗(yàn)確定的常數(shù)。這個(gè)公式就像是AI模型的"成長(zhǎng)方程式"，可以幫助研究者預(yù)測(cè)不同配置下模型的性能表現(xiàn)。

基于這個(gè)規(guī)?；?，研究團(tuán)隊(duì)還給出了計(jì)算最優(yōu)模型配置的公式：D*(N) = 7754 · N^0.84。這個(gè)公式告訴我們，對(duì)于一個(gè)給定參數(shù)量的模型，應(yīng)該用多少訓(xùn)練數(shù)據(jù)才能達(dá)到最佳的性價(jià)比。例如，對(duì)于一個(gè)30億參數(shù)的模型，最優(yōu)的訓(xùn)練數(shù)據(jù)量大約是4800億個(gè)令牌。

這些規(guī)?；傻陌l(fā)現(xiàn)對(duì)整個(gè)AI行業(yè)具有重要的指導(dǎo)意義。它們不僅幫助研究者更好地規(guī)劃實(shí)驗(yàn)資源，還為AI模型的商業(yè)化部署提供了重要的成本效益分析依據(jù)。公司可以根據(jù)這些定律來(lái)決定在給定預(yù)算下應(yīng)該訓(xùn)練多大規(guī)模的模型，使用多少數(shù)據(jù)，從而實(shí)現(xiàn)最佳的投資回報(bào)。

四、不同模態(tài)的個(gè)性化優(yōu)化策略

研究團(tuán)隊(duì)在深入研究過(guò)程中發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：雖然文字、圖片、音頻三種信息都可以用統(tǒng)一的模型來(lái)處理，但在生成階段，不同類(lèi)型的內(nèi)容需要采用截然不同的參數(shù)設(shè)置才能達(dá)到最佳效果。這就像是一個(gè)全能的廚師，雖然掌握了各種烹飪技巧，但在制作不同菜系時(shí)仍需要調(diào)整火候、調(diào)料和烹飪時(shí)間。

對(duì)于文字到圖片的生成任務(wù)，研究團(tuán)隊(duì)發(fā)現(xiàn)最佳的參數(shù)配置包括：分類(lèi)器自由引導(dǎo)強(qiáng)度設(shè)置為6.0，溫度參數(shù)為1.0，采用top-p采樣策略，生成步驟為1024步。這些參數(shù)就像是畫(huà)家作畫(huà)時(shí)的不同技法選擇——引導(dǎo)強(qiáng)度決定了對(duì)文字描述的嚴(yán)格程度，溫度參數(shù)控制了創(chuàng)作的隨機(jī)性，而生成步驟則決定了作畫(huà)的精細(xì)程度。

實(shí)驗(yàn)結(jié)果顯示，隨著生成步驟的增加，圖片質(zhì)量會(huì)顯著提升，但提升的幅度會(huì)逐漸遞減。這種現(xiàn)象類(lèi)似于攝影師調(diào)焦的過(guò)程：前幾次調(diào)整會(huì)帶來(lái)明顯的清晰度改善，但過(guò)度調(diào)整可能效果有限甚至適得其反。研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)確定了性價(jià)比最高的參數(shù)組合。

文字到語(yǔ)音的生成任務(wù)則需要完全不同的參數(shù)設(shè)置：分類(lèi)器自由引導(dǎo)強(qiáng)度為3.0，溫度參數(shù)為1.2，top-p值為0.9，生成步驟為1000步。這些參數(shù)的差異反映了音頻和圖像在生成特性上的本質(zhì)區(qū)別。音頻是時(shí)間序列信息，需要保持更好的連貫性和自然性，因此使用了較低的引導(dǎo)強(qiáng)度和較高的溫度參數(shù)。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，在音頻生成任務(wù)中，分類(lèi)器自由引導(dǎo)參數(shù)呈現(xiàn)出有趣的權(quán)衡特性：較高的引導(dǎo)強(qiáng)度可以提高語(yǔ)音轉(zhuǎn)錄的準(zhǔn)確性，但同時(shí)會(huì)降低音頻的保真度。這就像調(diào)節(jié)音響系統(tǒng)時(shí)，提高某個(gè)頻段的音量可能會(huì)改善清晰度，但也可能引入失真。因此，需要根據(jù)具體應(yīng)用場(chǎng)景來(lái)選擇合適的平衡點(diǎn)。

在噪聲調(diào)度方案的選擇上，研究團(tuán)隊(duì)比較了線性、余弦、多項(xiàng)式和幾何四種不同的策略。實(shí)驗(yàn)結(jié)果表明，多項(xiàng)式調(diào)度方案在所有三種模態(tài)上都表現(xiàn)出了最優(yōu)的性能。這個(gè)發(fā)現(xiàn)頗有些意外，因?yàn)樵趩文B(tài)模型中，不同的調(diào)度策略往往各有優(yōu)劣。但在多模態(tài)統(tǒng)一模型中，多項(xiàng)式調(diào)度似乎能夠更好地平衡不同類(lèi)型信息的生成需求。

研究團(tuán)隊(duì)還引入了一種稱為"反掩碼"的訓(xùn)練技術(shù)。這種技術(shù)的工作原理類(lèi)似于讓學(xué)生同時(shí)做填空題和排除題：對(duì)于每個(gè)訓(xùn)練樣本，模型不僅要學(xué)會(huì)預(yù)測(cè)被掩碼的內(nèi)容，還要學(xué)會(huì)預(yù)測(cè)不應(yīng)該被掩碼的內(nèi)容。這種對(duì)比學(xué)習(xí)的方式顯著提高了模型的泛化能力和生成質(zhì)量。

實(shí)驗(yàn)結(jié)果顯示，反掩碼技術(shù)在保持計(jì)算成本不變的情況下，在多個(gè)評(píng)估指標(biāo)上都實(shí)現(xiàn)了性能提升。對(duì)于圖像生成任務(wù)，F(xiàn)ID分?jǐn)?shù)從26.77改善到21.04；對(duì)于音頻生成任務(wù)，F(xiàn)AD分?jǐn)?shù)從0.24改善到0.22。雖然這些改善的絕對(duì)數(shù)值看起來(lái)不大，但在AI模型性能的精細(xì)化競(jìng)爭(zhēng)中，每一點(diǎn)提升都是很有價(jià)值的。

五、大規(guī)模實(shí)際應(yīng)用的性能表現(xiàn)

經(jīng)過(guò)大規(guī)模訓(xùn)練的30億參數(shù)三模態(tài)模型在各種實(shí)際任務(wù)上展現(xiàn)出了令人印象深刻的性能表現(xiàn)。研究團(tuán)隊(duì)采用了業(yè)界標(biāo)準(zhǔn)的評(píng)估基準(zhǔn)來(lái)測(cè)試模型的實(shí)際能力，就像給一個(gè)全科醫(yī)生進(jìn)行執(zhí)業(yè)資格考試，需要在多個(gè)專(zhuān)業(yè)領(lǐng)域都達(dá)到合格標(biāo)準(zhǔn)。

在文字理解和生成方面，模型在多個(gè)知識(shí)性問(wèn)答任務(wù)上的表現(xiàn)達(dá)到了主流水平。例如，在MMLU（大規(guī)模多任務(wù)語(yǔ)言理解）測(cè)試中獲得了41.57分，在數(shù)學(xué)推理任務(wù)GSM8K上的準(zhǔn)確率達(dá)到了相當(dāng)水平。這些成績(jī)雖然不是最高分，但考慮到這是一個(gè)需要同時(shí)處理三種不同模態(tài)的通用模型，這樣的表現(xiàn)已經(jīng)相當(dāng)不錯(cuò)。

圖像生成能力的評(píng)估采用了多個(gè)維度的指標(biāo)。在圖像質(zhì)量方面，模型生成的圖片在FID（Frechet Inception Distance）指標(biāo)上得分為10.06，這個(gè)分?jǐn)?shù)表明生成圖像的質(zhì)量已經(jīng)達(dá)到了較高水平。更重要的是，在GenEval測(cè)試中，模型在物體識(shí)別、計(jì)數(shù)、顏色和位置等多個(gè)細(xì)分任務(wù)上都表現(xiàn)出了良好的理解能力，整體得分為48.89分。

音頻生成方面的性能同樣令人鼓舞。模型在語(yǔ)音合成任務(wù)上的表現(xiàn)通過(guò)多個(gè)指標(biāo)進(jìn)行了評(píng)估，包括音頻質(zhì)量的FAD分?jǐn)?shù)為0.164，語(yǔ)音識(shí)別準(zhǔn)確率WER為0.368，以及多維度的音頻美學(xué)評(píng)分。這些指標(biāo)表明模型能夠生成清晰、自然的語(yǔ)音，并且與輸入文本保持良好的一致性。

特別值得注意的是，模型展現(xiàn)出了優(yōu)秀的跨模態(tài)理解能力。當(dāng)給定一個(gè)文字描述時(shí)，模型不僅能生成匹配的圖像，還能理解描述中的細(xì)節(jié)要求，如顏色、形狀、空間關(guān)系等。例如，當(dāng)輸入"一個(gè)紅色的蘋(píng)果放在木制桌子上"這樣的描述時(shí)，模型能夠準(zhǔn)確地生成相應(yīng)的圖像，并正確處理物體的顏色、形狀和空間位置關(guān)系。

研究團(tuán)隊(duì)還測(cè)試了模型的多輪對(duì)話能力和復(fù)雜任務(wù)處理能力。實(shí)驗(yàn)結(jié)果表明，模型能夠在連續(xù)的多輪交互中保持上下文的連貫性，并且能夠處理涉及多種模態(tài)的復(fù)合指令。這種能力對(duì)于實(shí)際應(yīng)用場(chǎng)景具有重要意義，因?yàn)楝F(xiàn)實(shí)中的用戶需求往往是復(fù)雜和多變的。

從計(jì)算效率的角度來(lái)看，雖然這個(gè)統(tǒng)一的多模態(tài)模型在推理時(shí)需要更多的計(jì)算資源，但相比于部署三個(gè)獨(dú)立的專(zhuān)門(mén)模型，它在系統(tǒng)復(fù)雜度、維護(hù)成本和存儲(chǔ)需求等方面具有明顯優(yōu)勢(shì)。這種統(tǒng)一架構(gòu)也為未來(lái)的模型優(yōu)化和功能擴(kuò)展提供了更好的基礎(chǔ)。

六、技術(shù)細(xì)節(jié)與工程實(shí)現(xiàn)

在具體的技術(shù)實(shí)現(xiàn)層面，這個(gè)三模態(tài)模型采用了多項(xiàng)創(chuàng)新的工程技術(shù)來(lái)確保系統(tǒng)的穩(wěn)定性和效率。整個(gè)模型基于雙向Transformer架構(gòu)構(gòu)建，這種架構(gòu)的優(yōu)勢(shì)在于能夠同時(shí)考慮序列中前后兩個(gè)方向的信息，就像一個(gè)讀者不僅能從左到右閱讀文字，還能根據(jù)后續(xù)內(nèi)容來(lái)理解前面句子的含義。

模型的核心架構(gòu)包含24個(gè)處理層，每層都有3072個(gè)隱藏單元，總共包含約30億個(gè)可訓(xùn)練參數(shù)。這些參數(shù)就像是大腦中的神經(jīng)連接，通過(guò)訓(xùn)練過(guò)程中的調(diào)整，形成了對(duì)不同類(lèi)型信息的處理能力。為了處理長(zhǎng)序列信息，模型采用了旋轉(zhuǎn)位置編碼（RoPE）技術(shù)，這種編碼方式能夠更好地處理不同長(zhǎng)度的輸入序列。

在詞匯表設(shè)計(jì)上，研究團(tuán)隊(duì)創(chuàng)建了一個(gè)包含117,698個(gè)詞元的統(tǒng)一詞匯表。這個(gè)詞匯表的構(gòu)成頗為精巧：文字部分使用了Tiktoken編碼器，包含100,281個(gè)詞元；圖像部分采用SBER-MoVQGAN編碼器，包含16,387個(gè)詞元；音頻部分使用Higgs Audio v2編碼器，包含1,027個(gè)詞元。此外還包括各種特殊標(biāo)記用于標(biāo)識(shí)不同模態(tài)和任務(wù)類(lèi)型。

為了處理大規(guī)模詞匯表帶來(lái)的計(jì)算挑戰(zhàn)，研究團(tuán)隊(duì)采用了切割交叉熵（Cut-Cross-Entropy）技術(shù)。這種技術(shù)可以避免在計(jì)算損失函數(shù)時(shí)實(shí)例化完整的概率分布，從而顯著降低內(nèi)存使用量。同時(shí)，還引入了z-loss正則化項(xiàng)來(lái)穩(wěn)定訓(xùn)練過(guò)程中的logit值，防止數(shù)值不穩(wěn)定問(wèn)題。

訓(xùn)練基礎(chǔ)設(shè)施方面，整個(gè)項(xiàng)目使用了大規(guī)模分布式計(jì)算集群。模型訓(xùn)練采用了3072的批次大小和3256的序列長(zhǎng)度，在100萬(wàn)個(gè)訓(xùn)練步驟中處理了總計(jì)6.4萬(wàn)億個(gè)令牌。這種規(guī)模的訓(xùn)練需要精心設(shè)計(jì)的分布式策略和容錯(cuò)機(jī)制來(lái)確保訓(xùn)練過(guò)程的穩(wěn)定性。

數(shù)據(jù)預(yù)處理流水線也是系統(tǒng)的重要組成部分。文字?jǐn)?shù)據(jù)采用了令牌打包策略，以提高訓(xùn)練效率；圖像數(shù)據(jù)經(jīng)過(guò)了標(biāo)準(zhǔn)化的預(yù)處理流程，包括隨機(jī)裁剪、縮放等數(shù)據(jù)增強(qiáng)技術(shù)；音頻數(shù)據(jù)則被處理成固定長(zhǎng)度的幀序列。所有三種模態(tài)的數(shù)據(jù)都被轉(zhuǎn)換成統(tǒng)一的序列格式，以便模型進(jìn)行統(tǒng)一處理。

在推理優(yōu)化方面，研究團(tuán)隊(duì)實(shí)現(xiàn)了多種加速技術(shù)。包括采用高效的采樣算法、優(yōu)化的注意力機(jī)制計(jì)算、以及針對(duì)不同模態(tài)特點(diǎn)的專(zhuān)門(mén)優(yōu)化策略。這些優(yōu)化使得模型在保持高質(zhì)量輸出的同時(shí)，也能滿足實(shí)際應(yīng)用對(duì)響應(yīng)速度的要求。

模型的可擴(kuò)展性設(shè)計(jì)也值得關(guān)注。通過(guò)模塊化的架構(gòu)設(shè)計(jì)，這個(gè)系統(tǒng)可以相對(duì)容易地?cái)U(kuò)展到更多的模態(tài)或更大的規(guī)模。任務(wù)標(biāo)記系統(tǒng)的設(shè)計(jì)使得新的任務(wù)類(lèi)型可以通過(guò)簡(jiǎn)單的配置來(lái)添加，而不需要對(duì)核心架構(gòu)進(jìn)行重大修改。

七、未來(lái)發(fā)展前景與應(yīng)用潛力

這項(xiàng)研究開(kāi)啟的技術(shù)方向具有廣闊的應(yīng)用前景和發(fā)展空間。從技術(shù)發(fā)展的角度來(lái)看，三模態(tài)統(tǒng)一模型代表了AI系統(tǒng)向著更加通用和智能的方向演進(jìn)的重要一步，就像從單一功能的工具發(fā)展到多功能的瑞士軍刀一樣。

在內(nèi)容創(chuàng)作領(lǐng)域，這種技術(shù)可以徹底改變傳統(tǒng)的工作流程。設(shè)計(jì)師不再需要分別使用文字處理軟件、圖像編輯工具和音頻制作軟件，而是可以通過(guò)一個(gè)統(tǒng)一的AI助手來(lái)完成跨媒體的創(chuàng)作任務(wù)。例如，一個(gè)營(yíng)銷(xiāo)人員只需要提供產(chǎn)品描述，系統(tǒng)就能同時(shí)生成相應(yīng)的廣告文案、產(chǎn)品圖片和宣傳音頻，大大提高創(chuàng)作效率。

教育行業(yè)也將從這項(xiàng)技術(shù)中獲得巨大益處。AI教師可以根據(jù)學(xué)生的學(xué)習(xí)內(nèi)容自動(dòng)生成相關(guān)的視覺(jué)圖表、音頻解釋和文字補(bǔ)充材料，為每個(gè)學(xué)生提供個(gè)性化的多媒體學(xué)習(xí)體驗(yàn)。這種多模態(tài)的教學(xué)方式更符合人類(lèi)的認(rèn)知特點(diǎn)，能夠幫助學(xué)生更好地理解和記憶知識(shí)。

在娛樂(lè)產(chǎn)業(yè)，這項(xiàng)技術(shù)有潛力革命性地改變游戲、影視和音樂(lè)制作的方式。游戲開(kāi)發(fā)者可以通過(guò)文字描述快速生成游戲場(chǎng)景、角色對(duì)話音頻和背景音樂(lè)，大大縮短開(kāi)發(fā)周期。影視制作中的概念設(shè)計(jì)、配音生成、音效制作等環(huán)節(jié)也都可以通過(guò)AI來(lái)輔助完成。

對(duì)于殘障人士的輔助技術(shù)應(yīng)用也充滿希望。視覺(jué)障礙人士可以通過(guò)語(yǔ)音描述獲得AI生成的圖像內(nèi)容解釋?zhuān)?tīng)覺(jué)障礙人士可以將音頻內(nèi)容轉(zhuǎn)換為文字或視覺(jué)表示。這種跨模態(tài)的信息轉(zhuǎn)換能力為構(gòu)建更加包容的數(shù)字環(huán)境提供了技術(shù)基礎(chǔ)。

然而，這項(xiàng)技術(shù)的發(fā)展也面臨著一些挑戰(zhàn)和限制。首先是計(jì)算資源的需求問(wèn)題。雖然統(tǒng)一模型在系統(tǒng)復(fù)雜度上有優(yōu)勢(shì)，但其計(jì)算需求仍然很高，這可能限制了技術(shù)在資源受限環(huán)境中的部署。研究團(tuán)隊(duì)正在探索模型壓縮、量化等技術(shù)來(lái)解決這個(gè)問(wèn)題。

數(shù)據(jù)質(zhì)量和版權(quán)問(wèn)題也是需要重視的方面。多模態(tài)模型的訓(xùn)練需要大量高質(zhì)量的配對(duì)數(shù)據(jù)，而這些數(shù)據(jù)的獲取和使用涉及復(fù)雜的版權(quán)和隱私問(wèn)題。如何在保護(hù)原創(chuàng)者權(quán)益的前提下構(gòu)建可持續(xù)的數(shù)據(jù)生態(tài)系統(tǒng)，是技術(shù)推廣面臨的重要挑戰(zhàn)。

從技術(shù)演進(jìn)的角度來(lái)看，當(dāng)前的三模態(tài)模型還只是一個(gè)起點(diǎn)。未來(lái)的發(fā)展方向可能包括支持更多模態(tài)（如觸覺(jué)、嗅覺(jué)等）、更高的生成質(zhì)量、更強(qiáng)的推理能力等。隨著硬件技術(shù)的進(jìn)步和算法的優(yōu)化，我們有理由期待看到更加智能和實(shí)用的多模態(tài)AI系統(tǒng)。

研究團(tuán)隊(duì)在論文中也誠(chéng)實(shí)地討論了當(dāng)前系統(tǒng)的局限性。相比專(zhuān)門(mén)優(yōu)化的單模態(tài)模型，統(tǒng)一模型在某些特定任務(wù)上的性能可能還存在差距。但這種性能上的微小犧牲換來(lái)的是系統(tǒng)架構(gòu)的簡(jiǎn)化和跨模態(tài)能力的獲得，這個(gè)權(quán)衡在很多應(yīng)用場(chǎng)景下是值得的。

說(shuō)到底，蘋(píng)果公司聯(lián)合多家頂尖研究機(jī)構(gòu)完成的這項(xiàng)工作，為我們展示了一個(gè)AI技術(shù)發(fā)展的全新可能性。它不僅是技術(shù)上的突破，更代表了一種全新的思維方式——不再將不同類(lèi)型的信息看作彼此獨(dú)立的數(shù)據(jù)孤島，而是將它們視為相互關(guān)聯(lián)、相互促進(jìn)的統(tǒng)一整體。就像人類(lèi)的感官系統(tǒng)一樣，真正智能的AI系統(tǒng)也應(yīng)該能夠同時(shí)理解和生成多種形式的信息，在不同模態(tài)間自由轉(zhuǎn)換和創(chuàng)造。

這種統(tǒng)一的多模態(tài)AI技術(shù)還處于發(fā)展的早期階段，但已經(jīng)展現(xiàn)出了巨大的潛力。隨著計(jì)算能力的提升、數(shù)據(jù)資源的豐富和算法的進(jìn)一步優(yōu)化，我們有理由相信，未來(lái)的AI助手將能夠更自然、更智能地與人類(lèi)協(xié)作，真正成為我們工作和生活中不可或缺的智能伙伴。對(duì)于關(guān)心AI技術(shù)發(fā)展的讀者來(lái)說(shuō)，這項(xiàng)研究無(wú)疑提供了一個(gè)極具價(jià)值的觀察窗口，讓我們得以窺見(jiàn)人工智能技術(shù)演進(jìn)的下一個(gè)重要方向。

Q&A

Q1：三模態(tài)掩碼擴(kuò)散模型和傳統(tǒng)AI模型有什么本質(zhì)區(qū)別？

A：傳統(tǒng)AI模型就像專(zhuān)門(mén)的單項(xiàng)選手，只能處理一種類(lèi)型信息，而三模態(tài)掩碼擴(kuò)散模型就像全能運(yùn)動(dòng)員，能同時(shí)理解和生成文字、圖片、音頻三種信息。最大區(qū)別是它采用"填空游戲"式訓(xùn)練，通過(guò)不斷猜測(cè)被遮住的內(nèi)容來(lái)學(xué)習(xí)，而不是死記硬背固定答案。

Q2：蘋(píng)果的這個(gè)AI模型在實(shí)際應(yīng)用中能做什么？

A：這個(gè)模型可以根據(jù)文字描述生成相應(yīng)圖片，將音頻轉(zhuǎn)成文字，或者根據(jù)文字內(nèi)容生成匹配的語(yǔ)音。就像一個(gè)全能創(chuàng)作助手，一個(gè)人就能完成原本需要多個(gè)專(zhuān)業(yè)軟件才能做到的跨媒體內(nèi)容制作，大大提高工作效率。

Q3：普通人什么時(shí)候能用上這種三模態(tài)AI技術(shù)？

A：目前這還是研究階段的技術(shù)，普通消費(fèi)者暫時(shí)無(wú)法直接使用。但基于蘋(píng)果等大公司的技術(shù)實(shí)力和商業(yè)化能力，預(yù)計(jì)在未來(lái)幾年內(nèi)，我們可能會(huì)在智能手機(jī)、電腦或其他設(shè)備中看到基于這種技術(shù)的實(shí)用功能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.