国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Sora:大型視覺模型的背景、技術(shù)、局限性和機(jī)遇綜述 【官方論文】

0
分享至

文:城主

寫在前面:今天OpenAI和微軟聯(lián)合發(fā)布了Sora的官方論文。這里和關(guān)心Sora的同學(xué)們分享本城翻譯制作的中文版(全文3.4萬字)

英文原版?zhèn)魉烷T:https://arxiv.org/pdf/2402.17177v1.pdf

Sora:大型視覺模型的背景、技術(shù)、局限性和機(jī)遇綜述

Yixin Liu1* Kai Zhang1* Yuan Li1* Zhiling Yan1* Chujie Gao1*

Ruoxi Chen1* Zhengqing Yuan1* Yue Huang1Hanchi Sun1

Jianfeng Gao2 Lifang He1 Lichao Sun1?

1利哈伊大學(xué)2微軟研究院

摘要

Sora是一款由OpenAI在2024年2月發(fā)布的文本到視頻生成的AI模型。該模型被訓(xùn)練用于根據(jù)文本指令生成現(xiàn)實(shí)或想象場景的視頻,并展現(xiàn)出模擬物理世界的潛力。基于公開的技術(shù)報(bào)告和逆向工程,本文對(duì)該模型的背景、相關(guān)技術(shù)、應(yīng)用、現(xiàn)存挑戰(zhàn)和文本到視頻AI模型的未來方向進(jìn)行了全面的綜述。我們首先追溯Sora的發(fā)展,并探究用于構(gòu)建這一“世界模擬器”的底層技術(shù)。然后,我們詳細(xì)描述了Sora在從電影制作和教育到市場營銷等多個(gè)行業(yè)中的應(yīng)用和潛在影響。我們討論了需要解決的主要挑戰(zhàn)和局限性,以便廣泛部署Sora,例如確保安全且無偏見的視頻生成。最后,我們討論了Sora和一般視頻生成模型的未來發(fā)展,以及該領(lǐng)域的進(jìn)步如何能夠?qū)崿F(xiàn)新的人工智能交互方式,提高視頻生成的生產(chǎn)力和創(chuàng)造力。

圖1:Sora:AI驅(qū)動(dòng)視覺生成的突破。

*平等貢獻(xiàn)。順序是通過擲骰子確定的。Chujie, Ruoxi, Yuan, Yue, 和 Zhengqing 是在利哈伊大學(xué)LAIR實(shí)驗(yàn)室的訪問學(xué)生。GitHub鏈接為 https://github.com/lichao-sun/SoraReview

?Lichao Sun 是共同通訊作者:lis221@lehigh.edu

目錄

1 引言

2 背景

2.1 歷史

2.2 高級(jí)概念

3 技術(shù)

3.1 Sora概述

3.2 數(shù)據(jù)預(yù)處理

3.2.1 變量持續(xù)時(shí)間、分辨率、寬高比

3.2.2 統(tǒng)一視覺表示

3.2.3 視頻壓縮網(wǎng)絡(luò)

3.2.4 時(shí)空潛在補(bǔ)丁

3.2.5 討論

3.2.6 擴(kuò)散變換器

3.3 建模

3.3.1 討論

3.4 遵循語言指令

3.4.1 大型語言模型

3.4.2 文本到圖像

3.4.3 文本到視頻

3.4.4 討論

3.5 提示工程

3.5.1 文本提示

3.5.2 圖像提示

3.5.3 視頻提示

3.5.4 討論

3.6 可信度

3.6.1 安全問題

3.6.2 其他利用

3.6.3 對(duì)齊

3.6.4 討論

4 應(yīng)用

4.1 電影

4.2 教育

4.3 游戲

4.4 醫(yī)療保健

4.5 機(jī)器人技術(shù)

5 討論

5.1 局限性

5.2 機(jī)遇

6 結(jié)論

A 相關(guān)工作

1 引言

自從 2022 年 11 月 ChatGPT 發(fā)布以來,人工智能技術(shù)的出現(xiàn)標(biāo)志著一個(gè)重大的轉(zhuǎn)變,重塑了交互方式,并深入融入日常生活和行業(yè)的各個(gè)方面[1, 2]。基于這一勢頭,OpenAI 在 2024 年 2 月發(fā)布了 Sora,一個(gè)文本到視頻的生成式 AI 模型,能夠根據(jù)文本提示生成現(xiàn)實(shí)或想象場景的視頻。與之前的視頻生成模型相比,Sora 的特點(diǎn)是能夠在遵循用戶文本指令的同時(shí),生成長達(dá) 1 分鐘的高質(zhì)量視頻[3]。Sora 的進(jìn)步體現(xiàn)了長期以來人工智能研究任務(wù)的實(shí)質(zhì),即賦予 AI 系統(tǒng)(或 AI 代理)理解和與運(yùn)動(dòng)中的物理世界互動(dòng)的能力。這涉及到開發(fā)不僅能解釋復(fù)雜用戶指令,而且能將這種理解應(yīng)用于通過動(dòng)態(tài)和富有上下文的模擬解決現(xiàn)實(shí)世界問題的 AI 模型。

圖 2:Sora 在文本到視頻生成中的示例。文本指令被給予 OpenAI Sora 模型,它根據(jù)指令生成三個(gè)視頻。

Sora 展示了準(zhǔn)確解釋和執(zhí)行復(fù)雜人類指令的顯著能力,如圖 2 所示。該模型能生成包含多個(gè)執(zhí)行特定動(dòng)作的角色以及復(fù)雜背景的詳細(xì)場景。研究人員將 Sora 的熟練程度歸因于不僅處理用戶生成的文本提示,而且還能辨別場景內(nèi)元素之間復(fù)雜的相互作用。Sora 最引人注目的方面之一是其生成長達(dá)一分鐘的視頻的能力,同時(shí)保持高視覺質(zhì)量和引人入勝的視覺連貫性。與只能生成短視頻片段的早期模型不同,Sora 的一分鐘長視頻創(chuàng)作具有進(jìn)展感和從第一幀到最后一幀的視覺一致性之旅。此外,Sora 的進(jìn)步在于其生成具有細(xì)膩運(yùn)動(dòng)和互動(dòng)描繪的擴(kuò)展視頻序列的能力,克服了早期視頻生成模型所特有的短片段和簡單視覺呈現(xiàn)的限制。這一能力代表了 AI 驅(qū)動(dòng)創(chuàng)意工具向前的一大步,允許用戶將文本敘述轉(zhuǎn)換為豐富的視覺故事??偟膩碚f,這些進(jìn)步展示了 Sora 作為世界模擬器的潛力,為描繪場景的物理和上下文動(dòng)態(tài)提供了細(xì)膩的見解。[3]。

技術(shù)。Sora 的核心是一個(gè)預(yù)訓(xùn)練的擴(kuò)散變換器[4]。變換器模型已被證明對(duì)許多自然語言任務(wù)具有可擴(kuò)展性和有效性。與 GPT-4 等強(qiáng)大的大型語言模型(LLMs)類似,Sora 能夠解析文本并理解復(fù)雜的用戶指令。為了使視頻生成在計(jì)算上高效,Sora 使用時(shí)空潛在補(bǔ)丁作為其構(gòu)建塊。具體來說,Sora 將原始輸入視頻壓縮成一個(gè)時(shí)空潛在表示。然后,從壓縮視頻中提取一系列時(shí)空潛在補(bǔ)丁,以封裝短時(shí)間間隔內(nèi)的視覺外觀和運(yùn)動(dòng)動(dòng)態(tài)。這些補(bǔ)丁,類似于語言模型中的單詞標(biāo)記,為 Sora 提供了用于構(gòu)建視頻的詳細(xì)視覺短語。Sora 的文本到視頻生成是通過擴(kuò)散變換器模型執(zhí)行的。從一個(gè)充滿視覺噪聲的幀開始,模型迭代地去除噪聲并根據(jù)提供的文本提示引入特定細(xì)節(jié)。本質(zhì)上,生成的視頻通過多步精煉過程出現(xiàn),每一步都使視頻更加符合期望的內(nèi)容和質(zhì)量。

Sora 的亮點(diǎn)。Sora 的能力在各個(gè)方面都有深遠(yuǎn)的影響:

? 提高模擬能力:將 Sora 進(jìn)行大規(guī)模訓(xùn)練歸功于其模擬物理世界各個(gè)方面的顯著能力。盡管缺乏顯式的 3D 建模,Sora 展現(xiàn)了具有動(dòng)態(tài)相機(jī)運(yùn)動(dòng)和長距離連貫性的 3D 一致性,包括對(duì)象持久性和模擬與世界的簡單互動(dòng)。此外,Sora 有趣地模擬了像 Minecraft 這樣的數(shù)字環(huán)境,由基本策略控制,同時(shí)保持視覺保真度。這些涌現(xiàn)能力表明,擴(kuò)大視頻模型的規(guī)模在創(chuàng)建模擬物理和數(shù)字世界復(fù)雜性的 AI 模型方面是有效的。

? 促進(jìn)創(chuàng)造力:想象通過文本概述一個(gè)概念,無論是一個(gè)簡單的對(duì)象還是一個(gè)完整的場景,并在幾秒鐘內(nèi)看到一個(gè)現(xiàn)實(shí)的或高度風(fēng)格化的視頻被渲染出來。Sora 使設(shè)計(jì)過程加速,加快了探索和精煉想法的速度,從而顯著提高了藝術(shù)家、電影制作人和設(shè)計(jì)師的創(chuàng)造力。

? 推動(dòng)教育創(chuàng)新:視覺輔助工具長期以來一直是理解教育中重要概念的核心。有了 Sora,教育工作者可以輕松地將課堂計(jì)劃從文本轉(zhuǎn)換為視頻,以吸引學(xué)生的注意力并提高學(xué)習(xí)效率。從科學(xué)模擬到歷史劇情再現(xiàn),可能性是無限的。

? 增強(qiáng)可訪問性:在視覺領(lǐng)域增強(qiáng)可訪問性至關(guān)重要。Sora 通過將文本描述轉(zhuǎn)換為視覺內(nèi)容提供了一種創(chuàng)新解決方案。這一能力使所有人,包括視覺障礙者,都能積極參與內(nèi)容創(chuàng)作并以更有效的方式與他人互動(dòng)。因此,它為每個(gè)人提供了通過視頻表達(dá)自己想法的機(jī)會(huì),創(chuàng)造了一個(gè)更具包容性的環(huán)境。

? 培育新興應(yīng)用:Sora 的應(yīng)用范圍廣泛。例如,營銷人員可能使用它創(chuàng)建針對(duì)特定受眾描述的動(dòng)態(tài)廣告。游戲開發(fā)者可能使用它從玩家敘述中生成定制化的視覺效果甚至角色動(dòng)作。

限制和機(jī)遇。盡管 Sora 的成就突出了 AI 方面的重大進(jìn)步,但仍存在挑戰(zhàn)。描繪復(fù)雜動(dòng)作或捕捉微妙的面部表情是模型可以增強(qiáng)的領(lǐng)域之一。此外,如何減輕生成內(nèi)容中的偏見并防止有害視覺輸出等倫理考慮,強(qiáng)調(diào)了開發(fā)者、研究人員和更廣泛社區(qū)負(fù)責(zé)任使用的重要性。確保 Sora 的輸出始終安全且無偏見是一個(gè)主要挑戰(zhàn)。視頻生成領(lǐng)域正在迅速發(fā)展,學(xué)術(shù)和行業(yè)研究團(tuán)隊(duì)正在不懈努力。競爭性文本到視頻模型的出現(xiàn)表明,Sora 可能很快就會(huì)成為一個(gè)動(dòng)態(tài)生態(tài)系統(tǒng)的一部分。這種協(xié)作和競爭環(huán)境促進(jìn)了創(chuàng)新,導(dǎo)致視頻質(zhì)量的提高和新應(yīng)用的出現(xiàn),這些應(yīng)用有助于提高工人的生產(chǎn)力并使人們的生活更加有趣。

我們的貢獻(xiàn)。基于已發(fā)布的技術(shù)報(bào)告和我們的逆向工程,本文提出了 Sora 的背景、相關(guān)技術(shù)、新興應(yīng)用、當(dāng)前限制和未來機(jī)遇的首次全面審查。

2 背景2.1 歷史

在計(jì)算機(jī)視覺(CV)領(lǐng)域,在深度學(xué)習(xí)革命之前,傳統(tǒng)的圖像生成技術(shù)依賴于諸如紋理合成[5]和紋理映射[6]等方法,這些方法基于手工制作的特征。然而,這些方法在生成復(fù)雜和生動(dòng)的圖像方面的能力是有限的。

圖3:視覺領(lǐng)域生成式AI的歷史。

生成對(duì)抗網(wǎng)絡(luò)(GANs)[7]和變分自編碼器(VAEs)[8]的引入標(biāo)志著一個(gè)重要的轉(zhuǎn)折點(diǎn),因?yàn)樗诟鞣N應(yīng)用中展現(xiàn)出了非凡的能力。隨后的發(fā)展,如流模型[9]和擴(kuò)散模型[10],進(jìn)一步提高了圖像生成的細(xì)節(jié)和質(zhì)量。最近在人工智能生成內(nèi)容(AIGC)技術(shù)方面的進(jìn)展,使內(nèi)容創(chuàng)作民主化,使用戶能夠通過簡單的文本指令生成所需內(nèi)容[11]。

在過去的十年中,生成式計(jì)算機(jī)視覺(CV)模型的發(fā)展采取了多種路徑,如圖3所示。這一格局在成功應(yīng)用變壓器架構(gòu)[12]于自然語言處理(NLP)后開始顯著轉(zhuǎn)變,如BERT[13]和GPT[14]所示。在CV中,研究人員通過將變壓器架構(gòu)與視覺組件相結(jié)合,將這一概念推向更遠(yuǎn),使其能夠應(yīng)用于下游CV任務(wù),如視覺變壓器(ViT)[15]和Swin變壓器[16]。與變壓器的成功平行,擴(kuò)散模型在圖像和視頻生成領(lǐng)域也取得了重大進(jìn)展[10]。擴(kuò)散模型提供了一個(gè)數(shù)學(xué)上合理的框架,通過U-Nets[17]將噪聲轉(zhuǎn)換成圖像,其中U-Nets通過學(xué)習(xí)在每一步預(yù)測和減輕噪聲來促進(jìn)這一過程。

自2021年以來,AI領(lǐng)域的一個(gè)重要焦點(diǎn)是能夠解釋人類指令的生成式語言和視覺模型,即多模態(tài)模型。例如,CLIP[18]是一種開創(chuàng)性的視覺-語言模型,它將變壓器架構(gòu)與視覺元素相結(jié)合,使其能夠在大量的文本和圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練。通過從一開始就整合視覺和語言知識(shí),CLIP可以在多模態(tài)生成框架中充當(dāng)圖像編碼器。另一個(gè)值得注意的例子是Stable Diffusion[19],這是一個(gè)多才多藝的文本到圖像AI模型,以其適應(yīng)性和易用性而受到贊譽(yù)。它采用變壓器架構(gòu)和潛在擴(kuò)散技術(shù)來解碼文本輸入,并生成各種風(fēng)格的圖像,進(jìn)一步展示了多模態(tài)AI的進(jìn)步。

隨著2022年11月ChatGPT的發(fā)布,我們在2023年見證了商業(yè)文本到圖像產(chǎn)品的出現(xiàn),如Stable Diffusion[19]、Midjourney[20]、DALL-E 3[21]。這些工具使用戶能夠用簡單的文本提示生成高分辨率和高質(zhì)量的新圖像,展示了AI在創(chuàng)意圖像生成方面的潛力。然而,從文本到圖像過渡到文本到視頻由于視頻的時(shí)間復(fù)雜性而具有挑戰(zhàn)性。盡管工業(yè)界和學(xué)術(shù)界做出了許多努力,但大多數(shù)現(xiàn)有的視頻生成工具,如Pika[22]和Gen-2[23],僅限于生成幾秒鐘的短視頻片段。在這種背景下,Sora代表了一個(gè)重大突破,類似于ChatGPT在NLP領(lǐng)域的影響。Sora是第一個(gè)能夠根據(jù)人類指令生成長達(dá)一分鐘的視頻的模型,標(biāo)志著對(duì)生成式AI研究和開發(fā)產(chǎn)生深遠(yuǎn)影響的里程碑。為了便于輕松訪問最新的視覺生成模型進(jìn)展,最新的作品已被匯編并提供在附錄和我們的GitHub中。

2.2 高級(jí)概念

視覺模型的規(guī)?;伞S辛薒LMs的規(guī)?;桑匀粫?huì)問視覺模型的發(fā)展是否遵循類似的規(guī)?;伞W罱?,Zhai等人[24]展示了,有足夠訓(xùn)練數(shù)據(jù)的ViT模型的性能-計(jì)算前沿大致遵循(飽和)冪律。繼他們之后,谷歌研究[25]提出了一種高效穩(wěn)定訓(xùn)練22B參數(shù)ViT的方法。結(jié)果顯示,使用凍結(jié)模型產(chǎn)生嵌入,然后在頂部訓(xùn)練薄層可以實(shí)現(xiàn)出色的性能。Sora作為一個(gè)大型視覺模型(LVM),符合這些規(guī)模化原則,揭示了文本到視頻生成中的幾種新興能力。這一重大進(jìn)展強(qiáng)調(diào)了LVMs實(shí)現(xiàn)類似LLMs所見進(jìn)步的潛力。

新興能力。LLMs中的新興能力是在某些規(guī)模上——通常與模型參數(shù)的大小有關(guān)——表現(xiàn)出的復(fù)雜行為或功能,這些行為或功能并未被開發(fā)者明確編程或預(yù)期。這些能力被稱為“新興”,因?yàn)樗鼈冊从谀P驮诙鄻踊瘮?shù)據(jù)集上的全面訓(xùn)練,以及其龐大的參數(shù)數(shù)量。這種組合使模型能夠形成聯(lián)系并做出超越簡單模式識(shí)別或死記硬背的推斷。通常,這些能力的出現(xiàn)不能通過從小規(guī)模模型的性能外推來直接預(yù)測。雖然許多LLMs,如ChatGPT和GPT-4,展示了新興能力,但直到Sora的出現(xiàn),展示類似能力的視覺模型還很少。根據(jù)Sora的技術(shù)報(bào)告,它是第一個(gè)展示確認(rèn)新興能力的視覺模型,標(biāo)志著計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要里程碑。

除了其新興能力,Sora還展示了其他顯著能力,包括遵循指令、視覺提示工程和視頻理解。Sora的這些功能方面代表了視覺領(lǐng)域的重大進(jìn)步,并將在后續(xù)部分進(jìn)行探討和討論。

3 技術(shù)3.1 Sora概述

從核心本質(zhì)上看,Sora是一個(gè)具有靈活采樣維度的擴(kuò)散變壓器[4],如圖4所示。它有三個(gè)部分:(1)時(shí)空壓縮器首先將原始視頻映射到潛在空間。(2)ViT然后處理標(biāo)記化的潛在表示,并輸出去噪的潛在表示。(3)類似CLIP[26]的條件機(jī)制接收LLM增強(qiáng)的用戶指令和可能的視覺提示,以指導(dǎo)擴(kuò)散模型生成風(fēng)格化或主題化的視頻。經(jīng)過多次去噪

圖4:逆向工程:Sora框架概覽

在這一步驟中,生成視頻的潛在表示被獲得,然后通過相應(yīng)的解碼器映射回像素空間。在本節(jié)中,我們的目標(biāo)是對(duì)Sora使用的技術(shù)進(jìn)行逆向工程,并討論廣泛的相關(guān)工作。

3.2 數(shù)據(jù)預(yù)處理3.2.1 變化的持續(xù)時(shí)間、分辨率、寬高比

Sora的一個(gè)區(qū)別特征是其能夠在原始尺寸上訓(xùn)練、理解和生成視頻及圖像,如圖5所示。傳統(tǒng)方法通常會(huì)調(diào)整視頻的大小、裁剪或調(diào)整寬高比,以適應(yīng)一個(gè)統(tǒng)一標(biāo)準(zhǔn)——通常是以固定低分辨率的正方形幀的短片段[27][28][29]。這些樣本通常在更寬的時(shí)間跨度上生成,并依賴于分別訓(xùn)練的幀插入和分辨率渲染模型作為最后一步,這在視頻中造成了不一致性。利用擴(kuò)散變換器架構(gòu)[4](見3.2.4節(jié)),Sora是第一個(gè)擁抱視覺數(shù)據(jù)多樣性的模型,并且可以在從寬屏1920x1080p視頻到豎屏1080x1920p視頻以及之間的任何格式上采樣,而不會(huì)損害它們的原始尺寸。

圖5:Sora可以生成從1920x1080p到1080x1920p及其間任何尺寸或分辨率的圖像。

圖6:Sora(右)與一個(gè)修改版的模型(左)之間的比較,后者將視頻裁剪成正方形——這是模型訓(xùn)練中的一種常見做法——凸顯了優(yōu)勢。

在原始尺寸上訓(xùn)練數(shù)據(jù)顯著改善了生成視頻的構(gòu)圖和框架。經(jīng)驗(yàn)發(fā)現(xiàn),通過保持原始寬高比,Sora實(shí)現(xiàn)了更自然和連貫的視覺敘事。如圖6所示,Sora與一個(gè)在統(tǒng)一裁剪的正方形視頻上訓(xùn)練的模型之間的比較展示了明顯的優(yōu)勢。Sora生成的視頻展示了更好的框架,確保場景中完全捕捉到了主體,與正方形裁剪導(dǎo)致的有時(shí)被截?cái)嗟囊晥D相反。

這種對(duì)原始視頻和圖像特征的細(xì)膩理解和保留標(biāo)志著生成模型領(lǐng)域的一個(gè)重大進(jìn)步。Sora的方法不僅展示了生成更真實(shí)和吸引人視頻的潛力,而且還強(qiáng)調(diào)了在訓(xùn)練數(shù)據(jù)中的多樣性對(duì)于在生成AI中實(shí)現(xiàn)高質(zhì)量結(jié)果的重要性。Sora的訓(xùn)練方法與Richard Sutton的《苦澀的教訓(xùn)》[30]的核心原則一致,該原則指出,利用計(jì)算而不是人為設(shè)計(jì)的特征,可以導(dǎo)致更有效和靈活的AI系統(tǒng)。正如擴(kuò)散變換器的原始設(shè)計(jì)尋求簡單性和可擴(kuò)展性[31],Sora在原始尺寸上訓(xùn)練數(shù)據(jù)的策略避免了傳統(tǒng)AI對(duì)人為抽象的依賴,而是選擇了一種隨著計(jì)算能力擴(kuò)展的通用方法。在本節(jié)的其余部分,我們嘗試對(duì)Sora的架構(gòu)設(shè)計(jì)進(jìn)行逆向工程,并討論實(shí)現(xiàn)這一驚人特性的相關(guān)技術(shù)。

3.2.2 統(tǒng)一的視覺表示

為了有效處理包括具有不同持續(xù)時(shí)間、分辨率和寬高比的圖像和視頻在內(nèi)的多樣化視覺輸入,一個(gè)關(guān)鍵方法涉及將所有形式的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示,這有助于生成模型的大規(guī)模訓(xùn)練。具體來說,Sora通過最初將視頻壓縮到較低維度的潛在空間,然后將表示分解為時(shí)空補(bǔ)丁來對(duì)視頻進(jìn)行分塊。然而,Sora的技術(shù)報(bào)告[3]僅提出了一個(gè)高層次的想法,使得研究社區(qū)難以復(fù)制。在本節(jié)中,我們嘗試逆向工程潛在的成分和技術(shù)路徑。此外,我們將討論可行的替代方案,這些方案可以復(fù)制Sora的功能,借鑒現(xiàn)有文獻(xiàn)中的見解。

圖7:在高層次上,Sora通過首先將視頻壓縮到較低維度的潛在空間,然后將表示分解為時(shí)空補(bǔ)丁來對(duì)視頻進(jìn)行分塊。來源:Sora的技術(shù)報(bào)告[3]。

3.2.3 視頻壓縮網(wǎng)絡(luò)

圖8:ViT將圖像分割成固定大小的補(bǔ)丁,線性嵌入每個(gè)補(bǔ)丁,添加位置嵌入,然后將生成的向量序列輸入標(biāo)準(zhǔn)的Transformer編碼器。

Sora的視頻壓縮網(wǎng)絡(luò)(或視覺編碼器)旨在降低輸入數(shù)據(jù)的維度,尤其是原始視頻,并輸出一個(gè)在時(shí)間和空間上都被壓縮的潛在表示,如圖7所示。根據(jù)技術(shù)報(bào)告中的參考文獻(xiàn),壓縮網(wǎng)絡(luò)是基于VAE或向量量化-VAE(VQ-VAE)[32]構(gòu)建的。然而,如果不使用調(diào)整大小和裁剪,如技術(shù)報(bào)告中所述,VAE難以將任何大小的視覺數(shù)據(jù)映射到統(tǒng)一且固定大小的潛在空間。我們總結(jié)了兩種不同的實(shí)現(xiàn)來解決這個(gè)問題:空間補(bǔ)丁壓縮。

這涉及將視頻幀轉(zhuǎn)換為固定大小的補(bǔ)丁,類似于ViT[15]和MAE[33](見圖8)中使用的方法,然后將它們編碼到潛在空間中。這種方法特別適用于適應(yīng)不同分辨率和寬高比的視頻,因?yàn)樗ㄟ^處理個(gè)別補(bǔ)丁來編碼整個(gè)幀。隨后,這些空間標(biāo)記按時(shí)間順序組織,創(chuàng)建一個(gè)空間-時(shí)間潛在表示。這種技術(shù)強(qiáng)調(diào)了幾個(gè)關(guān)鍵考慮因素:時(shí)間維度的可變性——鑒于訓(xùn)練視頻的持續(xù)時(shí)間不同,時(shí)間維度潛在空間表示的維度不能固定。為了解決這個(gè)問題,可以選擇采樣特定數(shù)量的幀(對(duì)于較短的視頻可能需要填充或時(shí)間插值[34]),或者為后續(xù)處理定義一個(gè)通用的擴(kuò)展(超長)輸入長度(更多細(xì)節(jié)在第3.2.4節(jié)中描述);使用預(yù)訓(xùn)練的視覺編碼器——為了處理高分辨率視頻,利用現(xiàn)有的預(yù)訓(xùn)練視覺編碼器,如Stable Diffusion[19]中的VAE編碼器,對(duì)大多數(shù)研究者來說是可取的,而Sora的團(tuán)隊(duì)則預(yù)期將從頭開始通過訓(xùn)練潛在擴(kuò)散模型[19, 35, 36]的方式訓(xùn)練自己的壓縮網(wǎng)絡(luò)及解碼器(視頻生成器)。這些編碼器可以高效壓縮大尺寸的圖塊(例如,256×256),便于大規(guī)模數(shù)據(jù)的管理;時(shí)間信息聚合——由于這種方法主要關(guān)注空間圖塊壓縮,因此需要一個(gè)額外的機(jī)制在模型內(nèi)聚合時(shí)間信息。這一方面對(duì)于捕捉隨時(shí)間動(dòng)態(tài)變化至關(guān)重要,并在后續(xù)章節(jié)中進(jìn)一步闡述(詳見第3.2.6節(jié)和圖14)。

空間-時(shí)間-圖塊壓縮。這項(xiàng)技術(shù)旨在封裝視頻數(shù)據(jù)的空間和時(shí)間維度,提供全面的表示。這項(xiàng)技術(shù)不僅僅分析靜態(tài)幀,還考慮幀間的運(yùn)動(dòng)和變化,從而捕捉視頻的動(dòng)態(tài)方面。使用3D卷積作為實(shí)現(xiàn)這種整合的直接和強(qiáng)大方法[37]。圖形說明和與純空間圖塊化的比較在圖9中展示。與空間圖塊壓縮類似,采用空間-時(shí)間圖塊壓縮并預(yù)設(shè)卷積核參數(shù)——如固定的核大小、步長和輸出通道——會(huì)由于視頻輸入的不同特性導(dǎo)致潛在空間維度的變化。這種變異主要由處理的視頻的不同持續(xù)時(shí)間和分辨率驅(qū)動(dòng)。為了緩解這一挑戰(zhàn),采用空間圖塊化的方法同樣適用且有效。

圖9:視頻壓縮的不同圖塊化比較。來源:ViViT[38]。(左)空間圖塊化僅采樣nt幀,并獨(dú)立嵌入每個(gè)2D幀,遵循ViT。(右)空間-時(shí)間圖塊化提取并線性嵌入跨越時(shí)空輸入體積的非重疊或重疊管狀體。

總結(jié)來說,我們基于VAE或其變體如VQ-VQE對(duì)兩種圖塊級(jí)壓縮方法進(jìn)行了逆向工程,因?yàn)閷?duì)圖塊的操作在處理不同類型的視頻時(shí)更加靈活。由于Sora旨在生成高保真視頻,因此使用大圖塊尺寸或核大小進(jìn)行高效壓縮。這里,我們期望使用固定大小的圖塊,以簡化、可擴(kuò)展性和訓(xùn)練穩(wěn)定性。但也可以使用不同大小的圖塊[39],使整個(gè)幀或視頻在潛在空間的維度一致。然而,這可能導(dǎo)致無效的位置編碼,并為解碼器生成不同大小潛在圖塊的視頻帶來挑戰(zhàn)。

圖10:圖塊打包允許保持縱橫比的可變分辨率圖像或視頻。6令牌丟棄在某種程度上可以被視為數(shù)據(jù)增強(qiáng)。來源:NaViT[40]。

3.2.4 時(shí)空潛在圖塊

在壓縮網(wǎng)絡(luò)部分仍有一個(gè)關(guān)鍵問題:如何處理潛在空間維度的變化性(即,來自不同視頻類型的潛在特征塊或圖塊的數(shù)量)在將圖塊輸入到擴(kuò)散變換器的輸入層之前。這里,我們討論了幾種解決方案?;赟ora的技術(shù)報(bào)告和相應(yīng)的參考文獻(xiàn),圖塊打包(PNP)[40]可能是解決方案。PNP將來自不同圖像的多個(gè)圖塊打包成單個(gè)序列,如圖10所示。這種方法受到自然語言處理中示例打包的啟發(fā)[41],通過丟棄令牌來適應(yīng)可變長度輸入的高效訓(xùn)練。這里需要在壓縮網(wǎng)絡(luò)中完成圖塊化和令牌嵌入步驟,但Sora可能會(huì)進(jìn)一步將潛在圖塊化為變換器令牌,如擴(kuò)散變換器所做[4]。無論是否進(jìn)行第二輪圖塊化,我們需要解決兩個(gè)問題,如何以緊湊的方式打包這些令牌以及如何控制應(yīng)該丟棄哪些令牌。對(duì)于第一個(gè)問題,使用了一種簡單的貪婪方法,將示例添加到有足夠剩余空間的第一個(gè)序列中。一旦沒有更多示例可以適配,序列就用填充令牌填充,產(chǎn)生批處理操作所需的固定序列長度。這種簡單的打包算法可能導(dǎo)致顯著的填充,這取決于輸入長度的分布。另一方面,我們可以通過調(diào)整序列長度和限制填充來控制我們采樣的分辨率和幀,以確保高效打包。對(duì)于第二個(gè)問題,一種直觀的方法是丟棄相似的令牌[42, 43, 33, 44],或者像PNP那樣應(yīng)用丟棄率調(diào)度器。然而,值得注意的是,3D一致性是Sora的一個(gè)好特性。在訓(xùn)練期間丟棄令牌可能會(huì)忽略細(xì)微的細(xì)節(jié)。因此,我們相信OpenAI可能會(huì)使用超長的上下文窗口并打包所有視頻的令牌,盡管這樣做在計(jì)算上是昂貴的,例如,多頭注意力[45, 46]操作在序列長度上展示出二次成本。具體來說,來自長時(shí)視頻的時(shí)空潛在圖塊可以打包成一個(gè)序列,而來自幾個(gè)短時(shí)視頻的圖塊則在另一個(gè)序列中連接。

3.2.5 討論

我們討論了Sora可能使用的兩種數(shù)據(jù)預(yù)處理的技術(shù)解決方案。這兩種解決方案都是在圖塊級(jí)別執(zhí)行的,因?yàn)樗鼈儗?duì)于建模具有靈活性和可擴(kuò)展性的特點(diǎn)。與之前將視頻調(diào)整大小、裁剪或修剪到標(biāo)準(zhǔn)大小的方法不同,Sora在其原生大小上進(jìn)行訓(xùn)練。盡管有幾個(gè)好處(詳見第3.2.1節(jié)分析),但它帶來了一些技術(shù)挑戰(zhàn),其中最顯著的是,神經(jīng)網(wǎng)絡(luò)不能固有地處理具有可變持續(xù)時(shí)間、分辨率和縱橫比的視覺數(shù)據(jù)。通過逆向工程,我們相信Sora首先將視覺圖塊壓縮成低維潛在表示,并將這樣的潛在圖塊或進(jìn)一步圖塊化的潛在圖塊排列成序列,然后將噪聲注入這些潛在圖塊中。在將它們輸入擴(kuò)散變換器的輸入層之前。Sora采用了時(shí)空分塊化,因?yàn)樗子趯?shí)現(xiàn),并且可以通過高信息密度的令牌有效減少上下文長度,并降低后續(xù)對(duì)時(shí)間信息建模的復(fù)雜性。對(duì)于研究社區(qū),我們推薦使用成本效益高的替代解決方案進(jìn)行視頻壓縮和表示,包括利用預(yù)訓(xùn)練的檢查點(diǎn)(例如,壓縮網(wǎng)絡(luò))[47],縮短上下文窗口,使用輕量級(jí)建模機(jī)制如(分組的)多查詢注意力[48, 49]或高效的架構(gòu)(例如,Mamba [50]),必要時(shí)對(duì)數(shù)據(jù)進(jìn)行下采樣和丟棄令牌。視頻建模的效果與效率之間的權(quán)衡是一個(gè)重要的研究課題。

3.2.6 擴(kuò)散變換器

圖11:DiT(左)和U-ViT(右)的整體框架。

3.3 建模

圖像擴(kuò)散變換器。傳統(tǒng)的擴(kuò)散模型[51, 52, 53]主要利用包括下采樣和上采樣塊的卷積U-Net作為去噪網(wǎng)絡(luò)骨干。然而,最近的研究表明,U-Net架構(gòu)對(duì)擴(kuò)散模型的良好性能并不是關(guān)鍵。通過整合更靈活的變換器架構(gòu),基于變換器的擴(kuò)散模型可以使用更多的訓(xùn)練數(shù)據(jù)和更大的模型參數(shù)。沿著這一思路,DiT[4]和U-ViT[54]是首批采用視覺變換器的潛在擴(kuò)散模型之一。如同ViT,DiT采用了多頭自注意力層和逐點(diǎn)前饋網(wǎng)絡(luò),其中穿插了一些層歸一化和縮放層。此外,如圖11所示,DiT通過自適應(yīng)層歸一化(AdaLN)加上一個(gè)額外的MLP層進(jìn)行條件化,該層用于零初始化,它將每個(gè)殘差塊初始化為恒等函數(shù),從而極大地穩(wěn)定了訓(xùn)練過程。DiT的可擴(kuò)展性和靈活性得到了實(shí)證驗(yàn)證。DiT成為擴(kuò)散模型的新骨干。在U-ViT中,如圖11所示,它們將所有輸入,包括時(shí)間、條件和噪聲圖像塊,視為令牌,并在淺層和深層變換器層之間提出長跳躍連接。結(jié)果表明,基于CNN的U-Net中的下采樣和上采樣操作并不總是必要的,U-ViT在圖像和文本到圖像生成中取得了破紀(jì)錄的FID分?jǐn)?shù)。

像掩碼自編碼器(MAE)[33]一樣,掩碼擴(kuò)散變換器(MDT)[55]將掩碼潛在建模整合到擴(kuò)散過程中,以顯式增強(qiáng)圖像合成中對(duì)象語義部分之間的上下文關(guān)系學(xué)習(xí)。具體來說,如圖12所示,MDT在訓(xùn)練期間使用側(cè)插值來進(jìn)行額外的掩碼令牌重建任務(wù),以提高訓(xùn)練效率并學(xué)習(xí)強(qiáng)大的上下文感知位置嵌入以用于推理。與DiT[4]相比,MDT實(shí)現(xiàn)了更好的性能和更快的學(xué)習(xí)速度。Hatamizadeh等人[56]介紹了擴(kuò)散視覺變換器(DiffiT),它使用了一個(gè)時(shí)間依賴的自注意力(TMSA)模塊來對(duì)采樣時(shí)間步驟上的動(dòng)態(tài)去噪行為進(jìn)行建模,而不是使用AdaLN(即,移位和縮放)進(jìn)行時(shí)間條件建模。此外,DiffiT使用了兩種混合的分層架構(gòu),分別用于像素空間和潛在空間中的高效去噪,并在各種生成任務(wù)中實(shí)現(xiàn)了新的最佳結(jié)果??偟膩碚f,這些研究在使用視覺變換器進(jìn)行圖像潛在擴(kuò)散方面展示了有希望的結(jié)果,為未來其他模態(tài)的研究鋪平了道路。

圖12:掩碼擴(kuò)散變換器(MDT)的整體框架。實(shí)線/虛線表示每個(gè)時(shí)間步驟的訓(xùn)練/推理過程。掩碼和側(cè)插值僅在訓(xùn)練期間使用,在推理期間被移除。

視頻擴(kuò)散變換器。在文本到圖像(T2I)擴(kuò)散模型的基礎(chǔ)工作之上,最近的研究集中在實(shí)現(xiàn)擴(kuò)散變換器用于文本到視頻(T2V)生成任務(wù)的潛力。由于視頻的時(shí)間性質(zhì),將DiTs應(yīng)用于視頻領(lǐng)域的關(guān)鍵挑戰(zhàn)是:i) 如何在潛在空間中對(duì)視頻進(jìn)行空間和時(shí)間上的壓縮以實(shí)現(xiàn)高效去噪;ii) 如何將壓縮的潛在表示轉(zhuǎn)換為塊并將它們輸入變換器;以及iii) 如何處理長期的時(shí)間和空間依賴性并確保內(nèi)容一致性。請(qǐng)參閱第3.2.3節(jié)以了解第一個(gè)挑戰(zhàn)。在本節(jié)中,我們將討論旨在在空間和時(shí)間壓縮的潛在空間中操作的基于變換器的去噪網(wǎng)絡(luò)架構(gòu),我們將詳細(xì)回顧OpenAI Sora技術(shù)報(bào)告參考列表中描述的兩項(xiàng)重要工作(Imagen Video [29]和Video LDM [36])。

(a)左:級(jí)聯(lián)擴(kuò)散模型。級(jí)聯(lián)采樣管道的基礎(chǔ)擴(kuò)散模型和六個(gè)向上采樣模型,操作的空間和時(shí)間。文本嵌入被注入到所有的擴(kuò)散模型。

(b)右:視頻U-Net時(shí)空可分離塊。空間操作進(jìn)行獨(dú)立的幀與共享的參數(shù),而時(shí)間的操作混合激活幀。時(shí)間注意僅用于在基本模型的記憶效率。

圖13:Imagen Video的整體框架。來源:Imagen Video [29]。

基礎(chǔ)模型用于低分辨率視頻生成,然后通過級(jí)聯(lián)擴(kuò)散模型進(jìn)行細(xì)化以提高分辨率?;A(chǔ)視頻和超分辨率模型采用3D U-Net架構(gòu),以時(shí)空可分離的方式使用。該架構(gòu)將時(shí)間注意力和卷積層與空間對(duì)應(yīng)物結(jié)合起來,以有效捕獲幀間依賴性。它采用v-預(yù)測參數(shù)化以確保數(shù)值穩(wěn)定性,并使用條件增強(qiáng)來促進(jìn)模型間的并行訓(xùn)練。該過程涉及對(duì)圖像和視頻的聯(lián)合訓(xùn)練,將每個(gè)圖像視為一個(gè)幀以利用更大的數(shù)據(jù)集,并使用無分類器引導(dǎo)[57]來增強(qiáng)提示的忠實(shí)度。應(yīng)用漸進(jìn)式蒸餾[58]來簡化采樣過程,顯著減少計(jì)算負(fù)載同時(shí)保持感知質(zhì)量。結(jié)合這些方法和技術(shù),Imagen Video不僅能生成高保真度的視頻,還能展現(xiàn)出卓越的可控性,如其生成多樣化視頻、文字動(dòng)畫和各種藝術(shù)風(fēng)格內(nèi)容的能力所示。

14(a)額外的時(shí)間層。通過插入學(xué)習(xí)將幀對(duì)齊成時(shí)間一致序列的時(shí)間層,將預(yù)訓(xùn)練的LDM轉(zhuǎn)變?yōu)橐曨l生成器。在優(yōu)化過程中,圖像骨干θ保持固定,只有時(shí)間層li的參數(shù)?接受訓(xùn)練。

14(b)視頻LDM堆棧。視頻LDM首先生成稀疏關(guān)鍵幀,然后使用相同的潛在擴(kuò)散模型進(jìn)行兩次時(shí)間插值以實(shí)現(xiàn)高幀率。最后,將潛在視頻解碼到像素空間,并可選地應(yīng)用視頻上采樣器擴(kuò)散模型。

圖14:視頻LDM的整體框架。來源:視頻LDM [36]。

Blattmann等人[36]提出將2D潛在擴(kuò)散模型轉(zhuǎn)變?yōu)橐曨l潛在擴(kuò)散模型(視頻LDM)。他們通過在U-Net骨干和VAE解碼器的現(xiàn)有空間層之間添加一些事后時(shí)間層來實(shí)現(xiàn)這一點(diǎn),這些時(shí)間層學(xué)習(xí)對(duì)齊單個(gè)幀。這些時(shí)間層在編碼的視頻數(shù)據(jù)上訓(xùn)練,而空間層保持固定,使模型能夠利用大型圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。LDM的解碼器經(jīng)過微調(diào)以在像素空間中實(shí)現(xiàn)時(shí)間一致性,并且時(shí)間對(duì)齊擴(kuò)散模型上采樣器用于增強(qiáng)空間分辨率。為了生成非常長的視頻,模型被訓(xùn)練以預(yù)測給定一些上下文幀的未來幀,允許在采樣過程中使用無分類器引導(dǎo)。為了實(shí)現(xiàn)高時(shí)間分辨率,視頻合成過程被劃分為關(guān)鍵幀生成和這些關(guān)鍵幀之間的插值。遵循級(jí)聯(lián)LDMs,使用DM進(jìn)一步將視頻LDM輸出擴(kuò)大4倍,確保高空間分辨率同時(shí)保持時(shí)間一致性。這種方法使得以計(jì)算高效的方式生成全局一致的長視頻成為可能。此外,作者展示了將預(yù)訓(xùn)練的圖像LDM(例如,穩(wěn)定擴(kuò)散)轉(zhuǎn)換為文本到視頻模型的能力,僅通過訓(xùn)練時(shí)間對(duì)齊層,實(shí)現(xiàn)了高達(dá)1280×2048分辨率的視頻合成。

3.3.1 討論

空間和時(shí)間上采樣的級(jí)聯(lián)擴(kuò)散模型。Sora能生成高分辨率視頻。通過回顧現(xiàn)有工作和我們的逆向工程,我們推測Sora也利用了級(jí)聯(lián)擴(kuò)散模型架構(gòu)[59],該架構(gòu)由一個(gè)基礎(chǔ)模型和多個(gè)時(shí)空細(xì)化模型組成。在基礎(chǔ)擴(kuò)散模型和低分辨率擴(kuò)散模型中,考慮到在高分辨率情況下使用注意力機(jī)制的高計(jì)算成本和有限的性能增益,注意力模塊不太可能被大量使用。對(duì)于空間和時(shí)間場景一致性,正如先前的工作所示,對(duì)于視頻/場景生成,時(shí)間一致性比空間一致性更重要,Sora可能會(huì)通過使用較長視頻(用于時(shí)間一致性)和較低分辨率的高效訓(xùn)練策略來實(shí)現(xiàn)這一點(diǎn)。此外,Sora可能會(huì)使用v參數(shù)化擴(kuò)散模型[58],考慮到其與預(yù)測原始潛在值或噪聲?的其他變體相比的卓越性能。

關(guān)于潛在編碼器。為了訓(xùn)練效率,大多數(shù)現(xiàn)有工作利用穩(wěn)定擴(kuò)散[60, 61]的預(yù)訓(xùn)練VAE編碼器作為初始化模型檢查點(diǎn)。然而,編碼器缺乏時(shí)間壓縮能力。盡管一些工作提出只對(duì)解碼器進(jìn)行微調(diào)以處理時(shí)間信息,但解碼器在壓縮潛在空間中處理視頻時(shí)間數(shù)據(jù)的性能仍然不是最佳的。根據(jù)技術(shù)報(bào)告,我們的逆向工程顯示,與其使用現(xiàn)有的預(yù)訓(xùn)練VAE編碼器,Sora可能使用從頭開始在視頻數(shù)據(jù)上訓(xùn)練的時(shí)空VAE編碼器,該編碼器在具有視頻導(dǎo)向的壓縮潛在空間中的性能優(yōu)于現(xiàn)有的編碼器。

3.4 語言指令跟隨

用戶主要通過自然語言指令,即文本提示[62, 63],與生成式AI模型進(jìn)行交互。模型指令調(diào)整旨在增強(qiáng)AI模型遵循提示的能力。這種在遵循指令方面的改進(jìn)能力使模型能夠生成更接近于對(duì)自然語言查詢的人類響應(yīng)的輸出。我們從回顧大型語言模型(LLMs)和諸如DALL·E 3之類的文本到圖像模型的指令跟隨技術(shù)開始討論。為了增強(qiáng)文本到視頻模型遵循文本指令的能力,Sora采用了類似于DALL·E 3的方法。該方法涉及訓(xùn)練描述性字幕器并使用字幕器生成的數(shù)據(jù)進(jìn)行微調(diào)。由于指令調(diào)整,Sora能夠適應(yīng)廣泛的用戶請(qǐng)求,確保對(duì)指令中的細(xì)節(jié)給予細(xì)致的注意,并生成精確滿足用戶需求的視頻。

3.4.1 大型語言模型

LLMs遵循指令的能力已被廣泛探索[64, 65, 66]。這種能力使LLMs能夠閱讀、理解并適當(dāng)響應(yīng)描述未見任務(wù)的指令,而無需示例。通過在格式化為指令的任務(wù)混合物上對(duì)LLMs進(jìn)行微調(diào)[64, 66],獲得并增強(qiáng)了遵循提示的能力,這稱為指令調(diào)整。Wei等人[65]展示了經(jīng)過指令調(diào)整的模型能夠更準(zhǔn)確地遵循指令。LLMs在未見任務(wù)上的表現(xiàn)顯著優(yōu)于未調(diào)整的模型。指令遵循能力將LLMs轉(zhuǎn)變?yōu)橥ㄓ萌蝿?wù)解決器,標(biāo)志著AI發(fā)展歷史上的一個(gè)范式轉(zhuǎn)變。

3.4.2 文本到圖像

DALL·E 3中的指令遵循通過一種假設(shè)為基礎(chǔ)的標(biāo)題改進(jìn)方法來解決,即模型訓(xùn)練所依賴的文本-圖像對(duì)的質(zhì)量決定了最終文本到圖像模型的性能。數(shù)據(jù)的低質(zhì)量,特別是噪聲數(shù)據(jù)的普遍存在和省略大量視覺信息的簡短標(biāo)題,導(dǎo)致了許多問題,如忽略關(guān)鍵詞和詞序,以及誤解用戶意圖。標(biāo)題改進(jìn)方法通過用詳細(xì)、描述性的標(biāo)題重新標(biāo)注現(xiàn)有圖像來解決這些問題。該方法首先訓(xùn)練一個(gè)圖像標(biāo)題生成器,這是一個(gè)視覺-語言模型,用于生成精確和描述性的圖像標(biāo)題。然后,使用標(biāo)題生成器生成的描述性圖像標(biāo)題來微調(diào)文本到圖像模型。具體來說,DALL·E 3遵循對(duì)比標(biāo)題生成器(CoCa)的方法,聯(lián)合訓(xùn)練一個(gè)圖像標(biāo)題生成器,該生成器具有CLIP架構(gòu)和一個(gè)語言模型目標(biāo)。這個(gè)圖像標(biāo)題生成器結(jié)合了一個(gè)圖像編碼器、一個(gè)單模態(tài)文本編碼器用于提取語言信息,以及一個(gè)多模態(tài)文本解碼器。它首先使用單模態(tài)圖像和文本嵌入之間的對(duì)比損失,然后是多模態(tài)解碼器輸出的標(biāo)題生成損失。進(jìn)一步在詳細(xì)描述圖像的主要對(duì)象、周圍環(huán)境、背景、文本、風(fēng)格和顏色方面進(jìn)行微調(diào)后,圖像標(biāo)題生成器能夠?yàn)閳D像生成詳細(xì)的描述性標(biāo)題。文本到圖像模型的訓(xùn)練數(shù)據(jù)集是由圖像標(biāo)題生成器生成的重新標(biāo)注數(shù)據(jù)集和真實(shí)人類編寫的數(shù)據(jù)混合而成,以確保模型能夠捕捉用戶輸入。這種圖像標(biāo)題改進(jìn)方法引入了一個(gè)潛在問題:實(shí)際用戶提示與訓(xùn)練數(shù)據(jù)中的描述性圖像描述之間的不匹配。DALL·E 3通過上采樣來解決這個(gè)問題,其中LLMs被用來將簡短的用戶提示重寫為詳細(xì)且冗長的指令。這確保了模型在推理時(shí)接收到的文本輸入與模型訓(xùn)練中的輸入一致。

3.4.3 文本到視頻

為了增強(qiáng)指令遵循能力,Sora采用了類似的標(biāo)題改進(jìn)方法。該方法首先通過訓(xùn)練一個(gè)能夠?yàn)橐曨l生成詳細(xì)描述的視頻標(biāo)題生成器來實(shí)現(xiàn)。然后,將這個(gè)視頻標(biāo)題生成器應(yīng)用于訓(xùn)練數(shù)據(jù)中的所有視頻,以生成高質(zhì)量的(視頻,描述性標(biāo)題)對(duì),這些對(duì)被用來微調(diào)Sora,以提高其指令遵循能力。Sora的技術(shù)報(bào)告沒有透露視頻標(biāo)題生成器是如何訓(xùn)練的。鑒于視頻標(biāo)題生成器是一個(gè)視頻到文本的模型,構(gòu)建它有許多方法。一種直接的方法是利用CoCa架構(gòu)進(jìn)行視頻標(biāo)題生成,通過取視頻的多個(gè)幀并將每個(gè)幀輸入到圖像編碼器,稱為VideoCoCa。VideoCoCa基于CoCa,并重用預(yù)訓(xùn)練的圖像編碼器權(quán)重,獨(dú)立地應(yīng)用于采樣的視頻幀。結(jié)果產(chǎn)生的幀令牌嵌入被展平并連接成一個(gè)長序列的視頻表示。這些展平的幀令牌隨后被一個(gè)生成性池化器和一個(gè)對(duì)比性池化器處理,這兩者與對(duì)比損失和標(biāo)題生成損失一起聯(lián)合訓(xùn)練。構(gòu)建視頻標(biāo)題生成器的其他替代方法包括mPLUG-2、GIT、FrozenBiLM等。最后,為了確保用戶提示與訓(xùn)練數(shù)據(jù)中的描述性標(biāo)題格式一致,Sora執(zhí)行了一個(gè)額外的提示擴(kuò)展步驟,其中GPT-4V被用來將用戶輸入擴(kuò)展為詳細(xì)的描述性提示。

3.4.4 討論

對(duì)于Sora來說,遵循指令的能力對(duì)于生成忠實(shí)于用戶意圖的、包含復(fù)雜場景的一分鐘長視頻至關(guān)重要。根據(jù)Sora的技術(shù)報(bào)告,這種能力是通過上述方法獲得的。通過開發(fā)一個(gè)能夠生成長而詳細(xì)的標(biāo)題的字幕器,然后用這些標(biāo)題來訓(xùn)練模型。然而,收集用于訓(xùn)練此類字幕器的數(shù)據(jù)的過程是未知的,且可能需要大量勞動(dòng),因?yàn)樗赡苄枰曨l的詳細(xì)描述。此外,描述性視頻字幕器可能會(huì)虛構(gòu)視頻的重要細(xì)節(jié)。我們認(rèn)為,如何改進(jìn)視頻字幕器值得進(jìn)一步研究,并且對(duì)于增強(qiáng)文本到圖像模型的遵循指令能力至關(guān)重要。

3.5 提示工程

提示工程指的是設(shè)計(jì)和完善提供給AI系統(tǒng)的輸入的過程,特別是在生成模型的背景下,以實(shí)現(xiàn)特定的或優(yōu)化的輸出。提示工程的藝術(shù)和科學(xué)涉及以一種引導(dǎo)模型產(chǎn)生盡可能準(zhǔn)確、相關(guān)和連貫響應(yīng)的方式來構(gòu)建這些輸入。

3.5.1 文本提示

文本提示工程對(duì)于指導(dǎo)文本到視頻模型(例如,Sora)生成在視覺上引人注目同時(shí)精確滿足用戶規(guī)格的視頻至關(guān)重要。這涉及到制定詳細(xì)描述,以指導(dǎo)模型有效地彌合人類創(chuàng)造力和AI執(zhí)行能力之間的差距。Sora的提示涵蓋了廣泛的場景。最近的工作(例如,VoP、Make-A-Video和Tune-A-Video)展示了提示工程如何利用模型的自然語言理解能力來解碼復(fù)雜指令,并將它們渲染成連貫、生動(dòng)和高質(zhì)量的視頻敘述。如圖15所示,“一個(gè)穿著時(shí)尚的女人走在霓虹燈照亮的東京街道上...”是一個(gè)精心制作的文本提示,它確保Sora生成的視頻與預(yù)期視覺良好對(duì)齊。提示工程的質(zhì)量取決于對(duì)詞語的仔細(xì)選擇、提供的細(xì)節(jié)的具體性,以及理解它們對(duì)模型輸出的影響。例如,圖15中的提示詳細(xì)指定了場景的動(dòng)作、設(shè)置、角色外觀,甚至是期望的情緒和氛圍。

圖15:一個(gè)關(guān)于文本到視頻生成的提示工程案例研究,使用顏色編碼來劃分創(chuàng)造過程。藍(lán)色高亮的文本描述了Sora生成的元素,如對(duì)一個(gè)時(shí)尚女性的描繪。相比之下,黃色的文本強(qiáng)調(diào)了模型對(duì)動(dòng)作、設(shè)置和角色外觀的解釋,展示了一個(gè)精心制作的提示是如何轉(zhuǎn)化為生動(dòng)和動(dòng)態(tài)的視頻敘述的。

3.5.2 圖像提示

圖像提示作為即將生成視頻的內(nèi)容和其他元素(如角色、設(shè)置和情緒)的視覺錨點(diǎn)。此外,文本提示可以指導(dǎo)模型通過添加運(yùn)動(dòng)層、互動(dòng)和敘事進(jìn)展等來使這些元素動(dòng)起來,從而使靜態(tài)圖像變得生動(dòng)。通過利用視覺和文本信息,圖像提示允許Sora將靜態(tài)圖像轉(zhuǎn)換為動(dòng)態(tài)、敘事驅(qū)動(dòng)的視頻。在圖16中,我們展示了使用DALL·E生成的圖像提示Sora的AI生成視頻的例子,如“一個(gè)戴貝雷帽和高領(lǐng)衫的柴犬”、“一個(gè)獨(dú)特的怪物家庭”、“形成‘SORA’字樣的云”和“沖浪者在一個(gè)歷史悠久的大廳內(nèi)導(dǎo)航巨浪”。這些例子展示了通過向Sora提示DALL·E生成的圖像可以實(shí)現(xiàn)什么。

圖16:這個(gè)例子展示了圖像提示指導(dǎo)Sora的文本到視頻模型生成的過程。紅色框體視覺上錨定了每個(gè)場景的關(guān)鍵元素——不同設(shè)計(jì)的怪物、拼寫“SORA”的云形成和在華麗大廳面對(duì)巨大海浪的沖浪者。

3.5.3 視頻提示

如[82, 83]所示,視頻提示也可以用于視頻生成。最近的工作(例如,Moonshot和Fast-Vid2Vid)顯示,好的視頻提示需要具體且靈活。這確保模型在特定目標(biāo)上獲得清晰的指導(dǎo),如特定對(duì)象和視覺主題的描繪,并且還允許在最終輸出中進(jìn)行富有想象力的變化。例如,在視頻擴(kuò)展任務(wù)中,提示可以指定方向(向前或向后時(shí)間)和擴(kuò)展的上下文或主題。在圖17(a)中,視頻提示指導(dǎo)Sora向時(shí)間倒退擴(kuò)展視頻,以探索導(dǎo)致原始起點(diǎn)的事件。在通過視頻提示進(jìn)行視頻到視頻編輯時(shí),如圖17(b)所示,模型需要清楚地理解所需的轉(zhuǎn)變,如改變視頻的風(fēng)格、設(shè)置或氛圍,或改變細(xì)微方面,如照明或情緒。在圖17(c)中,提示指導(dǎo)Sora連接視頻,同時(shí)確保不同場景中的對(duì)象之間平滑過渡。

3.5.4 討論

提示工程允許用戶指導(dǎo)AI模型生成與他們的意圖一致的內(nèi)容。例如,文本、圖像和視頻提示的綜合使用使Sora能夠創(chuàng)建的內(nèi)容不僅在視覺上引人注目,而且與用戶的期望和意圖良好對(duì)齊。盡管之前的提示工程研究主要集中在LLMs和LVMs的文本和圖像提示上,但我們預(yù)計(jì)對(duì)視頻生成模型的視頻提示將會(huì)越來越受到關(guān)注。

3.6 可信度

隨著ChatGPT、GPT4-V和Sora等復(fù)雜模型的快速發(fā)展,這些模型的能力得到了顯著增強(qiáng)。這些發(fā)展為提高工作效率和推動(dòng)技術(shù)進(jìn)步做出了重大貢獻(xiàn)。然而,這些進(jìn)步也引發(fā)了對(duì)這些技術(shù)潛在濫用的擔(dān)憂,包括生成假新聞、隱私泄露和倫理困境。因此,在大型模型中的可信度問題已經(jīng)從學(xué)術(shù)界和工業(yè)界獲得了廣泛關(guān)注,成為當(dāng)代研究討論的焦點(diǎn)。

圖17:這些示例展示了Sora模型的視頻提示技術(shù):(a)視頻擴(kuò)展,模型將序列向原始素材的反方向外推;(b)視頻編輯,根據(jù)文本提示,特定元素如場景被轉(zhuǎn)換;以及(c)視頻連接,兩個(gè)不同的視頻提示被無縫融合以創(chuàng)建連貫的敘述。每個(gè)過程都由一個(gè)視覺錨點(diǎn)指導(dǎo),用紅色框標(biāo)記,確保生成的視頻內(nèi)容連續(xù)性和精確性。

3.6.1 安全問題

一個(gè)主要關(guān)注點(diǎn)是模型的安全性,特別是其抵抗濫用和所謂的“越獄”攻擊的能力,用戶試圖利用漏洞生成禁止或有害內(nèi)容[96, 97, 98, 99, 100, 101, 102, 103, 104, 105]。例如,AutoDAN[103],一種基于梯度技術(shù)的新型可解釋對(duì)抗攻擊方法,被引入以實(shí)現(xiàn)系統(tǒng)繞過。在最近的一項(xiàng)研究中,研究人員探討了大型語言模型(LLMs)難以抵抗越獄攻擊的兩個(gè)原因:目標(biāo)沖突和泛化不匹配[106]。除了文本攻擊外,視覺越獄也威脅到多模態(tài)模型的安全(例如,GPT-4V[90]和Sora[3])。最近的一項(xiàng)研究[107]發(fā)現(xiàn),大型多模態(tài)模型更容易受到攻擊,因?yàn)轭~外的視覺輸入的連續(xù)性和高維性使其對(duì)對(duì)抗攻擊更加脆弱,代表了擴(kuò)大的攻擊面。

3.6.2 其他利用

由于大型基礎(chǔ)模型(例如,ChatGPT[89]和Sora[3])的訓(xùn)練數(shù)據(jù)集規(guī)模和訓(xùn)練方法,這些模型的真實(shí)性需要得到增強(qiáng),因?yàn)橄嚓P(guān)問題如幻覺已被廣泛討論[108]。在這個(gè)上下文中,幻覺指的是模型傾向于生成看似令人信服但是無根據(jù)或虛假的回應(yīng)[96]。這一現(xiàn)象提出了關(guān)于模型輸出可靠性和可信度的關(guān)鍵問題,需要采取全面的方法來評(píng)估和解決這一問題。已有大量研究致力于從各個(gè)角度剖析幻覺問題。這包括旨在評(píng)估不同模型和場景中幻覺的程度和性質(zhì)的努力[109, 96, 110, 111]。這些評(píng)估提供了寶貴的見解,說明了幻覺如何以及為什么發(fā)生,為制定減少其發(fā)生的策略奠定了基礎(chǔ)。同時(shí),大量研究集中于設(shè)計(jì)和實(shí)施方法以減少這些大型模型中的幻覺[112, 113, 114]。

另一個(gè)關(guān)于可信度的重要方面是公平性和偏見。開發(fā)不會(huì)傳播或加劇社會(huì)偏見的模型的重要性是一個(gè)至關(guān)重要的關(guān)注點(diǎn)。這一優(yōu)先事項(xiàng)源于這樣的認(rèn)識(shí):這些模型中編碼的偏見可以加強(qiáng)現(xiàn)有的社會(huì)不平等,導(dǎo)致歧視性結(jié)果。在這一領(lǐng)域的研究,如Gallegos等人[115]、張等人[116]、梁等人[117]和Friedrich等人[118]的工作,致力于這些固有偏見的細(xì)致識(shí)別和糾正。目標(biāo)是培養(yǎng)公平運(yùn)作的模型,公平對(duì)待所有個(gè)體,不對(duì)種族、性別或其他敏感屬性持有偏見。這不僅涉及檢測和減輕數(shù)據(jù)集中的偏見,還包括設(shè)計(jì)能夠主動(dòng)對(duì)抗這些偏見傳播的算法[119, 120]。

隱私保護(hù)成為部署這些模型時(shí)的另一個(gè)基礎(chǔ)支柱。在數(shù)據(jù)隱私關(guān)切日益升高的時(shí)代,保護(hù)用戶數(shù)據(jù)的重點(diǎn)從未如此關(guān)鍵。公眾對(duì)個(gè)人數(shù)據(jù)處理方式的日益關(guān)注和擔(dān)憂促使對(duì)大型模型進(jìn)行了更嚴(yán)格的評(píng)估。這些評(píng)估關(guān)注模型保護(hù)用戶數(shù)據(jù)的能力,確保個(gè)人信息保持機(jī)密,不會(huì)無意中泄露。Mireshghallah等人[121]、Plant等人[122]和Li等人[123]的研究代表了推進(jìn)保護(hù)隱私的方法和技術(shù)的努力。

3.6.3 對(duì)齊

在應(yīng)對(duì)這些挑戰(zhàn)時(shí),確保大型模型的可信度已成為研究人員的主要關(guān)切之一[124, 96, 99, 125]。最重要的技術(shù)之一是模型對(duì)齊[125, 126],它指的是確保模型的行為和輸出與人類設(shè)計(jì)者的意圖和倫理標(biāo)準(zhǔn)一致的過程和目標(biāo)。這涉及技術(shù)的發(fā)展、其道德責(zé)任和社會(huì)價(jià)值。在大型語言模型(LLMs)領(lǐng)域,使用人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)[127, 128]方法已被廣泛應(yīng)用于模型對(duì)齊。這種方法結(jié)合了強(qiáng)化學(xué)習(xí)(RL)和直接人類反饋,允許模型更好地與人類的期望和標(biāo)準(zhǔn)對(duì)齊,以理解和執(zhí)行任務(wù)。

3.6.4 討論

從Sora(特別是其技術(shù)報(bào)告)中,我們總結(jié)了一些有見地的發(fā)現(xiàn),這些發(fā)現(xiàn)可能為未來的工作提供有益的指導(dǎo):

模型和外部安全的綜合保護(hù):隨著模型變得更強(qiáng)大,特別是在內(nèi)容生成方面,確保它們不被濫用來生產(chǎn)有害內(nèi)容(如仇恨言論[129]和虛假信息[92, 91])已成為一個(gè)嚴(yán)峻的挑戰(zhàn)。除了對(duì)模型本身進(jìn)行調(diào)整外,外部安全保護(hù)同樣重要。這包括內(nèi)容過濾和審查機(jī)制、使用權(quán)限和訪問控制、數(shù)據(jù)隱私保護(hù),以及在透明度和可解釋性方面的增強(qiáng)。例如,OpenAI現(xiàn)在使用檢測分類器來判斷給定視頻是否由Sora生成[130]。此外,還部署了文本分類器來檢測潛在有害的文本輸入[130]。

多模態(tài)模型的安全挑戰(zhàn):多模態(tài)模型,如文本到視頻模型Sora,由于其理解和生成各種類型內(nèi)容(文本、圖像、視頻等)的能力,給安全帶來額外的復(fù)雜性。多模態(tài)模型可以以各種形式生產(chǎn)內(nèi)容,增加了濫用和版權(quán)問題的方式和范圍。由于多模態(tài)模型生成的內(nèi)容更加復(fù)雜和多樣,傳統(tǒng)的內(nèi)容驗(yàn)證和真實(shí)性方法可能不再有效。這要求開發(fā)新的技術(shù)和方法來識(shí)別和過濾這些模型生成的有害內(nèi)容,增加了監(jiān)管和管理的難度。

跨學(xué)科合作的需求:確保模型的安全不僅是一個(gè)技術(shù)問題,還需要跨學(xué)科合作。為了應(yīng)對(duì)這些挑戰(zhàn),來自各個(gè)領(lǐng)域的專家,如法律[131]和心理學(xué)[132],需要共同努力制定適當(dāng)?shù)囊?guī)范(例如,什么是安全的,什么是不安全的?)、政策和技術(shù)解決方案??鐚W(xué)科合作的需求顯著增加了解決這些問題的復(fù)雜性。

4 應(yīng)用

圖18:Sora的應(yīng)用。

隨著Sora等視頻擴(kuò)散模型作為前沿技術(shù)的興起,它們在不同研究領(lǐng)域和行業(yè)中的采用正在迅速加速。這項(xiàng)技術(shù)的影響遠(yuǎn)遠(yuǎn)超出了簡單的視頻創(chuàng)作,為從自動(dòng)化內(nèi)容生成到復(fù)雜決策過程的任務(wù)提供了變革性的潛力。在本節(jié)中,我們將深入探討視頻擴(kuò)散模型當(dāng)前的應(yīng)用情況,重點(diǎn)介紹Sora不僅展示了其能力,而且還革新了解決復(fù)雜問題方法的關(guān)鍵領(lǐng)域。我們旨在為實(shí)際部署場景提供一個(gè)廣闊的視角(見圖18)。

4.1 電影

傳統(tǒng)上,創(chuàng)作電影杰作是一個(gè)艱巨且昂貴的過程,通常需要數(shù)十年的努力、尖端設(shè)備和大量的財(cái)務(wù)投資。然而,先進(jìn)視頻生成技術(shù)的出現(xiàn)預(yù)示著電影制作的新時(shí)代,一個(gè)從簡單文本輸入自主制作電影的夢想正在成為現(xiàn)實(shí)的時(shí)代。研究人員通過將視頻生成模型擴(kuò)展到電影制作領(lǐng)域,MovieFactory[133]應(yīng)用擴(kuò)散模型從ChatGPT[89]生成的詳細(xì)劇本生成電影風(fēng)格的視頻,代表了一次重大飛躍。在后續(xù)中,MobileVidFactory[134]可以僅根據(jù)用戶提供的簡單文本自動(dòng)生成垂直移動(dòng)視頻。Vlogger[135]使用戶能夠組成一分鐘長的視頻博客。這些發(fā)展,以Sora輕松生成引人入勝的電影內(nèi)容的能力為典范,標(biāo)志著電影制作民主化的關(guān)鍵時(shí)刻。它們展示了一個(gè)未來的畫面,任何人都可以成為電影制作者,顯著降低了進(jìn)入電影行業(yè)的門檻,并引入了將傳統(tǒng)敘事與AI驅(qū)動(dòng)的創(chuàng)造力相結(jié)合的電影制作新維度。這些技術(shù)的影響不僅僅是簡化,它們承諾將重塑電影制作的格局,使其在不斷變化的觀眾偏好和分發(fā)渠道面前變得更加易于訪問和多樣化。

4.2 教育

教育內(nèi)容的格局長期以來一直被靜態(tài)資源所主導(dǎo),盡管它們具有價(jià)值,但往往無法滿足當(dāng)今學(xué)生多樣化的需求和學(xué)習(xí)風(fēng)格。視頻擴(kuò)散模型站在教育革命的前沿,提供了前所未有的機(jī)會(huì),以顯著增強(qiáng)學(xué)習(xí)者的參與度和理解力,定制和動(dòng)態(tài)化教育材料。這些先進(jìn)技術(shù)使教育者能夠?qū)⑽谋久枋龌蛘n程大綱轉(zhuǎn)化為針對(duì)個(gè)別學(xué)習(xí)者的特定風(fēng)格和興趣量身定制的動(dòng)態(tài)、引人入勝的視頻內(nèi)容[136, 137, 138, 139]。此外,圖像到視頻編輯技術(shù)[140, 141, 142]提供了將靜態(tài)教育資產(chǎn)轉(zhuǎn)換為互動(dòng)視頻的創(chuàng)新途徑,從而支持一系列學(xué)習(xí)偏好,并有可能增加學(xué)生的參與度。通過將這些模型整合到教育內(nèi)容創(chuàng)作中,教育者可以就廣泛的主題制作視頻,使復(fù)雜概念對(duì)學(xué)生更加易于理解和吸引人。Sora在教育領(lǐng)域的應(yīng)用體現(xiàn)了這些技術(shù)的變革潛力。這種轉(zhuǎn)向個(gè)性化、動(dòng)態(tài)教育內(nèi)容的轉(zhuǎn)變預(yù)示著教育的新時(shí)代。

4.3 游戲

游戲行業(yè)不斷尋求推動(dòng)現(xiàn)實(shí)主義和沉浸感的界限,然而傳統(tǒng)游戲開發(fā)經(jīng)常與預(yù)渲染環(huán)境和腳本事件的限制作斗爭。擴(kuò)散模型生成的動(dòng)態(tài)、高保真視頻內(nèi)容和實(shí)時(shí)效果的真實(shí)聲音,承諾克服現(xiàn)有限制,為開發(fā)者提供創(chuàng)建響應(yīng)玩家行動(dòng)和游戲事件的不斷發(fā)展的游戲環(huán)境的工具[143, 144]。這可能包括生成變化的天氣條件、變換的景觀,甚至即興創(chuàng)造全新的設(shè)置,使游戲世界更加沉浸和響應(yīng)。一些方法[145, 146]還從視頻輸入中合成真實(shí)的沖擊聲音,增強(qiáng)游戲音頻體驗(yàn)。通過將Sora整合到游戲領(lǐng)域,可以創(chuàng)造前所未有的沉浸式體驗(yàn),吸引并吸引玩家。游戲的開發(fā)、玩法和體驗(yàn)將得到創(chuàng)新,同時(shí)為敘事、互動(dòng)和沉浸打開新的可能性。

4.4 醫(yī)療保健

盡管具有生成能力,視頻擴(kuò)散模型在理解和生成復(fù)雜視頻序列方面表現(xiàn)出色,使它們特別適合識(shí)別身體內(nèi)的動(dòng)態(tài)異常,如早期細(xì)胞凋亡[147]、皮膚病變進(jìn)展[148]和不規(guī)則人體運(yùn)動(dòng)[149],這對(duì)于早期疾病檢測和干預(yù)策略至關(guān)重要。此外,像MedSegDiffV2[150]和[151]這樣的模型利用變壓器的力量,以前所未有的精度對(duì)醫(yī)學(xué)圖像進(jìn)行分割,使臨床醫(yī)生能夠在各種成像模式中準(zhǔn)確地定位感興趣的區(qū)域。將Sora整合到臨床實(shí)踐中,不僅承諾改進(jìn)診斷過程,還提供基于精確醫(yī)學(xué)成像分析的個(gè)性化患者護(hù)理。然而,這種技術(shù)整合帶來了自身的一系列挑戰(zhàn),包括需要強(qiáng)大的數(shù)據(jù)隱私措施和解決醫(yī)療保健中的倫理考慮。

4.5 機(jī)器人

視頻擴(kuò)散模型在機(jī)器人學(xué)中扮演著重要角色,展示了一個(gè)新時(shí)代,其中機(jī)器人可以生成和解釋復(fù)雜視頻序列,以增強(qiáng)感知[152, 153]和決策[154, 155, 156]。這些模型為機(jī)器人解鎖了新的能力,使它們能夠與環(huán)境互動(dòng)并以前所未有的復(fù)雜性和精確度執(zhí)行任務(wù)。將網(wǎng)絡(luò)規(guī)模的擴(kuò)散模型引入機(jī)器人學(xué)[152]展示了利用大規(guī)模模型增強(qiáng)機(jī)器人視覺和理解的潛力。潛在擴(kuò)散模型用于語言指導(dǎo)的視頻預(yù)測[157],通過預(yù)測視頻格式中動(dòng)作的結(jié)果,使機(jī)器人能夠理解和執(zhí)行任務(wù)。此外,對(duì)于機(jī)器人研究依賴模擬環(huán)境的問題,已通過能夠創(chuàng)建高度逼真視頻序列的視頻擴(kuò)散模型得到了創(chuàng)新性的解決[158, 159]。這使得能夠?yàn)闄C(jī)器人生成多樣化的訓(xùn)練場景,減輕了現(xiàn)實(shí)世界數(shù)據(jù)稀缺所帶來的限制。我們相信,像Sora這樣的技術(shù)整合到機(jī)器人領(lǐng)域,預(yù)示著突破性的發(fā)展。通過利用Sora的力量,機(jī)器人的未來正迎來前所未有的進(jìn)步,機(jī)器人能夠無縫地導(dǎo)航和與環(huán)境互動(dòng)。

5 討論

Sora展現(xiàn)出了精確理解和執(zhí)行人類復(fù)雜指令的非凡才能。這個(gè)模型擅長創(chuàng)建具有各種角色的詳細(xì)視頻,所有這些都設(shè)置在精心制作的環(huán)境中。Sora的一個(gè)特別令人印象深刻的屬性是其能夠制作長達(dá)一分鐘的視頻,同時(shí)確保一致且引人入勝的敘事。這標(biāo)志著相比之前專注于更短視頻片段的嘗試,Sora的擴(kuò)展序列展現(xiàn)了清晰的敘事流程,并從頭到尾保持視覺一致性。此外,Sora通過生成捕捉復(fù)雜動(dòng)作和互動(dòng)的更長視頻序列,超越了早期模型只能處理短片和基本圖像的限制。這一進(jìn)步在AI驅(qū)動(dòng)的創(chuàng)意工具中標(biāo)志著重大步伐,使用戶能夠?qū)婀适罗D(zhuǎn)化為生動(dòng)的視頻,達(dá)到以前無法實(shí)現(xiàn)的細(xì)節(jié)和復(fù)雜度水平。

5.1 限制

物理現(xiàn)實(shí)性的挑戰(zhàn)。作為一個(gè)模擬平臺(tái),Sora展現(xiàn)出一系列限制,這些限制削弱了其準(zhǔn)確描繪復(fù)雜場景的有效性。最重要的是它在處理復(fù)雜場景中的物理原理時(shí)的不一致性,導(dǎo)致無法準(zhǔn)確復(fù)制特定示例的因果關(guān)系。例如,吃掉一部分餅干可能不會(huì)產(chǎn)生相應(yīng)的咬痕,說明系統(tǒng)偶爾偏離物理的可能性。這個(gè)問題擴(kuò)展到運(yùn)動(dòng)的模擬,其中Sora生成的運(yùn)動(dòng)挑戰(zhàn)了現(xiàn)實(shí)的物理建模,如物體的不自然變化或椅子等剛性結(jié)構(gòu)的錯(cuò)誤模擬,導(dǎo)致不現(xiàn)實(shí)的物理互動(dòng)。當(dāng)模擬物體和角色之間的復(fù)雜互動(dòng)時(shí),挑戰(zhàn)進(jìn)一步增加,偶爾產(chǎn)生傾向于幽默的結(jié)果。

空間和時(shí)間的復(fù)雜性。Sora偶爾誤解與給定提示中的物體和角色的放置或排列相關(guān)的指令,導(dǎo)致對(duì)方向的混淆(例如,將左右弄反)。此外,它在保持事件的時(shí)間準(zhǔn)確性方面面臨挑戰(zhàn),特別是在遵循指定的攝像機(jī)移動(dòng)或序列時(shí)。這可能導(dǎo)致偏離場景預(yù)期的時(shí)間流。在涉及多個(gè)角色或元素的復(fù)雜場景中,Sora傾向于插入不相關(guān)的動(dòng)物或人物。這樣的添加可以顯著改變最初設(shè)想的場景構(gòu)成和氛圍,偏離計(jì)劃的敘事或視覺布局。這個(gè)問題不僅影響模型準(zhǔn)確重現(xiàn)特定場景或敘事的能力,也影響其生成與用戶期望和生成輸出的連貫性緊密對(duì)齊的內(nèi)容的可靠性。

人機(jī)交互(HCI)的限制。Sora在視頻生成領(lǐng)域顯示出潛力,但在HCI方面面臨重大限制。這些限制主要體現(xiàn)在用戶系統(tǒng)互動(dòng)的連貫性和效率上,特別是在對(duì)生成內(nèi)容進(jìn)行詳細(xì)修改或優(yōu)化時(shí)。例如,用戶可能發(fā)現(xiàn)很難精確指定或調(diào)整視頻中特定元素的呈現(xiàn),如動(dòng)作細(xì)節(jié)和場景轉(zhuǎn)換。此外,Sora在理解復(fù)雜的語言指令或捕捉微妙的語義差異方面的限制可能導(dǎo)致在視頻內(nèi)容方面,若不能完全滿足用戶的期望或需求,這些不足之處限制了Sora在視頻編輯和增強(qiáng)方面的潛力,也影響了用戶體驗(yàn)的整體滿意度。

使用限制。關(guān)于使用限制,OpenAI尚未為Sora公開訪問設(shè)定具體的發(fā)布日期,強(qiáng)調(diào)在廣泛部署之前對(duì)安全性和準(zhǔn)備情況采取謹(jǐn)慎的態(tài)度。這表明Sora可能仍需要在安全性、隱私保護(hù)和內(nèi)容審查等領(lǐng)域進(jìn)行進(jìn)一步的改進(jìn)和測試。此外,目前Sora只能生成長達(dá)一分鐘的視頻,根據(jù)已發(fā)布的案例,大多數(shù)生成的視頻僅有幾十秒長。這一限制限制了其在需要較長內(nèi)容展示的應(yīng)用中的使用,例如詳細(xì)的教學(xué)視頻或深入的故事講述。這一限制減少了Sora在內(nèi)容創(chuàng)作中的靈活性。

5.2機(jī)遇

學(xué)術(shù)界。(1) OpenAI推出Sora標(biāo)志著向鼓勵(lì)更廣泛的AI社區(qū)深入探索文本到視頻模型的戰(zhàn)略轉(zhuǎn)變,利用擴(kuò)散和變換器技術(shù)。這一舉措旨在將焦點(diǎn)轉(zhuǎn)向直接從文本描述創(chuàng)建高度復(fù)雜和細(xì)膩視頻內(nèi)容的潛力,這是一個(gè)有望徹底改變內(nèi)容創(chuàng)作、講故事和信息分享的前沿。(2) 以其原生大小對(duì)Sora進(jìn)行訓(xùn)練的創(chuàng)新方法,與傳統(tǒng)的調(diào)整大小或裁剪方法相反,為學(xué)術(shù)界提供了突破性的靈感。它通過強(qiáng)調(diào)使用未修改數(shù)據(jù)集的好處,開辟了新的路徑,這導(dǎo)致了更高級(jí)的生成模型的創(chuàng)建。

行業(yè)。(1) Sora目前的能力預(yù)示著視頻模擬技術(shù)進(jìn)步的有希望的道路,突出了在物理和數(shù)字領(lǐng)域內(nèi)顯著增強(qiáng)現(xiàn)實(shí)感的潛力。Sora通過文本描述創(chuàng)建高度逼真環(huán)境的前景為內(nèi)容創(chuàng)作提供了充滿希望的未來。這一潛力擴(kuò)展到了革命性地改變游戲開發(fā),提供了一個(gè)未來的窺視,其中沉浸式生成的世界可以以前所未有的便捷性和準(zhǔn)確性被創(chuàng)造。(2) 公司可以利用Sora生產(chǎn)迅速適應(yīng)市場變化的廣告視頻,并創(chuàng)建定制化的營銷內(nèi)容。這不僅降低了生產(chǎn)成本,還增強(qiáng)了廣告的吸引力和效果。Sora僅憑文本描述就能生成高度逼真的視頻內(nèi)容的能力,可能會(huì)徹底改變品牌與其受眾互動(dòng)的方式,允許創(chuàng)造沉浸式和引人入勝的視頻,以前所未有的方式捕捉其產(chǎn)品或服務(wù)的精髓。

社會(huì)。(1) 雖然利用文本到視頻技術(shù)替代傳統(tǒng)電影制作的前景仍然遙遠(yuǎn),但Sora和類似平臺(tái)對(duì)社交媒體上的內(nèi)容創(chuàng)作具有變革性的潛力。當(dāng)前視頻長度的限制并未減少這些工具在使高質(zhì)量視頻制作普及化方面可以產(chǎn)生的影響,使個(gè)人能夠在無需昂貴設(shè)備的情況下制作引人入勝的內(nèi)容。這代表了向賦予像TikTok和Reels這樣的平臺(tái)上的內(nèi)容創(chuàng)作者更多權(quán)力的重大轉(zhuǎn)變,開啟了創(chuàng)意和參與的新時(shí)代。(2) 編劇和創(chuàng)意專業(yè)人士可以使用Sora將書面劇本轉(zhuǎn)換為視頻,幫助他們更好地展示和分享他們的創(chuàng)意概念,甚至制作短片和動(dòng)畫。從劇本創(chuàng)建詳細(xì)、生動(dòng)的視頻的能力可以從根本上改變電影制作和動(dòng)畫的前期制作過程,提供了一個(gè)窺視未來的故事講述者如何提案、開發(fā)和完善他們敘述的方式。這項(xiàng)技術(shù)為腳本開發(fā)提供了一種更動(dòng)態(tài)和互動(dòng)的形式,其中想法可以實(shí)時(shí)可視化和評(píng)估,為創(chuàng)意和協(xié)作提供了強(qiáng)大的工具。(3) 記者和新聞機(jī)構(gòu)也可以利用Sora快速生成新聞報(bào)道或解釋性視頻,使新聞內(nèi)容更加生動(dòng)和吸引人。這可以顯著增加新聞報(bào)道的覆蓋范圍和觀眾參與度。通過提供一個(gè)可以模擬逼真環(huán)境和場景的工具,Sora為視覺敘事提供了強(qiáng)大的解決方案。使記者能夠通過吸引人的視頻傳達(dá)以前難以制作或成本高昂的復(fù)雜故事??傊?,Sora在跨越市場營銷、新聞業(yè)和娛樂業(yè)的內(nèi)容創(chuàng)作方面革命性的潛力是巨大的。

6 結(jié)論

我們提供了對(duì)Sora的全面審查,以幫助開發(fā)者和研究人員研究Sora的能力和相關(guān)工作。該審查基于我們對(duì)已發(fā)布的技術(shù)報(bào)告的調(diào)查和基于現(xiàn)有文獻(xiàn)的逆向工程。當(dāng)Sora的API可用且有關(guān)Sora的更多細(xì)節(jié)被揭露時(shí),我們將繼續(xù)更新本文。我們希望這篇綜述論文能為開源研究社區(qū)提供寶貴的資源,并為社區(qū)在不久的將來共同開發(fā)一個(gè)開源版本的Sora奠定基礎(chǔ),以在AIGC時(shí)代民主化視頻自動(dòng)創(chuàng)作。為了實(shí)現(xiàn)這一目標(biāo),我們邀請(qǐng)?jiān)谒蟹矫孢M(jìn)行討論、建議和合作。

參考文獻(xiàn)

(注:論文英文名可見原文)

[1] OpenAI, “Chatgpt: 獲取即時(shí)答案,尋找創(chuàng)意靈感,學(xué)習(xí)新事物?!?https://openai.com/chatgpt, 2022。

[2] OpenAI, “Gpt-4技術(shù)報(bào)告”,2023。

[3] OpenAI, “Sora: 從文本創(chuàng)建視頻?!?https://openai.com/sora, 2024。

[4] W. Peebles 和 S. Xie, “使用變壓器的可擴(kuò)展擴(kuò)散模型”,在IEEE/CVF國際計(jì)算機(jī)視覺會(huì)議論文集中,第4195-4205頁,2023。

[5] A. A. Efros 和 T. K. Leung, “通過非參數(shù)采樣的紋理合成”,在第七屆IEEE國際計(jì)算機(jī)視覺會(huì)議論文集中,第2卷,第1033-1038頁,IEEE,1999。

[6] P. S. Heckbert, “紋理映射概述”,IEEE計(jì)算機(jī)圖形學(xué)及應(yīng)用,第6卷,第11期,第56-67頁,1986。

[7] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, 和 Y. Bengio, “生成對(duì)抗網(wǎng)絡(luò)”,arXiv,2014。

[8] D. P. Kingma 和 M. Welling, “自動(dòng)編碼變分貝葉斯”,arXiv預(yù)印本arXiv:1312.6114,2013。

[9] L. Dinh, D. Krueger, 和 Y. Bengio, “Nice: 非線性獨(dú)立成分估計(jì)”,arXiv預(yù)印本arXiv:1410.8516,2014。

[10] Y. Song 和 S. Ermon, “通過估計(jì)數(shù)據(jù)分布的梯度進(jìn)行生成建?!?,在神經(jīng)信息處理系統(tǒng)進(jìn)展中,第32卷,2019。

[11] Y. Cao, S. Li, Y. Liu, Z. Yan, Y. Dai, P. S. Yu, 和 L. Sun, “AI生成內(nèi)容的全面調(diào)查(AIGC):從GAN到ChatGPT的生成AI歷史”,arXiv預(yù)印本arXiv:2303.04226,2023。

[12] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. u. Kaiser, 和 I. Polosukhin, “只需注意力”,在神經(jīng)信息處理系統(tǒng)進(jìn)展中(I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, 和 R. Garnett, 編輯),第30卷,Curran Associates, Inc., 2017。

[13] J. Devlin, M.-W. Chang, K. Lee, 和 K. Toutanova, “Bert: 深度雙向變壓器的語言理解預(yù)訓(xùn)練”,arXiv預(yù)印本arXiv:1810.04805,2018。

[14] A. Radford, K. Narasimhan, T. Salimans, I. Sutskever, 等, “通過生成預(yù)訓(xùn)練提高語言理解”,2018。

[15] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, 等, “一幅圖像值得16x16個(gè)詞:變壓器在大規(guī)模圖像識(shí)別中的應(yīng)用”,arXiv預(yù)印本arXiv:2010.11929,2020。

[16] Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, 和 B. Guo, “Swin變壓器:使用移動(dòng)窗口的分層視覺變壓器”,在IEEE/CVF國際計(jì)算機(jī)視覺會(huì)議論文集中,第10012-10022頁,2021。

[17] O. Ronneberger, P. Fischer, 和 T. Brox, “U-net: 用于生物醫(yī)學(xué)圖像分割的卷積網(wǎng)絡(luò)”,在醫(yī)學(xué)圖像計(jì)算和計(jì)算機(jī)輔助干預(yù)-MICCAI 2015:第18屆國際會(huì)議,慕尼黑,德國,2015年10月5-9日,論文集,第三部分18,第234-241頁,Springer,2015。

[18] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, 和 I. Sutskever, “從自然語言監(jiān)督中學(xué)習(xí)可轉(zhuǎn)移的視覺模型”,2021。

[19] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, 和 B. Ommer, “高分辨率圖像合成與潛在擴(kuò)散模型”,在IEEE/CVF計(jì)算機(jī)視覺和模式識(shí)別會(huì)議論文集中,第10684-10695頁,2022。

[20] M. AI, “Midjourney: 使用AI藝術(shù)生成器從文本到圖像?!?https://www.midjourneyai.ai/en, 2023。

[21] J. Betker, G. Goh, L. Jing, T. Brooks, J. Wang, L. Li, L. Ouyang, J. Zhuang, J. Lee, Y. Guo, 等, “通過更好的標(biāo)題改善圖像生成”,計(jì)算機(jī)科學(xué)。https://cdn.openai.com/papers/dall-e-3.pdf,第2卷,第3頁,2023。

[22] P. AI, “Pika是將您的創(chuàng)意付諸行動(dòng)的從想法到視頻的平臺(tái)?!?https://pika.art/home,2023。

[23] R. AI, “Gen-2: 生成AI的下一步?!?https://research.runwayml.com/gen2,2023。

[24] X. Zhai, A. Kolesnikov, N. Houlsby, 和 L. Beyer, “擴(kuò)展視覺變壓器”,在IEEE/CVF計(jì)算機(jī)視覺和模式識(shí)別會(huì)議論文集中,第12104-12113頁,2022。

[25] M. Dehghani, J. Djolonga, B. Mustafa, P. Padlewski, J. Heek, J. Gilmer, A. P. Steiner, M. Caron, R. Geirhos, I. Alabdulmohsin, 等, “將視覺變壓器擴(kuò)展到220億參數(shù)”,在國際機(jī)器學(xué)習(xí)會(huì)議論文集中,第7480-7512頁,PMLR,2023。

[26] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, 等, “從自然語言監(jiān)督中學(xué)習(xí)可轉(zhuǎn)移的視覺模型”,在國際機(jī)器學(xué)習(xí)會(huì)議論文集中,第8748-8763頁,PMLR,2021。

[27] A. Blattmann, T. Dockhorn, S. Kulal, D. Mendelevitch, M. Kilian, D. Lorenz, Y. Levi, Z. English, V. Voleti, A. Letts, 等, “穩(wěn)定視頻擴(kuò)散:將潛在視頻擴(kuò)散模型擴(kuò)展到大型數(shù)據(jù)集”,arXiv預(yù)印本arXiv:2311.15127,2023。[28] U. Singer, A. Polyak, T. Hayes, X. Yin, J. An, S. Zhang, Q. Hu, H. Yang, O. Ashual, O. Gafni, D. Parikh, S. Gupta, 和 Y. Taigman, “無需文本視頻數(shù)據(jù)的文本到視頻生成”,2022年。

[29] J. Ho, W. Chan, C. Saharia, J. Whang, R. Gao, A. Gritsenko, D. P. Kingma, B. Poole, M. Norouzi, D. J. Fleet 等,“Imagen video: 使用擴(kuò)散模型生成高清視頻”,arXiv預(yù)印本arXiv:2210.02303,2022年。

[30] R. Sutton, “苦澀的教訓(xùn)”。http://www.incompleteideas.net/IncIdeas/BitterLesson.html,2019年3月。訪問日期:您的訪問日期在此。

[31] S. Xie, “關(guān)于sora技術(shù)報(bào)告的看法”。https://twitter.com/sainingxie/status/1758433676105310543,2024年。

[32] A. Van Den Oord, O. Vinyals 等,“神經(jīng)離散表示學(xué)習(xí)”,在神經(jīng)信息處理系統(tǒng)進(jìn)展中,第30卷,2017年。

[33] K. He, X. Chen, S. Xie, Y. Li, P. Dollár, 和 R. Girshick, “掩蔽自編碼器是可擴(kuò)展的視覺學(xué)習(xí)者”,在IEEE/CVF計(jì)算機(jī)視覺與模式識(shí)別會(huì)議論文集中,第16000-16009頁,2022年。

[34] S. Ge, S. Nah, G. Liu, T. Poon, A. Tao, B. Catanzaro, D. Jacobs, J.-B. Huang, M.-Y. Liu, 和 Y. Balaji,“保留你自己的相關(guān)性:視頻擴(kuò)散模型的噪聲先驗(yàn)”,在IEEE/CVF國際計(jì)算機(jī)視覺會(huì)議論文集中,第22930-22941頁,2023年。

[35] A. Sauer, D. Lorenz, A. Blattmann, 和 R. Rombach, “對(duì)抗性擴(kuò)散蒸餾”,arXiv預(yù)印本arXiv:2311.17042,2023年。

[36] A. Blattmann, R. Rombach, H. Ling, T. Dockhorn, S. W. Kim, S. Fidler, 和 K. Kreis, “對(duì)齊你的潛變量:使用潛在擴(kuò)散模型的高分辨率視頻合成”,在IEEE/CVF計(jì)算機(jī)視覺與模式識(shí)別會(huì)議論文集中,第22563-22575頁,2023年。

[37] M. Ryoo, A. Piergiovanni, A. Arnab, M. Dehghani, 和 A. Angelova, “Tokenlearner:視頻的自適應(yīng)時(shí)空標(biāo)記化”,在神經(jīng)信息處理系統(tǒng)進(jìn)展中,第34卷,第12786-12797頁,2021年。

[38] A. Arnab, M. Dehghani, G. Heigold, C. Sun, M. Lu?i?, 和 C. Schmid, “Vivit:一個(gè)視頻視覺變換器”,arXiv預(yù)印本arXiv:2103.15691,2021年。

[39] L. Beyer, P. Izmailov, A. Kolesnikov, M. Caron, S. Kornblith, X. Zhai, M. Minderer, M. Tschannen, I. Alabdulmohsin, 和 F. Pavetic, “Flexivit:適用于所有補(bǔ)丁大小的模型”,在IEEE/CVF計(jì)算機(jī)視覺與模式識(shí)別會(huì)議論文集中,第14496-14506頁,2023年。

[40] M. Dehghani, B. Mustafa, J. Djolonga, J. Heek, M. Minderer, M. Caron, A. Steiner, J. Puigcerver, R. Geirhos, I. M. Alabdulmohsin 等,“Patch n’pack:Navit,一個(gè)適用于任何寬高比和分辨率的視覺變換器”,在神經(jīng)信息處理系統(tǒng)進(jìn)展中,第36卷,2024年。

[41] M. M. Krell, M. Kosec, S. P. Perez, 和 A. Fitzgibbon, “高效序列打包無交叉污染:加速大型語言模型而不影響性能”,arXiv預(yù)印本arXiv:2107.02027,2021年。

[42] H. Yin, A. Vahdat, J. M. Alvarez, A. Mallya, J. Kautz, 和 P. Molchanov, “A-vit:高效視覺變換器的自適應(yīng)標(biāo)記”,在IEEE/CVF計(jì)算機(jī)視覺與模式識(shí)別會(huì)議論文集中,第10809-10818頁,2022年。

[43] D. Bolya, C.-Y. Fu, X. Dai, P. Zhang, C. Feichtenhofer, 和 J. Hoffman, “標(biāo)記合并:你的vit但更快”,在第十一屆國際學(xué)習(xí)表示會(huì)議中,2022年。

[44] M. Fayyaz, S. A. Koohpayegani, F. R. Jafari, S. Sengupta, H. R. V. Joze, E. Sommerlade, H. Pirsia- vash, 和 J. Gall, “自適應(yīng)標(biāo)記采樣用于高效視覺變換器”,在歐洲計(jì)算機(jī)視覺會(huì)議中,第396-414頁,Springer, 2022年。

[45] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, ?. Kaiser, 和 I. Polosukhin, “注意力就是你所需要的”,在神經(jīng)信息處理系統(tǒng)進(jìn)展中,第30卷,2017年。

[46] G. Bertasius, H. Wang, 和 L. Torresani, “時(shí)空注意力就是你所需要的用于視頻理解嗎?”,在ICML中,第2卷,第4頁,2021年。

[47] L. Yu, J. Lezama, N. B. Gundavarapu, L. Versari, K. Sohn, D. Minnen, Y. Cheng, A. Gupta, X. Gu, A. G. Hauptmann 等,“語言模型勝過擴(kuò)散-標(biāo)記器是視覺生成的關(guān)鍵”,arXiv預(yù)印本arXiv:2310.05737,2023年。

[48] N. Shazeer, “快速變換器解碼:你所需要的只有一個(gè)寫頭”,2019年。

[49] J. Ainslie, J. Lee-Thorp, M. de Jong, Y. Zemlyanskiy, F. Lebrón, 和 S. Sanghai, “Gqa:從多頭檢查點(diǎn)訓(xùn)練泛化的多查詢變換器模型”,arXiv預(yù)印本arXiv:2305.13245,2023年。

[50] A. Gu 和 T. Dao, “Mamba:具有選擇性狀態(tài)空間的線性時(shí)間序列建?!保琣rXiv預(yù)印本arXiv:2312.00752,2023年。

[51] J. Sohl-Dickstein, E. A. Weiss, N. Maheswaranathan, 和 S. Ganguli, “使用非平衡熱力學(xué)的深度無監(jiān)督學(xué)習(xí)”,arXiv預(yù)印本arXiv:1503.03585,2015年。

[52] J. Ho, A. Jain, 和 P. Abbeel, “去噪擴(kuò)散概率模型”,在神經(jīng)信息處理系統(tǒng)進(jìn)展中,第33卷,第6840-6851頁,2020年。

[53] Y. Song, J. Sohl-Dickstein, D. P. Kingma, A. Kumar, S. Ermon, 和 B. Poole, “通過隨機(jī)微分方程的得分基生成模型”,arXiv預(yù)印本arXiv:2011.13456,2020年。

[54] F. Bao, S. Nie, K. Xue, Y. Cao, C. Li, H. Su, 和 J. Zhu, “所有都值得一言:用于擴(kuò)散模型的vit骨干”,在IEEE/CVF計(jì)算機(jī)視覺與模式識(shí)別會(huì)議論文集(CVPR)中,2023年。

[55] S. Gao, P. Zhou, M.-M. Cheng, 和 S. Yan, “掩蔽擴(kuò)散變換器是一個(gè)強(qiáng)大的圖像合成器”,arXiv預(yù)印本arXiv:2303.14389,2023年。

[56] A. Hatamizadeh, J. Song, G. Liu, J. Kautz, 和 A. Vahdat, “Diffit:用于圖像生成的擴(kuò)散視覺變換器”,arXiv預(yù)印本arXiv:2312.02139,2023年。

[57] J. Ho 和 T. Salimans, “無分類器擴(kuò)散指導(dǎo)”,arXiv預(yù)印本arXiv:2207.12598,2022年。

[58] T. Salimans 和 J. Ho, “漸進(jìn)式蒸餾用于擴(kuò)散模型的快速采樣”,arXiv預(yù)印本arXiv:2202.00512,2022年。

[59] J. Ho, C. Saharia, W. Chan, D. J. Fleet, M. Norouzi, 和 T. Salimans, “級(jí)聯(lián)擴(kuò)散模型用于高保真圖像生成”,機(jī)器學(xué)習(xí)研究雜志,第23卷,第1期,第2249-2281頁,2022年。[60] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, 和 B. Ommer, “使用潛在擴(kuò)散模型的高分辨率圖像合成”,2021年。

[61] D. Podell, Z. English, K. Lacey, A. Blattmann, T. Dockhorn, J. Müller, J. Penna, 和 R. Rombach, “Sdxl: 改進(jìn)潛在擴(kuò)散模型以合成高分辨率圖像”,arXiv預(yù)印本 arXiv:2307.01952,2023年。

[62] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell 等,“語言模型是少數(shù)樣本學(xué)習(xí)者”,arXiv,2020年。

[63] K. Zhou, J. Yang, C. C. Loy, 和 Z. Liu, “條件提示學(xué)習(xí)用于視覺-語言模型”,在 IEEE/CVF 計(jì)算機(jī)視覺與模式識(shí)別會(huì)議論文集中,第16816-16825頁,2022年。

[64] V. Sanh, A. Webson, C. Raffel, S. H. Bach, L. Sutawika, Z. Alyafeai, A. Chaffin, A. Stiegler, T. L. Scao, A. Raja 等,“多任務(wù)提示訓(xùn)練實(shí)現(xiàn)零樣本任務(wù)泛化”,arXiv預(yù)印本 arXiv:2110.08207,2021年。

[65] J. Wei, M. Bosma, V. Y. Zhao, K. Guu, A. W. Yu, B. Lester, N. Du, A. M. Dai, 和 Q. V. Le,“微調(diào)語言模型是零樣本學(xué)習(xí)者”,arXiv預(yù)印本 arXiv:2109.01652,2021年。

[66] L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray 等,“訓(xùn)練語言模型根據(jù)人類反饋執(zhí)行指令”,在神經(jīng)信息處理系統(tǒng)進(jìn)展中,第35卷,第27730-27744頁,2022年。

[67] C. Jia, Y. Yang, Y. Xia, Y.-T. Chen, Z. Parekh, H. Pham, Q. Le, Y.-H. Sung, Z. Li, 和 T. Duerig,“通過噪聲文本監(jiān)督擴(kuò)大視覺和視覺-語言表示學(xué)習(xí)”,在國際機(jī)器學(xué)習(xí)會(huì)議論文集中,第4904-4916頁,PMLR,2021年。

[68] J. Yu, Z. Wang, V. Vasudevan, L. Yeung, M. Seyedhosseini, 和 Y. Wu, “Coca: 對(duì)比性標(biāo)題生成器是圖像-文本基礎(chǔ)模型”,arXiv預(yù)印本 arXiv:2205.01917,2022年。

[69] S. Yan, T. Zhu, Z. Wang, Y. Cao, M. Zhang, S. Ghosh, Y. Wu, 和 J. Yu, “視頻-文本建模與對(duì)比性標(biāo)題生成器的零樣本遷移”,arXiv預(yù)印本 arXiv:2212.04979,2022年。

[70] H. Xu, Q. Ye, M. Yan, Y. Shi, J. Ye, Y. Xu, C. Li, B. Bi, Q. Qian, W. Wang 等,“mplug-2: 一個(gè)跨文本、圖像和視頻的模塊化多模態(tài)基礎(chǔ)模型”,arXiv預(yù)印本 arXiv:2302.00402,2023年。

[71] J. Wang, Z. Yang, X. Hu, L. Li, K. Lin, Z. Gan, Z. Liu, C. Liu, 和 L. Wang, “Git: 一個(gè)用于視覺和語言的生成圖像到文本變換器”,arXiv預(yù)印本 arXiv:2205.14100,2022年。

[72] A. Yang, A. Miech, J. Sivic, I. Laptev, 和 C. Schmid, “通過凍結(jié)的雙向語言模型進(jìn)行零樣本視頻問答”,在神經(jīng)信息處理系統(tǒng)進(jìn)展中,第35卷,第124-141頁,2022年。

[73] Y. Li, “零樣本提示設(shè)計(jì)的實(shí)用調(diào)查,用于上下文學(xué)習(xí)”,在自然語言處理的大型語言模型會(huì)議最近進(jìn)展論文集中,RANLP, INCOMA Ltd., Shoumen, 保加利亞,2023年。

[74] B. Chen, Z. Zhang, N. Langrené, 和 S. Zhu, “釋放大型語言模型中提示工程的潛力:一項(xiàng)全面回顧”,arXiv預(yù)印本 arXiv:2310.14735,2023年。

[75] S. Pitis, M. R. Zhang, A. Wang, 和 J. Ba, “大型語言模型的提升提示集合”,2023年。

[76] Y. Hao, Z. Chi, L. Dong, 和 F. Wei, “優(yōu)化文本到圖像生成的提示”,2023年。

[77] S. Huang, B. Gong, Y. Pan, J. Jiang, Y. Lv, Y. Li, 和 D. Wang, “Vop: 文本-視頻合作提示調(diào)整用于跨模態(tài)檢索”,2023年。

[78] J. Z. Wu, Y. Ge, X. Wang, W. Lei, Y. Gu, Y. Shi, W. Hsu, Y. Shan, X. Qie, 和 M. Z. Shou, “Tune-a-video: 一次性調(diào)整圖像擴(kuò)散模型用于文本到視頻生成”,2023年。

[79] T. Lüddecke 和 A. Ecker, “使用文本和圖像提示的圖像分割”,在 IEEE/CVF 計(jì)算機(jī)視覺與模式識(shí)別會(huì)議論文集中,第7086-7096頁,2022年6月。

[80] X. Chen, Y. Wang, L. Zhang, S. Zhuang, X. Ma, J. Yu, Y. Wang, D. Lin, Y. Qiao, 和 Z. Liu, “Seine: 用于生成過渡和預(yù)測的短到長視頻擴(kuò)散模型”,2023年。

[81] H. Chen, Y. Zhang, X. Cun, M. Xia, X. Wang, C. Weng, 和 Y. Shan, “Videocrafter2: 克服數(shù)據(jù)限制以實(shí)現(xiàn)高質(zhì)量視頻擴(kuò)散模型”,2024年。

[82] T.-C. Wang, M.-Y. Liu, J.-Y. Zhu, G. Liu, A. Tao, J. Kautz, 和 B. Catanzaro, “視頻到視頻合成”,2018年。

[83] T.-C. Wang, M.-Y. Liu, A. Tao, G. Liu, J. Kautz, 和 B. Catanzaro, “少樣本視頻到視頻合成”,2019年。

[84] D. J. Zhang, D. Li, H. Le, M. Z. Shou, C. Xiong, 和 D. Sahoo, “Moonshot: 朝向可控視頻生成和編輯的多模態(tài)條件”,2024年。

[85] L. Zhuo, G. Wang, S. Li, W. Wu, 和 Z. Liu, “Fast-vid2vid: 用于視頻到視頻合成的空間-時(shí)間壓縮”,2022年。

[86] P. Liu, W. Yuan, J. Fu, Z. Jiang, H. Hayashi, 和 G. Neubig, “預(yù)訓(xùn)練、提示和預(yù)測:自然語言處理中提示方法的系統(tǒng)調(diào)查”,2021年。

[87] B. Lester, R. Al-Rfou, 和 N. Constant, “規(guī)模的力量對(duì)于參數(shù)高效的提示調(diào)整”,在2021年自然語言處理實(shí)證方法會(huì)議論文集中,第3045-3059頁,2021年。

[88] M. Jia, L. Tang, B.-C. Chen, C. Cardie, S. Belongie, B. Hariharan, 和 S.-N. Lim, “視覺提示調(diào)整”,在歐洲計(jì)算機(jī)視覺會(huì)議論文集中,第709-727頁,Springer,2022年。

[89] OpenAI, “介紹chatgpt”,2023年。

[90] OpenAI, “Gpt-4v(視覺)系統(tǒng)卡片”,2023年。

[91] Y. Huang 和 L. Sun, “在假新聞中利用chatgpt的力量:生成、檢測和解釋的深入探索”,2023年。

[92] C. Chen 和 K. Shu, “可以檢測到由LLM生成的錯(cuò)誤信息嗎?”,2023年。

[93] Z. Liu, Y. Huang, X. Yu, L. Zhang, Z. Wu, C. Cao, H. Dai, L. Zhao, Y. Li, P. Shu, F. Zeng, L. Sun, W. Liu, D. Shen, Q. Li, T. Liu, D. Zhu, 和 X. Li, “Deid-gpt: 通過gpt-4進(jìn)行零樣本醫(yī)學(xué)文本去識(shí)別”,2023年。[94] J. Yao, X. Yi, X. Wang, Y. Gong, 和 X. Xie, “價(jià)值支點(diǎn):將大型語言模型映射到基本人類價(jià)值的多維譜系中”,2023。

[95] Y. Huang, Q. Zhang, P. S. Y, 和 L. Sun, “Trustgpt:一個(gè)可信賴和負(fù)責(zé)任的大型語言模型基準(zhǔn)”,2023。

[96] L. Sun, Y. Huang, H. Wang, S. Wu, Q. Zhang, C. Gao, Y. Huang, W. Lyu, Y. Zhang, X. Li, Z. Liu, Y. Liu, Y. Wang, Z. Zhang, B. Kailkhura, C. Xiong, C. Xiao, C. Li, E. Xing, F. Huang, H. Liu, H. Ji, H. Wang, H. Zhang, H. Yao, M. Kellis, M. Zitnik, M. Jiang, M. Bansal, J. Zou, J. Pei, J. Liu, J. Gao, J. Han, J. Zhao, J. Tang, J. Wang, J. Mitchell, K. Shu, K. Xu, K.-W. Chang, L. He, L. Huang, M. Backes, N. Z. Gong, P. S. Yu, P.-Y. Chen, Q. Gu, R. Xu, R. Ying, S. Ji, S. Jana, T. Chen, T. Liu, T. Zhou, W. Wang, X. Li, X. Zhang, X. Wang, X. Xie, X. Chen, X. Wang, Y. Liu, Y. Ye, Y. Cao, Y. Chen, 和 Y. Zhao, “Trustllm:大型語言模型中的可信度”,2024。

[97] M. Mazeika, L. Phan, X. Yin, A. Zou, Z. Wang, N. Mu, E. Sakhaee, N. Li, S. Basart, B. Li, D. Forsyth, 和 D. Hendrycks, “Harmbench:一個(gè)用于自動(dòng)化紅隊(duì)操作和強(qiáng)健拒絕的標(biāo)準(zhǔn)化評(píng)估框架”,2024。

[98] Y. Wang, H. Li, X. Han, P. Nakov, 和 T. Baldwin, “不回答:一個(gè)用于評(píng)估LLMs中安全防護(hù)的數(shù)據(jù)集”,2023。

[99] B. Wang, W. Chen, H. Pei, C. Xie, M. Kang, C. Zhang, C. Xu, Z. Xiong, R. Dutta, R. Schaeffer, 等,“Decodingtrust:GPT模型中信任度的全面評(píng)估”,arXiv預(yù)印本arXiv:2306.11698,2023。

[100] Z. Zhang, L. Lei, L. Wu, R. Sun, Y. Huang, C. Long, X. Liu, X. Lei, J. Tang, 和 M. Huang, “Safetybench:使用多項(xiàng)選擇題評(píng)估大型語言模型的安全性”,2023。

[101] X. Shen, Z. Chen, M. Backes, Y. Shen, 和 Y. Zhang, “現(xiàn)在就做任何事:在大型語言模型上表征和評(píng)估野外越獄提示”,arXiv預(yù)印本arXiv:2308.03825,2023。

[102] X. Liu, N. Xu, M. Chen, 和 C. Xiao, “Autodan:在對(duì)齊的大型語言模型上生成隱蔽的越獄提示”,arXiv預(yù)印本arXiv:2310.04451,2023。

[103] S. Zhu, R. Zhang, B. An, G. Wu, J. Barrow, Z. Wang, F. Huang, A. Nenkova, 和 T. Sun, “Autodan:對(duì)大型語言模型的可解釋梯度基對(duì)抗攻擊”,2023。

[104] A. Zhou, B. Li, 和 H. Wang, “針對(duì)越獄攻擊保護(hù)語言模型的強(qiáng)健提示優(yōu)化”,arXiv預(yù)印本arXiv:2401.17263,2024。

[105] X. Guo, F. Yu, H. Zhang, L. Qin, 和 B. Hu, “Cold-attack:用隱蔽性和可控性越獄LLMs”,2024。

[106] A. Wei, N. Haghtalab, 和 J. Steinhardt, “越獄了:LLM安全訓(xùn)練如何失???”,arXiv預(yù)印本arXiv:2307.02483,2023。

[107] Z. Niu, H. Ren, X. Gao, G. Hua, 和 R. Jin, “針對(duì)多模態(tài)大型語言模型的越獄攻擊”,2024。

[108] H. Liu, W. Xue, Y. Chen, D. Chen, X. Zhao, K. Wang, L. Hou, R. Li, 和 W. Peng, “關(guān)于大型視覺-語言模型中的幻覺的調(diào)查”,2024。

[109] T. Guan, F. Liu, X. Wu, R. Xian, Z. Li, X. Liu, X. Wang, L. Chen, F. Huang, Y. Yacoob, D. Manocha, 和 T. Zhou, “Hallusionbench:一個(gè)用于大型視覺-語言模型中糾纏的語言幻覺和視覺錯(cuò)覺的高級(jí)診斷套件”,2023。

[110] Y. Li, Y. Du, K. Zhou, J. Wang, W. X. Zhao, 和 J.-R. Wen, “評(píng)估大型視覺-語言模型中的對(duì)象幻覺”,2023。

[111] Y. Huang, J. Shi, Y. Li, C. Fan, S. Wu, Q. Zhang, Y. Liu, P. Zhou, Y. Wan, N. Z. Gong, 等,“大型語言模型的Metatool基準(zhǔn):決定是否使用工具以及使用哪種工具”,arXiv預(yù)印本arXiv:2310.03128,2023。

[112] F. Liu, K. Lin, L. Li, J. Wang, Y. Yacoob, 和 L. Wang, “通過強(qiáng)健指令調(diào)整減輕大型多模態(tài)模型中的幻覺”,2023。

[113] L. Wang, J. He, S. Li, N. Liu, 和 E.-P. Lim, “通過用標(biāo)題重寫微調(diào)大型視覺-語言模型來減輕細(xì)粒度幻覺”,在國際多媒體建模會(huì)議上,第32-45頁,Springer,2024。

[114] Y. Zhou, C. Cui, J. Yoon, L. Zhang, Z. Deng, C. Finn, M. Bansal, 和 H. Yao, “分析和減輕大型視覺-語言模型中的對(duì)象幻覺”,arXiv預(yù)印本arXiv:2310.00754,2023。

[115] I. O. Gallegos, R. A. Ros...

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小波特關(guān)注庫里,預(yù)計(jì)交易即將完成,勇士迎來最大補(bǔ)強(qiáng)!

小波特關(guān)注庫里,預(yù)計(jì)交易即將完成,勇士迎來最大補(bǔ)強(qiáng)!

愛體育
2026-01-12 22:43:54
漲幅達(dá)300%!內(nèi)存條價(jià)格大漲,記者實(shí)地探訪

漲幅達(dá)300%!內(nèi)存條價(jià)格大漲,記者實(shí)地探訪

上觀新聞
2026-01-12 06:41:08
專題片揭露徐憲平隱蔽利益鏈:收受商人原始股,十多年后退居二線才變現(xiàn)

專題片揭露徐憲平隱蔽利益鏈:收受商人原始股,十多年后退居二線才變現(xiàn)

澎湃新聞
2026-01-12 21:38:27
要交易?首鋼連敗,2人被點(diǎn)名,名帥怒批,誰注意周琦表態(tài)

要交易?首鋼連敗,2人被點(diǎn)名,名帥怒批,誰注意周琦表態(tài)

樂聊球
2026-01-12 10:35:14
A股徹底癲了!17連陽又見證歷史!

A股徹底癲了!17連陽又見證歷史!

老A情報(bào)圈
2026-01-13 00:12:40
仁濟(jì)醫(yī)院:低調(diào)背后的頂級(jí)醫(yī)療硬實(shí)力

仁濟(jì)醫(yī)院:低調(diào)背后的頂級(jí)醫(yī)療硬實(shí)力

周哥一影視
2026-01-12 06:40:15
隨著火箭三連敗掉進(jìn)附加賽,太陽上升到第6,西部排名又變了

隨著火箭三連敗掉進(jìn)附加賽,太陽上升到第6,西部排名又變了

消費(fèi)俠
2026-01-13 04:55:10
韓國某中學(xué)把“中華人民共和國”當(dāng)作班級(jí)目標(biāo)引爭議

韓國某中學(xué)把“中華人民共和國”當(dāng)作班級(jí)目標(biāo)引爭議

隨波蕩漾的漂流瓶
2026-01-10 17:50:06
哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

顧史
2025-12-12 14:59:24
沈騰帶妻子出席慈善晚會(huì),王琦瘦出瓜子臉,膚白顯嫩就是有點(diǎn)禿

沈騰帶妻子出席慈善晚會(huì),王琦瘦出瓜子臉,膚白顯嫩就是有點(diǎn)禿

小咪侃娛圈
2026-01-12 09:20:19
第15天:伊朗傷亡人數(shù)飆升,川普又開空頭支票

第15天:伊朗傷亡人數(shù)飆升,川普又開空頭支票

近距離
2026-01-12 10:59:39
老了才明白:盡量不要跟身邊任何人!包括你的親人,分享這5件事

老了才明白:盡量不要跟身邊任何人!包括你的親人,分享這5件事

小鬼頭體育
2026-01-13 05:42:26
專為U字號(hào)亞洲杯而生,門神李昊證明馬競的球探很優(yōu)秀

專為U字號(hào)亞洲杯而生,門神李昊證明馬競的球探很優(yōu)秀

米奇兔
2026-01-12 11:53:08
連爆大冷2-6!塞爾比+墨菲一輪游,五虎淘汰三虎,4強(qiáng)中國鎖定1席

連爆大冷2-6!塞爾比+墨菲一輪游,五虎淘汰三虎,4強(qiáng)中國鎖定1席

球場沒跑道
2026-01-12 06:51:15
阿里納斯:沒有三球誰關(guān)注黃蜂?喬丹賣隊(duì)的時(shí)候NBA就該解散他們

阿里納斯:沒有三球誰關(guān)注黃蜂?喬丹賣隊(duì)的時(shí)候NBA就該解散他們

懂球帝
2026-01-12 09:05:21
遺骸沖上海灘,澳大利亞警方初步確認(rèn):32歲華人男子浮潛抓龍蝦遇難

遺骸沖上海灘,澳大利亞警方初步確認(rèn):32歲華人男子浮潛抓龍蝦遇難

紅星新聞
2026-01-12 16:22:12
合川千人刨豬湯后續(xù):母親獨(dú)自打掃,本人哭求幫忙,粉絲擅自亂闖

合川千人刨豬湯后續(xù):母親獨(dú)自打掃,本人哭求幫忙,粉絲擅自亂闖

丁丁鯉史紀(jì)
2026-01-12 15:59:20
徐達(dá)常遇春他們都是農(nóng)民,為何起義后卻成了軍事天才?原因很現(xiàn)實(shí)

徐達(dá)常遇春他們都是農(nóng)民,為何起義后卻成了軍事天才?原因很現(xiàn)實(shí)

銘記歷史呀
2026-01-10 13:09:37
1月13日起,“i茅臺(tái)”開搶陳年茅臺(tái)酒(15)

1月13日起,“i茅臺(tái)”開搶陳年茅臺(tái)酒(15)

每日經(jīng)濟(jì)新聞
2026-01-12 20:17:05
亮燈之下:西安砂舞的虛名與現(xiàn)實(shí)。2026年1月8日晚上家中隨筆。

亮燈之下:西安砂舞的虛名與現(xiàn)實(shí)。2026年1月8日晚上家中隨筆。

成都人的故事
2026-01-12 11:40:07
2026-01-13 07:04:49
Web3天空之城 incentive-icons
Web3天空之城
美好,有趣的,值得銘記的
101文章數(shù) 86關(guān)注度
往期回顧 全部

科技要聞

面對(duì)SpaceX瘋狂“下餃子” 中國正面接招

頭條要聞

"搖人殺豬"女孩一天漲粉150萬:我捅了大婁子

頭條要聞

"搖人殺豬"女孩一天漲粉150萬:我捅了大婁子

體育要聞

一場安東尼奧式勝利,給中國足球帶來驚喜

娛樂要聞

蔡少芬結(jié)婚18周年,與張晉過二人世界

財(cái)經(jīng)要聞

倍輕松信披迷霧 實(shí)控人占用資金金額存疑

汽車要聞

增配不加價(jià) 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

數(shù)碼
本地
房產(chǎn)
公開課
軍事航空

數(shù)碼要聞

2026年中國電視將險(xiǎn)守3000萬臺(tái)大關(guān) 創(chuàng)17年新低

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

房產(chǎn)要聞

重磅調(diào)規(guī)!417畝商改住+教育地塊!??谖骱0队忠l(fā)!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

官方確認(rèn):殲10CE在空戰(zhàn)中擊落多架戰(zhàn)機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版