網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

曾文軍：生成式人工智能是新型生產(chǎn)力

2024-06-28 20:11:50　來(lái)源: 新浪新消費(fèi)

北京舉報(bào)

分享至

6月23日，由中國(guó)人工智能學(xué)會(huì)主辦，CAAI智能傳媒專業(yè)委員會(huì)、中國(guó)傳媒大學(xué)數(shù)據(jù)科學(xué)與智能媒體學(xué)院、媒體融合與傳播國(guó)家重點(diǎn)實(shí)驗(yàn)室、新浪新聞承辦的主題為“變量激蕩增量涌現(xiàn)”2024全球人工智能技術(shù)大會(huì) 智能傳媒專題活動(dòng)在杭州拉開(kāi)帷幕。加拿大工程院外籍院士、寧波東方理工大學(xué)（暫名）科研副校長(zhǎng)、講席教授、lEEE Fellow曾文軍分享了題為《可解釋可控制AI內(nèi)容生成》的演講。

以下是曾文軍演講實(shí)錄，內(nèi)容經(jīng)編輯略有刪減：

感謝組委會(huì)的邀請(qǐng)，今天很高興有這個(gè)機(jī)會(huì)，在這里基于我的團(tuán)隊(duì)前幾年的一些工作，給大家分享一下我們對(duì)可解釋、可控制的AI內(nèi)容生成的一些認(rèn)知和理解。

大家知道，人工智能自從1956年概念提出來(lái)之后，其發(fā)展是幾起幾落的。最近這十幾年的發(fā)展，特別是近幾年生成式大模型的發(fā)展，使我們看到了通用人工智能的一些希望。

生成式人工智能是通過(guò)機(jī)器學(xué)習(xí)，從數(shù)據(jù)中學(xué)習(xí)它的特征，進(jìn)而生成全新的、原創(chuàng)的數(shù)據(jù)。從著名的Gartner技術(shù)成熟度曲線上可以看到，它最近處在非常高速發(fā)展的階段。

生成式人工智能可以生成各種模態(tài)的內(nèi)容：語(yǔ)言、語(yǔ)音、圖像、代碼等等。我們可以進(jìn)行內(nèi)容開(kāi)發(fā)、內(nèi)容生成和傳媒方面的應(yīng)用，也可以為我們的科學(xué)研究提供一些知識(shí)的參考。

Open AI的ChatGPT大家都非常熟了，它可以回答問(wèn)題，生成文本、翻譯等，也是Open AI希望達(dá)到實(shí)現(xiàn)通用人工智能目標(biāo)的一個(gè)重要步驟。

目前一些人工智能大模型，在很多任務(wù)上已經(jīng)可以通過(guò)圖靈測(cè)試了，也就是它的能力是非常強(qiáng)的。其在很多方面引起了變革，微軟對(duì)Open AI很早就開(kāi)始有投入，所以現(xiàn)在整個(gè)產(chǎn)品線都圍繞著它在發(fā)展。比如對(duì)于搜索可能是最大的一個(gè)沖擊，所以百度、谷歌壓力也非常大。微軟從去年、前年開(kāi)始，就已經(jīng)把Open AI的大模型和搜索引擎深度結(jié)合了，所以有了現(xiàn)在的New Bing。當(dāng)時(shí)發(fā)布的時(shí)候引起了一些大的反響，股票一夜暴漲了800億美元，在市場(chǎng)份額中提升了一兩個(gè)百分點(diǎn)。

微軟在全盤擁抱大模型，把Open AI的GPT系列和它的辦公室軟件深度融合，所有的產(chǎn)品線，包括研究，都在圍繞著大模型在開(kāi)展。所以可以看到有些它的產(chǎn)品，像PPT能力等能夠得到很大的提升。

在編程方面，因?yàn)槲④浻蠫itHub，擁有很多數(shù)據(jù)，這方面有大模型的加持，可以比較快地編程，可以減輕一些代價(jià)的代碼。

在科學(xué)研究方面，我們有一些領(lǐng)域的大模型，包括在醫(yī)療方面、生物醫(yī)學(xué)方面、化學(xué)方面，對(duì)研究的發(fā)展也起到了很大的作用。

在創(chuàng)造力方面，在內(nèi)容生成方面，都有它的創(chuàng)新性。

在數(shù)字人方面，我們團(tuán)隊(duì)最近也有一些工作，比如在視頻里面如何生成人人交互，就是有一個(gè)主動(dòng)人做一個(gè)動(dòng)作，另外一個(gè)人反應(yīng)的動(dòng)作序列是怎么樣的，可以通過(guò)生成式人工智能的方式，對(duì)數(shù)字人的制作也可能有一定的作用。

我們因此也發(fā)布了目前最大規(guī)模的人人交互3D動(dòng)作數(shù)據(jù)集，可以用來(lái)做motion to text，還有reaction motion generation，就是反應(yīng)式動(dòng)作生成等。

但是去年比爾·蓋茨說(shuō)了，生成式AI已成過(guò)去，已經(jīng)達(dá)到峰頂了，未來(lái)應(yīng)該是可解釋AI的天下。所以他認(rèn)為，我們?cè)谕ㄍㄓ萌斯ぶ悄芊矫孢€有很多工作需要做。

什么叫可解釋人工智能？它指的是AI的行為可以被人類理解，它與深度學(xué)習(xí)中的“黑匣子”概念形成一個(gè)鮮明對(duì)比，“黑匣子”完全是數(shù)據(jù)驅(qū)動(dòng)的，所以有時(shí)候我們不知道里頭發(fā)生了什么事情。我們希望可解釋AI至少對(duì)模型的運(yùn)行機(jī)理能夠有比較好的解釋。

這方面的工作可以分成三大類，一類是在建模前我們對(duì)數(shù)據(jù)做一些可解釋的分析，通過(guò)可視化數(shù)據(jù)，對(duì)數(shù)據(jù)有一定的理解。還有一類是構(gòu)建可解釋性的模型，也就是模型本身希望它有一定的解釋性，我們知道它是如何工作的，我們得到的一些結(jié)果也知道它是如何產(chǎn)生的。還有一種，也有一些前期工作，就是模型先建，然后對(duì)模型進(jìn)行可解釋性分析，去理解這個(gè)模型怎么做的。這個(gè)應(yīng)該控制性稍微小一點(diǎn)，模型本身可能有可解釋性，可能也沒(méi)有，我們只是對(duì)它做一個(gè)事后分析。

從最近這幾年關(guān)于可解釋性AI文章數(shù)量也可以看出，它越來(lái)越受到大家的關(guān)注，當(dāng)然大家用詞可能不一樣，但其實(shí)都是這個(gè)意思，希望我們對(duì)于模型或者是數(shù)據(jù)或者是功能方面有一定的解釋性。

生成式AI還是面臨一些挑戰(zhàn)的，它有一定的問(wèn)題，比如在谷歌Bard發(fā)布的時(shí)候，產(chǎn)生了一些用詞是不真實(shí)的，不符合事實(shí)的，它的代價(jià)也很大，所以兩天市值蒸發(fā)了1500億美元，大家對(duì)大模型本身的能力有一定的質(zhì)疑，對(duì)于它的應(yīng)用有一定的質(zhì)疑。

同樣，ChatGPT也有幻覺(jué)的問(wèn)題，比如它曾經(jīng)發(fā)布一個(gè)丑聞，里面指認(rèn)了實(shí)際的一個(gè)人作為一個(gè)被告，還引用了一些虛構(gòu)的文章。這種現(xiàn)象，大家不理解它為什么會(huì)產(chǎn)生這種文章，也許因?yàn)樗褪腔诟怕实?。所以這方面讓大家產(chǎn)生很多困惑，就是我們?cè)趺磳?duì)待大模型產(chǎn)生的一些內(nèi)容。我們對(duì)它的機(jī)理，如何產(chǎn)生這些內(nèi)容沒(méi)有更好的理解。

大語(yǔ)言模型能力非常強(qiáng)，它與我們大腦運(yùn)作在很高層次上是比較接近的，比如人腦是與環(huán)境交互進(jìn)行強(qiáng)化學(xué)習(xí)，大模型也用了人類反饋的強(qiáng)化學(xué)習(xí)的機(jī)制。我們?nèi)四X有法律和道德的約束，在大模型上我們?cè)噲D去增加一些警示，增加一些規(guī)章制度，避免它產(chǎn)生一些不太合適的內(nèi)容。但是大模型確確實(shí)實(shí)太大了，所以它里面的參數(shù)含義也很難理解，完全控制它的輸出幾乎是不太可能的，有時(shí)候我們不理解它為什么產(chǎn)生這些內(nèi)容。

在文生視頻方面Open AI 的Sora的能力非常強(qiáng)了，它的真實(shí)感非常強(qiáng)，對(duì)我們的提示詞的表達(dá)也比較逼真，它有比較強(qiáng)大的能力，但同樣這種大模型也存在內(nèi)容生成方面不太可理解的問(wèn)題。

Sora技術(shù)背景是利用了Transformer能力，再加上和擴(kuò)散模型的結(jié)合，能夠產(chǎn)生一個(gè)高質(zhì)量的逼真視頻。Sora也存在反事實(shí)生成等一些問(wèn)題。比如這個(gè)杯子倒了，但是它表現(xiàn)出來(lái)的跟自然規(guī)律不太一樣，也就是它不太理解這個(gè)杯子的水倒了的物理原理是什么。同樣，在跑步機(jī)上跑步，看起來(lái)也不太符合邏輯，背著跑步機(jī)在跑。也就是說(shuō)，它能夠產(chǎn)生一定的內(nèi)容，但是對(duì)一些后面的物理原理、機(jī)理的東西還不太理解。包括吹蠟燭，吹了以后這個(gè)火焰也沒(méi)有反應(yīng)等等，還是缺少對(duì)我們物理原理的認(rèn)知。

所以生成式AI面臨著安全方面的挑戰(zhàn)，有幾方面：一個(gè)是數(shù)據(jù)安全，數(shù)據(jù)的隱私、數(shù)據(jù)的質(zhì)量本身也是一個(gè)問(wèn)題，里面的數(shù)據(jù)可能還有一些偏見(jiàn)；二是模型方面，模型的可解釋性是非常有限的，模型本身也會(huì)受到一些攻擊，也可能帶有一些數(shù)據(jù)的偏見(jiàn)；三是內(nèi)容生成方面，可以看到虛假的信息，不真實(shí)的信息，準(zhǔn)確性問(wèn)題等等。

Open AI的CEO自己也說(shuō)了，在這個(gè)階段，不能夠依賴ChatGPT去做任何重要的事情。也就是說(shuō)它不太可靠，你讓它去做一些醫(yī)療、工業(yè)生產(chǎn)等后果嚴(yán)重的事，還要比較小心，因?yàn)榭山忉屝苑矫孢€是有一定的局限性。

因?yàn)榍捌诩夹g(shù)發(fā)展，大家比較重視它的性能、質(zhì)量，忽視了對(duì)它的可解釋性，這方面工作相對(duì)來(lái)說(shuō)少一點(diǎn)。最近學(xué)術(shù)上有一些工作，國(guó)家層面上也有這方面的一些投入，比如美國(guó)就有一個(gè)NSF/NDIF項(xiàng)目，就是希望對(duì)大模型本身各個(gè)部件的機(jī)理有一個(gè)更好地理解，每個(gè)部件到底是做什么事情，通過(guò)探究型的形式，對(duì)各個(gè)不同的部件進(jìn)行放大、理解。

這也說(shuō)明我們存在一個(gè)問(wèn)題，這是一個(gè)挑戰(zhàn)，也是一個(gè)機(jī)會(huì)，從學(xué)術(shù)角度來(lái)講，我們?cè)趺慈ソ鉀Q這些問(wèn)題？有不同的方法，我今天在這里關(guān)注的是我們認(rèn)為比較有前途、有意義的方向，叫表征解耦，這個(gè)概念是Bengio 2013年提出來(lái)的，他說(shuō)如果想讓AI能根本性地理解我們的世界，必須將隱藏在數(shù)據(jù)背后的可解釋的factor解耦出來(lái)。什么意思呢？

這是些圖像，這些圖像后面可解釋的因素是什么？是它的物體的形狀、顏色、大小，包括相機(jī)的角度等等，這是產(chǎn)生這個(gè)圖像的基本概念或者是我們對(duì)這個(gè)圖像的一個(gè)理解。

這些是在數(shù)據(jù)背后的可解釋因素，如果我們做到對(duì)這些因素的表征解耦，我們?cè)谏傻臅r(shí)候，可以通過(guò)獨(dú)立地調(diào)整這個(gè)參數(shù)生成一系列圖像，只有對(duì)應(yīng)的屬性是在變化的，其他屬性不變。這就是我們對(duì)它有比較深的理解了，知道它是如何生成這些圖像的。

同樣，我們也希望給我這個(gè)圖像，能夠設(shè)計(jì)出AI模型，能夠提取出比較獨(dú)立的、比較可解釋的因素。如果我們能夠做到這點(diǎn)，我們對(duì)圖像的理解以及它的生成就有比較好的可解釋性，我們知道它是如何生成的，跟物理世界的契合度就比較高。

Bengio提出這么一個(gè)概念，但是他并沒(méi)有提出解決方案。這個(gè)概念是非常重要的，它對(duì)可解釋性，對(duì)后面做一些推理，對(duì)一些概念的學(xué)習(xí)，都有非?；A(chǔ)性的意義。

從應(yīng)用的角度，我們今天在談內(nèi)容生成，實(shí)際上它對(duì)圖像的生成、對(duì)圖像的編輯，只改變某個(gè)屬性，而不改變其他屬性，都有很大的意義。你如果能夠理解透了以后，就不需要那么多數(shù)據(jù)對(duì)新的場(chǎng)景做重復(fù)訓(xùn)練，因?yàn)樗竺娴谋举|(zhì)是一樣的。我個(gè)人認(rèn)為比較重要的是泛化性的應(yīng)用，因?yàn)槲覀儸F(xiàn)在面臨工業(yè)應(yīng)用領(lǐng)域很大的問(wèn)題是泛化性。換了一個(gè)場(chǎng)景后，一個(gè)模型性能可能會(huì)下降很多，就是因?yàn)槟銓?duì)它的理解并不是很透，它完全是數(shù)據(jù)堆積起來(lái)的，如果它按照表征解耦的方式去理解這個(gè)物體，你換了一個(gè)環(huán)境，它可以清楚哪些是不變的因素，哪些是變的因素，它只要針對(duì)那些變的因素就行了，不變的因素它已經(jīng)學(xué)得很好了，模型可以很快適應(yīng)。所以，有了這個(gè)表征解耦之后，對(duì)于我們傳媒領(lǐng)域應(yīng)該有比較大的幫助。

這是2021年ICLR文章的統(tǒng)計(jì)，表征解耦已經(jīng)是比較受關(guān)注的一個(gè)課題。下面舉一些例子，什么叫表征解耦？我們?cè)趺醋?？從解決方案角度來(lái)講。

這是比較早期的一個(gè)解決方案，它是利用VAE網(wǎng)絡(luò)結(jié)構(gòu)，你有一個(gè)encoder，有一個(gè)decoder，它有一些不確定性，通過(guò)概率分布參數(shù)的表達(dá)，它的均值、方差，通過(guò)采樣去做生成。這里面Loss方程有兩項(xiàng)，第一項(xiàng)就是圖像重建的質(zhì)量，你這個(gè)圖像分解了以后再重建應(yīng)該盡量接近。所以第一項(xiàng)表示輸入和輸出要一樣；第二項(xiàng)，在傳統(tǒng)的VAE里，β是等于1，它實(shí)際是描述兩個(gè)分布的差異，也就是說(shuō)這個(gè)表征空間的表達(dá)Z，它的分布，我們覺(jué)得應(yīng)該不錯(cuò)的是獨(dú)立的聯(lián)合高斯分布。所以希望在系統(tǒng)里面，分布跟獨(dú)立的聯(lián)合高斯分布是接近的，通過(guò)這種方式去約束它。但傳統(tǒng)的VAE的方法，第一，它重視質(zhì)量，它能重建得好；第二，它希望Z表征空間的分布有一定特性。但是我們現(xiàn)在關(guān)注的是表征解耦，我們就要更重視第二項(xiàng)，也就是它的元素是要獨(dú)立的，因?yàn)檫@是一個(gè)必要條件。如果你想獨(dú)立控制它，我們希望這些元素都是相互獨(dú)立的。所以我就把β值加大，讓它更注重、更關(guān)注這個(gè)，這樣就能夠保證表征空間上的元素獨(dú)立性更強(qiáng)一點(diǎn)，所以這是一個(gè)基本思想。

但是也有工作提出，這個(gè)獨(dú)立性只是一個(gè)必要條件，不是充分條件，實(shí)際上有很多可能的解是可以滿足它是獨(dú)立，但是它并不是解耦的。所以它指出來(lái)這個(gè)問(wèn)題，就是你這么做是一個(gè)好的方向，但是簡(jiǎn)單這么做是不夠的，不能完全解決這個(gè)問(wèn)題。

實(shí)際上更大的一個(gè)問(wèn)題，表征解耦從概念上大家都可以理解，但是從數(shù)學(xué)定義上，什么叫表征解耦？這個(gè)問(wèn)題Bengio沒(méi)有把它解決掉，只是提出一個(gè)概念問(wèn)題。所以后來(lái)在這方面比較重要的一個(gè)工作，他用數(shù)學(xué)的方法來(lái)表達(dá)什么叫表征解耦，從這個(gè)角度來(lái)定義滿足什么樣的條件叫做表征解耦。一般來(lái)說(shuō)給定一個(gè)圖像，你對(duì)圖像有一個(gè)描述，圖像通過(guò)編碼映射到表征空間Z，所以我們希望這個(gè)表征空間Z是可解耦的。這個(gè)基于群論的定義大概的意思是說(shuō)，我們可以用群的方式表達(dá)對(duì)圖像的操作，它可以分成幾個(gè)子空間Gi。如果這個(gè)從W到 Z的映射f滿足一定條件，即同樣的行為G，比如改變顏色，我可以在W和Z上做，在哪里做沒(méi)有關(guān)系，最后是一回事。滿足了這個(gè)條件，如果Z空間也可以分解成幾個(gè)子空間Zi，而且每個(gè)Zi只受到前面那個(gè)相應(yīng)群Gi的影響，有一個(gè)對(duì)應(yīng)的關(guān)系。如果能夠滿足這些條件，這個(gè)Z的表達(dá)就是解耦的，所以從數(shù)學(xué)的角度定義了什么叫表征解耦。

這個(gè)定義非常好，讓我們從理論的角度有一個(gè)比較清晰的定義。但是這里的問(wèn)題是這個(gè)定義是作用在W空間上，需要對(duì)圖像進(jìn)行標(biāo)注描述，在實(shí)際應(yīng)用中或優(yōu)化中難度比較大，理想的情況下，我們希望不需要標(biāo)注，只給圖像，就想辦法把它訓(xùn)練好。

VAE/GAN-based很好地把它結(jié)合在一塊了，最后發(fā)現(xiàn)它們是很契合的。最主要的是通過(guò)前面的那個(gè)定義，你可以推導(dǎo)出三個(gè)主要的約束，第一個(gè)是對(duì)數(shù)據(jù)的約束，基本上是對(duì)應(yīng)前面基于VAE的方法，即表征Z要獨(dú)立，它只是必要條件，不是充分條件。根據(jù)這個(gè)理論的定義還有另外一個(gè)約束，什么意思呢？要滿足那個(gè)理論的定義，我在對(duì)圖像做變化的時(shí)候，比如對(duì)圖像做一個(gè)上下翻轉(zhuǎn)，需要通過(guò)先Encode，做一個(gè)相應(yīng)變換，即改變Z的值，再做Decode，可以得到你想要的圖像。還有一個(gè)約束是什么叫可解耦，也很簡(jiǎn)單，對(duì)于剛才提到的可解釋因素，其實(shí)每一個(gè)都是非?；镜牟僮鳎魏尾僮鞫伎梢栽诶锩孢M(jìn)行組合，我要滿足它可解耦，其中一個(gè)必要條件是我對(duì)先做哪一個(gè)操作沒(méi)有關(guān)系，比如先變顏色，再變大小，會(huì)等價(jià)于我先變大小，再變顏色，不會(huì)改變最后形成圖像的樣子。所以很簡(jiǎn)單，你可以做基本操作1，再做基本操作2，也可以先做基本操作2，再做基本操作1，會(huì)得到同樣的結(jié)果。所以這兩個(gè)操作非常接近或者是完全一樣，這就是我們對(duì)可解耦的理解，最后轉(zhuǎn)換成的兩個(gè)差異要很小。

通過(guò)這些額外約束，可以做到更好地解耦。這是一些評(píng)價(jià)解耦能力的參數(shù)，值越大越好。所以通過(guò)結(jié)合基于群論的定義以后，就可以把均值增大一些。更重要的是通過(guò)這個(gè)解耦以后，解耦的確定性是更大的，原來(lái)的方案，因?yàn)樗皇菨M足一個(gè)必要條件，所以它的解耦性能變化范圍很大，有時(shí)候解耦，有時(shí)候不解耦了，所以它的解耦能力有很大的方差。

從生成圖像也可以看出，原來(lái)的方案要改變車的轉(zhuǎn)向，但同時(shí)車的顏色也在變，也就是說(shuō)，顏色和轉(zhuǎn)向這兩個(gè)因素還是耦合在一塊的，它并沒(méi)有很好解耦。但是通過(guò)我們的技術(shù)，改變轉(zhuǎn)向并不會(huì)改變顏色，也就是說(shuō)這些因素已經(jīng)分開(kāi)了。改變表征空間的一個(gè)因素，看它生成圖像的變化，可以看出解耦性。

再舉一個(gè)例子，我們前段時(shí)間做的一個(gè)工作。對(duì)于生成模型，我們訓(xùn)練的時(shí)候并沒(méi)有專門做解耦，但是會(huì)發(fā)現(xiàn)里面有一定解耦性，某些特定隱參數(shù)變化，生成圖像會(huì)沿著某一個(gè)屬性在變化，它隱含了這種能力，但是這種能力有多強(qiáng)不好說(shuō)，但是確實(shí)有這個(gè)能力。GAN等生成模型的好處是質(zhì)量比較高。所以我們能不能利用生成模型圖像高質(zhì)量的能力，同時(shí)又使它能夠有解耦的能力，這樣可以解決解耦合生成質(zhì)量的矛盾。所以這也是我們提的一個(gè)方法，也很簡(jiǎn)單，我們知道在隱空間，我們可以設(shè)定它的變化方向，好的方向可能對(duì)應(yīng)某個(gè)屬性的變化，如果這個(gè)方向是對(duì)的，確實(shí)對(duì)應(yīng)某個(gè)屬性，生成的圖像別的不變，只有某個(gè)屬性是在變化的。再加了Encoder，前后輸出差別會(huì)有一定規(guī)律，因?yàn)橹挥幸粋€(gè)屬性變，別的屬性不變。如果方向不是對(duì)應(yīng)某個(gè)屬性的，是混雜的、耦合的方向，前后生成的圖像就會(huì)比較亂，它不是只是某個(gè)屬性變化，輸出差別分布會(huì)很不一樣。你可以用對(duì)比學(xué)習(xí)的方法，如果一致就有一個(gè)分布，不是一致它的分布不一樣?？梢酝瑫r(shí)訓(xùn)練這個(gè)隱空間方向搜索和解耦Encoder這樣做，我們希望它重建的圖像質(zhì)量比較高，同時(shí)它又達(dá)到解耦的特性。

再舉一個(gè)例子，也是我們最近的工作，用到VAE結(jié)構(gòu)，我們希望訓(xùn)練出一個(gè)表達(dá)空間，它是解耦的。但是我們可以借助于擴(kuò)散大模型的強(qiáng)大能力，我們知道擴(kuò)散模型里圖像生成是一個(gè)迭代的過(guò)程，它有不同質(zhì)量的生成，這樣閉環(huán)交互訓(xùn)練、互相輔助。比如這里生成解耦的表征結(jié)果，去控制上面擴(kuò)散模型的生成，這樣可以讓它生成的時(shí)候效率更高一些。同時(shí)上面擴(kuò)散模型的圖像質(zhì)量又能夠幫助下面的訓(xùn)練過(guò)程，比如β-VAE的誤差函數(shù)里有一個(gè)參數(shù)C，它在控制對(duì)解耦的影響。原來(lái)的工作里C是人為調(diào)的，從大到小來(lái)設(shè)。在我們的方案里，完全由上面擴(kuò)散模型這一路中間結(jié)果來(lái)自適應(yīng)控制，這樣生成質(zhì)量各方面都會(huì)更好，解耦性也會(huì)更好。

剛才談了半天，我們對(duì)解耦的表達(dá)到底是什么形式？可以是前面提到的可解釋因素，這是一個(gè)很基本的東西，但我們相信更重要的是要結(jié)合語(yǔ)言的表達(dá)，因?yàn)檎Z(yǔ)言描述圖像通常就是一個(gè)解耦的描述。所以如何用語(yǔ)言的描述表達(dá)一個(gè)視覺(jué)模型，也是一個(gè)很基本的思想，我們也正在探索這方面的工作。

比如這幅圖像，用大語(yǔ)言模型可以得到一個(gè)caption，可能開(kāi)始比較亂，因?yàn)榇笳Z(yǔ)言模型本身沒(méi)有顯式解耦能力，只是告訴你有什么東西，我們可以通過(guò)后處理得到一個(gè)解耦的Text。但是我們現(xiàn)在最大的目的是在視覺(jué)表征空間上得到解耦的表征，怎么樣去做它？多模態(tài)大模型里面有一個(gè)對(duì)齊問(wèn)題，如果你能夠想辦法讓文本和視覺(jué)表征對(duì)齊以后，就會(huì)具有一定的意義，而且有對(duì)應(yīng)性。這方面有很多工作可以去做，舉個(gè)例子，假如它們對(duì)齊以后，可以改變文本的屬性值，相應(yīng)視覺(jué)表征會(huì)改變，相應(yīng)重建圖像屬性也會(huì)改變。你可以把依此編輯過(guò)的圖像作為輸入，再走一遍，讓它改回來(lái)，改完以后就應(yīng)該恢復(fù)成原圖像，這樣就形成一個(gè)Loss了。

解耦有一個(gè)很大的好處，就是解耦完還可以做組合，生成圖像的時(shí)候可以組合，不管是在物體層面的組合還是屬性組合。如果做好，改變是很容易的，比如我們可以用場(chǎng)景圖作為一種解耦表達(dá)去控制圖像生成，有兩只羊還是三只羊，就可以很好地控制它。在這個(gè)過(guò)程中還可以顯式加入Layout過(guò)程，兩只羊放在哪，每只羊都可以分別控制。這樣可以做到最后只改變一只羊的顏色，或者只改變一面墻的顏色，做到更好的可控性。

總結(jié)一下，生成式人工智能是新型的生產(chǎn)力和創(chuàng)造力，但是有效利用還存在一些問(wèn)題，可解釋AI的基本理論的發(fā)展非常重要，如何真正去做到可解釋、可控制的生成，還需要結(jié)合我們的先驗(yàn)知識(shí)、物理原理等要素。

謝謝大家。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.