国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

曾文軍:生成式人工智能是新型生產(chǎn)力

0
分享至

6月23日,由中國(guó)人工智能學(xué)會(huì)主辦,CAAI智能傳媒專業(yè)委員會(huì)、中國(guó)傳媒大學(xué)數(shù)據(jù)科學(xué)與智能媒體學(xué)院、媒體融合與傳播國(guó)家重點(diǎn)實(shí)驗(yàn)室、新浪新聞承辦的主題為“變量激蕩 增量涌現(xiàn)”2024全球人工智能技術(shù)大會(huì) 智能傳媒專題活動(dòng)在杭州拉開(kāi)帷幕。加拿大工程院外籍院士、寧波東方理工大學(xué)(暫名)科研副校長(zhǎng)、講席教授、lEEE Fellow曾文軍分享了題為《可解釋可控制AI內(nèi)容生成》的演講。

以下是曾文軍演講實(shí)錄,內(nèi)容經(jīng)編輯略有刪減:

感謝組委會(huì)的邀請(qǐng),今天很高興有這個(gè)機(jī)會(huì),在這里基于我的團(tuán)隊(duì)前幾年的一些工作,給大家分享一下我們對(duì)可解釋、可控制的AI內(nèi)容生成的一些認(rèn)知和理解。

大家知道,人工智能自從1956年概念提出來(lái)之后,其發(fā)展是幾起幾落的。最近這十幾年的發(fā)展,特別是近幾年生成式大模型的發(fā)展,使我們看到了通用人工智能的一些希望。

生成式人工智能是通過(guò)機(jī)器學(xué)習(xí),從數(shù)據(jù)中學(xué)習(xí)它的特征,進(jìn)而生成全新的、原創(chuàng)的數(shù)據(jù)。從著名的Gartner技術(shù)成熟度曲線上可以看到,它最近處在非常高速發(fā)展的階段。

生成式人工智能可以生成各種模態(tài)的內(nèi)容:語(yǔ)言、語(yǔ)音、圖像、代碼等等。我們可以進(jìn)行內(nèi)容開(kāi)發(fā)、內(nèi)容生成和傳媒方面的應(yīng)用,也可以為我們的科學(xué)研究提供一些知識(shí)的參考。

Open AI的ChatGPT大家都非常熟了,它可以回答問(wèn)題,生成文本、翻譯等,也是Open AI希望達(dá)到實(shí)現(xiàn)通用人工智能目標(biāo)的一個(gè)重要步驟。

目前一些人工智能大模型,在很多任務(wù)上已經(jīng)可以通過(guò)圖靈測(cè)試了,也就是它的能力是非常強(qiáng)的。其在很多方面引起了變革,微軟對(duì)Open AI很早就開(kāi)始有投入,所以現(xiàn)在整個(gè)產(chǎn)品線都圍繞著它在發(fā)展。比如對(duì)于搜索可能是最大的一個(gè)沖擊,所以百度、谷歌壓力也非常大。微軟從去年、前年開(kāi)始,就已經(jīng)把Open AI的大模型和搜索引擎深度結(jié)合了,所以有了現(xiàn)在的New Bing。當(dāng)時(shí)發(fā)布的時(shí)候引起了一些大的反響,股票一夜暴漲了800億美元,在市場(chǎng)份額中提升了一兩個(gè)百分點(diǎn)。

微軟在全盤擁抱大模型,把Open AI的GPT系列和它的辦公室軟件深度融合,所有的產(chǎn)品線,包括研究,都在圍繞著大模型在開(kāi)展。所以可以看到有些它的產(chǎn)品,像PPT能力等能夠得到很大的提升。

在編程方面,因?yàn)槲④浻蠫itHub,擁有很多數(shù)據(jù),這方面有大模型的加持,可以比較快地編程,可以減輕一些代價(jià)的代碼。

在科學(xué)研究方面,我們有一些領(lǐng)域的大模型,包括在醫(yī)療方面、生物醫(yī)學(xué)方面、化學(xué)方面,對(duì)研究的發(fā)展也起到了很大的作用。

在創(chuàng)造力方面,在內(nèi)容生成方面,都有它的創(chuàng)新性。

在數(shù)字人方面,我們團(tuán)隊(duì)最近也有一些工作,比如在視頻里面如何生成人人交互,就是有一個(gè)主動(dòng)人做一個(gè)動(dòng)作,另外一個(gè)人反應(yīng)的動(dòng)作序列是怎么樣的,可以通過(guò)生成式人工智能的方式,對(duì)數(shù)字人的制作也可能有一定的作用。

我們因此也發(fā)布了目前最大規(guī)模的人人交互3D動(dòng)作數(shù)據(jù)集,可以用來(lái)做motion to text,還有reaction motion generation,就是反應(yīng)式動(dòng)作生成等。

但是去年比爾·蓋茨說(shuō)了,生成式AI已成過(guò)去,已經(jīng)達(dá)到峰頂了,未來(lái)應(yīng)該是可解釋AI的天下。所以他認(rèn)為,我們?cè)谕ㄍㄓ萌斯ぶ悄芊矫孢€有很多工作需要做。

什么叫可解釋人工智能?它指的是AI的行為可以被人類理解,它與深度學(xué)習(xí)中的“黑匣子”概念形成一個(gè)鮮明對(duì)比,“黑匣子”完全是數(shù)據(jù)驅(qū)動(dòng)的,所以有時(shí)候我們不知道里頭發(fā)生了什么事情。我們希望可解釋AI至少對(duì)模型的運(yùn)行機(jī)理能夠有比較好的解釋。

這方面的工作可以分成三大類,一類是在建模前我們對(duì)數(shù)據(jù)做一些可解釋的分析,通過(guò)可視化數(shù)據(jù),對(duì)數(shù)據(jù)有一定的理解。還有一類是構(gòu)建可解釋性的模型,也就是模型本身希望它有一定的解釋性,我們知道它是如何工作的,我們得到的一些結(jié)果也知道它是如何產(chǎn)生的。還有一種,也有一些前期工作,就是模型先建,然后對(duì)模型進(jìn)行可解釋性分析,去理解這個(gè)模型怎么做的。這個(gè)應(yīng)該控制性稍微小一點(diǎn),模型本身可能有可解釋性,可能也沒(méi)有,我們只是對(duì)它做一個(gè)事后分析。

從最近這幾年關(guān)于可解釋性AI文章數(shù)量也可以看出,它越來(lái)越受到大家的關(guān)注,當(dāng)然大家用詞可能不一樣,但其實(shí)都是這個(gè)意思,希望我們對(duì)于模型或者是數(shù)據(jù)或者是功能方面有一定的解釋性。

生成式AI還是面臨一些挑戰(zhàn)的,它有一定的問(wèn)題,比如在谷歌Bard發(fā)布的時(shí)候,產(chǎn)生了一些用詞是不真實(shí)的,不符合事實(shí)的,它的代價(jià)也很大,所以兩天市值蒸發(fā)了1500億美元,大家對(duì)大模型本身的能力有一定的質(zhì)疑,對(duì)于它的應(yīng)用有一定的質(zhì)疑。

同樣,ChatGPT也有幻覺(jué)的問(wèn)題,比如它曾經(jīng)發(fā)布一個(gè)丑聞,里面指認(rèn)了實(shí)際的一個(gè)人作為一個(gè)被告,還引用了一些虛構(gòu)的文章。這種現(xiàn)象,大家不理解它為什么會(huì)產(chǎn)生這種文章,也許因?yàn)樗褪腔诟怕实?。所以這方面讓大家產(chǎn)生很多困惑,就是我們?cè)趺磳?duì)待大模型產(chǎn)生的一些內(nèi)容。我們對(duì)它的機(jī)理,如何產(chǎn)生這些內(nèi)容沒(méi)有更好的理解。

大語(yǔ)言模型能力非常強(qiáng),它與我們大腦運(yùn)作在很高層次上是比較接近的,比如人腦是與環(huán)境交互進(jìn)行強(qiáng)化學(xué)習(xí),大模型也用了人類反饋的強(qiáng)化學(xué)習(xí)的機(jī)制。我們?nèi)四X有法律和道德的約束,在大模型上我們?cè)噲D去增加一些警示,增加一些規(guī)章制度,避免它產(chǎn)生一些不太合適的內(nèi)容。但是大模型確確實(shí)實(shí)太大了,所以它里面的參數(shù)含義也很難理解,完全控制它的輸出幾乎是不太可能的,有時(shí)候我們不理解它為什么產(chǎn)生這些內(nèi)容。

在文生視頻方面Open AI 的Sora的能力非常強(qiáng)了,它的真實(shí)感非常強(qiáng),對(duì)我們的提示詞的表達(dá)也比較逼真,它有比較強(qiáng)大的能力,但同樣這種大模型也存在內(nèi)容生成方面不太可理解的問(wèn)題。

Sora技術(shù)背景是利用了Transformer能力,再加上和擴(kuò)散模型的結(jié)合,能夠產(chǎn)生一個(gè)高質(zhì)量的逼真視頻。Sora也存在反事實(shí)生成等一些問(wèn)題。比如這個(gè)杯子倒了,但是它表現(xiàn)出來(lái)的跟自然規(guī)律不太一樣,也就是它不太理解這個(gè)杯子的水倒了的物理原理是什么。同樣,在跑步機(jī)上跑步,看起來(lái)也不太符合邏輯,背著跑步機(jī)在跑。也就是說(shuō),它能夠產(chǎn)生一定的內(nèi)容,但是對(duì)一些后面的物理原理、機(jī)理的東西還不太理解。包括吹蠟燭,吹了以后這個(gè)火焰也沒(méi)有反應(yīng)等等,還是缺少對(duì)我們物理原理的認(rèn)知。

所以生成式AI面臨著安全方面的挑戰(zhàn),有幾方面:一個(gè)是數(shù)據(jù)安全,數(shù)據(jù)的隱私、數(shù)據(jù)的質(zhì)量本身也是一個(gè)問(wèn)題,里面的數(shù)據(jù)可能還有一些偏見(jiàn);二是模型方面,模型的可解釋性是非常有限的,模型本身也會(huì)受到一些攻擊,也可能帶有一些數(shù)據(jù)的偏見(jiàn);三是內(nèi)容生成方面,可以看到虛假的信息,不真實(shí)的信息,準(zhǔn)確性問(wèn)題等等。

Open AI的CEO自己也說(shuō)了,在這個(gè)階段,不能夠依賴ChatGPT去做任何重要的事情。也就是說(shuō)它不太可靠,你讓它去做一些醫(yī)療、工業(yè)生產(chǎn)等后果嚴(yán)重的事,還要比較小心,因?yàn)榭山忉屝苑矫孢€是有一定的局限性。

因?yàn)榍捌诩夹g(shù)發(fā)展,大家比較重視它的性能、質(zhì)量,忽視了對(duì)它的可解釋性,這方面工作相對(duì)來(lái)說(shuō)少一點(diǎn)。最近學(xué)術(shù)上有一些工作,國(guó)家層面上也有這方面的一些投入,比如美國(guó)就有一個(gè)NSF/NDIF項(xiàng)目,就是希望對(duì)大模型本身各個(gè)部件的機(jī)理有一個(gè)更好地理解,每個(gè)部件到底是做什么事情,通過(guò)探究型的形式,對(duì)各個(gè)不同的部件進(jìn)行放大、理解。

這也說(shuō)明我們存在一個(gè)問(wèn)題,這是一個(gè)挑戰(zhàn),也是一個(gè)機(jī)會(huì),從學(xué)術(shù)角度來(lái)講,我們?cè)趺慈ソ鉀Q這些問(wèn)題? 有不同的方法,我今天在這里關(guān)注的是我們認(rèn)為比較有前途、有意義的方向,叫表征解耦,這個(gè)概念是Bengio 2013年提出來(lái)的,他說(shuō)如果想讓AI能根本性地理解我們的世界,必須將隱藏在數(shù)據(jù)背后的可解釋的factor解耦出來(lái)。什么意思呢?

這是些圖像,這些圖像后面可解釋的因素是什么?是它的物體的形狀、顏色、大小,包括相機(jī)的角度等等,這是產(chǎn)生這個(gè)圖像的基本概念或者是我們對(duì)這個(gè)圖像的一個(gè)理解。

這些是在數(shù)據(jù)背后的可解釋因素,如果我們做到對(duì)這些因素的表征解耦,我們?cè)谏傻臅r(shí)候,可以通過(guò)獨(dú)立地調(diào)整這個(gè)參數(shù)生成一系列圖像,只有對(duì)應(yīng)的屬性是在變化的,其他屬性不變。這就是我們對(duì)它有比較深的理解了,知道它是如何生成這些圖像的。

同樣,我們也希望給我這個(gè)圖像,能夠設(shè)計(jì)出AI模型,能夠提取出比較獨(dú)立的、比較可解釋的因素。如果我們能夠做到這點(diǎn),我們對(duì)圖像的理解以及它的生成就有比較好的可解釋性,我們知道它是如何生成的,跟物理世界的契合度就比較高。

Bengio提出這么一個(gè)概念,但是他并沒(méi)有提出解決方案。這個(gè)概念是非常重要的,它對(duì)可解釋性,對(duì)后面做一些推理,對(duì)一些概念的學(xué)習(xí),都有非?;A(chǔ)性的意義。

從應(yīng)用的角度,我們今天在談內(nèi)容生成,實(shí)際上它對(duì)圖像的生成、對(duì)圖像的編輯,只改變某個(gè)屬性,而不改變其他屬性,都有很大的意義。你如果能夠理解透了以后,就不需要那么多數(shù)據(jù)對(duì)新的場(chǎng)景做重復(fù)訓(xùn)練,因?yàn)樗竺娴谋举|(zhì)是一樣的。我個(gè)人認(rèn)為比較重要的是泛化性的應(yīng)用,因?yàn)槲覀儸F(xiàn)在面臨工業(yè)應(yīng)用領(lǐng)域很大的問(wèn)題是泛化性。換了一個(gè)場(chǎng)景后,一個(gè)模型性能可能會(huì)下降很多,就是因?yàn)槟銓?duì)它的理解并不是很透,它完全是數(shù)據(jù)堆積起來(lái)的,如果它按照表征解耦的方式去理解這個(gè)物體,你換了一個(gè)環(huán)境,它可以清楚哪些是不變的因素,哪些是變的因素,它只要針對(duì)那些變的因素就行了,不變的因素它已經(jīng)學(xué)得很好了,模型可以很快適應(yīng)。所以,有了這個(gè)表征解耦之后,對(duì)于我們傳媒領(lǐng)域應(yīng)該有比較大的幫助。

這是2021年ICLR文章的統(tǒng)計(jì),表征解耦已經(jīng)是比較受關(guān)注的一個(gè)課題。下面舉一些例子,什么叫表征解耦?我們?cè)趺醋??從解決方案角度來(lái)講。

這是比較早期的一個(gè)解決方案,它是利用VAE網(wǎng)絡(luò)結(jié)構(gòu),你有一個(gè)encoder,有一個(gè)decoder,它有一些不確定性,通過(guò)概率分布參數(shù)的表達(dá),它的均值、方差,通過(guò)采樣去做生成。這里面Loss方程有兩項(xiàng),第一項(xiàng)就是圖像重建的質(zhì)量,你這個(gè)圖像分解了以后再重建應(yīng)該盡量接近。所以第一項(xiàng)表示輸入和輸出要一樣;第二項(xiàng),在傳統(tǒng)的VAE里,β是等于1,它實(shí)際是描述兩個(gè)分布的差異,也就是說(shuō)這個(gè)表征空間的表達(dá)Z,它的分布,我們覺(jué)得應(yīng)該不錯(cuò)的是獨(dú)立的聯(lián)合高斯分布。所以希望在系統(tǒng)里面,分布跟獨(dú)立的聯(lián)合高斯分布是接近的,通過(guò)這種方式去約束它。但傳統(tǒng)的VAE的方法,第一,它重視質(zhì)量,它能重建得好;第二,它希望Z表征空間的分布有一定特性。但是我們現(xiàn)在關(guān)注的是表征解耦,我們就要更重視第二項(xiàng),也就是它的元素是要獨(dú)立的,因?yàn)檫@是一個(gè)必要條件。如果你想獨(dú)立控制它,我們希望這些元素都是相互獨(dú)立的。所以我就把β值加大,讓它更注重、更關(guān)注這個(gè),這樣就能夠保證表征空間上的元素獨(dú)立性更強(qiáng)一點(diǎn),所以這是一個(gè)基本思想。

但是也有工作提出,這個(gè)獨(dú)立性只是一個(gè)必要條件,不是充分條件,實(shí)際上有很多可能的解是可以滿足它是獨(dú)立,但是它并不是解耦的。所以它指出來(lái)這個(gè)問(wèn)題,就是你這么做是一個(gè)好的方向,但是簡(jiǎn)單這么做是不夠的,不能完全解決這個(gè)問(wèn)題。

實(shí)際上更大的一個(gè)問(wèn)題,表征解耦從概念上大家都可以理解,但是從數(shù)學(xué)定義上,什么叫表征解耦?這個(gè)問(wèn)題Bengio沒(méi)有把它解決掉,只是提出一個(gè)概念問(wèn)題。所以后來(lái)在這方面比較重要的一個(gè)工作,他用數(shù)學(xué)的方法來(lái)表達(dá)什么叫表征解耦,從這個(gè)角度來(lái)定義滿足什么樣的條件叫做表征解耦。一般來(lái)說(shuō)給定一個(gè)圖像,你對(duì)圖像有一個(gè)描述,圖像通過(guò)編碼映射到表征空間Z,所以我們希望這個(gè)表征空間Z是可解耦的。這個(gè)基于群論的定義大概的意思是說(shuō),我們可以用群的方式表達(dá)對(duì)圖像的操作,它可以分成幾個(gè)子空間Gi。如果這個(gè)從W到 Z的映射f滿足一定條件,即同樣的行為G,比如改變顏色,我可以在W和Z上做,在哪里做沒(méi)有關(guān)系,最后是一回事。滿足了這個(gè)條件,如果Z空間也可以分解成幾個(gè)子空間Zi,而且每個(gè)Zi只受到前面那個(gè)相應(yīng)群Gi的影響,有一個(gè)對(duì)應(yīng)的關(guān)系。如果能夠滿足這些條件,這個(gè)Z的表達(dá)就是解耦的,所以從數(shù)學(xué)的角度定義了什么叫表征解耦。

這個(gè)定義非常好,讓我們從理論的角度有一個(gè)比較清晰的定義。但是這里的問(wèn)題是這個(gè)定義是作用在W空間上,需要對(duì)圖像進(jìn)行標(biāo)注描述,在實(shí)際應(yīng)用中或優(yōu)化中難度比較大,理想的情況下,我們希望不需要標(biāo)注,只給圖像,就想辦法把它訓(xùn)練好。

VAE/GAN-based很好地把它結(jié)合在一塊了,最后發(fā)現(xiàn)它們是很契合的。最主要的是通過(guò)前面的那個(gè)定義,你可以推導(dǎo)出三個(gè)主要的約束,第一個(gè)是對(duì)數(shù)據(jù)的約束,基本上是對(duì)應(yīng)前面基于VAE的方法,即表征Z要獨(dú)立,它只是必要條件,不是充分條件。根據(jù)這個(gè)理論的定義還有另外一個(gè)約束,什么意思呢?要滿足那個(gè)理論的定義,我在對(duì)圖像做變化的時(shí)候,比如對(duì)圖像做一個(gè)上下翻轉(zhuǎn),需要通過(guò)先Encode,做一個(gè)相應(yīng)變換,即改變Z的值,再做Decode,可以得到你想要的圖像。還有一個(gè)約束是什么叫可解耦,也很簡(jiǎn)單,對(duì)于剛才提到的可解釋因素,其實(shí)每一個(gè)都是非?;镜牟僮鳎魏尾僮鞫伎梢栽诶锩孢M(jìn)行組合,我要滿足它可解耦,其中一個(gè)必要條件是我對(duì)先做哪一個(gè)操作沒(méi)有關(guān)系,比如先變顏色,再變大小,會(huì)等價(jià)于我先變大小,再變顏色,不會(huì)改變最后形成圖像的樣子。所以很簡(jiǎn)單,你可以做基本操作1,再做基本操作2,也可以先做基本操作2,再做基本操作1,會(huì)得到同樣的結(jié)果。所以這兩個(gè)操作非常接近或者是完全一樣,這就是我們對(duì)可解耦的理解,最后轉(zhuǎn)換成的兩個(gè)差異要很小。

通過(guò)這些額外約束,可以做到更好地解耦。這是一些評(píng)價(jià)解耦能力的參數(shù),值越大越好。所以通過(guò)結(jié)合基于群論的定義以后,就可以把均值增大一些。更重要的是 通過(guò)這個(gè)解耦以后,解耦的確定性是更大的,原來(lái)的方案,因?yàn)樗皇菨M足一個(gè)必要條件,所以它的解耦性能變化范圍很大,有時(shí)候解耦,有時(shí)候不解耦了,所以它的解耦能力有很大的方差。

從生成圖像也可以看出,原來(lái)的方案要改變車的轉(zhuǎn)向,但同時(shí)車的顏色也在變,也就是說(shuō),顏色和轉(zhuǎn)向這兩個(gè)因素還是耦合在一塊的,它并沒(méi)有很好解耦。 但是通過(guò)我們的技術(shù),改變轉(zhuǎn)向并不會(huì)改變顏色,也就是說(shuō)這些因素已經(jīng)分開(kāi)了。改變表征空間的一個(gè)因素,看它生成圖像的變化,可以看出解耦性。

再舉一個(gè)例子,我們前段時(shí)間做的一個(gè)工作。對(duì)于生成模型,我們訓(xùn)練的時(shí)候并沒(méi)有專門做解耦,但是會(huì)發(fā)現(xiàn)里面有一定解耦性,某些特定隱參數(shù)變化,生成圖像會(huì)沿著某一個(gè)屬性在變化,它隱含了這種能力,但是這種能力有多強(qiáng)不好說(shuō),但是確實(shí)有這個(gè)能力。GAN等生成模型的好處是質(zhì)量比較高。所以我們能不能利用生成模型圖像高質(zhì)量的能力,同時(shí)又使它能夠有解耦的能力,這樣可以解決解耦合生成質(zhì)量的矛盾。所以這也是我們提的一個(gè)方法,也很簡(jiǎn)單,我們知道在隱空間,我們可以設(shè)定它的變化方向,好的方向可能對(duì)應(yīng)某個(gè)屬性的變化,如果這個(gè)方向是對(duì)的,確實(shí)對(duì)應(yīng)某個(gè)屬性,生成的圖像別的不變,只有某個(gè)屬性是在變化的。再加了Encoder,前后輸出差別會(huì)有一定規(guī)律,因?yàn)橹挥幸粋€(gè)屬性變,別的屬性不變。如果方向不是對(duì)應(yīng)某個(gè)屬性的,是混雜的、耦合的方向,前后生成的圖像就會(huì)比較亂,它不是只是某個(gè)屬性變化,輸出差別分布會(huì)很不一樣。你可以用對(duì)比學(xué)習(xí)的方法,如果一致就有一個(gè)分布,不是一致它的分布不一樣??梢酝瑫r(shí)訓(xùn)練這個(gè)隱空間方向搜索和解耦Encoder這樣做,我們希望它重建的圖像質(zhì)量比較高,同時(shí)它又達(dá)到解耦的特性。

再舉一個(gè)例子,也是我們最近的工作,用到VAE結(jié)構(gòu),我們希望訓(xùn)練出一個(gè)表達(dá)空間,它是解耦的。但是我們可以借助于擴(kuò)散大模型的強(qiáng)大能力,我們知道擴(kuò)散模型里圖像生成是一個(gè)迭代的過(guò)程,它有不同質(zhì)量的生成,這樣閉環(huán)交互訓(xùn)練、互相輔助。比如這里生成解耦的表征結(jié)果,去控制上面擴(kuò)散模型的生成,這樣可以讓它生成的時(shí)候效率更高一些。同時(shí)上面擴(kuò)散模型的圖像質(zhì)量又能夠幫助下面的訓(xùn)練過(guò)程,比如β-VAE的誤差函數(shù)里有一個(gè)參數(shù)C,它在控制對(duì)解耦的影響。原來(lái)的工作里C是人為調(diào)的,從大到小來(lái)設(shè)。在我們的方案里,完全由上面擴(kuò)散模型這一路中間結(jié)果來(lái)自適應(yīng)控制,這樣生成質(zhì)量各方面都會(huì)更好,解耦性也會(huì)更好。

剛才談了半天,我們對(duì)解耦的表達(dá)到底是什么形式?可以是前面提到的可解釋因素,這是一個(gè)很基本的東西,但我們相信更重要的是要結(jié)合語(yǔ)言的表達(dá),因?yàn)檎Z(yǔ)言描述圖像通常就是一個(gè)解耦的描述。所以如何用語(yǔ)言的描述表達(dá)一個(gè)視覺(jué)模型,也是一個(gè)很基本的思想,我們也正在探索這方面的工作。

比如這幅圖像,用大語(yǔ)言模型可以得到一個(gè)caption,可能開(kāi)始比較亂,因?yàn)榇笳Z(yǔ)言模型本身沒(méi)有顯式解耦能力,只是告訴你有什么東西,我們可以通過(guò)后處理得到一個(gè)解耦的Text。但是我們現(xiàn)在最大的目的是在視覺(jué)表征空間上得到解耦的表征,怎么樣去做它?多模態(tài)大模型里面有一個(gè)對(duì)齊問(wèn)題,如果你能夠想辦法讓文本和視覺(jué)表征對(duì)齊以后,就會(huì)具有一定的意義,而且有對(duì)應(yīng)性。這方面有很多工作可以去做,舉個(gè)例子,假如它們對(duì)齊以后,可以改變文本的屬性值,相應(yīng)視覺(jué)表征會(huì)改變,相應(yīng)重建圖像屬性也會(huì)改變。你可以把依此編輯過(guò)的圖像作為輸入,再走一遍,讓它改回來(lái),改完以后就應(yīng)該恢復(fù)成原圖像,這樣就形成一個(gè)Loss了。

解耦有一個(gè)很大的好處,就是解耦完還可以做組合,生成圖像的時(shí)候可以組合,不管是在物體層面的組合還是屬性組合。如果做好,改變是很容易的,比如我們可以用場(chǎng)景圖作為一種解耦表達(dá)去控制圖像生成,有兩只羊還是三只羊,就可以很好地控制它。在這個(gè)過(guò)程中還可以顯式加入Layout過(guò)程,兩只羊放在哪,每只羊都可以分別控制。這樣可以做到最后只改變一只羊的顏色,或者只改變一面墻的顏色,做到更好的可控性。

總結(jié)一下,生成式人工智能是新型的生產(chǎn)力和創(chuàng)造力,但是有效利用還存在一些問(wèn)題,可解釋AI的基本理論的發(fā)展非常重要,如何真正去做到可解釋、可控制的生成,還需要結(jié)合我們的先驗(yàn)知識(shí)、物理原理等要素。

謝謝大家。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗用血淚換來(lái)的教訓(xùn):一旦中美開(kāi)戰(zhàn),中國(guó)必須首先鎖定這一點(diǎn)

伊朗用血淚換來(lái)的教訓(xùn):一旦中美開(kāi)戰(zhàn),中國(guó)必須首先鎖定這一點(diǎn)

冷峻視角下的世界
2026-02-20 07:45:35
普京重拳出擊,打的美國(guó)措手不及!中國(guó)決定:給俄羅斯一個(gè)大面子

普京重拳出擊,打的美國(guó)措手不及!中國(guó)決定:給俄羅斯一個(gè)大面子

顯微鏡下看世界
2026-03-02 11:48:52
湖人大勝國(guó)王!東詹合砍52分,三配角齊貢獻(xiàn),艾頓依然黃油手!

湖人大勝國(guó)王!東詹合砍52分,三配角齊貢獻(xiàn),艾頓依然黃油手!

籃球資訊達(dá)人
2026-03-02 13:01:37
富士康創(chuàng)始人郭臺(tái)銘:“若兩岸爆發(fā)沖突,我會(huì)誓死守護(hù)臺(tái)灣”

富士康創(chuàng)始人郭臺(tái)銘:“若兩岸爆發(fā)沖突,我會(huì)誓死守護(hù)臺(tái)灣”

百態(tài)人間
2026-02-12 15:21:00
周琦+3海外回歸!男籃下個(gè)世預(yù)賽基本15選12,內(nèi)線鋒線實(shí)力強(qiáng)勁!

周琦+3海外回歸!男籃下個(gè)世預(yù)賽基本15選12,內(nèi)線鋒線實(shí)力強(qiáng)勁!

籃球資訊達(dá)人
2026-03-02 01:09:21
浙江新婚夫妻中東度蜜月突遇戰(zhàn)爭(zhēng)爆發(fā),新娘在領(lǐng)空關(guān)閉前幸運(yùn)離境,新郎滯留

浙江新婚夫妻中東度蜜月突遇戰(zhàn)爭(zhēng)爆發(fā),新娘在領(lǐng)空關(guān)閉前幸運(yùn)離境,新郎滯留

上觀新聞
2026-03-02 06:57:07
哈梅內(nèi)伊死了,美伊戰(zhàn)爭(zhēng)烈度比想象的要大很多

哈梅內(nèi)伊死了,美伊戰(zhàn)爭(zhēng)烈度比想象的要大很多

黑噪音
2026-03-01 09:49:45
奧運(yùn)會(huì)為什么發(fā)避孕套?難道運(yùn)動(dòng)員都帶伴侶嗎?看完你就明白了!

奧運(yùn)會(huì)為什么發(fā)避孕套?難道運(yùn)動(dòng)員都帶伴侶嗎?看完你就明白了!

南權(quán)先生
2026-02-13 15:17:51
萬(wàn)億市場(chǎng)爆發(fā)?中東“土豪”訂單砸向中國(guó),買家:“我只信中國(guó)造”

萬(wàn)億市場(chǎng)爆發(fā)?中東“土豪”訂單砸向中國(guó),買家:“我只信中國(guó)造”

白夢(mèng)日記
2026-01-25 20:57:27
醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3癥狀,千萬(wàn)別忽視

醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3癥狀,千萬(wàn)別忽視

蜉蝣說(shuō)
2026-03-02 09:07:43
廣東省體育局局長(zhǎng)崔劍,履新副部級(jí)!黃建德,已任常州市人民政府秘書長(zhǎng)!

廣東省體育局局長(zhǎng)崔劍,履新副部級(jí)!黃建德,已任常州市人民政府秘書長(zhǎng)!

起喜電影
2026-03-02 12:49:39
華為公告了26年首虎,出手很重,結(jié)果想到了,也沒(méi)想到!

華為公告了26年首虎,出手很重,結(jié)果想到了,也沒(méi)想到!

達(dá)文西看世界
2026-02-17 11:16:01
這樣的褲里絲打扮才符合普通人作為日常穿搭,既正式又時(shí)髦

這樣的褲里絲打扮才符合普通人作為日常穿搭,既正式又時(shí)髦

美女穿搭分享
2026-03-02 12:08:03
微微發(fā)力,詹姆斯15投8中拿下24分,正負(fù)值+13

微微發(fā)力,詹姆斯15投8中拿下24分,正負(fù)值+13

懂球帝
2026-03-02 12:57:08
斷航困局下的中國(guó)旅客:包車價(jià)格狂飆、老人著急求藥

斷航困局下的中國(guó)旅客:包車價(jià)格狂飆、老人著急求藥

西莫的藝術(shù)宮殿
2026-03-02 01:10:57
搞笑圖片第1148期:為什么老年人總能在網(wǎng)上買到我們想不到的東西

搞笑圖片第1148期:為什么老年人總能在網(wǎng)上買到我們想不到的東西

今天的快樂(lè)
2026-03-01 21:03:56
伊朗報(bào)復(fù)翻車,14個(gè)美軍基地炸了個(gè)寂寞?口號(hào)震天響,實(shí)戰(zhàn)撓癢癢

伊朗報(bào)復(fù)翻車,14個(gè)美軍基地炸了個(gè)寂寞?口號(hào)震天響,實(shí)戰(zhàn)撓癢癢

Ck的蜜糖
2026-03-02 12:46:38
五角大樓怒了!F-35首席教官去中國(guó)打工,難怪我軍總能逮個(gè)正著

五角大樓怒了!F-35首席教官去中國(guó)打工,難怪我軍總能逮個(gè)正著

書紀(jì)文譚
2026-02-28 16:48:05
洗草莓時(shí),有人放食鹽,有人放面粉,果農(nóng):都不對(duì),教你正確做法

洗草莓時(shí),有人放食鹽,有人放面粉,果農(nóng):都不對(duì),教你正確做法

阿龍美食記
2026-02-28 10:49:43
賣國(guó)求榮!為討美國(guó)歡心,不惜將總統(tǒng)送進(jìn)大牢,如今結(jié)局大快人心

賣國(guó)求榮!為討美國(guó)歡心,不惜將總統(tǒng)送進(jìn)大牢,如今結(jié)局大快人心

顧史
2026-01-22 20:28:11
2026-03-02 13:51:00
新浪新消費(fèi) incentive-icons
新浪新消費(fèi)
大浪智庫(kù)旗下原創(chuàng)IP
99文章數(shù) 13關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場(chǎng)5連勝!隊(duì)史第2人通過(guò)最大考驗(yàn)

娛樂(lè)要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢(shì)影響如何?十大券商策略來(lái)了

汽車要聞

預(yù)售11.28萬(wàn)起 狐全新阿爾法S5標(biāo)配寧德時(shí)代

態(tài)度原創(chuàng)

健康
手機(jī)
親子
公開(kāi)課
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

手機(jī)要聞

榮耀發(fā)布全球首款機(jī)器人手機(jī) 何同學(xué)改裝解鎖新形態(tài)

親子要聞

新型家庭“詐騙”案例,專門針對(duì)人類幼崽的紅包

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍動(dòng)用新型武器:山寨伊朗的

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版