国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

曾文軍:生成式人工智能是新型生產(chǎn)力

0
分享至

6月23日,由中國(guó)人工智能學(xué)會(huì)主辦,CAAI智能傳媒專業(yè)委員會(huì)、中國(guó)傳媒大學(xué)數(shù)據(jù)科學(xué)與智能媒體學(xué)院、媒體融合與傳播國(guó)家重點(diǎn)實(shí)驗(yàn)室、新浪新聞承辦的主題為“變量激蕩 增量涌現(xiàn)”2024全球人工智能技術(shù)大會(huì) 智能傳媒專題活動(dòng)在杭州拉開帷幕。加拿大工程院外籍院士、寧波東方理工大學(xué)(暫名)科研副校長(zhǎng)、講席教授、lEEE Fellow曾文軍分享了題為《可解釋可控制AI內(nèi)容生成》的演講。

以下是曾文軍演講實(shí)錄,內(nèi)容經(jīng)編輯略有刪減:

感謝組委會(huì)的邀請(qǐng),今天很高興有這個(gè)機(jī)會(huì),在這里基于我的團(tuán)隊(duì)前幾年的一些工作,給大家分享一下我們對(duì)可解釋、可控制的AI內(nèi)容生成的一些認(rèn)知和理解。

大家知道,人工智能自從1956年概念提出來(lái)之后,其發(fā)展是幾起幾落的。最近這十幾年的發(fā)展,特別是近幾年生成式大模型的發(fā)展,使我們看到了通用人工智能的一些希望。

生成式人工智能是通過(guò)機(jī)器學(xué)習(xí),從數(shù)據(jù)中學(xué)習(xí)它的特征,進(jìn)而生成全新的、原創(chuàng)的數(shù)據(jù)。從著名的Gartner技術(shù)成熟度曲線上可以看到,它最近處在非常高速發(fā)展的階段。

生成式人工智能可以生成各種模態(tài)的內(nèi)容:語(yǔ)言、語(yǔ)音、圖像、代碼等等。我們可以進(jìn)行內(nèi)容開發(fā)、內(nèi)容生成和傳媒方面的應(yīng)用,也可以為我們的科學(xué)研究提供一些知識(shí)的參考。

Open AI的ChatGPT大家都非常熟了,它可以回答問題,生成文本、翻譯等,也是Open AI希望達(dá)到實(shí)現(xiàn)通用人工智能目標(biāo)的一個(gè)重要步驟。

目前一些人工智能大模型,在很多任務(wù)上已經(jīng)可以通過(guò)圖靈測(cè)試了,也就是它的能力是非常強(qiáng)的。其在很多方面引起了變革,微軟對(duì)Open AI很早就開始有投入,所以現(xiàn)在整個(gè)產(chǎn)品線都圍繞著它在發(fā)展。比如對(duì)于搜索可能是最大的一個(gè)沖擊,所以百度、谷歌壓力也非常大。微軟從去年、前年開始,就已經(jīng)把Open AI的大模型和搜索引擎深度結(jié)合了,所以有了現(xiàn)在的New Bing。當(dāng)時(shí)發(fā)布的時(shí)候引起了一些大的反響,股票一夜暴漲了800億美元,在市場(chǎng)份額中提升了一兩個(gè)百分點(diǎn)。

微軟在全盤擁抱大模型,把Open AI的GPT系列和它的辦公室軟件深度融合,所有的產(chǎn)品線,包括研究,都在圍繞著大模型在開展。所以可以看到有些它的產(chǎn)品,像PPT能力等能夠得到很大的提升。

在編程方面,因?yàn)槲④浻蠫itHub,擁有很多數(shù)據(jù),這方面有大模型的加持,可以比較快地編程,可以減輕一些代價(jià)的代碼。

在科學(xué)研究方面,我們有一些領(lǐng)域的大模型,包括在醫(yī)療方面、生物醫(yī)學(xué)方面、化學(xué)方面,對(duì)研究的發(fā)展也起到了很大的作用。

在創(chuàng)造力方面,在內(nèi)容生成方面,都有它的創(chuàng)新性。

在數(shù)字人方面,我們團(tuán)隊(duì)最近也有一些工作,比如在視頻里面如何生成人人交互,就是有一個(gè)主動(dòng)人做一個(gè)動(dòng)作,另外一個(gè)人反應(yīng)的動(dòng)作序列是怎么樣的,可以通過(guò)生成式人工智能的方式,對(duì)數(shù)字人的制作也可能有一定的作用。

我們因此也發(fā)布了目前最大規(guī)模的人人交互3D動(dòng)作數(shù)據(jù)集,可以用來(lái)做motion to text,還有reaction motion generation,就是反應(yīng)式動(dòng)作生成等。

但是去年比爾·蓋茨說(shuō)了,生成式AI已成過(guò)去,已經(jīng)達(dá)到峰頂了,未來(lái)應(yīng)該是可解釋AI的天下。所以他認(rèn)為,我們?cè)谕ㄍㄓ萌斯ぶ悄芊矫孢€有很多工作需要做。

什么叫可解釋人工智能?它指的是AI的行為可以被人類理解,它與深度學(xué)習(xí)中的“黑匣子”概念形成一個(gè)鮮明對(duì)比,“黑匣子”完全是數(shù)據(jù)驅(qū)動(dòng)的,所以有時(shí)候我們不知道里頭發(fā)生了什么事情。我們希望可解釋AI至少對(duì)模型的運(yùn)行機(jī)理能夠有比較好的解釋。

這方面的工作可以分成三大類,一類是在建模前我們對(duì)數(shù)據(jù)做一些可解釋的分析,通過(guò)可視化數(shù)據(jù),對(duì)數(shù)據(jù)有一定的理解。還有一類是構(gòu)建可解釋性的模型,也就是模型本身希望它有一定的解釋性,我們知道它是如何工作的,我們得到的一些結(jié)果也知道它是如何產(chǎn)生的。還有一種,也有一些前期工作,就是模型先建,然后對(duì)模型進(jìn)行可解釋性分析,去理解這個(gè)模型怎么做的。這個(gè)應(yīng)該控制性稍微小一點(diǎn),模型本身可能有可解釋性,可能也沒有,我們只是對(duì)它做一個(gè)事后分析。

從最近這幾年關(guān)于可解釋性AI文章數(shù)量也可以看出,它越來(lái)越受到大家的關(guān)注,當(dāng)然大家用詞可能不一樣,但其實(shí)都是這個(gè)意思,希望我們對(duì)于模型或者是數(shù)據(jù)或者是功能方面有一定的解釋性。

生成式AI還是面臨一些挑戰(zhàn)的,它有一定的問題,比如在谷歌Bard發(fā)布的時(shí)候,產(chǎn)生了一些用詞是不真實(shí)的,不符合事實(shí)的,它的代價(jià)也很大,所以兩天市值蒸發(fā)了1500億美元,大家對(duì)大模型本身的能力有一定的質(zhì)疑,對(duì)于它的應(yīng)用有一定的質(zhì)疑。

同樣,ChatGPT也有幻覺的問題,比如它曾經(jīng)發(fā)布一個(gè)丑聞,里面指認(rèn)了實(shí)際的一個(gè)人作為一個(gè)被告,還引用了一些虛構(gòu)的文章。這種現(xiàn)象,大家不理解它為什么會(huì)產(chǎn)生這種文章,也許因?yàn)樗褪腔诟怕实摹K赃@方面讓大家產(chǎn)生很多困惑,就是我們?cè)趺磳?duì)待大模型產(chǎn)生的一些內(nèi)容。我們對(duì)它的機(jī)理,如何產(chǎn)生這些內(nèi)容沒有更好的理解。

大語(yǔ)言模型能力非常強(qiáng),它與我們大腦運(yùn)作在很高層次上是比較接近的,比如人腦是與環(huán)境交互進(jìn)行強(qiáng)化學(xué)習(xí),大模型也用了人類反饋的強(qiáng)化學(xué)習(xí)的機(jī)制。我們?nèi)四X有法律和道德的約束,在大模型上我們?cè)噲D去增加一些警示,增加一些規(guī)章制度,避免它產(chǎn)生一些不太合適的內(nèi)容。但是大模型確確實(shí)實(shí)太大了,所以它里面的參數(shù)含義也很難理解,完全控制它的輸出幾乎是不太可能的,有時(shí)候我們不理解它為什么產(chǎn)生這些內(nèi)容。

在文生視頻方面Open AI 的Sora的能力非常強(qiáng)了,它的真實(shí)感非常強(qiáng),對(duì)我們的提示詞的表達(dá)也比較逼真,它有比較強(qiáng)大的能力,但同樣這種大模型也存在內(nèi)容生成方面不太可理解的問題。

Sora技術(shù)背景是利用了Transformer能力,再加上和擴(kuò)散模型的結(jié)合,能夠產(chǎn)生一個(gè)高質(zhì)量的逼真視頻。Sora也存在反事實(shí)生成等一些問題。比如這個(gè)杯子倒了,但是它表現(xiàn)出來(lái)的跟自然規(guī)律不太一樣,也就是它不太理解這個(gè)杯子的水倒了的物理原理是什么。同樣,在跑步機(jī)上跑步,看起來(lái)也不太符合邏輯,背著跑步機(jī)在跑。也就是說(shuō),它能夠產(chǎn)生一定的內(nèi)容,但是對(duì)一些后面的物理原理、機(jī)理的東西還不太理解。包括吹蠟燭,吹了以后這個(gè)火焰也沒有反應(yīng)等等,還是缺少對(duì)我們物理原理的認(rèn)知。

所以生成式AI面臨著安全方面的挑戰(zhàn),有幾方面:一個(gè)是數(shù)據(jù)安全,數(shù)據(jù)的隱私、數(shù)據(jù)的質(zhì)量本身也是一個(gè)問題,里面的數(shù)據(jù)可能還有一些偏見;二是模型方面,模型的可解釋性是非常有限的,模型本身也會(huì)受到一些攻擊,也可能帶有一些數(shù)據(jù)的偏見;三是內(nèi)容生成方面,可以看到虛假的信息,不真實(shí)的信息,準(zhǔn)確性問題等等。

Open AI的CEO自己也說(shuō)了,在這個(gè)階段,不能夠依賴ChatGPT去做任何重要的事情。也就是說(shuō)它不太可靠,你讓它去做一些醫(yī)療、工業(yè)生產(chǎn)等后果嚴(yán)重的事,還要比較小心,因?yàn)榭山忉屝苑矫孢€是有一定的局限性。

因?yàn)榍捌诩夹g(shù)發(fā)展,大家比較重視它的性能、質(zhì)量,忽視了對(duì)它的可解釋性,這方面工作相對(duì)來(lái)說(shuō)少一點(diǎn)。最近學(xué)術(shù)上有一些工作,國(guó)家層面上也有這方面的一些投入,比如美國(guó)就有一個(gè)NSF/NDIF項(xiàng)目,就是希望對(duì)大模型本身各個(gè)部件的機(jī)理有一個(gè)更好地理解,每個(gè)部件到底是做什么事情,通過(guò)探究型的形式,對(duì)各個(gè)不同的部件進(jìn)行放大、理解。

這也說(shuō)明我們存在一個(gè)問題,這是一個(gè)挑戰(zhàn),也是一個(gè)機(jī)會(huì),從學(xué)術(shù)角度來(lái)講,我們?cè)趺慈ソ鉀Q這些問題? 有不同的方法,我今天在這里關(guān)注的是我們認(rèn)為比較有前途、有意義的方向,叫表征解耦,這個(gè)概念是Bengio 2013年提出來(lái)的,他說(shuō)如果想讓AI能根本性地理解我們的世界,必須將隱藏在數(shù)據(jù)背后的可解釋的factor解耦出來(lái)。什么意思呢?

這是些圖像,這些圖像后面可解釋的因素是什么?是它的物體的形狀、顏色、大小,包括相機(jī)的角度等等,這是產(chǎn)生這個(gè)圖像的基本概念或者是我們對(duì)這個(gè)圖像的一個(gè)理解。

這些是在數(shù)據(jù)背后的可解釋因素,如果我們做到對(duì)這些因素的表征解耦,我們?cè)谏傻臅r(shí)候,可以通過(guò)獨(dú)立地調(diào)整這個(gè)參數(shù)生成一系列圖像,只有對(duì)應(yīng)的屬性是在變化的,其他屬性不變。這就是我們對(duì)它有比較深的理解了,知道它是如何生成這些圖像的。

同樣,我們也希望給我這個(gè)圖像,能夠設(shè)計(jì)出AI模型,能夠提取出比較獨(dú)立的、比較可解釋的因素。如果我們能夠做到這點(diǎn),我們對(duì)圖像的理解以及它的生成就有比較好的可解釋性,我們知道它是如何生成的,跟物理世界的契合度就比較高。

Bengio提出這么一個(gè)概念,但是他并沒有提出解決方案。這個(gè)概念是非常重要的,它對(duì)可解釋性,對(duì)后面做一些推理,對(duì)一些概念的學(xué)習(xí),都有非常基礎(chǔ)性的意義。

從應(yīng)用的角度,我們今天在談內(nèi)容生成,實(shí)際上它對(duì)圖像的生成、對(duì)圖像的編輯,只改變某個(gè)屬性,而不改變其他屬性,都有很大的意義。你如果能夠理解透了以后,就不需要那么多數(shù)據(jù)對(duì)新的場(chǎng)景做重復(fù)訓(xùn)練,因?yàn)樗竺娴谋举|(zhì)是一樣的。我個(gè)人認(rèn)為比較重要的是泛化性的應(yīng)用,因?yàn)槲覀儸F(xiàn)在面臨工業(yè)應(yīng)用領(lǐng)域很大的問題是泛化性。換了一個(gè)場(chǎng)景后,一個(gè)模型性能可能會(huì)下降很多,就是因?yàn)槟銓?duì)它的理解并不是很透,它完全是數(shù)據(jù)堆積起來(lái)的,如果它按照表征解耦的方式去理解這個(gè)物體,你換了一個(gè)環(huán)境,它可以清楚哪些是不變的因素,哪些是變的因素,它只要針對(duì)那些變的因素就行了,不變的因素它已經(jīng)學(xué)得很好了,模型可以很快適應(yīng)。所以,有了這個(gè)表征解耦之后,對(duì)于我們傳媒領(lǐng)域應(yīng)該有比較大的幫助。

這是2021年ICLR文章的統(tǒng)計(jì),表征解耦已經(jīng)是比較受關(guān)注的一個(gè)課題。下面舉一些例子,什么叫表征解耦?我們?cè)趺醋??從解決方案角度來(lái)講。

這是比較早期的一個(gè)解決方案,它是利用VAE網(wǎng)絡(luò)結(jié)構(gòu),你有一個(gè)encoder,有一個(gè)decoder,它有一些不確定性,通過(guò)概率分布參數(shù)的表達(dá),它的均值、方差,通過(guò)采樣去做生成。這里面Loss方程有兩項(xiàng),第一項(xiàng)就是圖像重建的質(zhì)量,你這個(gè)圖像分解了以后再重建應(yīng)該盡量接近。所以第一項(xiàng)表示輸入和輸出要一樣;第二項(xiàng),在傳統(tǒng)的VAE里,β是等于1,它實(shí)際是描述兩個(gè)分布的差異,也就是說(shuō)這個(gè)表征空間的表達(dá)Z,它的分布,我們覺得應(yīng)該不錯(cuò)的是獨(dú)立的聯(lián)合高斯分布。所以希望在系統(tǒng)里面,分布跟獨(dú)立的聯(lián)合高斯分布是接近的,通過(guò)這種方式去約束它。但傳統(tǒng)的VAE的方法,第一,它重視質(zhì)量,它能重建得好;第二,它希望Z表征空間的分布有一定特性。但是我們現(xiàn)在關(guān)注的是表征解耦,我們就要更重視第二項(xiàng),也就是它的元素是要獨(dú)立的,因?yàn)檫@是一個(gè)必要條件。如果你想獨(dú)立控制它,我們希望這些元素都是相互獨(dú)立的。所以我就把β值加大,讓它更注重、更關(guān)注這個(gè),這樣就能夠保證表征空間上的元素獨(dú)立性更強(qiáng)一點(diǎn),所以這是一個(gè)基本思想。

但是也有工作提出,這個(gè)獨(dú)立性只是一個(gè)必要條件,不是充分條件,實(shí)際上有很多可能的解是可以滿足它是獨(dú)立,但是它并不是解耦的。所以它指出來(lái)這個(gè)問題,就是你這么做是一個(gè)好的方向,但是簡(jiǎn)單這么做是不夠的,不能完全解決這個(gè)問題。

實(shí)際上更大的一個(gè)問題,表征解耦從概念上大家都可以理解,但是從數(shù)學(xué)定義上,什么叫表征解耦?這個(gè)問題Bengio沒有把它解決掉,只是提出一個(gè)概念問題。所以后來(lái)在這方面比較重要的一個(gè)工作,他用數(shù)學(xué)的方法來(lái)表達(dá)什么叫表征解耦,從這個(gè)角度來(lái)定義滿足什么樣的條件叫做表征解耦。一般來(lái)說(shuō)給定一個(gè)圖像,你對(duì)圖像有一個(gè)描述,圖像通過(guò)編碼映射到表征空間Z,所以我們希望這個(gè)表征空間Z是可解耦的。這個(gè)基于群論的定義大概的意思是說(shuō),我們可以用群的方式表達(dá)對(duì)圖像的操作,它可以分成幾個(gè)子空間Gi。如果這個(gè)從W到 Z的映射f滿足一定條件,即同樣的行為G,比如改變顏色,我可以在W和Z上做,在哪里做沒有關(guān)系,最后是一回事。滿足了這個(gè)條件,如果Z空間也可以分解成幾個(gè)子空間Zi,而且每個(gè)Zi只受到前面那個(gè)相應(yīng)群Gi的影響,有一個(gè)對(duì)應(yīng)的關(guān)系。如果能夠滿足這些條件,這個(gè)Z的表達(dá)就是解耦的,所以從數(shù)學(xué)的角度定義了什么叫表征解耦。

這個(gè)定義非常好,讓我們從理論的角度有一個(gè)比較清晰的定義。但是這里的問題是這個(gè)定義是作用在W空間上,需要對(duì)圖像進(jìn)行標(biāo)注描述,在實(shí)際應(yīng)用中或優(yōu)化中難度比較大,理想的情況下,我們希望不需要標(biāo)注,只給圖像,就想辦法把它訓(xùn)練好。

VAE/GAN-based很好地把它結(jié)合在一塊了,最后發(fā)現(xiàn)它們是很契合的。最主要的是通過(guò)前面的那個(gè)定義,你可以推導(dǎo)出三個(gè)主要的約束,第一個(gè)是對(duì)數(shù)據(jù)的約束,基本上是對(duì)應(yīng)前面基于VAE的方法,即表征Z要獨(dú)立,它只是必要條件,不是充分條件。根據(jù)這個(gè)理論的定義還有另外一個(gè)約束,什么意思呢?要滿足那個(gè)理論的定義,我在對(duì)圖像做變化的時(shí)候,比如對(duì)圖像做一個(gè)上下翻轉(zhuǎn),需要通過(guò)先Encode,做一個(gè)相應(yīng)變換,即改變Z的值,再做Decode,可以得到你想要的圖像。還有一個(gè)約束是什么叫可解耦,也很簡(jiǎn)單,對(duì)于剛才提到的可解釋因素,其實(shí)每一個(gè)都是非?;镜牟僮?,任何操作都可以在里面進(jìn)行組合,我要滿足它可解耦,其中一個(gè)必要條件是我對(duì)先做哪一個(gè)操作沒有關(guān)系,比如先變顏色,再變大小,會(huì)等價(jià)于我先變大小,再變顏色,不會(huì)改變最后形成圖像的樣子。所以很簡(jiǎn)單,你可以做基本操作1,再做基本操作2,也可以先做基本操作2,再做基本操作1,會(huì)得到同樣的結(jié)果。所以這兩個(gè)操作非常接近或者是完全一樣,這就是我們對(duì)可解耦的理解,最后轉(zhuǎn)換成的兩個(gè)差異要很小。

通過(guò)這些額外約束,可以做到更好地解耦。這是一些評(píng)價(jià)解耦能力的參數(shù),值越大越好。所以通過(guò)結(jié)合基于群論的定義以后,就可以把均值增大一些。更重要的是 通過(guò)這個(gè)解耦以后,解耦的確定性是更大的,原來(lái)的方案,因?yàn)樗皇菨M足一個(gè)必要條件,所以它的解耦性能變化范圍很大,有時(shí)候解耦,有時(shí)候不解耦了,所以它的解耦能力有很大的方差。

從生成圖像也可以看出,原來(lái)的方案要改變車的轉(zhuǎn)向,但同時(shí)車的顏色也在變,也就是說(shuō),顏色和轉(zhuǎn)向這兩個(gè)因素還是耦合在一塊的,它并沒有很好解耦。 但是通過(guò)我們的技術(shù),改變轉(zhuǎn)向并不會(huì)改變顏色,也就是說(shuō)這些因素已經(jīng)分開了。改變表征空間的一個(gè)因素,看它生成圖像的變化,可以看出解耦性。

再舉一個(gè)例子,我們前段時(shí)間做的一個(gè)工作。對(duì)于生成模型,我們訓(xùn)練的時(shí)候并沒有專門做解耦,但是會(huì)發(fā)現(xiàn)里面有一定解耦性,某些特定隱參數(shù)變化,生成圖像會(huì)沿著某一個(gè)屬性在變化,它隱含了這種能力,但是這種能力有多強(qiáng)不好說(shuō),但是確實(shí)有這個(gè)能力。GAN等生成模型的好處是質(zhì)量比較高。所以我們能不能利用生成模型圖像高質(zhì)量的能力,同時(shí)又使它能夠有解耦的能力,這樣可以解決解耦合生成質(zhì)量的矛盾。所以這也是我們提的一個(gè)方法,也很簡(jiǎn)單,我們知道在隱空間,我們可以設(shè)定它的變化方向,好的方向可能對(duì)應(yīng)某個(gè)屬性的變化,如果這個(gè)方向是對(duì)的,確實(shí)對(duì)應(yīng)某個(gè)屬性,生成的圖像別的不變,只有某個(gè)屬性是在變化的。再加了Encoder,前后輸出差別會(huì)有一定規(guī)律,因?yàn)橹挥幸粋€(gè)屬性變,別的屬性不變。如果方向不是對(duì)應(yīng)某個(gè)屬性的,是混雜的、耦合的方向,前后生成的圖像就會(huì)比較亂,它不是只是某個(gè)屬性變化,輸出差別分布會(huì)很不一樣。你可以用對(duì)比學(xué)習(xí)的方法,如果一致就有一個(gè)分布,不是一致它的分布不一樣。可以同時(shí)訓(xùn)練這個(gè)隱空間方向搜索和解耦Encoder這樣做,我們希望它重建的圖像質(zhì)量比較高,同時(shí)它又達(dá)到解耦的特性。

再舉一個(gè)例子,也是我們最近的工作,用到VAE結(jié)構(gòu),我們希望訓(xùn)練出一個(gè)表達(dá)空間,它是解耦的。但是我們可以借助于擴(kuò)散大模型的強(qiáng)大能力,我們知道擴(kuò)散模型里圖像生成是一個(gè)迭代的過(guò)程,它有不同質(zhì)量的生成,這樣閉環(huán)交互訓(xùn)練、互相輔助。比如這里生成解耦的表征結(jié)果,去控制上面擴(kuò)散模型的生成,這樣可以讓它生成的時(shí)候效率更高一些。同時(shí)上面擴(kuò)散模型的圖像質(zhì)量又能夠幫助下面的訓(xùn)練過(guò)程,比如β-VAE的誤差函數(shù)里有一個(gè)參數(shù)C,它在控制對(duì)解耦的影響。原來(lái)的工作里C是人為調(diào)的,從大到小來(lái)設(shè)。在我們的方案里,完全由上面擴(kuò)散模型這一路中間結(jié)果來(lái)自適應(yīng)控制,這樣生成質(zhì)量各方面都會(huì)更好,解耦性也會(huì)更好。

剛才談了半天,我們對(duì)解耦的表達(dá)到底是什么形式?可以是前面提到的可解釋因素,這是一個(gè)很基本的東西,但我們相信更重要的是要結(jié)合語(yǔ)言的表達(dá),因?yàn)檎Z(yǔ)言描述圖像通常就是一個(gè)解耦的描述。所以如何用語(yǔ)言的描述表達(dá)一個(gè)視覺模型,也是一個(gè)很基本的思想,我們也正在探索這方面的工作。

比如這幅圖像,用大語(yǔ)言模型可以得到一個(gè)caption,可能開始比較亂,因?yàn)榇笳Z(yǔ)言模型本身沒有顯式解耦能力,只是告訴你有什么東西,我們可以通過(guò)后處理得到一個(gè)解耦的Text。但是我們現(xiàn)在最大的目的是在視覺表征空間上得到解耦的表征,怎么樣去做它?多模態(tài)大模型里面有一個(gè)對(duì)齊問題,如果你能夠想辦法讓文本和視覺表征對(duì)齊以后,就會(huì)具有一定的意義,而且有對(duì)應(yīng)性。這方面有很多工作可以去做,舉個(gè)例子,假如它們對(duì)齊以后,可以改變文本的屬性值,相應(yīng)視覺表征會(huì)改變,相應(yīng)重建圖像屬性也會(huì)改變。你可以把依此編輯過(guò)的圖像作為輸入,再走一遍,讓它改回來(lái),改完以后就應(yīng)該恢復(fù)成原圖像,這樣就形成一個(gè)Loss了。

解耦有一個(gè)很大的好處,就是解耦完還可以做組合,生成圖像的時(shí)候可以組合,不管是在物體層面的組合還是屬性組合。如果做好,改變是很容易的,比如我們可以用場(chǎng)景圖作為一種解耦表達(dá)去控制圖像生成,有兩只羊還是三只羊,就可以很好地控制它。在這個(gè)過(guò)程中還可以顯式加入Layout過(guò)程,兩只羊放在哪,每只羊都可以分別控制。這樣可以做到最后只改變一只羊的顏色,或者只改變一面墻的顏色,做到更好的可控性。

總結(jié)一下,生成式人工智能是新型的生產(chǎn)力和創(chuàng)造力,但是有效利用還存在一些問題,可解釋AI的基本理論的發(fā)展非常重要,如何真正去做到可解釋、可控制的生成,還需要結(jié)合我們的先驗(yàn)知識(shí)、物理原理等要素。

謝謝大家。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蘇聯(lián)曾經(jīng)有多強(qiáng)大?看看這些圖片

蘇聯(lián)曾經(jīng)有多強(qiáng)大?看看這些圖片

航空知識(shí)
2025-12-21 23:10:41
iPhone 18 Pro 新外觀曝光,勸退了…

iPhone 18 Pro 新外觀曝光,勸退了…

全是技能
2025-12-26 16:02:34
姜昆方否認(rèn)在美國(guó)過(guò)圣誕,他本人還在國(guó)內(nèi),知情人說(shuō)上個(gè)月剛見過(guò)

姜昆方否認(rèn)在美國(guó)過(guò)圣誕,他本人還在國(guó)內(nèi),知情人說(shuō)上個(gè)月剛見過(guò)

好賢觀史記
2025-12-26 13:57:45
秦可卿為何不反抗公公賈珍?一個(gè)別稱早已揭示了其中緣由

秦可卿為何不反抗公公賈珍?一個(gè)別稱早已揭示了其中緣由

墨說(shuō)古今
2025-12-24 00:17:05
1-0絕殺!恭喜中國(guó)隊(duì)!王鈺棟破門+熱身賽豪取2連勝,球迷歡呼

1-0絕殺!恭喜中國(guó)隊(duì)!王鈺棟破門+熱身賽豪取2連勝,球迷歡呼

籃球看比賽
2025-12-26 10:48:11
2026年看病新規(guī)來(lái)了,這3類人報(bào)銷可達(dá)95%!

2026年看病新規(guī)來(lái)了,這3類人報(bào)銷可達(dá)95%!

復(fù)轉(zhuǎn)這些年
2025-12-25 23:28:36
成都煙花爆竹燃放管理政策調(diào)整

成都煙花爆竹燃放管理政策調(diào)整

界面新聞
2025-12-26 15:41:11
臺(tái)灣民意機(jī)構(gòu)通過(guò)賴清德彈劾提案 明年1月將舉辦公聽會(huì)

臺(tái)灣民意機(jī)構(gòu)通過(guò)賴清德彈劾提案 明年1月將舉辦公聽會(huì)

新京報(bào)
2025-12-26 13:40:03
發(fā)現(xiàn)了蘋果官網(wǎng)一個(gè)有趣的小細(xì)節(jié),你發(fā)現(xiàn)了嗎?

發(fā)現(xiàn)了蘋果官網(wǎng)一個(gè)有趣的小細(xì)節(jié),你發(fā)現(xiàn)了嗎?

XCiOS俱樂部
2025-12-25 14:30:11
女性的私處哪種形態(tài)更好?女性陰部的形狀類型有哪些?不妨來(lái)了解

女性的私處哪種形態(tài)更好?女性陰部的形狀類型有哪些?不妨來(lái)了解

醫(yī)者榮耀
2025-12-25 12:05:06
霍家女掌門陳琪琪:苦熬10年嫁進(jìn)霍家,做郭晶晶背后的“婆婆”

霍家女掌門陳琪琪:苦熬10年嫁進(jìn)霍家,做郭晶晶背后的“婆婆”

夢(mèng)醉為紅顏一笑
2025-12-25 15:04:00
總裁夫人董花花,她吃了回頭草,沒敢離婚,也沒成大女主

總裁夫人董花花,她吃了回頭草,沒敢離婚,也沒成大女主

涼湫瑾言
2025-12-25 21:45:29
約基奇:愛德華茲的絕平不可思議,但我們度過(guò)風(fēng)暴贏下了比賽

約基奇:愛德華茲的絕平不可思議,但我們度過(guò)風(fēng)暴贏下了比賽

懂球帝
2025-12-26 15:49:07
聶遠(yuǎn)女兒和李湘女兒同框,氣質(zhì)真不是用錢能打扮出來(lái)的!

聶遠(yuǎn)女兒和李湘女兒同框,氣質(zhì)真不是用錢能打扮出來(lái)的!

科學(xué)發(fā)掘
2025-12-26 15:57:31
失業(yè)的人越來(lái)越多了

失業(yè)的人越來(lái)越多了

曹多魚的財(cái)經(jīng)世界
2025-12-24 14:56:20
你相信相由心生嗎?網(wǎng)友:上了歲數(shù)能感覺出來(lái),很多東西都在臉上

你相信相由心生嗎?網(wǎng)友:上了歲數(shù)能感覺出來(lái),很多東西都在臉上

解讀熱點(diǎn)事件
2025-12-25 00:05:12
為何帶兵之人絕不可心慈手軟?王近山的經(jīng)歷給出答案:令行禁止的鐵律,才是對(duì)部下最大的善待

為何帶兵之人絕不可心慈手軟?王近山的經(jīng)歷給出答案:令行禁止的鐵律,才是對(duì)部下最大的善待

老杉說(shuō)歷史
2025-12-24 17:00:15
澳洲既有煤礦又有鐵礦,為啥不發(fā)展鋼鐵業(yè),而是直接出口這些礦產(chǎn)

澳洲既有煤礦又有鐵礦,為啥不發(fā)展鋼鐵業(yè),而是直接出口這些礦產(chǎn)

向航說(shuō)
2025-12-24 00:20:02
A股漲到3963點(diǎn),突破2萬(wàn)億,釋放兩個(gè)信號(hào),下周一A股可能這樣走

A股漲到3963點(diǎn),突破2萬(wàn)億,釋放兩個(gè)信號(hào),下周一A股可能這樣走

有范又有料
2025-12-26 15:10:10
日日驚恐!上海夫妻持斧逐戶砍砸鄰居家門!

日日驚恐!上海夫妻持斧逐戶砍砸鄰居家門!

看看新聞Knews
2025-12-25 21:32:09
2025-12-26 17:16:49
新浪新消費(fèi) incentive-icons
新浪新消費(fèi)
大浪智庫(kù)旗下原創(chuàng)IP
82文章數(shù) 13關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

北京50歲女子因"不會(huì)做飯"偷外賣 曾就職外企收入穩(wěn)定

頭條要聞

北京50歲女子因"不會(huì)做飯"偷外賣 曾就職外企收入穩(wěn)定

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天深夜道歉,只字未提五月天阿信

財(cái)經(jīng)要聞

資管江湖的人事“寒冬”

汽車要聞

速來(lái)!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

游戲
本地
家居
時(shí)尚
公開課

內(nèi)存暴走!次世代主機(jī)恐要延期 現(xiàn)役主機(jī)還要漲價(jià)?

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

普通人如何“偷偷”變美?她的4個(gè)微習(xí)慣很好抄

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版