国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

香港理工大學(xué)團(tuán)隊(duì):AI生成的藝術(shù)作品,機(jī)器真的"看懂"了嗎?

0
分享至


這項(xiàng)由香港理工大學(xué)領(lǐng)導(dǎo)的研究發(fā)表于2026年,論文編號(hào)為arXiv:2604.08641,有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

你有沒有看過一幅抽象畫,然后花了好幾分鐘盯著它,試圖弄清楚畫家想說什么?那種"它到底在表達(dá)什么"的感覺,正是藝術(shù)最迷人的地方?,F(xiàn)在,當(dāng)AI開始創(chuàng)作藝術(shù)作品時(shí),一個(gè)新的問題出現(xiàn)了:我們?cè)趺磁袛郃I的作品是不是真的"好藝術(shù)",而不只是看起來漂亮的圖片?香港理工大學(xué)的研究團(tuán)隊(duì)正是為了回答這個(gè)問題,開展了這項(xiàng)研究。

一、被忽略的問題:AI藝術(shù)評(píng)審員只會(huì)看臉

當(dāng)我們想判斷一幅AI生成的畫好不好時(shí),通常的做法是什么?現(xiàn)有的評(píng)分工具大多在做一件事:把AI生成的圖片和輸入的文字說明對(duì)比,看看"畫出來的東西"和"說要畫的東西"像不像。比如,你告訴AI畫一只貓,它畫了一只毛茸茸的橘貓,評(píng)分系統(tǒng)就說:不錯(cuò),很像貓,高分。

但藝術(shù)本來就不是這么運(yùn)作的。

畢加索的《格爾尼卡》畫的是戰(zhàn)爭,但畫里幾乎沒有任何逼真的戰(zhàn)爭場景——扭曲的人體、破碎的幾何形狀、黑白灰的色調(diào),這一切共同傳達(dá)出一種震撼人心的反戰(zhàn)情緒。如果用現(xiàn)有的AI評(píng)分工具來打分,它可能會(huì)覺得這幅畫"不夠逼真",甚至給低分。這就是問題所在:藝術(shù)的意義,往往不藏在表面,而藏在象征、隱喻和聯(lián)想里。

研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的AI藝術(shù)評(píng)估體系存在兩個(gè)根本性的缺陷。第一個(gè)缺陷是,藝術(shù)意義無法被簡化為表面外觀。真正有力量的藝術(shù)往往通過非字面的方式傳達(dá)意思——通過并置、抽象、隱喻,讓觀者自己去感受和解讀。如果評(píng)分系統(tǒng)只看"畫面像不像",就會(huì)把藝術(shù)質(zhì)量等同于視覺保真度,獎(jiǎng)勵(lì)那些漂亮但空洞的圖片。第二個(gè)缺陷是,藝術(shù)意圖無法被簡化為文字提示的字面含義。當(dāng)一個(gè)人對(duì)AI說"畫一幅有格爾尼卡精神的作品",這句話不是在描述具體的視覺元素,而是在傳遞一種情感基調(diào)、一種反戰(zhàn)立場、一種藝術(shù)風(fēng)格的影響?,F(xiàn)有的評(píng)分工具直接比對(duì)文字和圖像,完全跳過了這個(gè)"理解意圖"的關(guān)鍵步驟。

二、符號(hào)學(xué):理解藝術(shù)語言的古老鑰匙

研究團(tuán)隊(duì)沒有試圖修補(bǔ)現(xiàn)有工具的小漏洞,而是回到了一個(gè)更根本的問題:藝術(shù)意義到底是怎么傳遞的?他們找到的答案來自一門叫做"符號(hào)學(xué)"的學(xué)科——一門研究"意義是如何通過符號(hào)傳達(dá)"的科學(xué)。

符號(hào)學(xué)里有一位重要的思想家叫皮爾斯(Charles Sanders Peirce),他提出了一個(gè)三角關(guān)系模型:任何意義的傳達(dá),都涉及三個(gè)要素——符號(hào)(你看到的東西)、對(duì)象(符號(hào)所指代的現(xiàn)實(shí)或概念)、解釋項(xiàng)(你心里產(chǎn)生的理解和感受)。

舉個(gè)具體的例子:一幅畫里有一只白鴿(這是符號(hào)),它指代的是"和平"(這是對(duì)象),而你看到它產(chǎn)生的感受是"渴望和平、厭惡戰(zhàn)爭"(這就是解釋項(xiàng))。這三者之間的關(guān)系,就是符號(hào)的意義。

更有意思的是,皮爾斯把符號(hào)與對(duì)象之間的關(guān)系分成了三種類型。第一種叫"圖像性"(iconic),指符號(hào)通過視覺相似來傳達(dá)意義,比如一幅人物肖像和真人長得像;第二種叫"象征性"(symbolic),指符號(hào)通過約定俗成的文化慣例來傳達(dá)意義,比如紅色代表危險(xiǎn)或熱情;第三種叫"索引性"(indexical),指符號(hào)通過因果關(guān)系或物理聯(lián)系來傳達(dá)意義,比如煙霧指向火焰,畫家的筆觸風(fēng)格指向創(chuàng)作狀態(tài)。

研究團(tuán)隊(duì)指出,現(xiàn)有的AI藝術(shù)評(píng)分系統(tǒng)幾乎完全活在"圖像性"的世界里——它們只會(huì)比對(duì)視覺相似度,對(duì)"象征性"和"索引性"這兩種更深層的意義傳達(dá)方式完全視而不見。這就好比你學(xué)英語只會(huì)認(rèn)字母,卻完全不懂單詞的含義和句子的語法,自然讀不懂文章。

三、人與AI的藝術(shù)對(duì)話:一場接力賽

研究團(tuán)隊(duì)用符號(hào)學(xué)的視角,重新描述了人與AI生成藝術(shù)之間的整個(gè)互動(dòng)過程,他們稱之為"人類-生成藝術(shù)交互"(Human-GenArt Interaction,簡稱HGI)。

這個(gè)過程是一場接力賽,每一棒都涉及意義的傳遞和轉(zhuǎn)化。第一棒是創(chuàng)作者:人類用戶心里有一個(gè)想表達(dá)的意圖(比如"我想表達(dá)戰(zhàn)爭的殘酷和對(duì)和平的渴望"),但這個(gè)意圖是藏在心里的,AI看不見。于是用戶把它轉(zhuǎn)化成一段文字提示,這段文字就是符號(hào),承載著用戶的意圖。第二棒是AI模型:AI讀取這段文字,用自己的方式理解它,然后生成一幅圖像。這個(gè)過程本身就是一次"符號(hào)解讀"——AI把文字符號(hào)轉(zhuǎn)化成視覺符號(hào)。第三棒是觀看者:最后,一個(gè)人看到這幅AI生成的圖像,根據(jù)自己的知識(shí)、文化背景和審美經(jīng)驗(yàn),理解這幅畫想表達(dá)什么,形成自己的解讀。

在這三棒接力中,每一次傳遞都可能發(fā)生偏差——用戶的意圖可能沒有被AI正確理解,AI生成的圖像可能沒有把象征意義傳達(dá)給觀看者。研究團(tuán)隊(duì)把最終觀看者理解到的意義和最初創(chuàng)作者的意圖之間的差距,稱為"符號(hào)鴻溝"(Semiosis Gap)。

現(xiàn)有的評(píng)分工具實(shí)際上只在比較第一棒(文字提示)和第二棒(生成圖像)的表面相似度,完全沒有評(píng)估"意義有沒有真正傳達(dá)到位"這個(gè)核心問題。

四、SemJudge:一個(gè)真正懂藝術(shù)的AI評(píng)審

基于這套符號(hào)學(xué)理論,研究團(tuán)隊(duì)開發(fā)了一個(gè)新的評(píng)估工具,叫做SemJudge。這個(gè)工具的核心是一種叫做"層次符號(hào)圖"(Hierarchical Semiosis Graph,簡稱HSG)的結(jié)構(gòu)。

HSG的工作原理可以用一個(gè)偵探故事來理解。當(dāng)一位偵探調(diào)查案件時(shí),他不會(huì)只看表面現(xiàn)象——他會(huì)把所有線索整理成一張關(guān)系網(wǎng)絡(luò)圖:這個(gè)證物指向哪個(gè)嫌疑人,這個(gè)嫌疑人和那個(gè)案發(fā)地點(diǎn)有什么關(guān)聯(lián),多條線索交匯指向什么結(jié)論。HSG對(duì)一幅藝術(shù)作品做的,正是類似的事情。

具體來說,HSG把一幅圖像(或者一段文字提示)分解成多個(gè)意義單元。對(duì)于整幅畫,HSG會(huì)建立一個(gè)"根符號(hào)",包含對(duì)整體畫面的描述(符號(hào))、畫面所指代的主題或概念(對(duì)象)以及它應(yīng)該讓觀看者產(chǎn)生的感受或理解(解釋項(xiàng))。在根符號(hào)之下,HSG會(huì)進(jìn)一步分解出若干"子符號(hào)",每個(gè)子符號(hào)對(duì)應(yīng)畫面里的一個(gè)具體視覺元素——比如一個(gè)特定的人物形象、一個(gè)顏色區(qū)域、一種藝術(shù)風(fēng)格——并同樣分析它的對(duì)象和解釋項(xiàng),以及它與整體主題的關(guān)系。

以論文中展示的一個(gè)例子為例:一幅以畢加索分析立體主義風(fēng)格描繪"天使報(bào)喜"(圣經(jīng)中天使告知瑪利亞將誕生耶穌)的抽象畫。HSG會(huì)這樣分析:整幅畫的全局符號(hào)是"用立體主義風(fēng)格描繪的宗教場景",對(duì)象是"天使報(bào)喜這一圣經(jīng)事件",解釋項(xiàng)是"精神莊嚴(yán)感和對(duì)古典宗教題材的現(xiàn)代抽象再詮釋",連接符號(hào)與對(duì)象的基礎(chǔ)是圖像性與象征性并存的關(guān)系。在子符號(hào)層面,左側(cè)有翅膀結(jié)構(gòu)的破碎人形指向"大天使加百列",通過圖像性(翅膀、人形)和象征性(天使作為信使)來傳達(dá)意義;上方白色鳥形指向"圣靈和神圣之光",通過象征性(鴿子代表圣靈)來傳達(dá);整體的尖銳角度和交叉平面指向"畢加索的分析立體主義風(fēng)格",通過索引性(筆觸和碎片化指向藝術(shù)家的技法)來傳達(dá)。

這個(gè)分析框架讓評(píng)估工具不再只是"看臉",而是真正追蹤了意義的傳遞路徑:提示詞想表達(dá)什么?圖像用什么視覺手段傳達(dá)這個(gè)意思?這些手段是通過外形相似、文化約定還是因果聯(lián)系來工作的?最終,觀看者能不能從中重建出原始意圖?

SemJudge的工作流程分三個(gè)階段。首先,它分析用戶的文字提示,構(gòu)建一個(gè)提示詞的HSG,理解用戶的真實(shí)意圖。然后,它分析兩幅需要比較的AI生成圖像,分別構(gòu)建它們的HSG,追蹤每幅圖像中的意義傳遞路徑。最后,它把提示詞的HSG和兩幅圖像的HSG進(jìn)行對(duì)比,判斷哪幅圖像更好地實(shí)現(xiàn)了用戶的意圖傳達(dá),并給出具體的、有證據(jù)支持的理由——包括指向畫面中具體區(qū)域的邊界框標(biāo)注,以及指向提示詞中具體文字片段的引用。

五、SemiosisArt:專門測試藝術(shù)理解力的新考卷

為了驗(yàn)證SemJudge的效果,研究團(tuán)隊(duì)還專門構(gòu)建了一個(gè)新的數(shù)據(jù)集,叫做SemiosisArt。這個(gè)數(shù)據(jù)集的特別之處在于,它專門針對(duì)那些依賴象征性和索引性意義傳達(dá)的藝術(shù)任務(wù),而不是那些只需要"畫得像"的任務(wù)。

現(xiàn)有的AI藝術(shù)評(píng)估數(shù)據(jù)集大多偏向圖像性任務(wù)——比如"畫一只在草地上奔跑的金毛犬",這類任務(wù)的好壞評(píng)判標(biāo)準(zhǔn)相對(duì)簡單直觀。而SemiosisArt收錄的是那些需要深度文化理解和符號(hào)解讀的任務(wù),比如"用德國浪漫主義風(fēng)格創(chuàng)作一幅三聯(lián)畫,從左到右依次描繪浮士德的三個(gè)場景:與魔鬼的契約、格雷琴的悲劇和海倫的插曲",或者"用奧斯曼伊茲尼克瓷磚藝術(shù)風(fēng)格描繪魯米《瑪斯納維》中的敲門寓言"。

數(shù)據(jù)集的構(gòu)建過程頗為嚴(yán)謹(jǐn)。研究團(tuán)隊(duì)與12位專家合作,將任務(wù)錨定在有明確文化傳統(tǒng)和解讀慣例的經(jīng)典母題上,涵蓋基督教、伊斯蘭教、印度教、東亞文化(包括中國、佛教、日本)等傳統(tǒng),以及藝術(shù)史上的"虛空派"畫、三聯(lián)畫等形式,還有現(xiàn)代視覺傳統(tǒng)如信息圖表、漫畫和原生藝術(shù)。這樣做的目的是降低解讀的主觀隨意性——有文化傳統(tǒng)背書的符號(hào),其意義相對(duì)穩(wěn)定,不同背景的人更容易形成共識(shí)。

在質(zhì)量控制方面,研究團(tuán)隊(duì)還眾包了38155條非專家判斷,用于篩選那些主觀性過強(qiáng)、難以形成共識(shí)的任務(wù)。最終,數(shù)據(jù)集包含187個(gè)提示任務(wù),16個(gè)生成模型產(chǎn)生的935幅圖像,1870個(gè)兩兩比較的判斷任務(wù),以及600個(gè)細(xì)粒度的視覺問答題目,整體標(biāo)注一致性(科恩Kappa系數(shù))達(dá)到0.58——考慮到藝術(shù)評(píng)判本身的高度主觀性,這個(gè)數(shù)字實(shí)際上相當(dāng)可觀。

數(shù)據(jù)集中還有一個(gè)有趣的維度:研究團(tuán)隊(duì)讓專家對(duì)每個(gè)任務(wù)標(biāo)注其"凈圖像性分?jǐn)?shù)",也就是這個(gè)任務(wù)主要依靠視覺相似度來評(píng)判(高圖像性),還是主要依靠象征和文化理解來評(píng)判(低圖像性)。比如"用卡拉瓦喬風(fēng)格畫一個(gè)戲劇性的明暗對(duì)比人物"就是高圖像性任務(wù),而"用畢加索分析立體主義風(fēng)格描繪天使報(bào)喜的神學(xué)母題"就是低圖像性任務(wù)。

六、實(shí)驗(yàn)結(jié)果:數(shù)字說明了什么

研究團(tuán)隊(duì)把SemJudge和一大批現(xiàn)有工具放在一起,在SemiosisArt數(shù)據(jù)集上進(jìn)行了系統(tǒng)性比較,結(jié)果相當(dāng)清晰地展示了不同工具之間的差距。

現(xiàn)有的基于視覺相似度的評(píng)分工具,表現(xiàn)令人失望。CLIPScore(一個(gè)廣泛使用的文圖匹配評(píng)分工具)與專家判斷的相關(guān)性極低;PickScore(一個(gè)根據(jù)用戶偏好訓(xùn)練的評(píng)分模型)在某些指標(biāo)上好一些,但整體仍然偏低;各種圖像質(zhì)量評(píng)分和審美偏好評(píng)分工具,與專家判斷幾乎沒有相關(guān)性,有些甚至呈現(xiàn)負(fù)相關(guān)——也就是說,這些工具認(rèn)為"好"的作品,專家反而覺得差。

加入了結(jié)構(gòu)化分析的工具表現(xiàn)略好一些,比如VIEScore(通過問答評(píng)估圖像生成質(zhì)量)和ArtCoT(用多模態(tài)大模型進(jìn)行藝術(shù)形式分析),但與專家判斷的相關(guān)性仍然有限。即使這些工具使用了和SemJudge相同的底層語言模型,表現(xiàn)也明顯落后于SemJudge——這說明差距不在于模型本身有多強(qiáng),而在于評(píng)估框架有沒有真正抓住意義傳達(dá)這個(gè)核心。

SemJudge的表現(xiàn)則顯著不同。以Kendall's Tau(一種衡量兩組排名一致性的指標(biāo))為例,SemJudge(使用Qwen-9B模型)達(dá)到了0.533,而最好的競爭方法只有約0.3;使用更大的Gemini-Flash模型后,SemJudge的Kendall's Tau進(jìn)一步提升至0.746。在Spearman相關(guān)系數(shù)上,SemJudge(Gemini-Flash)達(dá)到了0.964,已經(jīng)非常接近人類非專家判斷者之間的相關(guān)性(0.924),甚至在某個(gè)指標(biāo)上超過了非專家水平,向?qū)<宜剑?3.2%準(zhǔn)確率)靠攏——SemJudge(Gemini-Flash)在視覺問答任務(wù)上的準(zhǔn)確率達(dá)到92.4%。

更直接地驗(yàn)證了"圖像性偏見"這一核心理論預(yù)測的是一組專門的統(tǒng)計(jì)測試。研究團(tuán)隊(duì)對(duì)每個(gè)評(píng)估工具都計(jì)算了一個(gè)叫做"圖像性偏見指數(shù)"的指標(biāo)(用Δ表示):當(dāng)一個(gè)工具與人類判斷一致時(shí),那些案例是不是傾向于具有更高圖像性(視覺相似度更高)?如果是,說明這個(gè)工具有圖像性偏見,只在"容易"的、主要靠看外形就能判斷的案例上和人類意見一致,一遇到需要理解象征意義的案例就判斷錯(cuò)了。

結(jié)果正如理論預(yù)測:ImageReward的Δ為0.086,PickScore的Δ為0.126,DSG的Δ為0.087,ArtCoT的Δ為0.182,所有這些工具都具有統(tǒng)計(jì)學(xué)顯著的圖像性偏見。而SemJudge的Δ為-0.010,不顯著異于零——這意味著SemJudge與人類判斷的一致性,并不依賴于案例是否具有高圖像性,它在象征性和索引性的藝術(shù)案例上同樣表現(xiàn)穩(wěn)定。

七、人類評(píng)價(jià):不只是數(shù)字,還有質(zhì)量

除了與人類判斷的相關(guān)性這個(gè)定量指標(biāo),研究團(tuán)隊(duì)還專門做了一個(gè)用戶研究,讓70位參與者從四個(gè)維度評(píng)價(jià)不同工具生成的藝術(shù)解讀文本的質(zhì)量。

第一個(gè)維度是"因果一致性"(僅專家評(píng)價(jià)):工具給出的判斷理由,是不是真正抓住了專家認(rèn)為重要的決定性因素,而不是在胡亂歸因?第二個(gè)維度是"深度":解讀是不是超越了表面的物體識(shí)別和風(fēng)格描述,達(dá)到了真正的意義層面(象征主義、隱喻、神學(xué)傳統(tǒng)等)?第三個(gè)維度是"啟迪價(jià)值":看了這個(gè)解讀之后,你對(duì)這幅畫"作者在表達(dá)什么"的理解,有沒有比只看圖像和提示詞時(shí)更深?第四個(gè)維度是"證據(jù)支撐":解讀中的關(guān)鍵判斷,有沒有具體指向畫面的某個(gè)區(qū)域或提示詞的某段文字作為依據(jù)?

八、HSG到底有多重要:消融實(shí)驗(yàn)的發(fā)現(xiàn)

研究團(tuán)隊(duì)還做了一系列消融實(shí)驗(yàn),專門測試HSG這個(gè)結(jié)構(gòu)化分析框架本身的貢獻(xiàn),把它與單純?cè)龃笳Z言模型規(guī)模的效果區(qū)分開來。

實(shí)驗(yàn)結(jié)果揭示了幾個(gè)很有意思的規(guī)律。固定使用同一個(gè)語言模型時(shí),引入標(biāo)準(zhǔn)HSG結(jié)構(gòu)能明顯提升表現(xiàn),Kendall's Tau從0.48提升到0.55;但如果把HSG做得過于復(fù)雜(允許更多子符號(hào)和更詳細(xì)的描述),弱一些的語言模型反而難以準(zhǔn)確地生成如此復(fù)雜的HSG,導(dǎo)致效果反而略有下降。這說明HSG的復(fù)雜度需要與底層模型的能力相匹配。

更有意思的發(fā)現(xiàn)是關(guān)于"強(qiáng)HSG提升弱模型"的效果。研究團(tuán)隊(duì)用一個(gè)強(qiáng)大的模型(Gemini-Flash)來構(gòu)建HSG,然后把這個(gè)高質(zhì)量的HSG喂給一個(gè)很小的模型(Qwen-2B)來做最終判斷。結(jié)果顯示,即使是這個(gè)很小的模型,有了高質(zhì)量HSG的幫助后,表現(xiàn)也從幾乎隨機(jī)猜測(Kendall's Tau為-0.04)躍升到了0.27——盡管還比不上直接用大模型,但提升幅度相當(dāng)顯著。這說明,評(píng)估質(zhì)量的主要瓶頸往往不在于最終判斷階段用多大的模型,而在于能不能先構(gòu)建出一個(gè)質(zhì)量足夠好的意義理解框架。

在視覺問答任務(wù)上,HSG的效果更加突出。用Gemini-Flash構(gòu)建HSG后,即使是Qwen-4B這樣相對(duì)小的模型做判斷,視覺問答準(zhǔn)確率也能從56.8%大幅提升至86.8%,接近直接用Gemini-Flash做整個(gè)流程的92.4%。這與人類用戶研究的結(jié)果高度一致:HSG結(jié)構(gòu)對(duì)藝術(shù)解讀的深度和準(zhǔn)確性幫助最大。

歸根結(jié)底,這項(xiàng)研究做的事情,是把一個(gè)長期被忽視的問題擺到了臺(tái)面上:AI生成藝術(shù)的評(píng)估,不能只停留在"畫得像不像"的層面。藝術(shù)是一種意義的傳遞,而意義的傳遞遠(yuǎn)比視覺相似復(fù)雜得多。研究團(tuán)隊(duì)用一套來自符號(hào)學(xué)的理論框架,不僅解釋了為什么現(xiàn)有工具會(huì)系統(tǒng)性地誤判藝術(shù)質(zhì)量,還給出了一套可操作的解決方案,并通過大量實(shí)驗(yàn)驗(yàn)證了這套方案的有效性。

當(dāng)然,這項(xiàng)研究也有它的局限性。SemiosisArt數(shù)據(jù)集雖然跨越了多種文化傳統(tǒng),但對(duì)文化少數(shù)群體和當(dāng)代概念藝術(shù)的覆蓋仍然不足——這兩類藝術(shù)形式的評(píng)判標(biāo)準(zhǔn)本身在理論上就難以達(dá)成共識(shí),構(gòu)建可靠的標(biāo)注數(shù)據(jù)集難度極大。此外,SemJudge在預(yù)測邊界框時(shí)的表現(xiàn)還不夠精確,這是多模態(tài)大模型在空間理解方面的普遍弱點(diǎn),未來可以通過引入專門的視覺定位模塊來改善。

由此可見,這項(xiàng)研究不只是在改善一個(gè)技術(shù)工具,它實(shí)際上是在推動(dòng)一個(gè)更大的轉(zhuǎn)變:讓AI不只是生成"好看"的圖片,而是開始理解和表達(dá)復(fù)雜的人類經(jīng)驗(yàn)。有興趣深入探索的讀者,可以通過arXiv:2604.08641查閱完整論文,項(xiàng)目代碼和數(shù)據(jù)集也已在GitHub(songrise/SemJudge)上開源。

Q&A

Q1:符號(hào)學(xué)中的圖像性、象征性和索引性在藝術(shù)評(píng)估中分別指什么?

A:圖像性指通過視覺相似傳達(dá)意義,比如肖像畫和真人長得像;象征性指通過文化慣例傳達(dá)意義,比如白鴿代表和平;索引性指通過因果關(guān)聯(lián)傳達(dá)意義,比如畫家獨(dú)特的筆觸風(fēng)格透露其創(chuàng)作狀態(tài)。現(xiàn)有AI評(píng)分工具主要只識(shí)別圖像性,對(duì)后兩者幾乎無法評(píng)估,這正是它們與人類審美判斷產(chǎn)生系統(tǒng)性偏差的根本原因。

Q2:SemJudge和傳統(tǒng)AI藝術(shù)評(píng)分工具的核心區(qū)別是什么?

A:傳統(tǒng)工具直接比較文字提示和生成圖像的視覺相似度,相當(dāng)于只看外形打分。SemJudge則先構(gòu)建層次符號(hào)圖(HSG),分析提示詞和圖像各自的意義結(jié)構(gòu)——包括表達(dá)了什么概念、通過什么方式傳達(dá)、與整體主題關(guān)系如何——再對(duì)比兩者的意義傳遞路徑是否一致,判斷藝術(shù)意圖是否真正實(shí)現(xiàn)。

Q3:SemiosisArt數(shù)據(jù)集和已有的AI藝術(shù)評(píng)估數(shù)據(jù)集有什么不同?

A:現(xiàn)有數(shù)據(jù)集大多是"畫只貓"這類主要靠外形判斷的圖像性任務(wù)。SemiosisArt專門收錄需要深度文化和符號(hào)理解的任務(wù),比如描繪特定宗教故事或哲學(xué)概念,涵蓋基督教、伊斯蘭教、印度教、東亞等多種文化傳統(tǒng),并通過專家標(biāo)注和大規(guī)模眾包質(zhì)量控制,確保評(píng)判標(biāo)準(zhǔn)有跨文化共識(shí)基礎(chǔ)而非個(gè)人主觀偏好。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
從0-1到1-1!奪冠熱門倒下,輸?shù)眠€不太光彩,聯(lián)盟門面該換人了

從0-1到1-1!奪冠熱門倒下,輸?shù)眠€不太光彩,聯(lián)盟門面該換人了

籃球掃地僧
2026-04-22 10:06:55
烏克蘭沒錢打俄羅斯了!國庫見底外援青黃不接,普通人積蓄一夜縮水民不聊生

烏克蘭沒錢打俄羅斯了!國庫見底外援青黃不接,普通人積蓄一夜縮水民不聊生

網(wǎng)易新聞出品
2026-04-22 18:42:46
伊朗公開展示對(duì)美以反擊“大殺器”

伊朗公開展示對(duì)美以反擊“大殺器”

新華社
2026-04-22 16:41:42
注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

夜深愛雜談
2026-04-21 07:45:20
情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

深圳晚報(bào)
2026-04-22 10:11:17
10大天規(guī),不可打破,君子知命不算命!

10大天規(guī),不可打破,君子知命不算命!

神奇故事
2026-04-20 19:27:24
中央氣象臺(tái)4月22日18時(shí)繼續(xù)發(fā)布暴雨藍(lán)色預(yù)警

中央氣象臺(tái)4月22日18時(shí)繼續(xù)發(fā)布暴雨藍(lán)色預(yù)警

環(huán)球網(wǎng)資訊
2026-04-22 18:47:16
賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺(tái)獨(dú)”

賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺(tái)獨(dú)”

海峽導(dǎo)報(bào)社
2026-04-22 15:32:03
綜合ROI時(shí)代,這些高速增長的商家做對(duì)了什么?

綜合ROI時(shí)代,這些高速增長的商家做對(duì)了什么?

刀法研究所
2026-04-16 15:00:13
網(wǎng)友爸爸2年前垃圾堆里撿回72條32GB DDR4內(nèi)存:如今價(jià)值近14萬

網(wǎng)友爸爸2年前垃圾堆里撿回72條32GB DDR4內(nèi)存:如今價(jià)值近14萬

快科技
2026-04-20 10:51:04
取消午休,改成16點(diǎn)下班,你愿意嗎?網(wǎng)友吵翻!

取消午休,改成16點(diǎn)下班,你愿意嗎?網(wǎng)友吵翻!

魯中晨報(bào)
2026-04-22 14:28:23
與伊朗談判取消  特朗普再次上演TACO,宣布延長停火期

與伊朗談判取消 特朗普再次上演TACO,宣布延長?;鹌?/a>

劉耘博士
2026-04-22 10:49:40
拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
匈牙利爆出戲劇性消息,毛焦?fàn)柼崦材菟W爾班出任新政府外長

匈牙利爆出戲劇性消息,毛焦?fàn)柼崦材菟W爾班出任新政府外長

墜入二次元的海洋
2026-04-22 15:15:16
4月前19天乘用車零售同比大跌26%,房地產(chǎn)的今天就是汽車的明天?

4月前19天乘用車零售同比大跌26%,房地產(chǎn)的今天就是汽車的明天?

風(fēng)向觀察
2026-04-22 18:24:13
慈溪市政協(xié)黨組書記、主席陳杰峰接受審查調(diào)查

慈溪市政協(xié)黨組書記、主席陳杰峰接受審查調(diào)查

界面新聞
2026-04-22 17:34:07
最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

米果說識(shí)
2026-04-22 14:41:50
寧德時(shí)代狂丟王炸:滿電6分鐘,最高續(xù)航1500km,猛建超換一體站

寧德時(shí)代狂丟王炸:滿電6分鐘,最高續(xù)航1500km,猛建超換一體站

超電實(shí)驗(yàn)室
2026-04-22 09:23:32
2013年,江青拍攝的照片以34萬元的高價(jià)拍出,毛澤東曾稱贊并題詞

2013年,江青拍攝的照片以34萬元的高價(jià)拍出,毛澤東曾稱贊并題詞

南書房
2026-04-21 07:25:06
2026-04-22 19:44:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

本地
房產(chǎn)
旅游
藝術(shù)
公開課

本地新聞

春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

房產(chǎn)要聞

官宣!今年9月起,廣州中小學(xué)“重點(diǎn)班”將成歷史!

旅游要聞

江蘇兩地入選!蘇州再登“2025年游客滿意十佳城市”

藝術(shù)要聞

無花不風(fēng)景

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版