網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

香港理工大學(xué)團(tuán)隊(duì)：AI生成的藝術(shù)作品，機(jī)器真的"看懂"了嗎？

2026-04-20 21:21:30　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由香港理工大學(xué)領(lǐng)導(dǎo)的研究發(fā)表于2026年，論文編號(hào)為arXiv:2604.08641，有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

你有沒有看過一幅抽象畫，然后花了好幾分鐘盯著它，試圖弄清楚畫家想說什么？那種"它到底在表達(dá)什么"的感覺，正是藝術(shù)最迷人的地方?，F(xiàn)在，當(dāng)AI開始創(chuàng)作藝術(shù)作品時(shí)，一個(gè)新的問題出現(xiàn)了：我們?cè)趺磁袛郃I的作品是不是真的"好藝術(shù)"，而不只是看起來漂亮的圖片？香港理工大學(xué)的研究團(tuán)隊(duì)正是為了回答這個(gè)問題，開展了這項(xiàng)研究。

一、被忽略的問題：AI藝術(shù)評(píng)審員只會(huì)看臉

當(dāng)我們想判斷一幅AI生成的畫好不好時(shí)，通常的做法是什么？現(xiàn)有的評(píng)分工具大多在做一件事：把AI生成的圖片和輸入的文字說明對(duì)比，看看"畫出來的東西"和"說要畫的東西"像不像。比如，你告訴AI畫一只貓，它畫了一只毛茸茸的橘貓，評(píng)分系統(tǒng)就說：不錯(cuò)，很像貓，高分。

但藝術(shù)本來就不是這么運(yùn)作的。

畢加索的《格爾尼卡》畫的是戰(zhàn)爭，但畫里幾乎沒有任何逼真的戰(zhàn)爭場景——扭曲的人體、破碎的幾何形狀、黑白灰的色調(diào)，這一切共同傳達(dá)出一種震撼人心的反戰(zhàn)情緒。如果用現(xiàn)有的AI評(píng)分工具來打分，它可能會(huì)覺得這幅畫"不夠逼真"，甚至給低分。這就是問題所在：藝術(shù)的意義，往往不藏在表面，而藏在象征、隱喻和聯(lián)想里。

研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的AI藝術(shù)評(píng)估體系存在兩個(gè)根本性的缺陷。第一個(gè)缺陷是，藝術(shù)意義無法被簡化為表面外觀。真正有力量的藝術(shù)往往通過非字面的方式傳達(dá)意思——通過并置、抽象、隱喻，讓觀者自己去感受和解讀。如果評(píng)分系統(tǒng)只看"畫面像不像"，就會(huì)把藝術(shù)質(zhì)量等同于視覺保真度，獎(jiǎng)勵(lì)那些漂亮但空洞的圖片。第二個(gè)缺陷是，藝術(shù)意圖無法被簡化為文字提示的字面含義。當(dāng)一個(gè)人對(duì)AI說"畫一幅有格爾尼卡精神的作品"，這句話不是在描述具體的視覺元素，而是在傳遞一種情感基調(diào)、一種反戰(zhàn)立場、一種藝術(shù)風(fēng)格的影響?，F(xiàn)有的評(píng)分工具直接比對(duì)文字和圖像，完全跳過了這個(gè)"理解意圖"的關(guān)鍵步驟。

二、符號(hào)學(xué)：理解藝術(shù)語言的古老鑰匙

研究團(tuán)隊(duì)沒有試圖修補(bǔ)現(xiàn)有工具的小漏洞，而是回到了一個(gè)更根本的問題：藝術(shù)意義到底是怎么傳遞的？他們找到的答案來自一門叫做"符號(hào)學(xué)"的學(xué)科——一門研究"意義是如何通過符號(hào)傳達(dá)"的科學(xué)。

符號(hào)學(xué)里有一位重要的思想家叫皮爾斯（Charles Sanders Peirce），他提出了一個(gè)三角關(guān)系模型：任何意義的傳達(dá)，都涉及三個(gè)要素——符號(hào)（你看到的東西）、對(duì)象（符號(hào)所指代的現(xiàn)實(shí)或概念）、解釋項(xiàng)（你心里產(chǎn)生的理解和感受）。

舉個(gè)具體的例子：一幅畫里有一只白鴿（這是符號(hào)），它指代的是"和平"（這是對(duì)象），而你看到它產(chǎn)生的感受是"渴望和平、厭惡戰(zhàn)爭"（這就是解釋項(xiàng)）。這三者之間的關(guān)系，就是符號(hào)的意義。

更有意思的是，皮爾斯把符號(hào)與對(duì)象之間的關(guān)系分成了三種類型。第一種叫"圖像性"（iconic），指符號(hào)通過視覺相似來傳達(dá)意義，比如一幅人物肖像和真人長得像；第二種叫"象征性"（symbolic），指符號(hào)通過約定俗成的文化慣例來傳達(dá)意義，比如紅色代表危險(xiǎn)或熱情；第三種叫"索引性"（indexical），指符號(hào)通過因果關(guān)系或物理聯(lián)系來傳達(dá)意義，比如煙霧指向火焰，畫家的筆觸風(fēng)格指向創(chuàng)作狀態(tài)。

研究團(tuán)隊(duì)指出，現(xiàn)有的AI藝術(shù)評(píng)分系統(tǒng)幾乎完全活在"圖像性"的世界里——它們只會(huì)比對(duì)視覺相似度，對(duì)"象征性"和"索引性"這兩種更深層的意義傳達(dá)方式完全視而不見。這就好比你學(xué)英語只會(huì)認(rèn)字母，卻完全不懂單詞的含義和句子的語法，自然讀不懂文章。

三、人與AI的藝術(shù)對(duì)話：一場接力賽

研究團(tuán)隊(duì)用符號(hào)學(xué)的視角，重新描述了人與AI生成藝術(shù)之間的整個(gè)互動(dòng)過程，他們稱之為"人類-生成藝術(shù)交互"（Human-GenArt Interaction，簡稱HGI）。

這個(gè)過程是一場接力賽，每一棒都涉及意義的傳遞和轉(zhuǎn)化。第一棒是創(chuàng)作者：人類用戶心里有一個(gè)想表達(dá)的意圖（比如"我想表達(dá)戰(zhàn)爭的殘酷和對(duì)和平的渴望"），但這個(gè)意圖是藏在心里的，AI看不見。于是用戶把它轉(zhuǎn)化成一段文字提示，這段文字就是符號(hào)，承載著用戶的意圖。第二棒是AI模型：AI讀取這段文字，用自己的方式理解它，然后生成一幅圖像。這個(gè)過程本身就是一次"符號(hào)解讀"——AI把文字符號(hào)轉(zhuǎn)化成視覺符號(hào)。第三棒是觀看者：最后，一個(gè)人看到這幅AI生成的圖像，根據(jù)自己的知識(shí)、文化背景和審美經(jīng)驗(yàn)，理解這幅畫想表達(dá)什么，形成自己的解讀。

在這三棒接力中，每一次傳遞都可能發(fā)生偏差——用戶的意圖可能沒有被AI正確理解，AI生成的圖像可能沒有把象征意義傳達(dá)給觀看者。研究團(tuán)隊(duì)把最終觀看者理解到的意義和最初創(chuàng)作者的意圖之間的差距，稱為"符號(hào)鴻溝"（Semiosis Gap）。

現(xiàn)有的評(píng)分工具實(shí)際上只在比較第一棒（文字提示）和第二棒（生成圖像）的表面相似度，完全沒有評(píng)估"意義有沒有真正傳達(dá)到位"這個(gè)核心問題。

四、SemJudge：一個(gè)真正懂藝術(shù)的AI評(píng)審

基于這套符號(hào)學(xué)理論，研究團(tuán)隊(duì)開發(fā)了一個(gè)新的評(píng)估工具，叫做SemJudge。這個(gè)工具的核心是一種叫做"層次符號(hào)圖"（Hierarchical Semiosis Graph，簡稱HSG）的結(jié)構(gòu)。

HSG的工作原理可以用一個(gè)偵探故事來理解。當(dāng)一位偵探調(diào)查案件時(shí)，他不會(huì)只看表面現(xiàn)象——他會(huì)把所有線索整理成一張關(guān)系網(wǎng)絡(luò)圖：這個(gè)證物指向哪個(gè)嫌疑人，這個(gè)嫌疑人和那個(gè)案發(fā)地點(diǎn)有什么關(guān)聯(lián)，多條線索交匯指向什么結(jié)論。HSG對(duì)一幅藝術(shù)作品做的，正是類似的事情。

具體來說，HSG把一幅圖像（或者一段文字提示）分解成多個(gè)意義單元。對(duì)于整幅畫，HSG會(huì)建立一個(gè)"根符號(hào)"，包含對(duì)整體畫面的描述（符號(hào)）、畫面所指代的主題或概念（對(duì)象）以及它應(yīng)該讓觀看者產(chǎn)生的感受或理解（解釋項(xiàng)）。在根符號(hào)之下，HSG會(huì)進(jìn)一步分解出若干"子符號(hào)"，每個(gè)子符號(hào)對(duì)應(yīng)畫面里的一個(gè)具體視覺元素——比如一個(gè)特定的人物形象、一個(gè)顏色區(qū)域、一種藝術(shù)風(fēng)格——并同樣分析它的對(duì)象和解釋項(xiàng)，以及它與整體主題的關(guān)系。

以論文中展示的一個(gè)例子為例：一幅以畢加索分析立體主義風(fēng)格描繪"天使報(bào)喜"（圣經(jīng)中天使告知瑪利亞將誕生耶穌）的抽象畫。HSG會(huì)這樣分析：整幅畫的全局符號(hào)是"用立體主義風(fēng)格描繪的宗教場景"，對(duì)象是"天使報(bào)喜這一圣經(jīng)事件"，解釋項(xiàng)是"精神莊嚴(yán)感和對(duì)古典宗教題材的現(xiàn)代抽象再詮釋"，連接符號(hào)與對(duì)象的基礎(chǔ)是圖像性與象征性并存的關(guān)系。在子符號(hào)層面，左側(cè)有翅膀結(jié)構(gòu)的破碎人形指向"大天使加百列"，通過圖像性（翅膀、人形）和象征性（天使作為信使）來傳達(dá)意義；上方白色鳥形指向"圣靈和神圣之光"，通過象征性（鴿子代表圣靈）來傳達(dá)；整體的尖銳角度和交叉平面指向"畢加索的分析立體主義風(fēng)格"，通過索引性（筆觸和碎片化指向藝術(shù)家的技法）來傳達(dá)。

這個(gè)分析框架讓評(píng)估工具不再只是"看臉"，而是真正追蹤了意義的傳遞路徑：提示詞想表達(dá)什么？圖像用什么視覺手段傳達(dá)這個(gè)意思？這些手段是通過外形相似、文化約定還是因果聯(lián)系來工作的？最終，觀看者能不能從中重建出原始意圖？

SemJudge的工作流程分三個(gè)階段。首先，它分析用戶的文字提示，構(gòu)建一個(gè)提示詞的HSG，理解用戶的真實(shí)意圖。然后，它分析兩幅需要比較的AI生成圖像，分別構(gòu)建它們的HSG，追蹤每幅圖像中的意義傳遞路徑。最后，它把提示詞的HSG和兩幅圖像的HSG進(jìn)行對(duì)比，判斷哪幅圖像更好地實(shí)現(xiàn)了用戶的意圖傳達(dá)，并給出具體的、有證據(jù)支持的理由——包括指向畫面中具體區(qū)域的邊界框標(biāo)注，以及指向提示詞中具體文字片段的引用。

五、SemiosisArt：專門測試藝術(shù)理解力的新考卷

為了驗(yàn)證SemJudge的效果，研究團(tuán)隊(duì)還專門構(gòu)建了一個(gè)新的數(shù)據(jù)集，叫做SemiosisArt。這個(gè)數(shù)據(jù)集的特別之處在于，它專門針對(duì)那些依賴象征性和索引性意義傳達(dá)的藝術(shù)任務(wù)，而不是那些只需要"畫得像"的任務(wù)。

現(xiàn)有的AI藝術(shù)評(píng)估數(shù)據(jù)集大多偏向圖像性任務(wù)——比如"畫一只在草地上奔跑的金毛犬"，這類任務(wù)的好壞評(píng)判標(biāo)準(zhǔn)相對(duì)簡單直觀。而SemiosisArt收錄的是那些需要深度文化理解和符號(hào)解讀的任務(wù)，比如"用德國浪漫主義風(fēng)格創(chuàng)作一幅三聯(lián)畫，從左到右依次描繪浮士德的三個(gè)場景：與魔鬼的契約、格雷琴的悲劇和海倫的插曲"，或者"用奧斯曼伊茲尼克瓷磚藝術(shù)風(fēng)格描繪魯米《瑪斯納維》中的敲門寓言"。

數(shù)據(jù)集的構(gòu)建過程頗為嚴(yán)謹(jǐn)。研究團(tuán)隊(duì)與12位專家合作，將任務(wù)錨定在有明確文化傳統(tǒng)和解讀慣例的經(jīng)典母題上，涵蓋基督教、伊斯蘭教、印度教、東亞文化（包括中國、佛教、日本）等傳統(tǒng)，以及藝術(shù)史上的"虛空派"畫、三聯(lián)畫等形式，還有現(xiàn)代視覺傳統(tǒng)如信息圖表、漫畫和原生藝術(shù)。這樣做的目的是降低解讀的主觀隨意性——有文化傳統(tǒng)背書的符號(hào)，其意義相對(duì)穩(wěn)定，不同背景的人更容易形成共識(shí)。

在質(zhì)量控制方面，研究團(tuán)隊(duì)還眾包了38155條非專家判斷，用于篩選那些主觀性過強(qiáng)、難以形成共識(shí)的任務(wù)。最終，數(shù)據(jù)集包含187個(gè)提示任務(wù)，16個(gè)生成模型產(chǎn)生的935幅圖像，1870個(gè)兩兩比較的判斷任務(wù)，以及600個(gè)細(xì)粒度的視覺問答題目，整體標(biāo)注一致性（科恩Kappa系數(shù)）達(dá)到0.58——考慮到藝術(shù)評(píng)判本身的高度主觀性，這個(gè)數(shù)字實(shí)際上相當(dāng)可觀。

數(shù)據(jù)集中還有一個(gè)有趣的維度：研究團(tuán)隊(duì)讓專家對(duì)每個(gè)任務(wù)標(biāo)注其"凈圖像性分?jǐn)?shù)"，也就是這個(gè)任務(wù)主要依靠視覺相似度來評(píng)判（高圖像性），還是主要依靠象征和文化理解來評(píng)判（低圖像性）。比如"用卡拉瓦喬風(fēng)格畫一個(gè)戲劇性的明暗對(duì)比人物"就是高圖像性任務(wù)，而"用畢加索分析立體主義風(fēng)格描繪天使報(bào)喜的神學(xué)母題"就是低圖像性任務(wù)。

六、實(shí)驗(yàn)結(jié)果：數(shù)字說明了什么

研究團(tuán)隊(duì)把SemJudge和一大批現(xiàn)有工具放在一起，在SemiosisArt數(shù)據(jù)集上進(jìn)行了系統(tǒng)性比較，結(jié)果相當(dāng)清晰地展示了不同工具之間的差距。

現(xiàn)有的基于視覺相似度的評(píng)分工具，表現(xiàn)令人失望。CLIPScore（一個(gè)廣泛使用的文圖匹配評(píng)分工具）與專家判斷的相關(guān)性極低；PickScore（一個(gè)根據(jù)用戶偏好訓(xùn)練的評(píng)分模型）在某些指標(biāo)上好一些，但整體仍然偏低；各種圖像質(zhì)量評(píng)分和審美偏好評(píng)分工具，與專家判斷幾乎沒有相關(guān)性，有些甚至呈現(xiàn)負(fù)相關(guān)——也就是說，這些工具認(rèn)為"好"的作品，專家反而覺得差。

加入了結(jié)構(gòu)化分析的工具表現(xiàn)略好一些，比如VIEScore（通過問答評(píng)估圖像生成質(zhì)量）和ArtCoT（用多模態(tài)大模型進(jìn)行藝術(shù)形式分析），但與專家判斷的相關(guān)性仍然有限。即使這些工具使用了和SemJudge相同的底層語言模型，表現(xiàn)也明顯落后于SemJudge——這說明差距不在于模型本身有多強(qiáng)，而在于評(píng)估框架有沒有真正抓住意義傳達(dá)這個(gè)核心。

SemJudge的表現(xiàn)則顯著不同。以Kendall's Tau（一種衡量兩組排名一致性的指標(biāo)）為例，SemJudge（使用Qwen-9B模型）達(dá)到了0.533，而最好的競爭方法只有約0.3；使用更大的Gemini-Flash模型后，SemJudge的Kendall's Tau進(jìn)一步提升至0.746。在Spearman相關(guān)系數(shù)上，SemJudge（Gemini-Flash）達(dá)到了0.964，已經(jīng)非常接近人類非專家判斷者之間的相關(guān)性（0.924），甚至在某個(gè)指標(biāo)上超過了非專家水平，向?qū)＜宜剑?3.2%準(zhǔn)確率）靠攏——SemJudge（Gemini-Flash）在視覺問答任務(wù)上的準(zhǔn)確率達(dá)到92.4%。

更直接地驗(yàn)證了"圖像性偏見"這一核心理論預(yù)測的是一組專門的統(tǒng)計(jì)測試。研究團(tuán)隊(duì)對(duì)每個(gè)評(píng)估工具都計(jì)算了一個(gè)叫做"圖像性偏見指數(shù)"的指標(biāo)（用Δ表示）：當(dāng)一個(gè)工具與人類判斷一致時(shí)，那些案例是不是傾向于具有更高圖像性（視覺相似度更高）？如果是，說明這個(gè)工具有圖像性偏見，只在"容易"的、主要靠看外形就能判斷的案例上和人類意見一致，一遇到需要理解象征意義的案例就判斷錯(cuò)了。

結(jié)果正如理論預(yù)測：ImageReward的Δ為0.086，PickScore的Δ為0.126，DSG的Δ為0.087，ArtCoT的Δ為0.182，所有這些工具都具有統(tǒng)計(jì)學(xué)顯著的圖像性偏見。而SemJudge的Δ為-0.010，不顯著異于零——這意味著SemJudge與人類判斷的一致性，并不依賴于案例是否具有高圖像性，它在象征性和索引性的藝術(shù)案例上同樣表現(xiàn)穩(wěn)定。

七、人類評(píng)價(jià)：不只是數(shù)字，還有質(zhì)量

除了與人類判斷的相關(guān)性這個(gè)定量指標(biāo)，研究團(tuán)隊(duì)還專門做了一個(gè)用戶研究，讓70位參與者從四個(gè)維度評(píng)價(jià)不同工具生成的藝術(shù)解讀文本的質(zhì)量。

第一個(gè)維度是"因果一致性"（僅專家評(píng)價(jià)）：工具給出的判斷理由，是不是真正抓住了專家認(rèn)為重要的決定性因素，而不是在胡亂歸因？第二個(gè)維度是"深度"：解讀是不是超越了表面的物體識(shí)別和風(fēng)格描述，達(dá)到了真正的意義層面（象征主義、隱喻、神學(xué)傳統(tǒng)等）？第三個(gè)維度是"啟迪價(jià)值"：看了這個(gè)解讀之后，你對(duì)這幅畫"作者在表達(dá)什么"的理解，有沒有比只看圖像和提示詞時(shí)更深？第四個(gè)維度是"證據(jù)支撐"：解讀中的關(guān)鍵判斷，有沒有具體指向畫面的某個(gè)區(qū)域或提示詞的某段文字作為依據(jù)？

八、HSG到底有多重要：消融實(shí)驗(yàn)的發(fā)現(xiàn)

研究團(tuán)隊(duì)還做了一系列消融實(shí)驗(yàn)，專門測試HSG這個(gè)結(jié)構(gòu)化分析框架本身的貢獻(xiàn)，把它與單純?cè)龃笳Z言模型規(guī)模的效果區(qū)分開來。

實(shí)驗(yàn)結(jié)果揭示了幾個(gè)很有意思的規(guī)律。固定使用同一個(gè)語言模型時(shí)，引入標(biāo)準(zhǔn)HSG結(jié)構(gòu)能明顯提升表現(xiàn)，Kendall's Tau從0.48提升到0.55；但如果把HSG做得過于復(fù)雜（允許更多子符號(hào)和更詳細(xì)的描述），弱一些的語言模型反而難以準(zhǔn)確地生成如此復(fù)雜的HSG，導(dǎo)致效果反而略有下降。這說明HSG的復(fù)雜度需要與底層模型的能力相匹配。

更有意思的發(fā)現(xiàn)是關(guān)于"強(qiáng)HSG提升弱模型"的效果。研究團(tuán)隊(duì)用一個(gè)強(qiáng)大的模型（Gemini-Flash）來構(gòu)建HSG，然后把這個(gè)高質(zhì)量的HSG喂給一個(gè)很小的模型（Qwen-2B）來做最終判斷。結(jié)果顯示，即使是這個(gè)很小的模型，有了高質(zhì)量HSG的幫助后，表現(xiàn)也從幾乎隨機(jī)猜測（Kendall's Tau為-0.04）躍升到了0.27——盡管還比不上直接用大模型，但提升幅度相當(dāng)顯著。這說明，評(píng)估質(zhì)量的主要瓶頸往往不在于最終判斷階段用多大的模型，而在于能不能先構(gòu)建出一個(gè)質(zhì)量足夠好的意義理解框架。

在視覺問答任務(wù)上，HSG的效果更加突出。用Gemini-Flash構(gòu)建HSG后，即使是Qwen-4B這樣相對(duì)小的模型做判斷，視覺問答準(zhǔn)確率也能從56.8%大幅提升至86.8%，接近直接用Gemini-Flash做整個(gè)流程的92.4%。這與人類用戶研究的結(jié)果高度一致：HSG結(jié)構(gòu)對(duì)藝術(shù)解讀的深度和準(zhǔn)確性幫助最大。

歸根結(jié)底，這項(xiàng)研究做的事情，是把一個(gè)長期被忽視的問題擺到了臺(tái)面上：AI生成藝術(shù)的評(píng)估，不能只停留在"畫得像不像"的層面。藝術(shù)是一種意義的傳遞，而意義的傳遞遠(yuǎn)比視覺相似復(fù)雜得多。研究團(tuán)隊(duì)用一套來自符號(hào)學(xué)的理論框架，不僅解釋了為什么現(xiàn)有工具會(huì)系統(tǒng)性地誤判藝術(shù)質(zhì)量，還給出了一套可操作的解決方案，并通過大量實(shí)驗(yàn)驗(yàn)證了這套方案的有效性。

當(dāng)然，這項(xiàng)研究也有它的局限性。SemiosisArt數(shù)據(jù)集雖然跨越了多種文化傳統(tǒng)，但對(duì)文化少數(shù)群體和當(dāng)代概念藝術(shù)的覆蓋仍然不足——這兩類藝術(shù)形式的評(píng)判標(biāo)準(zhǔn)本身在理論上就難以達(dá)成共識(shí)，構(gòu)建可靠的標(biāo)注數(shù)據(jù)集難度極大。此外，SemJudge在預(yù)測邊界框時(shí)的表現(xiàn)還不夠精確，這是多模態(tài)大模型在空間理解方面的普遍弱點(diǎn)，未來可以通過引入專門的視覺定位模塊來改善。

由此可見，這項(xiàng)研究不只是在改善一個(gè)技術(shù)工具，它實(shí)際上是在推動(dòng)一個(gè)更大的轉(zhuǎn)變：讓AI不只是生成"好看"的圖片，而是開始理解和表達(dá)復(fù)雜的人類經(jīng)驗(yàn)。有興趣深入探索的讀者，可以通過arXiv:2604.08641查閱完整論文，項(xiàng)目代碼和數(shù)據(jù)集也已在GitHub（songrise/SemJudge）上開源。

Q&A

Q1：符號(hào)學(xué)中的圖像性、象征性和索引性在藝術(shù)評(píng)估中分別指什么？

A：圖像性指通過視覺相似傳達(dá)意義，比如肖像畫和真人長得像；象征性指通過文化慣例傳達(dá)意義，比如白鴿代表和平；索引性指通過因果關(guān)聯(lián)傳達(dá)意義，比如畫家獨(dú)特的筆觸風(fēng)格透露其創(chuàng)作狀態(tài)。現(xiàn)有AI評(píng)分工具主要只識(shí)別圖像性，對(duì)后兩者幾乎無法評(píng)估，這正是它們與人類審美判斷產(chǎn)生系統(tǒng)性偏差的根本原因。

Q2：SemJudge和傳統(tǒng)AI藝術(shù)評(píng)分工具的核心區(qū)別是什么？

A：傳統(tǒng)工具直接比較文字提示和生成圖像的視覺相似度，相當(dāng)于只看外形打分。SemJudge則先構(gòu)建層次符號(hào)圖（HSG），分析提示詞和圖像各自的意義結(jié)構(gòu)——包括表達(dá)了什么概念、通過什么方式傳達(dá)、與整體主題關(guān)系如何——再對(duì)比兩者的意義傳遞路徑是否一致，判斷藝術(shù)意圖是否真正實(shí)現(xiàn)。

Q3：SemiosisArt數(shù)據(jù)集和已有的AI藝術(shù)評(píng)估數(shù)據(jù)集有什么不同？

A：現(xiàn)有數(shù)據(jù)集大多是"畫只貓"這類主要靠外形判斷的圖像性任務(wù)。SemiosisArt專門收錄需要深度文化和符號(hào)理解的任務(wù)，比如描繪特定宗教故事或哲學(xué)概念，涵蓋基督教、伊斯蘭教、印度教、東亞等多種文化傳統(tǒng)，并通過專家標(biāo)注和大規(guī)模眾包質(zhì)量控制，確保評(píng)判標(biāo)準(zhǔn)有跨文化共識(shí)基礎(chǔ)而非個(gè)人主觀偏好。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.