国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

UniPercept 統(tǒng)一圖像美學(xué)、質(zhì)量與結(jié)構(gòu)紋理感知

0
分享至



操鑠:中國(guó)科學(xué)技術(shù)大學(xué)與上海人工智能實(shí)驗(yàn)室聯(lián)合培養(yǎng)博士生,專(zhuān)注多模態(tài)圖像理解與生成。主導(dǎo)研發(fā)了 ArtiMuse、UniPercept 等成果,多篇工作發(fā)表于 ECCV、ICCV 等國(guó)際頂級(jí)會(huì)議。

李佳陽(yáng):北京大學(xué)碩士生,專(zhuān)注多模態(tài)圖像理解及融合。作為核心作者參與了 ArtiMuse、UniPercept 等工作,多篇工作發(fā)表于 TIP、TPAMI 等國(guó)際頂級(jí)期刊。

盡管多模態(tài)大語(yǔ)言模型(MLLMs)在識(shí)別「圖中有什么」這一語(yǔ)義層面上取得了巨大進(jìn)步,但在理解「圖像看起來(lái)怎么樣」這一感知層面上仍顯乏力。

近日,來(lái)自上海人工智能實(shí)驗(yàn)室、中科大、北大、清華等機(jī)構(gòu)的研究者聯(lián)合發(fā)布了UniPercept。這是首個(gè)統(tǒng)一了美學(xué)(Aesthetics)質(zhì)量(Quality)結(jié)構(gòu)與紋理(Structure & Texture)三個(gè)維度的感知級(jí)圖像理解框架。



項(xiàng)目主頁(yè):https://thunderbolt215.github.io/Unipercept-project/

代碼倉(cāng)庫(kù):

https://github.com/thunderbolt215/UniPercept

論文地址:

https://arxiv.org/abs/2512.21675

模型權(quán)重:https://huggingface.co/collections/Thunderbolt215215/unipercept

相關(guān)工作 (ArtiMuse):

https://github.com/thunderbolt215/ArtiMuse

引言:

從「識(shí)別物體」到「感知圖像」

當(dāng)前,多模態(tài)大語(yǔ)言模型在目標(biāo)檢測(cè)、圖像描述和視覺(jué)推理等語(yǔ)義級(jí)任務(wù)中表現(xiàn)卓越。然而,人類(lèi)視覺(jué)感知不僅限于物體識(shí)別,還包括對(duì)構(gòu)圖美感、畫(huà)質(zhì)損傷、材質(zhì)紋理以及結(jié)構(gòu)規(guī)律性的細(xì)膩捕捉。

語(yǔ)義級(jí)理解關(guān)注的是「場(chǎng)景中有哪些實(shí)體」,而感知級(jí)理解則需要評(píng)估精細(xì)的、低層級(jí)的視覺(jué)外觀(guān),例如美學(xué)和諧度、降質(zhì)嚴(yán)重程度或表面肌理。這些屬性往往是微妙且主觀(guān)的,對(duì)內(nèi)容創(chuàng)作、圖像增強(qiáng)及生成模型對(duì)齊至關(guān)重要。

為了填補(bǔ)這一空白,研究團(tuán)隊(duì)提出了UniPercept。該工作建立了層次化的感知屬性定義系統(tǒng),構(gòu)建了大規(guī)?;鶞?zhǔn)測(cè)試集UniPercept-Bench,并開(kāi)發(fā)了一個(gè)通過(guò)領(lǐng)域自適應(yīng)預(yù)訓(xùn)練和任務(wù)對(duì)齊強(qiáng)化學(xué)習(xí)訓(xùn)練的強(qiáng)基準(zhǔn)模型。此外,研究團(tuán)隊(duì)還給出了UniPercept的下游應(yīng)用實(shí)例,包括作為生成模型的獎(jiǎng)勵(lì)模型(Reward Model),以及作為生成模型評(píng)估的指標(biāo)(Metrics)等。



UniPercept-Bench:

三位一體的全域感知評(píng)價(jià)體系


UniPercept 將感知級(jí)圖像理解拆解為三個(gè)核心領(lǐng)域,構(gòu)建了「領(lǐng)域 - 類(lèi)別 - 準(zhǔn)則」的三級(jí)層次結(jié)構(gòu),旨在全面覆蓋人類(lèi)對(duì)圖像的視覺(jué)評(píng)價(jià)維度。

核心評(píng)估維度

  • 圖像美學(xué)評(píng)估(IAA):側(cè)重于構(gòu)圖設(shè)計(jì)、視覺(jué)元素與結(jié)構(gòu)、情感和整體視覺(jué)吸引力等。它關(guān)注的是圖像是否「好看」,探討藝術(shù)表達(dá)與視覺(jué)平衡。

  • 圖像質(zhì)量評(píng)估(IQA):側(cè)重于感知保真度和降質(zhì)因素,如噪聲、模糊、壓縮偽影。它回答的是圖像是否「技術(shù)性達(dá)標(biāo)」。

  • 圖像結(jié)構(gòu)與紋理評(píng)估(ISTA):這是 UniPercept 首次系統(tǒng)化提出的維度,強(qiáng)調(diào)局部特征、幾何規(guī)律性、材質(zhì)屬性(如平滑度、粗糙度)和細(xì)節(jié)豐富度。它回答的是圖像的「場(chǎng)景、結(jié)構(gòu)、紋理和構(gòu)成與復(fù)雜程度」。



UniPercept-Bench 的定義體系分為三級(jí)細(xì)分,包含 3 個(gè)領(lǐng)域、17 個(gè)類(lèi)別和 44 個(gè)細(xì)分準(zhǔn)則,給出了專(zhuān)家級(jí)的細(xì)致定義體系,其精細(xì)程度遠(yuǎn)遠(yuǎn)超過(guò)此前的圖像評(píng)估 Benchmark。

在具體定義上,它實(shí)現(xiàn)了從領(lǐng)域到準(zhǔn)則的精密解構(gòu):例如從美學(xué)(IAA)領(lǐng)域,到「構(gòu)圖與設(shè)計(jì)(Composition & Design)」類(lèi)別,深入到對(duì)「視覺(jué)平衡(Visual Balance)」這一微觀(guān)準(zhǔn)則的量化;或從場(chǎng)景解析(ISTA)領(lǐng)域,到「幾何構(gòu)成(Geometric Composition)」類(lèi)別,細(xì)化到對(duì)「3D 體積(3D Volume)」隱含信息的提取。這種三級(jí)聯(lián)動(dòng)的體系,確保了模型能夠從宏觀(guān)的「整體感知」跨越到微觀(guān)的「渲染精度」進(jìn)行全方位、多維度的專(zhuān)家級(jí)評(píng)估。







任務(wù)形式與數(shù)據(jù)流水線(xiàn)


該基準(zhǔn)支持視覺(jué)評(píng)分(Visual Rating, VR)視覺(jué)問(wèn)答(Visual Question Answering, VQA)兩種互補(bǔ)的任務(wù)形式。



為了確保數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)設(shè)計(jì)了三階段自動(dòng)化流水線(xiàn):

  • 初始生成:利用先進(jìn)多模態(tài)模型結(jié)合專(zhuān)業(yè)準(zhǔn)則庫(kù)生成候選問(wèn)答對(duì)。
  • 拒絕采樣:由異構(gòu)判別模型對(duì)問(wèn)題的有效性、答案的準(zhǔn)確性及邏輯一致性進(jìn)行五分制打分,剔除約 40% 的不合格樣本。
  • 人工精修:組織專(zhuān)業(yè)志愿者進(jìn)行手動(dòng)核驗(yàn),特別是對(duì)邊界案例進(jìn)行修改,確保最終結(jié)果與人類(lèi)專(zhuān)家感知高度對(duì)齊。



UniPercept 模型:

領(lǐng)域自適應(yīng)與任務(wù)對(duì)齊強(qiáng)化學(xué)習(xí)


為了使模型具備真正的感知能力,研究者采用兩階段框架對(duì)基礎(chǔ)多模態(tài)模型進(jìn)行持續(xù)演進(jìn)。

領(lǐng)域自適應(yīng)預(yù)訓(xùn)練(Domain-Adaptive Pre-Training)

研究團(tuán)隊(duì)整合了約 80 萬(wàn)個(gè)樣本的大規(guī)模語(yǔ)料庫(kù),涵蓋文本描述、結(jié)構(gòu)化標(biāo)注和數(shù)值評(píng)分。通過(guò)這一階段,模型習(xí)得了跨領(lǐng)域的底層視覺(jué)特征,為其后續(xù)的精準(zhǔn)判斷打下了相應(yīng)的感知基礎(chǔ)。

任務(wù)對(duì)齊強(qiáng)化學(xué)習(xí)(Task-Aligned RL for VR & VQA)

這是提升模型感知一致性的關(guān)鍵。研究者采用了 GRPO 算法進(jìn)行策略?xún)?yōu)化,并針對(duì)感知任務(wù)設(shè)計(jì)了特定的獎(jiǎng)勵(lì)函數(shù):

  • 視覺(jué)問(wèn)答(VQA)任務(wù):采用二元獎(jiǎng)勵(lì),鼓勵(lì)模型輸出準(zhǔn)確的離散答案。
  • 視覺(jué)評(píng)分(VR)任務(wù):創(chuàng)新性地設(shè)計(jì)了自適應(yīng)高斯軟獎(jiǎng)勵(lì)(Adaptive Gaussian Soft Reward)。該函數(shù)根據(jù)模型預(yù)測(cè)值與參考分?jǐn)?shù)的偏差動(dòng)態(tài)調(diào)整平滑系數(shù)。

這種軟獎(jiǎng)勵(lì)機(jī)制提供了更平滑的梯度,避免了傳統(tǒng)閾值獎(jiǎng)勵(lì)導(dǎo)致的優(yōu)化不連續(xù)性。此外,模型引入了評(píng)分 Token 策略,直接從預(yù)測(cè)概率分布中導(dǎo)出數(shù)值,大幅緩解了模型生成數(shù)字時(shí)的幻覺(jué)傾向。



性能:

全面超越現(xiàn)有頂尖模型


研究團(tuán)隊(duì)在 UniPercept-Bench 上評(píng)估了包括商用閉源模型系列、領(lǐng)先開(kāi)源系列以及針對(duì)美學(xué)和質(zhì)量?jī)?yōu)化的專(zhuān)用模型在內(nèi)的 18 個(gè)模型,UniPercept 在其中取得了顯著優(yōu)秀的表現(xiàn)。

視覺(jué)評(píng)分(VR)表現(xiàn)

在持續(xù)分?jǐn)?shù)的回歸任務(wù)中,大多數(shù)通用模型在沒(méi)有針對(duì)性訓(xùn)練的情況下表現(xiàn)較差。相比之下,UniPercept 在所有三個(gè)領(lǐng)域(美學(xué)、質(zhì)量、結(jié)構(gòu))中均取得了最高的斯皮爾曼相關(guān)系數(shù)(SRCC)和皮爾遜相關(guān)系數(shù)(PLCC)。尤其是在 ISTA 領(lǐng)域,UniPercept 填補(bǔ)了現(xiàn)有模型對(duì)細(xì)節(jié)紋理判斷的空白。



視覺(jué)問(wèn)答(VQA)表現(xiàn)

實(shí)驗(yàn)顯示,即使是目前最頂尖的商業(yè)模型在處理精細(xì)感知問(wèn)題時(shí)也顯得吃力:

  • 圖像美學(xué)評(píng)估(IAA)領(lǐng)域,UniPercept 的準(zhǔn)確率超越了 GPT-4o 約 16 個(gè)百分點(diǎn)。
  • 圖像質(zhì)量評(píng)估(IQA)領(lǐng)域,UniPercept 在識(shí)別特定物體上的細(xì)微損傷(如運(yùn)動(dòng)模糊、壓縮畸變)方面展現(xiàn)出極強(qiáng)的定位與判斷能力。
  • 圖像結(jié)構(gòu)與紋理復(fù)雜度評(píng)估(ISTA)領(lǐng)域,模型能夠準(zhǔn)確分辨不同材質(zhì)的表面特性(如鏡面反射、亞光紋理),準(zhǔn)確率突破 80%。







應(yīng)用:

作為獎(jiǎng)勵(lì)模型/評(píng)估指標(biāo)


UniPercept 展示了作為生成模型優(yōu)化信號(hào)的巨大潛力。研究者將其作為獎(jiǎng)勵(lì)模型,整合進(jìn)文生圖模型的微調(diào)流水線(xiàn)中。UniPercept 主要從以下三個(gè)方面對(duì)生成模型進(jìn)行優(yōu)化:

  • 美學(xué)引導(dǎo):顯著改善生成圖像的構(gòu)圖平衡和光影和諧度。
  • 質(zhì)量引導(dǎo):增強(qiáng)圖像細(xì)節(jié)的銳度和清晰度,減少常見(jiàn)的偽影干擾。
  • 結(jié)構(gòu)紋理引導(dǎo):豐富了場(chǎng)景的復(fù)雜程度、結(jié)構(gòu)的豐富度、物體的表面肌理,使畫(huà)面表現(xiàn)更豐富。

不同獎(jiǎng)勵(lì)信號(hào)有著不同的優(yōu)化側(cè)重點(diǎn),當(dāng)三個(gè)維度的獎(jiǎng)勵(lì)信號(hào)協(xié)同作用時(shí),生成的圖像在視覺(jué)吸引力和技術(shù)保真度上均達(dá)到最優(yōu)。





此外,UniPercept 天然可以作為從美學(xué)、質(zhì)量、紋理與結(jié)構(gòu)三方面對(duì)于圖像進(jìn)行評(píng)估的評(píng)估指標(biāo)(Metrics),可以準(zhǔn)確反映不同模型輸出圖像的各方面表現(xiàn)。



生成圖像的全方位「感知檔案」

UniPercept 還能為圖像生成全方位的「感知檔案」,不僅給出評(píng)分,還能從美學(xué)、質(zhì)量、紋理與結(jié)構(gòu)三個(gè)方面針對(duì)構(gòu)圖、執(zhí)行精度、損傷位置等具體維度給出詳細(xì)的文字解析與結(jié)構(gòu)化輸出。



結(jié)語(yǔ)


UniPercept 的提出,是多模態(tài)大模型的研究重心正在從單純的語(yǔ)義識(shí)別,向更具挑戰(zhàn)性的「感知圖像」轉(zhuǎn)化的重要一環(huán)。通過(guò)建立統(tǒng)一的評(píng)價(jià)基準(zhǔn)、高效的數(shù)據(jù)生產(chǎn)線(xiàn)以及新穎的任務(wù)對(duì)齊學(xué)習(xí)策略,UniPercept 為未來(lái)的視覺(jué)內(nèi)容評(píng)價(jià)與可控生成提供了一個(gè)強(qiáng)大的底座。它不僅是研究感知的有力工具,更是構(gòu)建「感知閉環(huán)」系統(tǒng)的重要一步。

隨著感知級(jí)理解能力的不斷提升,人工智能將能夠像人類(lèi)藝術(shù)家一樣,不僅能看懂畫(huà)面中的故事,更能體會(huì)并創(chuàng)造出具備極致美感與精湛質(zhì)感的視覺(jué)作品。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
天呀,杜海濤竟然現(xiàn)成這樣了,沈夢(mèng)辰對(duì)他是真愛(ài)啊

天呀,杜海濤竟然現(xiàn)成這樣了,沈夢(mèng)辰對(duì)他是真愛(ài)啊

草莓解說(shuō)體育
2026-01-07 01:43:18
78歲退休大爺被兒子送進(jìn)養(yǎng)老院,捐光378萬(wàn)存款,3個(gè)月后兒子大笑

78歲退休大爺被兒子送進(jìn)養(yǎng)老院,捐光378萬(wàn)存款,3個(gè)月后兒子大笑

青青會(huì)講故事
2025-06-26 11:45:03
福建流落在柬埔寨的吳某楨工作細(xì)節(jié)流出:大部分工作時(shí)間在室內(nèi)…

福建流落在柬埔寨的吳某楨工作細(xì)節(jié)流出:大部分工作時(shí)間在室內(nèi)…

小嵩
2026-01-10 19:34:08
王茜發(fā)飆,輸球后指揮隊(duì)員!劉美君劉鑫孟豆表現(xiàn)太差,陳方也無(wú)用

王茜發(fā)飆,輸球后指揮隊(duì)員!劉美君劉鑫孟豆表現(xiàn)太差,陳方也無(wú)用

金毛愛(ài)女排
2026-01-11 08:32:37
以為是假新聞其實(shí)是真新聞,從袁立到王星,件件離譜又驚人

以為是假新聞其實(shí)是真新聞,從袁立到王星,件件離譜又驚人

上官晚安
2026-01-06 08:08:35
懶懶又去日本陪男友王思聰了,穿成這樣,可真抗凍呀

懶懶又去日本陪男友王思聰了,穿成這樣,可真抗凍呀

小陸搞笑日常
2026-01-07 10:11:27
王亞平的安保:吃飯要檢測(cè),出門(mén)配警衛(wèi),這種“副國(guó)級(jí)”待遇是不是小題大作?

王亞平的安保:吃飯要檢測(cè),出門(mén)配警衛(wèi),這種“副國(guó)級(jí)”待遇是不是小題大作?

歷史回憶室
2026-01-06 15:54:12
中國(guó)股市唯一賺錢(qián)最快的方法:"上升趨勢(shì)+回檔買(mǎi)入"簡(jiǎn)單卻很賺錢(qián)

中國(guó)股市唯一賺錢(qián)最快的方法:"上升趨勢(shì)+回檔買(mǎi)入"簡(jiǎn)單卻很賺錢(qián)

股經(jīng)縱橫談
2026-01-04 20:06:12
川北夫婦120萬(wàn)買(mǎi)下山間別墅,院中地面石板破裂,撬開(kāi)深挖后傻眼

川北夫婦120萬(wàn)買(mǎi)下山間別墅,院中地面石板破裂,撬開(kāi)深挖后傻眼

溫情郵局
2025-08-01 14:07:11
NBA生涯前20場(chǎng)楊瀚森50+25+14!王治郅108+38+6,姚明和周琦呢?

NBA生涯前20場(chǎng)楊瀚森50+25+14!王治郅108+38+6,姚明和周琦呢?

兵哥籃球故事
2026-01-10 14:10:07
中超第11座專(zhuān)業(yè)足球場(chǎng)年底落成:草皮和視野都是國(guó)內(nèi)頂級(jí)!

中超第11座專(zhuān)業(yè)足球場(chǎng)年底落成:草皮和視野都是國(guó)內(nèi)頂級(jí)!

邱澤云
2026-01-10 19:30:22
新加坡不許收臺(tái),話(huà)音剛落,央視公布“南天門(mén)計(jì)劃”,信號(hào)不尋常

新加坡不許收臺(tái),話(huà)音剛落,央視公布“南天門(mén)計(jì)劃”,信號(hào)不尋常

科普100克克
2026-01-10 15:06:11
傅首爾的困境有多難解?一露頭就全網(wǎng)抵制,她不再被網(wǎng)友寬容了?

傅首爾的困境有多難解?一露頭就全網(wǎng)抵制,她不再被網(wǎng)友寬容了?

小熊侃史
2026-01-09 07:35:03
真正忽悠具俊曄的是大S!大S去世后,具俊曄表現(xiàn)深情也是無(wú)奈之舉

真正忽悠具俊曄的是大S!大S去世后,具俊曄表現(xiàn)深情也是無(wú)奈之舉

小娛樂(lè)悠悠
2025-12-21 10:10:12
國(guó)民黨老將被逮捕,鄭麗文1個(gè)出人意料的舉動(dòng),令賴(lài)清德計(jì)謀白費(fèi)

國(guó)民黨老將被逮捕,鄭麗文1個(gè)出人意料的舉動(dòng),令賴(lài)清德計(jì)謀白費(fèi)

策略述
2026-01-10 12:57:46
質(zhì)疑公司年會(huì)“必須穿西裝”要求員工被開(kāi)除!董事長(zhǎng)簡(jiǎn)歷超出尋常

質(zhì)疑公司年會(huì)“必須穿西裝”要求員工被開(kāi)除!董事長(zhǎng)簡(jiǎn)歷超出尋常

火山詩(shī)話(huà)
2026-01-10 08:47:12
18歲的年齡,8000萬(wàn)的身價(jià),切爾西選對(duì)了人?自信和專(zhuān)注才是利器

18歲的年齡,8000萬(wàn)的身價(jià),切爾西選對(duì)了人?自信和專(zhuān)注才是利器

95帕爾馬
2026-01-11 09:23:09
U23國(guó)足戰(zhàn)術(shù)有變!王鈺棟或替補(bǔ)待命,兩大王牌或首發(fā)出場(chǎng)

U23國(guó)足戰(zhàn)術(shù)有變!王鈺棟或替補(bǔ)待命,兩大王牌或首發(fā)出場(chǎng)

徽派體育
2026-01-10 22:27:43
日本大阪、京都百年老店接連倒閉!外國(guó)游客爆滿(mǎn),中國(guó)游客卻已經(jīng)開(kāi)始寫(xiě)差評(píng)…

日本大阪、京都百年老店接連倒閉!外國(guó)游客爆滿(mǎn),中國(guó)游客卻已經(jīng)開(kāi)始寫(xiě)差評(píng)…

東京新青年
2026-01-10 18:06:35
73歲影帝欠租6萬(wàn)面臨驅(qū)逐,昔日硬漢如今禿頭領(lǐng)外賣(mài)太糟心

73歲影帝欠租6萬(wàn)面臨驅(qū)逐,昔日硬漢如今禿頭領(lǐng)外賣(mài)太糟心

蜉蝣說(shuō)
2026-01-09 14:51:15
2026-01-11 10:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12088文章數(shù) 142534關(guān)注度
往期回顧 全部

科技要聞

必看 | 2026開(kāi)年最頂格的AI對(duì)話(huà)

頭條要聞

"國(guó)共論壇"被指即將重啟 鄭麗文:感受到大陸誠(chéng)意善

頭條要聞

"國(guó)共論壇"被指即將重啟 鄭麗文:感受到大陸誠(chéng)意善

體育要聞

詹皇曬照不滿(mǎn)打手沒(méi)哨 裁判報(bào)告最后兩分鐘無(wú)誤判

娛樂(lè)要聞

吳速玲曝兒子Joe是戀愛(ài)腦

財(cái)經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車(chē)要聞

寶馬25年全球銷(xiāo)量246.3萬(wàn)臺(tái) 中國(guó)仍是第一大市場(chǎng)

態(tài)度原創(chuàng)

家居
教育
手機(jī)
親子
本地

家居要聞

木色留白 演繹現(xiàn)代自由

教育要聞

如何看待部分學(xué)校早晨推遲到校時(shí)間

手機(jī)要聞

白面板手機(jī)已絕版!魅族23將在今年亮相:不再采用白面板

親子要聞

寶寶第一次吃米糊,寶寶:有這好東西不早點(diǎn)拿出來(lái)!網(wǎng)友:眼里全是對(duì)食物的渴望

本地新聞

云游內(nèi)蒙|“包”你再來(lái)?一座在硬核里釀出詩(shī)意的城

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版