国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

NeurIPS 2025 Spotlight | 條件表征學(xué)習(xí):一步對齊表征與準則

0
分享至



本文第一作者為四川大學(xué)博士研究生劉泓麟,郵箱為tristanliuhl@gmail.com,通訊作者為四川大學(xué)李云帆博士后與四川大學(xué)彭璽教授。

一張圖片包含的信息是多維的。例如下面的圖 1,我們至少可以得到三個層面的信息:主體是大象,數(shù)量有兩頭,環(huán)境是熱帶稀樹草原(savanna)。然而,如果由傳統(tǒng)的表征學(xué)習(xí)方法來處理這張圖片,比方說就將其送入一個在 ImageNet 上訓(xùn)練好的 ResNet 或者 Vision Transformer,往往得到的表征只會體現(xiàn)其主體信息,也就是會簡單地將該圖片歸為大象這一類別。這顯然是不合理的。



圖 1:傳統(tǒng)表征學(xué)習(xí)(上)與條件表征學(xué)習(xí)(下)的比較。傳統(tǒng)的表征學(xué)習(xí)方法只能學(xué)習(xí)到一種通用的表征,忽略了其他有意義的信息;文章提出的條件表征學(xué)習(xí)能夠基于指定準則,得到該準則下表現(xiàn)力更強的條件表征,適應(yīng)多種下游任務(wù)。

此外,在各大電商平臺,用戶通常根據(jù)不同的標(biāo)準(例如顏色、材質(zhì)或場合)搜索商品。例如,用戶今天可能搜索 “紅色連衣裙”,明天搜索 “正裝”,后天搜索某個全新的關(guān)鍵詞。這對于擁有龐大規(guī)模商品的平臺來說,手動打標(biāo)簽是不現(xiàn)實的,而傳統(tǒng)的表征學(xué)習(xí)也僅僅只能獲取到 “連衣裙” 這個層面的信息。

要獲取圖片中除了 “大象”、“連衣裙” 之外的信息,一個很容易想到的方法就是進行針對性的有監(jiān)督訓(xùn)練:基于不同的準則比如環(huán)境,進行額外的標(biāo)注,再從頭訓(xùn)練或者基于已有表征訓(xùn)練一個額外的線性層。但是基于這種方式,顯然是 “治標(biāo)不治本” 的。因為一旦有了新的需求,便又需要進行針對性的數(shù)據(jù)收集、標(biāo)注和訓(xùn)練,需要付出大量的時間和人力成本。

很幸運的,我們處在多模態(tài)大模型的時代,這個在以前可能會很困難的問題在今天是有很多解法的。我們可以直接通過詢問 LLaVA,它便會告訴我們圖片在指定準則下的信息。但這種方式也還不夠高效,至少在 2025 年的今天,多模態(tài)大模型的使用成本還是需要考慮的。如果需要處理 ImageNet 之類的大規(guī)模數(shù)據(jù)集或者電商平臺繁雜的商品,得到其在指定準則下的信息,這個開銷就比較大了。所以對大多數(shù)人來說,現(xiàn)如今要獲取圖片的多維信息,還是需要找到一個更加高效的方法。



  • 論文標(biāo)題:Conditional Representation Learning for Customized Tasks
  • 論文鏈接:https://arxiv.org/abs/2510.04564
  • 代碼鏈接:https://github.com/XLearning-SCU/2025-NeurIPS-CRL

方法


我們知道,對于三維直角坐標(biāo)系,一組基,比如 [(1, 0, 0), (0, 1, 0), (0, 0, 1)],其線性組合即可構(gòu)建出該坐標(biāo)系中的任何向量。類似的,對于顏色體系,只需要 “紅”、“綠”、“藍” 三原色即可調(diào)出所有的顏色。

受此啟發(fā),我們想到,是否對于任意一個給定的準則,也存在著一個對應(yīng)的 “概念空間” 及其基?如果能在這個空間中找到一組基,那么我們只需要將原始表征投影到該空間上,理論上就能獲得在該準則下更具表現(xiàn)力和判別性的特征。

找到給定準則對應(yīng)的基,這聽起來有些困難。但沒關(guān)系,我們不需要很準確地找到,只需要接近它就好。

基于這個想法,論文提出了一種即插即用的條件表征學(xué)習(xí)方法。如圖 2 所示,給定準則(例如 “顏色”),CRL 首先讓大語言模型 LLM 生成該準則相關(guān)的描述文本(例如 “紅色”,“藍色” 和 “綠色” 等)。隨后,CRL 將由 VLM 得到的通用圖片表征,投影到由描述文本張成的空間中,得到該準則下的條件表征。該表征在指定的準則下表達更充分,并且具有更優(yōu)的可解釋性,能有效適應(yīng)下游定制化任務(wù)。



圖 2:所提出的條件表征學(xué)習(xí)(CRL)的總體框架。圖中以通用表征空間(準則為隱式的 “形狀”)轉(zhuǎn)換到 “顏色” 準則空間為例。

直白地說,只需要將對齊的圖片和文本表征,做個矩陣乘法就好了,甚至不需要訓(xùn)練。復(fù)現(xiàn)難度約等于:



實驗


分類和檢索任務(wù)是衡量表征學(xué)習(xí)性能的兩個經(jīng)典下游任務(wù)。論文在兩個分類任務(wù)(少樣本分類、聚類)和兩個檢索任務(wù)(相似度檢索、服裝檢索)上進行了充分的實驗驗證,部分實驗結(jié)果如下:



圖 3:分類任務(wù)



表 1:所提出的 CRL 在少樣本分類任務(wù)上的性能。



表 2:所提出的 CRL 在聚類任務(wù)上的性能。





圖 4:相似度檢索任務(wù)。上為 “Focus on an object”(Focus),下為 “Change an Object”(Change)。



表 3:所提出的 CRL 在相似度檢索任務(wù)上的性能。



圖 5:服裝檢索任務(wù)。



表 4:所提出的 CRL 在服裝檢索任務(wù)上的性能。

從上述結(jié)果中可以看出, CRL 可以作為一個即插即用的模塊,與現(xiàn)有多模態(tài)方法相結(jié)合,在不同準則下,其得到的條件表征在下游任務(wù)中都取得了比原表征更加優(yōu)異的表現(xiàn),性能甚至超過了對應(yīng)領(lǐng)域的專用方法。更多實驗可參見論文。

總結(jié)

與傳統(tǒng)的表征學(xué)習(xí)只得到單一的通用表征不同,本文提出了條件表征學(xué)習(xí),通過獲取指定準則下的文本基,并將圖像表征投影到該文本基張成的空間中,即可得到該準則下表現(xiàn)力更強的條件表征,以更好地適應(yīng)各種下游任務(wù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
南京博物院院長從靈谷塔七層一躍而下!

南京博物院院長從靈谷塔七層一躍而下!

興化論談
2025-12-19 20:21:07
“日本僅占地球0.1%,卻毀掉71%海洋”,去年蜜雪冰城小票事件又被翻出來了

“日本僅占地球0.1%,卻毀掉71%海洋”,去年蜜雪冰城小票事件又被翻出來了

回旋鏢
2025-12-19 18:01:40
滿眼馬賽克,多張克林頓,不見特朗普?美司法部“壓線”公開愛潑斯坦案文件

滿眼馬賽克,多張克林頓,不見特朗普?美司法部“壓線”公開愛潑斯坦案文件

上觀新聞
2025-12-20 14:37:09
深圳跌出幸福感!曾經(jīng)1000萬的房子,我500萬抄底!

深圳跌出幸福感!曾經(jīng)1000萬的房子,我500萬抄底!

樓市滅霸
2025-12-19 14:20:44
高盛:未來2年房價或再跌10-30%  警告可能出現(xiàn)房價負反饋循環(huán)

高盛:未來2年房價或再跌10-30% 警告可能出現(xiàn)房價負反饋循環(huán)

財富情報局
2025-12-19 23:06:25
一個葬禮引發(fā)的胡說八道

一個葬禮引發(fā)的胡說八道

西樓飲月
2025-12-19 21:10:09
8800萬國寶迷案:南博前院長“沒經(jīng)我手”,簽字鐵證難掩三重疑點

8800萬國寶迷案:南博前院長“沒經(jīng)我手”,簽字鐵證難掩三重疑點

行者聊官
2025-12-20 10:58:21
實錘了!龐萊臣捐贈藏品果然被拍賣了,一幅畫2014年被拍賣230萬

實錘了!龐萊臣捐贈藏品果然被拍賣了,一幅畫2014年被拍賣230萬

火山詩話
2025-12-19 14:26:47
警示!上海一三甲醫(yī)院發(fā)生一起甲等醫(yī)療事故,醫(yī)院賠償70多萬

警示!上海一三甲醫(yī)院發(fā)生一起甲等醫(yī)療事故,醫(yī)院賠償70多萬

梅斯醫(yī)學(xué)
2025-12-19 07:54:40
心痛!30歲男銷售確認死亡,目擊者講述事發(fā)經(jīng)過,車主懵了

心痛!30歲男銷售確認死亡,目擊者講述事發(fā)經(jīng)過,車主懵了

魔都姐姐雜談
2025-12-20 09:19:55
【獨家】小米給全國汽車經(jīng)銷商發(fā)超一億元“紅包”

【獨家】小米給全國汽車經(jīng)銷商發(fā)超一億元“紅包”

界面新聞
2025-12-20 12:27:14
剎車失靈狂奔490公里 司機希望退款或換車,網(wǎng)友質(zhì)疑“自導(dǎo)自演”

剎車失靈狂奔490公里 司機希望退款或換車,網(wǎng)友質(zhì)疑“自導(dǎo)自演”

半島晨報
2025-12-20 14:45:12
南博再爆大瓜:生物碩士“速成”美院博士,冒名捐贈者龐家后人

南博再爆大瓜:生物碩士“速成”美院博士,冒名捐贈者龐家后人

聽心堂
2025-12-20 09:23:43
郭沫若女兒已報警,北京保利拍賣回應(yīng)

郭沫若女兒已報警,北京保利拍賣回應(yīng)

先鋒新聞
2025-12-15 18:38:28
國民黨李眉蓁:臺灣民意暴怒,要讓討厭賴清德的氛圍發(fā)酵

國民黨李眉蓁:臺灣民意暴怒,要讓討厭賴清德的氛圍發(fā)酵

海峽導(dǎo)報社
2025-12-19 15:56:22
大齡男女認識一月閃婚,女方宮外孕切除輸卵管五天后男方提離婚,并換掉門鎖不讓女方進門,法院:準予離婚!

大齡男女認識一月閃婚,女方宮外孕切除輸卵管五天后男方提離婚,并換掉門鎖不讓女方進門,法院:準予離婚!

觀威海
2025-12-20 12:10:04
“難怪口感怪怪的……”必勝客門店被查!羅永浩發(fā)聲

“難怪口感怪怪的……”必勝客門店被查!羅永浩發(fā)聲

都市快報橙柿互動
2025-12-20 11:32:06
突發(fā)!左膝半月板撕裂+缺陣4-5周,完犢子了,這還咋交易?

突發(fā)!左膝半月板撕裂+缺陣4-5周,完犢子了,這還咋交易?

球童無忌
2025-12-20 13:27:27
網(wǎng)友在泰國駐華大使館下面留言打這里:柬埔寨幼兒骨髓提取中心

網(wǎng)友在泰國駐華大使館下面留言打這里:柬埔寨幼兒骨髓提取中心

深度報
2025-12-19 23:07:44
牛群也沒想到,折騰半生家產(chǎn)盡失,如今美國畢業(yè)的兒子成晚年依靠

牛群也沒想到,折騰半生家產(chǎn)盡失,如今美國畢業(yè)的兒子成晚年依靠

寒士之言本尊
2025-12-19 20:26:51
2025-12-20 17:24:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

歐盟動用俄資產(chǎn)方案未通過 美媒:馮德萊恩的重大挫敗

頭條要聞

歐盟動用俄資產(chǎn)方案未通過 美媒:馮德萊恩的重大挫敗

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

戚薇女兒大變樣,10歲就進入“尷尬期”

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

家居
藝術(shù)
教育
數(shù)碼
公開課

家居要聞

高端私宅 理想隱居圣地

藝術(shù)要聞

馬巖松新作!桂林“超級星”正式揭幕!

教育要聞

小升初易錯題,1發(fā)命中目標(biāo)概率是60%,3發(fā)呢?

數(shù)碼要聞

QCY N20耳機開啟新品預(yù)約,129元享大動圈與50dB降噪

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版