国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北大團(tuán)隊(duì)提出CPL++框架,實(shí)現(xiàn)視覺定位模型的自知之明和自我糾錯(cuò)

0
分享至



本文是北京大學(xué)彭宇新教授團(tuán)隊(duì)在視覺定位方向的最新研究成果,相關(guān)論文已被頂級(jí)國(guó)際期刊 IEEE TPAMI 接收。為視覺定位模型賦予「自知之明」能力 —— 通過(guò)自監(jiān)督的關(guān)聯(lián)校正與驗(yàn)證模塊,在訓(xùn)練過(guò)程中動(dòng)態(tài)識(shí)別、衰減并糾正錯(cuò)誤的監(jiān)督信號(hào)。大量實(shí)驗(yàn)證明,讓模型學(xué)會(huì)「自我糾錯(cuò)」,是突破弱監(jiān)督視覺定位瓶頸的有效途徑。



  • 論文標(biāo)題:Confidence-aware Pseudo-label Self-Correction for Weakly Supervised Visual Grounding
  • 論文鏈接:https://ieeexplore.ieee.org/document/11433810/
  • 開源代碼:https://github.com/oceanflowlab/CPL
  • 實(shí)驗(yàn)室網(wǎng)址:http://mipl.pku.edu.cn

背景與動(dòng)機(jī)

視覺定位(Visual Grounding)旨在根據(jù)自然語(yǔ)言查詢準(zhǔn)確定位圖像中的目標(biāo)區(qū)域。然而,全監(jiān)督方法嚴(yán)重依賴密集的「圖像 - 文本 - 物體框」細(xì)粒度標(biāo)注,這在處理大規(guī)模復(fù)雜場(chǎng)景時(shí)面臨巨大的標(biāo)注成本挑戰(zhàn)。因此,僅利用「圖像 - 文本」進(jìn)行訓(xùn)練的弱監(jiān)督視覺定位受到了廣泛關(guān)注。

現(xiàn)有弱監(jiān)督方法通常將該任務(wù)視為一個(gè)目標(biāo)檢索過(guò)程,依賴跨模態(tài)匹配分?jǐn)?shù)或重構(gòu)損失來(lái)挑選候選區(qū)域。但語(yǔ)言描述的高層抽象概念與圖像區(qū)域的像素級(jí)特征之間存在著巨大的「異構(gòu)鴻溝」,這使得跨模態(tài)匹配往往極不可靠。模型在訓(xùn)練中一旦學(xué)到了這些錯(cuò)誤的「?jìng)侮P(guān)聯(lián)」,就會(huì)陷入錯(cuò)誤傳播和累積的死循環(huán)。此前的無(wú)監(jiān)督方法嘗試用模板生成偽查詢,但生成的句子生硬且缺乏多樣性,同樣忽略了錯(cuò)誤關(guān)聯(lián)對(duì)模型的嚴(yán)重影響。

針對(duì)這一難題,北京大學(xué)彭宇新教授團(tuán)隊(duì)提出了置信度感知的偽標(biāo)簽學(xué)習(xí)框架(CPL)及其進(jìn)階版 CPL++,通過(guò)引入大模型生成多樣化描述,并結(jié)合「自監(jiān)督關(guān)聯(lián)驗(yàn)證」機(jī)制,讓模型在訓(xùn)練過(guò)程中學(xué)會(huì)動(dòng)態(tài)發(fā)現(xiàn)并糾正自己的錯(cuò)誤,實(shí)現(xiàn)弱監(jiān)督視覺定位性能的提升。

技術(shù)方案

本文提出的 CPL 框架不僅能過(guò)濾錯(cuò)誤的區(qū)域 - 文本關(guān)聯(lián),更能利用模型自身在訓(xùn)練中不斷增強(qiáng)的定位能力,動(dòng)態(tài)地「糾正」這些錯(cuò)誤標(biāo)簽。其核心亮點(diǎn)包含以下幾個(gè)方面:



圖 1. 置信度感知的偽標(biāo)簽學(xué)習(xí)框架 CPL

1. 高質(zhì)量偽查詢生成與單模態(tài)匹配

由于跨模態(tài)匹配的困難,本文轉(zhuǎn)換思路,利用單模態(tài)內(nèi)的匹配構(gòu)造偽標(biāo)簽。如上圖所示,CPL 框架提出了三條互補(bǔ)的生成管線(啟發(fā)式增強(qiáng) Heuristic+、以對(duì)象為中心描述 Object-Centric、以關(guān)系為中心描述 Relation-Aware),為圖像中的每個(gè)候選區(qū)域生成描述性強(qiáng)、真實(shí)且多樣化的偽查詢文本。隨后,模型在文本特征空間內(nèi)計(jì)算真實(shí)查詢與偽查詢之間的單模態(tài)相似度,挑選最匹配的區(qū)域作為初始偽標(biāo)簽,從而避開了跨模態(tài)對(duì)齊帶來(lái)的挑戰(zhàn)。

2. 靜態(tài)跨模態(tài)驗(yàn)證模塊



雖然 CPL 取得了顯著效果,但其驗(yàn)證模塊是孤立于定位模型之外的「靜態(tài)」評(píng)估,不僅無(wú)法在訓(xùn)練中動(dòng)態(tài)發(fā)揮作用,更缺乏對(duì)錯(cuò)誤關(guān)聯(lián)的「糾正」機(jī)制。為此,研究團(tuán)隊(duì)進(jìn)一步擴(kuò)展得到 CPL++ 框架,在以下核心方面進(jìn)行了自監(jiān)督升級(jí)。



圖 2. 置信度感知的偽標(biāo)簽學(xué)習(xí)框架的進(jìn)階版本 CPL++

3. 自監(jiān)督關(guān)聯(lián)校正與動(dòng)態(tài)偽標(biāo)簽優(yōu)化

為了糾正錯(cuò)誤的「區(qū)域 - 查詢」關(guān)聯(lián),CPL++ 進(jìn)一步引入了自監(jiān)督關(guān)聯(lián)校正模塊。首先,模型不僅僅依賴檢測(cè)器的置信度,而是結(jié)合了查詢文本中的類別、屬性和空間關(guān)系,構(gòu)建了一個(gè)高質(zhì)量的語(yǔ)義感知候選池。其綜合評(píng)分函數(shù)定義為:



該評(píng)估函數(shù)綜合性地結(jié)合了查詢文本和候選區(qū)域在類別、屬性、空間關(guān)系上的匹配程度,并結(jié)合檢測(cè)器的置信度,對(duì)「區(qū)域 - 查詢」偽標(biāo)簽提供了全面、可靠的評(píng)估手段,用于發(fā)現(xiàn)可能錯(cuò)誤的「區(qū)域 - 查詢」關(guān)聯(lián),過(guò)濾得到高質(zhì)量的偽查詢候選池,用于訓(xùn)練模型。





4. 自監(jiān)督關(guān)聯(lián)驗(yàn)證





這種自監(jiān)督驗(yàn)證機(jī)制巧妙融合了強(qiáng)大的靜態(tài)預(yù)訓(xùn)練模型的先驗(yàn)知識(shí)與不斷動(dòng)態(tài)進(jìn)化的定位模型的能力,降低了誤差傳播的風(fēng)險(xiǎn)。

實(shí)驗(yàn)結(jié)果

本文在弱監(jiān)督視覺定位領(lǐng)域的五大數(shù)據(jù)集(RefCOCO、RefCOCO+、RefCOCOg、ReferItGame、Flickr30K Entities)上進(jìn)行了全面評(píng)估。

CPL 基礎(chǔ)框架在這五個(gè)數(shù)據(jù)集的測(cè)試集上超越現(xiàn)有的弱監(jiān)督與無(wú)監(jiān)督方法。具備自糾錯(cuò)能力的 CPL++ 框架在 CPL 的基礎(chǔ)上進(jìn)一步實(shí)現(xiàn)了 2.78%、5.81%、1.08%、2.03% 和 2.55% 的絕對(duì)性能提升。CPL++ 框架將弱監(jiān)督方法與全監(jiān)督方法之間的性能差距縮小,展現(xiàn)了偽標(biāo)簽自校正機(jī)制的巨大潛力。



表 1:RefCOCO、RefCOCO+、RefCOCOg 數(shù)據(jù)集結(jié)果



表 2:ReferItGame、Flickr30K Entities 數(shù)據(jù)集結(jié)果

為了進(jìn)一步直觀展示模型生成偽標(biāo)簽的實(shí)際效果,圖 3 中給出了偽標(biāo)簽的可視化結(jié)果,可以看出,CPL 能夠?yàn)閳D像候選區(qū)域生成描述準(zhǔn)確、句式豐富且包含復(fù)雜交互關(guān)系的高質(zhì)量偽查詢,提供了高度互補(bǔ)的多樣化監(jiān)督信息。此外,圖 4 展示了自監(jiān)督關(guān)聯(lián)校正模塊的動(dòng)態(tài)糾錯(cuò)全過(guò)程:從圖 4(a)中最初建立的初步偽查詢關(guān)聯(lián),到圖 4(b)中經(jīng)過(guò)單模態(tài)匹配后可能產(chǎn)生的偏差關(guān)聯(lián),最終在校正模塊的干預(yù)下,圖 4(c)中模型的預(yù)測(cè)框被成功糾正并精準(zhǔn)鎖定到了與圖 4(d)中的真實(shí)文本完全對(duì)應(yīng)的正確目標(biāo)區(qū)域上。這些案例證明了 CPL++ 框架在動(dòng)態(tài)識(shí)別并修正錯(cuò)誤監(jiān)督信號(hào)方面的強(qiáng)大能力。



圖 3:CPL 框架偽標(biāo)簽可視化



圖 4:CPL++ 框架自監(jiān)督關(guān)聯(lián)校正可視化

總結(jié)

本文提出了一種弱監(jiān)督視覺定位框架 CPL++ 。該框架不僅通過(guò)單模態(tài)匹配建立了更可靠的初始區(qū)域 - 文本關(guān)聯(lián),更重要的是,它為模型賦予了「自知之明」能力 —— 通過(guò)自監(jiān)督的關(guān)聯(lián)校正與驗(yàn)證模塊,在訓(xùn)練過(guò)程中動(dòng)態(tài)識(shí)別、衰減并糾正錯(cuò)誤的監(jiān)督信號(hào)。大量實(shí)驗(yàn)證明,讓模型學(xué)會(huì)「自我糾錯(cuò)」,是突破弱監(jiān)督視覺定位瓶頸的有效途徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
凈利潤(rùn)最高預(yù)增9599%!固態(tài)電池產(chǎn)業(yè)鏈全面爆發(fā),上車機(jī)會(huì)來(lái)了?

凈利潤(rùn)最高預(yù)增9599%!固態(tài)電池產(chǎn)業(yè)鏈全面爆發(fā),上車機(jī)會(huì)來(lái)了?

新浪財(cái)經(jīng)
2026-04-18 13:08:21
傷心欲絕!女孩哭到深夜,相戀4年情侶因8萬(wàn)的彩禮分歧,訂婚告吹

傷心欲絕!女孩哭到深夜,相戀4年情侶因8萬(wàn)的彩禮分歧,訂婚告吹

火山詩(shī)話
2026-04-16 06:21:13
太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

魔都姐姐雜談
2026-03-28 04:04:21
沙家浜養(yǎng)傷的新四軍出了多少位開國(guó)將軍、大校、上校

沙家浜養(yǎng)傷的新四軍出了多少位開國(guó)將軍、大校、上校

小港哎歷史
2026-04-18 16:30:03
高市準(zhǔn)備梭哈,日艦闖入臺(tái)海14小時(shí),解放軍分兵兩路,反包圍開始

高市準(zhǔn)備梭哈,日艦闖入臺(tái)海14小時(shí),解放軍分兵兩路,反包圍開始

起喜電影
2026-04-18 21:04:00
佛說(shuō):能遇見此文,皆是福報(bào)加持,往后人生皆順,內(nèi)心有底氣

佛說(shuō):能遇見此文,皆是福報(bào)加持,往后人生皆順,內(nèi)心有底氣

金沛的國(guó)學(xué)筆記
2026-04-12 20:26:38
造謠日本小學(xué)生拋尸案嫌疑人為“中國(guó)籍”,臺(tái)媒被“打臉”后道歉

造謠日本小學(xué)生拋尸案嫌疑人為“中國(guó)籍”,臺(tái)媒被“打臉”后道歉

觀察者網(wǎng)
2026-04-17 22:42:10
拉夫羅夫:莫斯科將把所有歷史上的俄羅斯土地歸還其合法家園

拉夫羅夫:莫斯科將把所有歷史上的俄羅斯土地歸還其合法家園

舊窗老街
2026-02-23 01:50:19
有一種發(fā)育過(guò)猛叫“鐘麗緹”女兒,看完她們的近照,網(wǎng)友不淡定了

有一種發(fā)育過(guò)猛叫“鐘麗緹”女兒,看完她們的近照,網(wǎng)友不淡定了

健身迷
2026-04-18 10:09:52
本周大跌近10%,美油一度跌破80美元

本周大跌近10%,美油一度跌破80美元

每日經(jīng)濟(jì)新聞
2026-04-18 08:36:58
有趣的醫(yī)學(xué)案例:直腸射精!

有趣的醫(yī)學(xué)案例:直腸射精!

黯泉
2026-04-07 21:58:25
iOS26.5重磅推送!4.6GB大更新普通用戶慎更

iOS26.5重磅推送!4.6GB大更新普通用戶慎更

小蜜情感說(shuō)
2026-04-18 00:25:24
何潤(rùn)東將身著“霸王鎧甲”亮相項(xiàng)羽故里助威“蘇超” 制作者揭秘:鎧甲藏了“小機(jī)關(guān)”

何潤(rùn)東將身著“霸王鎧甲”亮相項(xiàng)羽故里助威“蘇超” 制作者揭秘:鎧甲藏了“小機(jī)關(guān)”

紅星新聞
2026-04-18 15:12:21
與泰國(guó)女友吵架后失聯(lián) 中國(guó)臺(tái)灣男子在芭提雅醫(yī)院被找到 正接受心理治療

與泰國(guó)女友吵架后失聯(lián) 中國(guó)臺(tái)灣男子在芭提雅醫(yī)院被找到 正接受心理治療

曼谷陳大叔
2026-04-18 13:37:05
演員劉浩存遭男子強(qiáng)行貼臉合照,發(fā)生肢體碰撞

演員劉浩存遭男子強(qiáng)行貼臉合照,發(fā)生肢體碰撞

深圳晚報(bào)
2026-04-17 23:47:46
活該,設(shè)計(jì)院降薪降得領(lǐng)導(dǎo)都指揮不動(dòng)員工了!

活該,設(shè)計(jì)院降薪降得領(lǐng)導(dǎo)都指揮不動(dòng)員工了!

黯泉
2026-04-17 20:59:06
畢業(yè)生破1270萬(wàn)!2026下半年開始,大部分家庭將直面“4大難題”

畢業(yè)生破1270萬(wàn)!2026下半年開始,大部分家庭將直面“4大難題”

復(fù)轉(zhuǎn)這些年
2026-04-05 18:00:42
外國(guó)人扎堆來(lái)中國(guó)看?。鹤≡?天賬單4萬(wàn)美元,被歐美醫(yī)療逼瘋了!

外國(guó)人扎堆來(lái)中國(guó)看?。鹤≡?天賬單4萬(wàn)美元,被歐美醫(yī)療逼瘋了!

古事尋蹤記
2026-04-15 07:21:44
中央明確了!社保最低繳費(fèi)年限要提高,70、80后得早做準(zhǔn)備

中央明確了!社保最低繳費(fèi)年限要提高,70、80后得早做準(zhǔn)備

云鵬敘事
2026-04-12 16:36:39
四川光臂男校門口砸車后續(xù)!知情人曝真實(shí)身份,后續(xù)處理大快人心

四川光臂男校門口砸車后續(xù)!知情人曝真實(shí)身份,后續(xù)處理大快人心

墜入二次元的海洋
2026-04-17 19:19:54
2026-04-19 01:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12792文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒有人再嘲笑他了

娛樂(lè)要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬(wàn)科"2.0:管理層如何吸血萬(wàn)物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬(wàn)元起

態(tài)度原創(chuàng)

旅游
時(shí)尚
本地
游戲
家居

旅游要聞

云南昆明游客踩在鮮花上拍照,把電動(dòng)車扔進(jìn)滇池:建議拉入黑名單

選對(duì)發(fā)型,真的能少走很多變美彎路

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

讓老粥批直呼“計(jì)劃有變”的歲獸代理人,到底是什么東西?

家居要聞

法式線條 時(shí)光靜淌

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版