国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從“Spider”到SAM 3:概念提示分割小考

0
分享至

文章來(lái)源:我愛計(jì)算機(jī)視覺(ID:aicvml)

最近,SAM 3 以概念提示分割再次引起計(jì)算機(jī)視覺研究社區(qū)的注意。圖像分割技術(shù),作為理解視覺世界的基石,正從為特定任務(wù)(如車輛分割、息肉分割、偽裝物體檢測(cè))訓(xùn)練的專用模型,邁向能夠“分割萬(wàn)物”的通用大模型時(shí)代。今天,CV君將和大家一起,藉由三篇論文,回顧從專才模型到通用模型SAM系列的概念分割的技術(shù)演進(jìn)。

在深入探討這些前沿技術(shù)之前,CV君覺得有必要先聊聊圖像分割領(lǐng)域里兩個(gè)核心概念的區(qū)分:上下文無(wú)關(guān)概念(Context-Independent, CI)上下文依賴概念(Context-Dependent, CD)。

簡(jiǎn)單來(lái)說(shuō),CI 概念指的是那些無(wú)論出現(xiàn)在什么場(chǎng)景下,其定義和識(shí)別特征都相對(duì)固定的物體,比如“人”、“汽車”、“飛機(jī)”等。它們的類別是固定的,不隨環(huán)境變化而改變。長(zhǎng)久以來(lái),多類別的語(yǔ)義分割領(lǐng)域主要關(guān)注的就是這類 Multi-CI 概念的分割。

CD 概念則恰恰相反,它們的識(shí)別和理解嚴(yán)重依賴其所處的環(huán)境和上下文信息。例如,偽裝的物體、陰影、透明物體,以及醫(yī)學(xué)影像中的病灶等。這些概念的特點(diǎn)是,目標(biāo)本身如果不結(jié)合周圍環(huán)境,就難以被準(zhǔn)確識(shí)別。由于不同CD概念之間存在較大的領(lǐng)域/模態(tài)差異(domain/modality gap),長(zhǎng)期以來(lái),對(duì)CD概念的研究多是面向單一概念的“專才”范式。


本圖來(lái)自下述的Spider文

上圖展示了CI概念(如熊、船、巴士)與CD概念(如顯著物體、陰影、COVID-19感染病灶、息肉)在視覺上的對(duì)比。CI概念的分割目標(biāo)清晰,而CD概念的分割則需要考慮其與周圍環(huán)境的互動(dòng)。

研究業(yè)界論文可以發(fā)現(xiàn),傳統(tǒng)的 Multi-CI 概念語(yǔ)義分割領(lǐng)域目前已明顯遇到瓶頸,而轉(zhuǎn)向 Multi-CD 概念分割,無(wú)疑是一個(gè)新的起點(diǎn)。如果能將這些復(fù)雜的CD概念統(tǒng)一起來(lái),完成復(fù)雜的 Multi-CD 概念預(yù)測(cè),將是進(jìn)一步完善圖像分割范式的重要一步。畢竟,Multi-CI + Multi-CD 才是語(yǔ)義分割的完整構(gòu)成。

接下來(lái),就讓我們從 Spider 開始,看看這些模型是如何一步步探索 Multi-CD 概念分割的。

Spider:統(tǒng)一上下文依賴概念的分割專家

首先,讓我們回到2024年5月,一篇被ICML 2024錄用的論文為我們介紹了一位“專家”型選手。



  • 論文標(biāo)題: Spider: A Unified Framework for Context-dependent Concept Segmentation

  • 錄用信息: ICML 2024

  • 論文地址: https://arxiv.org/abs/2405.01002

在分割領(lǐng)域,有些概念的識(shí)別嚴(yán)重依賴其周圍的環(huán)境,比如偽裝的章魚、透明的玻璃杯或是醫(yī)學(xué)影像中的病灶。這些被稱為“上下文依賴(Context-Dependent)”概念。傳統(tǒng)方法通常為每一種任務(wù)都訓(xùn)練一個(gè)“專才”模型,費(fèi)時(shí)費(fèi)力且難以泛化。

為了解決這個(gè)問(wèn)題,來(lái)自大連理工大學(xué)的研究者們提出了一個(gè)名為Spider(蜘蛛)的統(tǒng)一模型。它能夠在一個(gè)復(fù)雜的網(wǎng)絡(luò)(語(yǔ)義空間)中,通過(guò)交錯(cuò)的概念(任務(wù)領(lǐng)域和類別語(yǔ)義)精準(zhǔn)地“爬”到任何感興趣的目標(biāo)上。


Spider的核心思想

Spider的核心在于其獨(dú)特的“概念濾波器(Concept Filters)”機(jī)制。它接收一組“圖像-掩碼”對(duì)作為視覺提示(prompt),然后動(dòng)態(tài)生成一個(gè)濾波器,指導(dǎo)模型在當(dāng)前圖像中分割出與提示相似的概念。

如下圖所示,這種方法與之前工作的特征交互方式有所不同。Spider不只是簡(jiǎn)單地融合特征,而是利用提示信息來(lái)生成一個(gè)動(dòng)態(tài)的、針對(duì)特定概念的“篩子”,從而能更靈活地處理不同的分割任務(wù)。


整個(gè)流程可以概括為:

  1. 輸入 :待分割的目標(biāo)圖像,以及一組包含同類概念的“圖像-掩碼”提示。

  2. 特征提取 :圖像和提示分別通過(guò)編碼器提取特征。

  3. 概念濾波 :利用提示特征生成前景和背景感知的查詢(queries),并通過(guò)一個(gè)動(dòng)態(tài)生成的概念濾波器作用于解碼器的最后一層。

  4. 輸出 :精準(zhǔn)的分割掩碼。


實(shí)驗(yàn)效果如何?

Spider的表現(xiàn)非常亮眼。在一個(gè)包含8個(gè)不同上下文依賴分割任務(wù)(4個(gè)自然場(chǎng)景+4個(gè)醫(yī)學(xué)場(chǎng)景)的數(shù)據(jù)集上,Spider以單一模型顯著超越了當(dāng)時(shí)最先進(jìn)的8個(gè)“專才”模型。


從可視化結(jié)果中我們可以看到,無(wú)論是顯著性物體、偽裝物體,還是各種醫(yī)學(xué)病灶,Spider都能給出高質(zhì)量的分割結(jié)果。


更令人印象深刻的是它的持續(xù)學(xué)習(xí)能力。當(dāng)模型在T1-T4任務(wù)上預(yù)訓(xùn)練后,可以持續(xù)微調(diào)以適應(yīng)T5-T8的新任務(wù),而舊任務(wù)的性能下降非常小。這證明了Spider框架的強(qiáng)大擴(kuò)展性。


承前啟后:對(duì)SAM系列模型評(píng)估后的思考

Spider展示了統(tǒng)一模型的潛力,但它仍是一個(gè)“專家系統(tǒng)”。而幾乎同時(shí)期,以SAM(Segment Anything Model)為代表的“通才”基礎(chǔ)模型橫空出世,試圖“分割萬(wàn)物”。那么,這些通用大模型在Spider所關(guān)注的“上下文依賴”這類精細(xì)任務(wù)上表現(xiàn)如何呢?

一篇于2024年12月提交給IJCV的論文延續(xù)了這一探索,建立了一個(gè)統(tǒng)一的評(píng)估框架,全面審視了SAM和SAM 2在11種不同上下文依賴概念上的表現(xiàn)。



  • 論文標(biāo)題: Inspiring the Next Generation of Segment Anything Models:Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes

  • 投稿信息: IJCV 投稿

  • 論文地址: https://arxiv.org/abs/2412.01240

這項(xiàng)工作更像是一次全面的“摸底考試”,它不僅評(píng)估了SAM系列,還為未來(lái)的類似SAM 3的分割模型探索了方向。


SAM vs SAM 2

在深入評(píng)估之前,我們先簡(jiǎn)單回顧下SAM和SAM 2的結(jié)構(gòu)差異。SAM 2引入了前一幀的預(yù)測(cè)結(jié)果作為額外輸入,增強(qiáng)了在視頻或序列數(shù)據(jù)上的表現(xiàn)。


“大一統(tǒng)”評(píng)估結(jié)果

研究者們?cè)诎@著物體、偽裝物體、陰影、透明物體、工業(yè)缺陷以及多種醫(yī)學(xué)病灶在內(nèi)的圖像和視頻數(shù)據(jù)集上,對(duì)SAM和SAM 2進(jìn)行了詳細(xì)的量化和質(zhì)化評(píng)估。



結(jié)果發(fā)現(xiàn),盡管SAM系列模型非常強(qiáng)大,但在很多需要深度上下文理解的任務(wù)上,它們的“零樣本”表現(xiàn)并不總是盡如人意。例如,在偽裝物體檢測(cè)和陰影檢測(cè)中,SAM的分割結(jié)果常常不完整或存在明顯錯(cuò)誤。

下面是一些可視化對(duì)比,可以直觀地看到SAM和SAM 2在不同任務(wù)上的表現(xiàn):

偽裝物體檢測(cè) (上) vs. 陰影檢測(cè) (下)


透明物體分割 (上) vs. 工業(yè)表面異常檢測(cè) (下)


這項(xiàng)評(píng)估工作如同一面鏡子,照見了通用大模型在走向真正“萬(wàn)能”的道路上,還需要在理解復(fù)雜、微妙的視覺概念方面繼續(xù)努力。這也為SAM 3等類似模型的登場(chǎng)埋下了伏筆。

范式躍進(jìn):SAM 3 的“概念分割”革命

時(shí)間快進(jìn)到2025年10月,一篇投往ICLR 2026的論文揭開了SAM 3的神秘面紗。



  • 論文標(biāo)題: SAM 3: Segment Anything with Promptable Concept Segmentation

  • 投稿信息: ICLR 2026 投稿

  • 論文地址: https://openreview.net/forum?id=r35clVtGzw

SAM 3不僅在傳統(tǒng)的“可提示化視覺分割”(Promptable Visual Segmentation, PVS)任務(wù)(如通過(guò)點(diǎn)擊來(lái)分割物體)上超越了SAM 2,更帶來(lái)了一個(gè)全新的范式——“可提示化概念分割”(Promptable Concept Segmentation, PCS)。


這意味著,用戶現(xiàn)在可以通過(guò)一個(gè)簡(jiǎn)短的名詞短語(yǔ)(如“a striped cat”)、一張示例圖片,或兩者的結(jié)合,來(lái)讓模型分割出圖像中所有屬于這個(gè)“概念”的實(shí)例。這無(wú)疑是向更高級(jí)、更智能的交互方式邁出的一大步。

值得注意的是,SAM 3的作者們?cè)诙x“可提示化概念分割”(PCS)任務(wù)時(shí),也充分考慮到了我們之前討論的“上下文依賴”(Context-Dependent)概念所帶來(lái)的挑戰(zhàn)。他們?cè)谡撐闹忻鞔_指出,PCS任務(wù)本身具有內(nèi)在的模糊性,因?yàn)槠湓~匯是開放的。例如,像“‘大的’圓圈”這樣的描述是主觀的,而一些短語(yǔ)甚至是依賴于上下文的(context-dependent phrases),比如“品牌標(biāo)識(shí)”,可能根本無(wú)法在視覺上被明確“接地”(groundable)。

這表明,即使是像SAM 3這樣強(qiáng)大的通用模型,在邁向真正理解萬(wàn)物的過(guò)程中,也必須正視和處理這些復(fù)雜的、依賴于具體情境才能準(zhǔn)確界定的視覺概念。


SAM 3 的架構(gòu)與數(shù)據(jù)引擎

為了實(shí)現(xiàn)這一飛躍,SAM 3在架構(gòu)上進(jìn)行了重要升級(jí)。它集成了一個(gè)“提示編碼器(Prompt Encoder)”,能夠理解文本和圖像示例,并將其轉(zhuǎn)化為模型可以利用的表征。



當(dāng)然,強(qiáng)大的模型離不開海量、高質(zhì)量的數(shù)據(jù)。SAM 3的背后是一個(gè)龐大的“數(shù)據(jù)引擎”,它通過(guò)一個(gè)多階段的流程,收集、標(biāo)注和驗(yàn)證了包含一個(gè)名為SA-Co(Segment Anything with Concepts)的超大規(guī)模數(shù)據(jù)集。


SAM 3 的驚人能力

SAM 3的能力是全方位的。在傳統(tǒng)的交互式分割基準(zhǔn)上,它大幅超越了之前的模型。


更重要的是,在新的PCS任務(wù)上,SAM 3展現(xiàn)了強(qiáng)大的概念理解和泛化能力。它甚至可以作為一個(gè)智能體(Agent),與多模態(tài)大語(yǔ)言模型(MLLM)結(jié)合,完成復(fù)雜的推理分割任務(wù)。例如,當(dāng)被要求“分割出所有舉起手的人”時(shí),MLLM可以向SAM 3發(fā)出“手”和“人”的查詢,并分析返回的掩碼來(lái)得到最終答案。

總結(jié)與展望

從Spider的“專才多能”,到SAM系列的“萬(wàn)物通才”,我們看到了一條清晰的技術(shù)演進(jìn)路徑:

  1. 統(tǒng)一與泛化 :從為每個(gè)任務(wù)定制模型,到用一個(gè)統(tǒng)一框架解決一類問(wèn)題(Spider)。

  2. 基礎(chǔ)模型崛起 :出現(xiàn)像SAM這樣,旨在解決所有分割問(wèn)題的通用基礎(chǔ)模型。

  3. 評(píng)估與反思 :通過(guò)系統(tǒng)性評(píng)估,發(fā)現(xiàn)通用模型在特定細(xì)分領(lǐng)域的不足,為后續(xù)改進(jìn)指明方向。

  4. 概念與交互 :最新的SAM 3引入了對(duì)“概念”的理解,將交互從“點(diǎn)”和“框”提升到了“語(yǔ)義”層面,實(shí)現(xiàn)了新的飛躍。

這條路還遠(yuǎn)未到終點(diǎn)。如何讓模型更好地理解模糊、抽象甚至帶有主觀性的概念?如何進(jìn)一步降低對(duì)海量標(biāo)注數(shù)據(jù)的依賴?這些都是未來(lái)值得探索的方向。

大家對(duì)這個(gè)技術(shù)演進(jìn)路線怎么看?你覺得“概念分割”的未來(lái)會(huì)用在哪些有趣的場(chǎng)景?一起來(lái)聊聊吧!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
50歲伺候兒媳坐月子,聽到她罵我像驢,第二天我的做法絕了

50歲伺候兒媳坐月子,聽到她罵我像驢,第二天我的做法絕了

木子言故事
2025-12-21 14:43:07
27分6記三分!赴美特訓(xùn)4個(gè)月 能成中國(guó)男籃進(jìn)攻荒的解藥?

27分6記三分!赴美特訓(xùn)4個(gè)月 能成中國(guó)男籃進(jìn)攻荒的解藥?

你看球呢
2025-12-21 13:00:15
33歲厄瓜多爾國(guó)腳在肉店被槍殺:跪地求饒?jiān)饩?3個(gè)月5名球員被殺

33歲厄瓜多爾國(guó)腳在肉店被槍殺:跪地求饒?jiān)饩?3個(gè)月5名球員被殺

風(fēng)過(guò)鄉(xiāng)
2025-12-20 16:43:14
打麻將十打九勝的秘訣,掌握這些小技巧,贏牌簡(jiǎn)直是易如反掌!

打麻將十打九勝的秘訣,掌握這些小技巧,贏牌簡(jiǎn)直是易如反掌!

洞鑒歷史
2024-03-08 15:03:16
打虎!尹建業(yè)被查

打虎!尹建業(yè)被查

極目新聞
2025-12-21 16:57:43
龐叔令點(diǎn)名徐湖平,曾任南博副院長(zhǎng),曾經(jīng)和宋美齡干兒子一同服役

龐叔令點(diǎn)名徐湖平,曾任南博副院長(zhǎng),曾經(jīng)和宋美齡干兒子一同服役

王鶔吃吃喝喝
2025-12-20 10:54:15
結(jié)婚14年,她被打了13年

結(jié)婚14年,她被打了13年

中國(guó)新聞周刊
2025-12-20 10:52:37
訪日不到48小時(shí),托卡耶夫犯了“大忌”,37億美元投資只是導(dǎo)火線

訪日不到48小時(shí),托卡耶夫犯了“大忌”,37億美元投資只是導(dǎo)火線

嫹筆牂牂
2025-12-21 14:39:11
信號(hào)!滬媒首曝國(guó)乒教練職責(zé):據(jù)此秦志戩當(dāng)總教練,馬琳副總教練

信號(hào)!滬媒首曝國(guó)乒教練職責(zé):據(jù)此秦志戩當(dāng)總教練,馬琳副總教練

籃球看比賽
2025-12-21 13:19:00
細(xì)思極恐!一份90年代報(bào)紙的報(bào)道,又暴露出南博的“習(xí)慣性借出”

細(xì)思極恐!一份90年代報(bào)紙的報(bào)道,又暴露出南博的“習(xí)慣性借出”

火山詩(shī)話
2025-12-20 06:43:20
我家水費(fèi)每月四萬(wàn),關(guān)掉閘門后,物業(yè)發(fā)來(lái)消息:今天整棟樓停水

我家水費(fèi)每月四萬(wàn),關(guān)掉閘門后,物業(yè)發(fā)來(lái)消息:今天整棟樓停水

船長(zhǎng)與船1
2025-12-20 10:39:50
江暢同志突發(fā)心梗,不幸逝世

江暢同志突發(fā)心梗,不幸逝世

新京報(bào)政事兒
2025-12-20 22:27:40
腰細(xì)臀翹的高挑女生怎么穿?運(yùn)動(dòng)背心搭粉色瑜伽褲,可愛又性感

腰細(xì)臀翹的高挑女生怎么穿?運(yùn)動(dòng)背心搭粉色瑜伽褲,可愛又性感

小喬古裝漢服
2025-12-21 19:10:18
烏克蘭一夜摧毀克里米亞的米格31戰(zhàn)機(jī)!打掉4套防空系統(tǒng)

烏克蘭一夜摧毀克里米亞的米格31戰(zhàn)機(jī)!打掉4套防空系統(tǒng)

項(xiàng)鵬飛
2025-12-19 16:41:29
轉(zhuǎn)發(fā)野三坡隧道事故視頻被要求刪除,還有網(wǎng)友稱發(fā)生了爆炸

轉(zhuǎn)發(fā)野三坡隧道事故視頻被要求刪除,還有網(wǎng)友稱發(fā)生了爆炸

映射生活的身影
2025-12-20 19:18:13
袁紹麾下3支超級(jí)精銳,其中兩支是雇傭兵,如何被曹操輕松打垮?

袁紹麾下3支超級(jí)精銳,其中兩支是雇傭兵,如何被曹操輕松打垮?

大千世界觀
2025-12-20 19:08:34
袁世凱坐龍椅的真實(shí)老照片,接受群臣朝拜,“妃子們”也非常漂亮

袁世凱坐龍椅的真實(shí)老照片,接受群臣朝拜,“妃子們”也非常漂亮

文史微鑒
2025-12-13 22:13:15
黎智英女兒叫囂,如果她父親能夠獲釋,他會(huì)把重心放在家庭上

黎智英女兒叫囂,如果她父親能夠獲釋,他會(huì)把重心放在家庭上

百態(tài)人間
2025-12-20 05:25:03
保羅無(wú)法正常進(jìn)食,只能喝流食,下顎手術(shù)拔掉牙齒,嵌入兩塊鈦板

保羅無(wú)法正常進(jìn)食,只能喝流食,下顎手術(shù)拔掉牙齒,嵌入兩塊鈦板

越嶺尋蹤
2025-12-21 10:06:14
明星下場(chǎng)了,贊一個(gè)!

明星下場(chǎng)了,贊一個(gè)!

西樓飲月
2025-12-20 22:23:26
2025-12-21 20:44:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5273文章數(shù) 64595關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬(wàn)個(gè)應(yīng)用

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂(lè)要聞

星光大賞太尷尬!搶話擋鏡頭,場(chǎng)地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

藝術(shù)
家居
手機(jī)
本地
公開課

藝術(shù)要聞

Anatoliy Lukash陽(yáng)光明媚的風(fēng)景,真是美!

家居要聞

高端私宅 理想隱居圣地

手機(jī)要聞

華為Mate80系列迎雙喜:18天銷量破百萬(wàn),同比前代大幅增長(zhǎng)!

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版