国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AAAI 2026 Oral|LENS:基于統(tǒng)一強(qiáng)化推理的分割大模型

0
分享至



文本提示圖像分割(Text-prompted image segmentation)是實(shí)現(xiàn)精細(xì)化視覺理解的關(guān)鍵技術(shù),在人機(jī)交互、具身智能及機(jī)器人等前沿領(lǐng)域具有重大的戰(zhàn)略意義。這項(xiàng)技術(shù)使機(jī)器能夠根據(jù)自然語言指令,在復(fù)雜的視覺場景中定位并分割出任意目標(biāo)。

然而,當(dāng)前主流的技術(shù)路徑,如基于監(jiān)督式微調(diào)(Supervised Fine-Tuning, SFT)的方法,正面臨著根本性的瓶頸。這些方法本質(zhì)上是靜態(tài)的模式匹配,雖然在特定數(shù)據(jù)集上表現(xiàn)優(yōu)異,但其泛化能力往往受限,形成了一個(gè)難以逾越的 “能力天花板”。尤其是在處理需要多步、復(fù)雜推理的未知指令時(shí),性能會(huì)顯著下降,其根源在于 SFT 方法在訓(xùn)練中忽略了動(dòng)態(tài)的、顯式的推理過程。

為了 shatter 這一能力天花板,我們引入了 LENS(Learning to Segment Anything with Unified Reinforced Reasoning)框架。LENS 摒棄了靜態(tài)的 SFT,轉(zhuǎn)而采用端到端的強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)機(jī)制,將高層次的 “思考” 過程(即思維鏈推理)與像素級(jí)的 “執(zhí)行” 過程(即圖像分割)進(jìn)行動(dòng)態(tài)的聯(lián)合優(yōu)化。通過這種設(shè)計(jì),LENS 旨在賦予分割模型真正的、上下文感知的推理能力,從而在根本上提升其在復(fù)雜任務(wù)中的魯棒性和泛化性。

本文將深入介紹一下我們 AAAI 榮獲 Oral 的工作,“會(huì)思考的分割大模型 LENS”。有幸在這次 AAAI 2026 得到了審稿人們一致正面的評(píng)價(jià),并被 AC 和 PC 一致同意推薦為 Oral 論文。



  • 論文標(biāo)題:LENS: Learning to Segment Anything with Unified Reinforced Reasoning
  • 論文鏈接:https://arxiv.org/abs/2508.14153
  • 代碼鏈接:https://github.com/hustvl/LENS

LENS 框架概覽:推理與分割的協(xié)同進(jìn)化

在這個(gè)工作中,我們研究了分割大模型領(lǐng)域的一大一小兩個(gè)關(guān)鍵問題,大問題就是老生常談的 “泛化能力”,傳統(tǒng)分割大模型對(duì)未見過的提示和領(lǐng)域的泛化能力往往有限;小問題則是隱藏的 “信息瓶頸”,此前的分割大模型從 “大腦思考”(MLLM)到 “分割解碼”(SAM)之間往往只通過單一的分割 Token 傳遞信息,存在隱形的 “信息輸送瓶頸”。



LENS 框架的核心設(shè)計(jì)在于通過端到端的聯(lián)合優(yōu)化,徹底打破傳統(tǒng)模型中 “思考”(推理)與 “執(zhí)行”(分割)之間的信息壁壘。

以往的方法,例如同期的優(yōu)秀工作 Seg-Zero,采用的是非端到端的設(shè)計(jì),即先由推理模型生成邊界框和點(diǎn)提示,再交由現(xiàn)成的(off-the-shelf)SAM 進(jìn)行分割。這種分離式流程的主要缺陷在于誤差的單向傳播。這意味著像 Seg-Zero 這樣的非端到端模型是根本上脆弱的;它們的性能上限被其初始猜測的準(zhǔn)確性所鎖定。一旦推理階段的定位出現(xiàn)偏差,下游的分割模型將無法糾正,最終必然導(dǎo)致分割失敗。相比之下,LENS 通過其端到端的反饋閉環(huán),具備了即便從不完美的初步定位中也能自我糾正的能力。



LENS 的整體架構(gòu)由三大核心組件構(gòu)成,它們協(xié)同工作,實(shí)現(xiàn)了從高級(jí)語義理解到精確像素輸出的無縫銜接:

  • 多模態(tài)大語言模型 (MLLM) - 推理核心:作為系統(tǒng)的 “大腦”,LENS 采用先進(jìn)的 MLLM(如 Qwen2.5-VL-3B-Instruct)來處理輸入的圖像和文本指令。它負(fù)責(zé)生成詳盡的思維鏈(Chain-of-Thought, CoT)推理過程,并給出一個(gè)初步的目標(biāo)邊界框。這一過程不僅是定位,更是對(duì)指令的深度理解。





  • 上下文模塊 (Context Module) - 信息橋梁:這是 LENS 的關(guān)鍵創(chuàng)新,它充當(dāng)了 MLLM 和分割模型之間的信息高速公路。該模塊由一組可學(xué)習(xí)的上下文查詢(Context Queries)和一個(gè)連接器(Connector)組成,其任務(wù)是將 MLLM 生成的豐富推理軌跡和定位信息,轉(zhuǎn)化為分割模型能夠高效利用的、信息密集的分割提示





  • 分割模型 (SAM-2) - 像素解碼器:作為系統(tǒng)的 “雙手”,LENS 采用高性能的分割模型(SAM2-Large)。它接收來自上下文模塊的復(fù)雜指令,并結(jié)合原始圖像信息,執(zhí)行精準(zhǔn)的像素級(jí)掩碼生成任務(wù),將推理結(jié)果精確地體現(xiàn)在圖像上。

通過這種 “推理 - 橋接 - 分割” 三位一體的緊密耦合架構(gòu),LENS 實(shí)現(xiàn)了推理質(zhì)量和分割精度的同步提升。這種設(shè)計(jì)使得最終的分割性能可以直接反作用于推理過程的優(yōu)化,形成一個(gè)完整的閉環(huán),為實(shí)現(xiàn)更高水平的通用分割能力奠定了基礎(chǔ)。

LENS 框架同時(shí)在 “思考推理” 端也做出了改進(jìn),我們基于 Group Relative Policy Optimization(GRPO)方法構(gòu)建了統(tǒng)一強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制(Unified Rewards Scheme)。該獎(jiǎng)勵(lì)機(jī)制是多維度的,同時(shí)監(jiān)督以下三個(gè)層級(jí)的線索:

  1. 格式獎(jiǎng)勵(lì)(Format Reward):確保 MLLM 的輸出(包括推理過程和定位結(jié)果)遵循預(yù)期的結(jié)構(gòu)和格式一致性。
  2. 邊界框 IoU 獎(jiǎng)勵(lì)(Box IoU Reward):衡量預(yù)測邊界框與真實(shí)邊界框之間的定位準(zhǔn)確性。
  3. 分割掩碼 IoU 獎(jiǎng)勵(lì)(Segment IoU Reward):評(píng)估像素級(jí)分割掩碼的質(zhì)量。



通過我們提出的聯(lián)合優(yōu)化(將統(tǒng)一的 GRPO 目標(biāo)與監(jiān)督分割損失相結(jié)合),LENS 能夠從獎(jiǎng)勵(lì)驅(qū)動(dòng)的推理改進(jìn)和直接的分割監(jiān)督中同時(shí)受益。值得一提的是,LENS 的端到端特性解決了定位錯(cuò)誤(Grounding Error)向下游傳播的問題,如上圖右一右二所示,哪怕有些情況定位框是錯(cuò)的,強(qiáng)大的上下文查詢(Context Query)也能帶領(lǐng)分割模型走向正確。

性能評(píng)估與分析



核心結(jié)果方面,LENS 取得了文本提示分割任務(wù)的最先進(jìn)性能(SoTA):LENS 在 RefCOCO 系列的基準(zhǔn)測試中取得了 81.2% 的平均 cIoU,達(dá)到了世界最高水平。在 GroundingSuite-Eval 這類更具挑戰(zhàn)性的零樣本基準(zhǔn)測試中,LENS 展現(xiàn)出卓越的域外泛化能力,cIoU 達(dá)到 78.3%,超越第二優(yōu)方法接近 10%。



這些成果表明,LENS 這一類基于統(tǒng)一強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)驅(qū)動(dòng)的 CoT 推理方法,能夠顯著提升文本提示下的分割能力。我們相信,LENS 為強(qiáng)化學(xué)習(xí)與視覺分割的無縫集成提供了新的思路,并有望推動(dòng)更通用、更穩(wěn)健的視覺 - 語言系統(tǒng)的研究。代碼和預(yù)訓(xùn)練權(quán)重已開源(https://github.com/hustvl/LENS),感興趣的朋友們歡迎研究和使用。我們也期待在 AAAI 2026 與學(xué)術(shù)界同行進(jìn)行深入交流。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
祥鵬航空回應(yīng)“旅客與地服起沖突”:其行李超規(guī),正配合調(diào)查

祥鵬航空回應(yīng)“旅客與地服起沖突”:其行李超規(guī),正配合調(diào)查

南方都市報(bào)
2026-04-20 17:16:09
姆巴佩宣布“加盟”東鵬補(bǔ)水啦,擔(dān)任品牌代言人

姆巴佩宣布“加盟”東鵬補(bǔ)水啦,擔(dān)任品牌代言人

懂球帝
2026-04-20 17:11:05
山東省青島市委常委、副市長王波被查

山東省青島市委常委、副市長王波被查

新京報(bào)
2026-04-20 11:12:09
中國高鐵出海,迎來真正的“大單”

中國高鐵出海,迎來真正的“大單”

無憂啟程
2026-04-20 11:40:20
4月20日人民幣對(duì)美元中間價(jià)調(diào)貶26個(gè)基點(diǎn)

4月20日人民幣對(duì)美元中間價(jià)調(diào)貶26個(gè)基點(diǎn)

證券時(shí)報(bào)
2026-04-20 09:33:02
財(cái)務(wù)造假,3倍牛股突遭ST

財(cái)務(wù)造假,3倍牛股突遭ST

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-20 13:17:37
王毅通告全世界,53國獲零關(guān)稅特權(quán),唯獨(dú)一國沒得到,中方選邊站

王毅通告全世界,53國獲零關(guān)稅特權(quán),唯獨(dú)一國沒得到,中方選邊站

觸摸史跡
2026-04-20 03:39:03
王健林,被逼到崩潰邊緣...

王健林,被逼到崩潰邊緣...

鳴金網(wǎng)
2026-04-16 19:42:33
上海偶遇李晨吃包子,看著挺壯實(shí)一人,晚飯居然就吃三個(gè)包子

上海偶遇李晨吃包子,看著挺壯實(shí)一人,晚飯居然就吃三個(gè)包子

悅君兮君不知
2026-04-19 13:21:45
太心酸了!36歲程序員自述被裁經(jīng)歷,從年薪四五十萬到被家人嫌棄

太心酸了!36歲程序員自述被裁經(jīng)歷,從年薪四五十萬到被家人嫌棄

火山詩話
2026-04-20 07:13:56
南方電網(wǎng)招了7308人,華南理工485個(gè),這所學(xué)校把南網(wǎng)變成了"自家后院"

南方電網(wǎng)招了7308人,華南理工485個(gè),這所學(xué)校把南網(wǎng)變成了"自家后院"

老滿說高考
2026-04-20 20:04:56
周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費(fèi),他卻給組織賺回個(gè)商業(yè)帝國

周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費(fèi),他卻給組織賺回個(gè)商業(yè)帝國

鶴羽說個(gè)事
2026-04-02 23:00:01
央視首次曝光:全球最強(qiáng)光刻機(jī)亮相,中國再次打破西方技術(shù)封鎖

央視首次曝光:全球最強(qiáng)光刻機(jī)亮相,中國再次打破西方技術(shù)封鎖

混沌錄
2026-04-20 21:04:06
轟2桿破百!丁俊暉10-5躋身世錦賽16強(qiáng),下輪PK趙心童上演德比戰(zhàn)

轟2桿破百!丁俊暉10-5躋身世錦賽16強(qiáng),下輪PK趙心童上演德比戰(zhàn)

全景體育V
2026-04-20 19:42:08
丁俊暉趙心童上演中國德比

丁俊暉趙心童上演中國德比

界面新聞
2026-04-20 20:17:40
過午不食?55歲男子堅(jiān)持2年不吃晚飯,去體檢后,他的胃怎樣了?

過午不食?55歲男子堅(jiān)持2年不吃晚飯,去體檢后,他的胃怎樣了?

白話電影院
2026-04-09 14:36:58
倒計(jì)時(shí)1天,賴清德將離臺(tái)!鄭麗文已見不到他,國防部下最后通牒

倒計(jì)時(shí)1天,賴清德將離臺(tái)!鄭麗文已見不到他,國防部下最后通牒

阿離家居
2026-04-20 16:16:41
上海樓市回暖信號(hào):拐點(diǎn)初步顯現(xiàn),一二手房置換鏈條正在啟動(dòng)

上海樓市回暖信號(hào):拐點(diǎn)初步顯現(xiàn),一二手房置換鏈條正在啟動(dòng)

南方都市報(bào)
2026-04-20 20:16:16
??低?026年一季度營收207.15億元,凈利潤增速連續(xù)五季提速,毛利率創(chuàng)2020年來新高

??低?026年一季度營收207.15億元,凈利潤增速連續(xù)五季提速,毛利率創(chuàng)2020年來新高

金融界
2026-04-20 17:25:20
宋子文去世前把日記捐給美國,要求 30 年后公開,里面果然有大瓜

宋子文去世前把日記捐給美國,要求 30 年后公開,里面果然有大瓜

阿器談史
2026-04-20 19:11:56
2026-04-20 22:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12813文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價(jià)10999元起

頭條要聞

保價(jià)2000元機(jī)蓋運(yùn)輸中損壞 德邦僅愿以1300元回購

頭條要聞

保價(jià)2000元機(jī)蓋運(yùn)輸中損壞 德邦僅愿以1300元回購

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

數(shù)碼
親子
旅游
時(shí)尚
房產(chǎn)

數(shù)碼要聞

惠普推出2026款HyperX暗影精靈MAX游戲本

親子要聞

【孤獨(dú)癥科普】啥是孤獨(dú)癥,哪些孩子易發(fā)生,如何應(yīng)對(duì)?

旅游要聞

京城春日頂流!國家植物園 20 萬株郁金香盛放,藏著最浪漫的四月

春天就該這樣穿!裙子選彩色、白色T恤作內(nèi)搭,舒適優(yōu)雅簡約

房產(chǎn)要聞

大規(guī)模商改??!??谖骱0?,這波項(xiàng)目要贏麻了!

無障礙瀏覽 進(jìn)入關(guān)懷版