国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Monet:賦予多模態(tài)大模型如人類一般的抽象視覺思考能力

0
分享至



“Think with images”范式,即通過工具調(diào)用或代碼生成等方法來在思考過程的中間步引入輔助圖像(如裁剪、標定、作輔助線等),已經(jīng)成為增強多模態(tài)大語言模型(MLLMs)視覺推理能力的重要范式。這類方案雖然取得了不錯的效果,但其對外部工具的依賴性也導致了幾個局限性:

  • 訓練和推理復雜度高:訓練時模型需要額外地學習各種工具和函數(shù)接口的使用方式,引入了額外的訓練難度;同時,多輪的交互式推理增加了推理延遲。
  • 操作類型受限:模型的能力受限于工具類型,難以泛化到簡單工具無法應對的復雜任務上。
  • 難以擴展為通用能力:每增加一類工具,就要重新標注數(shù)據(jù)、設計接口,模型更像“工具調(diào)度中心”,而不是在真正“理解和想象”。

Monet實現(xiàn)了一種訓練MLLM直接在連續(xù)的隱空間思考的 Think with image 方法,不再依賴外部工具或代碼,而是通過生成連續(xù)的“隱式視覺嵌入”(latent visual embeddings),像人一樣在腦海中“打草稿、畫草圖、做空間想象”,再給出答案,從而將視覺思考能力真正內(nèi)化。團隊核心成員包括北京大學博士生王啟迅、史陽以及來自Amazon AGI SF Lab的王一飛。指導老師包括來自快手可靈團隊的張遠行和北京大學的英向華、王奕森。該工作已被 CVPR 2026 錄用。



  • 論文標題:Monet: Reasoning in Latent Visual Space Beyond Images and Language
  • 論文鏈接:https://arxiv.org/abs/2511.21395
  • 代碼鏈接:https://github.com/NOVAglow646/Monet
  • 模型鏈接:https://huggingface.co/NOVAglow646/Monet-7B
  • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/NOVAglow646/Monet-SFT-125K

訓練多模態(tài)模型進行隱式視覺推理的挑戰(zhàn)

多模態(tài)模型的隱式推理的訓練存在兩大難點:

一、隱式嵌入(latent embedding)的監(jiān)督信號難以獲取。一種直觀的思路是直接對齊模型生成的隱式嵌入(即模型最后一層的表示)和中間步輔助圖像的表示,來讓隱式嵌入編碼輔助圖像信息(如近期的幾項工作[1-2])。然而,輔助圖像的token數(shù)量往往成百上千,直接對齊會引入高昂的計算和存儲開銷,因此現(xiàn)有工作選擇壓縮圖像token為10個左右,或只取關鍵區(qū)域的少數(shù)token進行對齊。這進一步導致了細粒度視覺信息丟失、只能編碼裁剪區(qū)域的視覺信息而無法編碼全圖操作的信息。

二、隱式嵌入難以被真正優(yōu)化。監(jiān)督微調(diào)(SFT)過程中,常規(guī)的“預測下一個詞”(next-token-prediction)的目標很容易通過“記住”訓練數(shù)據(jù)實現(xiàn),從而繞過對隱式嵌入的優(yōu)化;此外,強化學習(RL)過程中,常規(guī)的GRPO只能在文本token上計算損失,導致了獎勵信號難以直接施加到隱式嵌入上。

方法概覽:

監(jiān)督微調(diào) + 強化學習激發(fā)隱式視覺推理能力

為了讓模型學會在隱空間進行視覺思考,作者提出了一個監(jiān)督微調(diào)(SFT)+強化學習(RL)的訓練框架,以Qwen2.5-VL-7B為基模型進行訓練。訓練后的模型Monet-7B能在推理過程中自主決定何時啟動隱式思考,并生成一個特殊標記(如“

”),此后輸出的若干向量,不再對應可讀文字,而是被視作一段隱式的視覺嵌入插入思維鏈中。當隱式嵌入達到預設的長度后,將回到語言推理模式。上述過程可在一次推理中交替進行。



圖1左圖:Monet的推理過程示意。右圖:Monet的三階段SFT和RL(VLPO為作者提出的全新強化學習算法)過程示意。

SFT數(shù)據(jù)集構建:Monet-SFT-125K

雖然目前已有不少公開的圖文交錯的思維鏈數(shù)據(jù)集[3-6],但它們存在如下的局限性:

1.某些輔助圖像缺乏必要性:問題簡單,不用輔助圖像就能做對;

2.某些輔助圖像不準確:比如裁剪區(qū)域與答案無關;

3.缺少對于真正有價值的token的標注:比如與答案最相關的少數(shù)關鍵token等。

為了解決上述缺陷,作者提出了一個多階段的數(shù)據(jù)集校正流程。如下圖所示,從現(xiàn)有的圖文交錯CoT第一階段選出在只給出問題和輸入圖像時Qwen2.5-VL-7B回答錯誤的樣本以保證使用輔助圖像的必要性;

第二階段在第一輪得到的樣本中,篩選出僅給出問題和輔助圖像(沒有問題圖像)時較強模型(Qwen2.5-VL-72B)能回答對的樣本,以確保輔助圖像的準確性;

第三階段,使用了閉源模型將對應于輔助圖像中的關鍵視覺信息的文本token標注出來,以作為后續(xù)訓練的監(jiān)督信號。

最終得到的Monet-SFT-125K包含多種類型的視覺操作(裁剪、標定、做輔助線、生成新的視覺狀態(tài))和任務(以真實世界、圖表、OCR任務為主)。



圖2Monet-SFT-125K數(shù)據(jù)集的構建流程

監(jiān)督微調(diào):

讓模型自主將輔助圖像中的有價值信息編碼進隱式嵌入

SFT分成三個階段。

SFT第一階段:預熱。先在構建的Monet-SFT-125K上進行預熱(warm-up)微調(diào),這一步是為了讓模型適應圖文交錯的推理模式。若沒有這一過程,模型將容易忽略思維鏈中間的輔助圖像,如圖3所示。該步獲取的模型權重將用于后續(xù)階段。



圖3 預熱微調(diào)過程中模型對于訓練數(shù)據(jù)中對應于關鍵觀察的token的預測準確性。藍色:給出輔助圖像。灰色虛線:移除輔助圖像。綠色:二者準確率差值。隨著預熱的進行,使用輔助圖像相比不使用時準確率的提升越來越大,說明模型逐步學會利用中間步圖像。

SFT第二階段:獲取高質(zhì)量的隱式嵌入。這一階段是為了獲取產(chǎn)生高質(zhì)量的隱式嵌入來作為第三階段的對齊目標。為了避免直接對齊隱式嵌入和輔助圖像嵌入所帶來的高額開銷,作者提出了使用兩種監(jiān)督信號來指導隱式嵌入的生成。首先,為了使隱式嵌入能發(fā)揮與輔助圖像相似的效果,作者提出對齊給定輔助圖像和給定隱式嵌入時后續(xù)關鍵token的模型中間層表示(分別對應于圖4中的“Teacher CoT”和“Student CoT”),即,采用如下的對齊損失:





另外,為了使對齊損失確確實實是通過調(diào)整隱式嵌入而不是被“走捷徑”優(yōu)化的,作者提出讓對齊損失的梯度僅能通過隱式嵌入流向模型參數(shù)。實現(xiàn)細節(jié)可見原文。





圖4 SFT第二階段示意。包含對齊損失和next-token-prediction損失兩部分。其中Teacher CoT為包含輔助圖像的圖文交錯CoT;Student CoT中輔助圖像后為生成的隱式嵌入,且輔助圖像能且僅能被隱式嵌入可見。

SFT第三階段:讓模型學會“從零開始”隱式思考。由于上一階段隱式嵌入的產(chǎn)生是在隱式嵌入直接可見輔助圖像的情況下的,這與實際應用時存在差異。

為此,在第三階段中,作者將第二階段訓練后模型產(chǎn)生的高質(zhì)量隱式嵌入作為目標,讓模型在不可見輔助圖像情況時產(chǎn)生的隱式嵌入與之對齊,如圖5所示。

同時這一階段仍包含next-token-prediction損失,以讓隱式嵌入幫助后續(xù)推理。



圖5 SFT第三階段示意。這一階段的目標為對齊無輔助圖像時產(chǎn)生的隱式嵌入和來自第二階段的高質(zhì)量目標隱式嵌入。VLPO:專為隱式思考設計的強化學習



為此,作者提出了VLPO(Visual-latent policy optimization),通過估計隱式嵌入的生成概率來將其納入損失函數(shù)的計算之中。







Monet帶來了分布內(nèi)和分布外視覺推理能力的提升



圖6 分布內(nèi)的感知和推理任務上的性能(真實世界、圖表、OCR任務)



圖7 分布外視覺推理任務上的性能(抽象視覺推理任務)

主要結果:作者在分布內(nèi)任務(真實世界、圖表、OCR)和分布外任務(抽象視覺推理)上測試了Monet-7B。

結果如圖6和圖7所示,Monet超過了SFT、SFT+GRPO以及現(xiàn)有的think with images和隱式視覺推理的基線。相比基模型,在分布內(nèi)和分布外任務分別取得了3%~9.75%和2.31%的提升。



圖8 消融實驗?!癓atent-only” BP為SFT階段二中讓對齊損失的梯度僅流向隱式嵌入的設計;“auxiliary img”為SFT階段二中在student COT中引入輔助圖像的操作。

消融實驗:作者通過全面的消融實驗驗證了SFT階段各組件的必要性,以及提出的VLPO在SFT模型(Monet-SFT)基礎上帶來的進一步提升。

值得注意的是,在Monet-SFT基礎上進一步進行GRPO并不能帶來穩(wěn)定的提升,印證了GRPO的局限性。

探究隱式嵌入數(shù)量對性能的影響



圖9 橫軸:測試時隱式嵌入數(shù)量??v軸:測試準確率。三條綠色線為Monet-SFT模型,訓練時隱式嵌入數(shù)量分別為8、10、12;藍色為SFT(K=8)+VLPO(K=10);粉色為SFT(K=8)+GRPO.

作者探究了不同的訓練時和測試時隱式嵌入數(shù)量K對性能的影響。核心觀察總結如下:

  • 對于分布內(nèi)任務,使用隱式思考確實相比純文本思考能帶來提升;對于分布外任務,只有經(jīng)過VLPO訓練的模型的隱式思考能相比純文本帶來額外提升。
  • 對于分布內(nèi)任務,Monet-SFT模型展現(xiàn)出了測試時的縮放定律(test-time scaling law):測試時隨著隱式嵌入數(shù)量(甚至遠超訓練時所見到的長度)增加性能上升;對于分布外任務,只有VLPO展現(xiàn)出了這一趨勢;
  • GRPO主要提升非隱式思考的性能(測試時latent size=0),而對于隱式思考(測試時latent size>0)提升不明顯。

更多細節(jié)請參考原文。

參考文獻:

[1] Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, and Chuang Gan. Machine mental imagery: Empower multimodal reasoning with latent visual tokens. arXiv preprint arXiv:2506.17218, 2025.

[2] Bangzheng Li, Ximeng Sun, Jiang Liu, Ze Wang, Jialian Wu, Xiaodong Yu, Hao Chen, Emad Barsoum, Muhao Chen, and Zicheng Liu. Latent visual reasoning. arXiv preprint arXiv:2509.24251, 2025.

[3] Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, and Hongsheng Li. Visual cot: Unleashing chain-of-thought reasoning in multi-modal language models. CoRR, 2024

[4] Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, et al. Zebra-cot: A dataset for interleaved vision language reasoning. arXiv preprint arXiv:2507.16746, 2025.

[5] Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, and Cha Zhang. Refocus: Visual editing as a chain of thought for structured image understanding. In ICML, 2025

[6] Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, et al. Cogcom: A visual language model with chain-ofmanipulations reasoning. In ICLR, 2025.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
再修正,7.7級!海嘯已抵達!不排除發(fā)生更強地震!日媒:請回想2011年大地震,立即逃生!

再修正,7.7級!海嘯已抵達!不排除發(fā)生更強地震!日媒:請回想2011年大地震,立即逃生!

大風新聞
2026-04-20 22:01:07
網(wǎng)友喊話請何潤東代言霸王茶姬,有人都把圖P好了,客服:建議已詳細登記;何潤東翻紅后,賬號漲粉近200萬

網(wǎng)友喊話請何潤東代言霸王茶姬,有人都把圖P好了,客服:建議已詳細登記;何潤東翻紅后,賬號漲粉近200萬

魯中晨報
2026-04-20 14:48:15
廣東96-106不敵山西 球員評價:2人優(yōu)秀,2人及格,8人低迷

廣東96-106不敵山西 球員評價:2人優(yōu)秀,2人及格,8人低迷

籃球資訊達人
2026-04-20 21:36:59
阿聯(lián)酋速度很快,剛訪華回來,高調(diào)表態(tài):上萬億真金白銀押注中國

阿聯(lián)酋速度很快,剛訪華回來,高調(diào)表態(tài):上萬億真金白銀押注中國

命運自認幽默
2026-04-20 13:30:49
拼多多暴力抗法細節(jié)曝光:推搡拉扯執(zhí)法人員,員工當場吃下紙團!

拼多多暴力抗法細節(jié)曝光:推搡拉扯執(zhí)法人員,員工當場吃下紙團!

仕道
2026-04-20 17:48:21
山東泰安一男子在減肥訓練營內(nèi)身亡 當?shù)鼐揭呀槿胝{(diào)查 訓練營:其剛入營還未開始訓練

山東泰安一男子在減肥訓練營內(nèi)身亡 當?shù)鼐揭呀槿胝{(diào)查 訓練營:其剛入營還未開始訓練

紅星新聞
2026-04-20 16:24:29
4月20號收評:滬指逼近4100點!所有人都注意,大盤后市或這樣走

4月20號收評:滬指逼近4100點!所有人都注意,大盤后市或這樣走

春江財富
2026-04-20 15:22:16
失業(yè)的中年人,千萬不要去炒股。

失業(yè)的中年人,千萬不要去炒股。

流蘇晚晴
2026-04-20 20:06:18
43歲知名女星自曝流產(chǎn)5次失去7個孩子,哭到麻木,目前在備孕二胎

43歲知名女星自曝流產(chǎn)5次失去7個孩子,哭到麻木,目前在備孕二胎

叨嘮
2026-04-19 22:22:55
張雪回應比賽提前結束:如果繼續(xù)比賽可能引發(fā)安全事故;“賽車圈還是很干凈的,每個人都為了自己的信仰拼搏”

張雪回應比賽提前結束:如果繼續(xù)比賽可能引發(fā)安全事故;“賽車圈還是很干凈的,每個人都為了自己的信仰拼搏”

大風新聞
2026-04-20 10:28:40
金像獎獲獎名單出爐:梁家輝五封影帝,章子怡馬麗坐了一晚冷板凳

金像獎獲獎名單出爐:梁家輝五封影帝,章子怡馬麗坐了一晚冷板凳

萌神木木
2026-04-19 22:54:32
19球10助攻!西媒曝巴薩最高報價1億歐,要求阿爾瓦雷斯逼宮馬競

19球10助攻!西媒曝巴薩最高報價1億歐,要求阿爾瓦雷斯逼宮馬競

夏侯看英超
2026-04-20 23:18:45
越南迎來公務員下崗潮,數(shù)十萬人鐵飯碗不保,越南要做什么?

越南迎來公務員下崗潮,數(shù)十萬人鐵飯碗不保,越南要做什么?

琴琴有氧運動
2026-04-17 23:36:42
網(wǎng)購完剩下的“快遞氣柱袋”都能拿來干嘛?網(wǎng)友的點子,絕了

網(wǎng)購完剩下的“快遞氣柱袋”都能拿來干嘛?網(wǎng)友的點子,絕了

美家指南
2026-04-20 16:05:59
湖人G2賽前做出爭議決定,或將徹底激怒詹姆斯!

湖人G2賽前做出爭議決定,或將徹底激怒詹姆斯!

夜白侃球
2026-04-20 10:12:53
職稱跟退休金“脫鉤”,干了一輩子,最后那點體面也沒了?

職稱跟退休金“脫鉤”,干了一輩子,最后那點體面也沒了?

慧眼看世界哈哈
2026-03-21 05:57:07
越來越多人不裝“玻璃淋浴房”了,這5個替代方案,美觀又實用!

越來越多人不裝“玻璃淋浴房”了,這5個替代方案,美觀又實用!

家居設計師宅哥
2026-04-19 23:32:23
初中的幾個潛規(guī)則:初一成績就中下,甚至倒數(shù)的,基本跟高中無緣

初中的幾個潛規(guī)則:初一成績就中下,甚至倒數(shù)的,基本跟高中無緣

好爸育兒
2026-04-20 15:00:49
越來越多的人患肺癌!醫(yī)生含淚苦勸:冰箱久置的5物,別再吃了!

越來越多的人患肺癌!醫(yī)生含淚苦勸:冰箱久置的5物,別再吃了!

高中醫(yī)健康說
2026-04-13 11:30:07
長沙被桿砸傷的大媽發(fā)聲:退休公務員,不會訛人,車主堅決不賠償

長沙被桿砸傷的大媽發(fā)聲:退休公務員,不會訛人,車主堅決不賠償

觀察鑒娛
2026-04-19 16:10:54
2026-04-20 23:31:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12813文章數(shù) 142633關注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

歐洲或再迎一位親俄領導人 曾與澤連斯基發(fā)生公開沖突

頭條要聞

歐洲或再迎一位親俄領導人 曾與澤連斯基發(fā)生公開沖突

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

手機
家居
本地
公開課
軍事航空

手機要聞

REDMI新品發(fā)布會前瞻,手機、平板、筆記本都有

家居要聞

自然慢調(diào) 慢享時光

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版