Monet：賦予多模態(tài)大模型如人類一般的抽象視覺思考能力

2026-04-20 21:05:03　來源: 機器之心Pro

河北舉報

分享至

“Think with images”范式，即通過工具調(diào)用或代碼生成等方法來在思考過程的中間步引入輔助圖像（如裁剪、標定、作輔助線等），已經(jīng)成為增強多模態(tài)大語言模型（MLLMs）視覺推理能力的重要范式。這類方案雖然取得了不錯的效果，但其對外部工具的依賴性也導致了幾個局限性：

訓練和推理復雜度高：訓練時模型需要額外地學習各種工具和函數(shù)接口的使用方式，引入了額外的訓練難度；同時，多輪的交互式推理增加了推理延遲。
操作類型受限：模型的能力受限于工具類型，難以泛化到簡單工具無法應對的復雜任務上。
難以擴展為通用能力：每增加一類工具，就要重新標注數(shù)據(jù)、設計接口，模型更像“工具調(diào)度中心”，而不是在真正“理解和想象”。

Monet實現(xiàn)了一種訓練MLLM直接在連續(xù)的隱空間思考的 Think with image 方法，不再依賴外部工具或代碼，而是通過生成連續(xù)的“隱式視覺嵌入”（latent visual embeddings），像人一樣在腦海中“打草稿、畫草圖、做空間想象”，再給出答案，從而將視覺思考能力真正內(nèi)化。團隊核心成員包括北京大學博士生王啟迅、史陽以及來自Amazon AGI SF Lab的王一飛。指導老師包括來自快手可靈團隊的張遠行和北京大學的英向華、王奕森。該工作已被 CVPR 2026 錄用。

論文標題：Monet: Reasoning in Latent Visual Space Beyond Images and Language
論文鏈接：https://arxiv.org/abs/2511.21395
代碼鏈接：https://github.com/NOVAglow646/Monet
模型鏈接：https://huggingface.co/NOVAglow646/Monet-7B
數(shù)據(jù)集鏈接：https://huggingface.co/datasets/NOVAglow646/Monet-SFT-125K

訓練多模態(tài)模型進行隱式視覺推理的挑戰(zhàn)

多模態(tài)模型的隱式推理的訓練存在兩大難點：

一、隱式嵌入（latent embedding）的監(jiān)督信號難以獲取。一種直觀的思路是直接對齊模型生成的隱式嵌入（即模型最后一層的表示）和中間步輔助圖像的表示，來讓隱式嵌入編碼輔助圖像信息（如近期的幾項工作[1-2]）。然而，輔助圖像的token數(shù)量往往成百上千，直接對齊會引入高昂的計算和存儲開銷，因此現(xiàn)有工作選擇壓縮圖像token為10個左右，或只取關鍵區(qū)域的少數(shù)token進行對齊。這進一步導致了細粒度視覺信息丟失、只能編碼裁剪區(qū)域的視覺信息而無法編碼全圖操作的信息。

二、隱式嵌入難以被真正優(yōu)化。監(jiān)督微調(diào)（SFT）過程中，常規(guī)的“預測下一個詞”（next-token-prediction）的目標很容易通過“記住”訓練數(shù)據(jù)實現(xiàn)，從而繞過對隱式嵌入的優(yōu)化；此外，強化學習（RL）過程中，常規(guī)的GRPO只能在文本token上計算損失，導致了獎勵信號難以直接施加到隱式嵌入上。

方法概覽：

監(jiān)督微調(diào) + 強化學習激發(fā)隱式視覺推理能力

為了讓模型學會在隱空間進行視覺思考，作者提出了一個監(jiān)督微調(diào)（SFT）+強化學習（RL）的訓練框架，以Qwen2.5-VL-7B為基模型進行訓練。訓練后的模型Monet-7B能在推理過程中自主決定何時啟動隱式思考，并生成一個特殊標記（如“

”），此后輸出的若干向量，不再對應可讀文字，而是被視作一段隱式的視覺嵌入插入思維鏈中。當隱式嵌入達到預設的長度后，將回到語言推理模式。上述過程可在一次推理中交替進行。

圖1左圖：Monet的推理過程示意。右圖：Monet的三階段SFT和RL（VLPO為作者提出的全新強化學習算法）過程示意。

SFT數(shù)據(jù)集構建：Monet-SFT-125K

雖然目前已有不少公開的圖文交錯的思維鏈數(shù)據(jù)集[3-6]，但它們存在如下的局限性：

1.某些輔助圖像缺乏必要性：問題簡單，不用輔助圖像就能做對；

2.某些輔助圖像不準確：比如裁剪區(qū)域與答案無關；

3.缺少對于真正有價值的token的標注：比如與答案最相關的少數(shù)關鍵token等。

為了解決上述缺陷，作者提出了一個多階段的數(shù)據(jù)集校正流程。如下圖所示，從現(xiàn)有的圖文交錯CoT第一階段選出在只給出問題和輸入圖像時Qwen2.5-VL-7B回答錯誤的樣本以保證使用輔助圖像的必要性；

第二階段在第一輪得到的樣本中，篩選出僅給出問題和輔助圖像（沒有問題圖像）時較強模型（Qwen2.5-VL-72B）能回答對的樣本，以確保輔助圖像的準確性；

第三階段，使用了閉源模型將對應于輔助圖像中的關鍵視覺信息的文本token標注出來，以作為后續(xù)訓練的監(jiān)督信號。

最終得到的Monet-SFT-125K包含多種類型的視覺操作（裁剪、標定、做輔助線、生成新的視覺狀態(tài)）和任務（以真實世界、圖表、OCR任務為主）。

圖2Monet-SFT-125K數(shù)據(jù)集的構建流程

監(jiān)督微調(diào)：

讓模型自主將輔助圖像中的有價值信息編碼進隱式嵌入

SFT分成三個階段。

SFT第一階段：預熱。先在構建的Monet-SFT-125K上進行預熱（warm-up）微調(diào)，這一步是為了讓模型適應圖文交錯的推理模式。若沒有這一過程，模型將容易忽略思維鏈中間的輔助圖像，如圖3所示。該步獲取的模型權重將用于后續(xù)階段。

圖3 預熱微調(diào)過程中模型對于訓練數(shù)據(jù)中對應于關鍵觀察的token的預測準確性。藍色：給出輔助圖像。灰色虛線：移除輔助圖像。綠色：二者準確率差值。隨著預熱的進行，使用輔助圖像相比不使用時準確率的提升越來越大，說明模型逐步學會利用中間步圖像。

SFT第二階段：獲取高質(zhì)量的隱式嵌入。這一階段是為了獲取產(chǎn)生高質(zhì)量的隱式嵌入來作為第三階段的對齊目標。為了避免直接對齊隱式嵌入和輔助圖像嵌入所帶來的高額開銷，作者提出了使用兩種監(jiān)督信號來指導隱式嵌入的生成。首先，為了使隱式嵌入能發(fā)揮與輔助圖像相似的效果，作者提出對齊給定輔助圖像和給定隱式嵌入時后續(xù)關鍵token的模型中間層表示（分別對應于圖4中的“Teacher CoT”和“Student CoT”），即，采用如下的對齊損失：

另外，為了使對齊損失確確實實是通過調(diào)整隱式嵌入而不是被“走捷徑”優(yōu)化的，作者提出讓對齊損失的梯度僅能通過隱式嵌入流向模型參數(shù)。實現(xiàn)細節(jié)可見原文。

圖4 SFT第二階段示意。包含對齊損失和next-token-prediction損失兩部分。其中Teacher CoT為包含輔助圖像的圖文交錯CoT；Student CoT中輔助圖像后為生成的隱式嵌入，且輔助圖像能且僅能被隱式嵌入可見。

SFT第三階段：讓模型學會“從零開始”隱式思考。由于上一階段隱式嵌入的產(chǎn)生是在隱式嵌入直接可見輔助圖像的情況下的，這與實際應用時存在差異。

為此，在第三階段中，作者將第二階段訓練后模型產(chǎn)生的高質(zhì)量隱式嵌入作為目標，讓模型在不可見輔助圖像情況時產(chǎn)生的隱式嵌入與之對齊，如圖5所示。

同時這一階段仍包含next-token-prediction損失，以讓隱式嵌入幫助后續(xù)推理。

圖5 SFT第三階段示意。這一階段的目標為對齊無輔助圖像時產(chǎn)生的隱式嵌入和來自第二階段的高質(zhì)量目標隱式嵌入。VLPO：專為隱式思考設計的強化學習

為此，作者提出了VLPO（Visual-latent policy optimization），通過估計隱式嵌入的生成概率來將其納入損失函數(shù)的計算之中。

Monet帶來了分布內(nèi)和分布外視覺推理能力的提升

圖6 分布內(nèi)的感知和推理任務上的性能（真實世界、圖表、OCR任務）

圖7 分布外視覺推理任務上的性能（抽象視覺推理任務）

主要結果：作者在分布內(nèi)任務（真實世界、圖表、OCR）和分布外任務（抽象視覺推理）上測試了Monet-7B。

結果如圖6和圖7所示，Monet超過了SFT、SFT+GRPO以及現(xiàn)有的think with images和隱式視覺推理的基線。相比基模型，在分布內(nèi)和分布外任務分別取得了3%~9.75%和2.31%的提升。

圖8 消融實驗?！癓atent-only” BP為SFT階段二中讓對齊損失的梯度僅流向隱式嵌入的設計；“auxiliary img”為SFT階段二中在student COT中引入輔助圖像的操作。

消融實驗：作者通過全面的消融實驗驗證了SFT階段各組件的必要性，以及提出的VLPO在SFT模型（Monet-SFT）基礎上帶來的進一步提升。

值得注意的是，在Monet-SFT基礎上進一步進行GRPO并不能帶來穩(wěn)定的提升，印證了GRPO的局限性。

探究隱式嵌入數(shù)量對性能的影響

圖9 橫軸：測試時隱式嵌入數(shù)量?？v軸：測試準確率。三條綠色線為Monet-SFT模型，訓練時隱式嵌入數(shù)量分別為8、10、12；藍色為SFT（K=8）+VLPO（K=10）；粉色為SFT（K=8）+GRPO.

作者探究了不同的訓練時和測試時隱式嵌入數(shù)量K對性能的影響。核心觀察總結如下：

對于分布內(nèi)任務，使用隱式思考確實相比純文本思考能帶來提升；對于分布外任務，只有經(jīng)過VLPO訓練的模型的隱式思考能相比純文本帶來額外提升。
對于分布內(nèi)任務，Monet-SFT模型展現(xiàn)出了測試時的縮放定律（test-time scaling law）：測試時隨著隱式嵌入數(shù)量（甚至遠超訓練時所見到的長度）增加性能上升；對于分布外任務，只有VLPO展現(xiàn)出了這一趨勢；
GRPO主要提升非隱式思考的性能（測試時latent size=0），而對于隱式思考（測試時latent size>0）提升不明顯。

更多細節(jié)請參考原文。

參考文獻：

[1] Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, and Chuang Gan. Machine mental imagery: Empower multimodal reasoning with latent visual tokens. arXiv preprint arXiv:2506.17218, 2025.

[2] Bangzheng Li, Ximeng Sun, Jiang Liu, Ze Wang, Jialian Wu, Xiaodong Yu, Hao Chen, Emad Barsoum, Muhao Chen, and Zicheng Liu. Latent visual reasoning. arXiv preprint arXiv:2509.24251, 2025.

[3] Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, and Hongsheng Li. Visual cot: Unleashing chain-of-thought reasoning in multi-modal language models. CoRR, 2024

[4] Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, et al. Zebra-cot: A dataset for interleaved vision language reasoning. arXiv preprint arXiv:2507.16746, 2025.

[5] Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, and Cha Zhang. Refocus: Visual editing as a chain of thought for structured image understanding. In ICML, 2025

[6] Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, et al. Cogcom: A visual language model with chain-ofmanipulations reasoning. In ICLR, 2025.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.