把它「畫」進(jìn)隱空間！新框架RoT探索大模型隱空間推理新范式

2026-01-23 17:21:24　來源: 機(jī)器之心Pro

廣西舉報

分享至

在 LLM 時代，思維鏈（ CoT）已成為解鎖模型復(fù)雜推理能力的關(guān)鍵鑰匙。然而，CoT 的冗長問題一直困擾著研究者——中間推理步驟和解碼操作帶來了巨大的計算開銷和顯存占用，嚴(yán)重制約了模型的推理效率。

為了解決這個問題，研究界近期嘗試了「隱式 CoT」（Implicit CoT），即讓模型在內(nèi)部隱狀態(tài)中完成推理，而不輸出具體的文本。這種方法雖然快，但卻是個「黑盒」：我們無法知道模型到底想了什么，也難以進(jìn)行監(jiān)督。

有什么方案既保證推理速度快，又使得過程可分析，還無需昂貴的預(yù)訓(xùn)練？

針對這一挑戰(zhàn)，騰訊內(nèi)容服務(wù)部 BAC 聯(lián)合清華大學(xué)與北京大學(xué)，提出了一種名為Render-of-Thought (RoT)的新框架。RoT 的核心思想非常巧妙：利用多模態(tài)模型（VLM）已有的視覺編碼器作為「語義錨點(diǎn)」，將文本推理步驟「渲染」為圖像的視覺嵌入（Visual Embeddings）。

這種方法不僅將推理過程壓縮到了致密的視覺潛空間中，還通過視覺渲染讓隱式推理過程變得可分析且可追蹤。

論文標(biāo)題：Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning
論文地址：https://arxiv.org/abs/2601.14750
Github 地址：https://github.com/TencentBAC/RoT
Huggingface地址：https://huggingface.co/collections/TencentBAC/rot

顯式太慢，隱式太黑盒？

RoT 走出第三條路

顯式 CoT (Explicit CoT)：讓模型把每一步推理都寫出來，就像學(xué)生做數(shù)學(xué)題寫步驟一樣。生成幾百個 Token 的中間步驟不僅費(fèi)時，還極其消耗顯存。

隱式 CoT (Implicit CoT)：模型直接在內(nèi)部隱狀態(tài)中進(jìn)行推理，不輸出具體文本。這種方式就像把思考過程扔進(jìn)了一個「黑箱」，缺乏中間過程的監(jiān)督。

Render-of-Thought (RoT)：另辟蹊徑，把「思考」變成了「作畫」。利用視覺信息的高密度特性，將冗長的文本壓縮成緊湊的視覺向量。這不僅有跡可循，還大幅提升了推理速度。

拒絕「黑盒」：

讓隱式推理「看得見、摸得著」

RoT 是一種將文本思維鏈通過光學(xué)渲染（Optical Rendering）和視覺知識蒸餾轉(zhuǎn)化為緊湊視覺表征的新范式。

與以往需要從頭學(xué)習(xí)「推理 Token」的隱式方法不同，RoT 直接利用了現(xiàn)有 VLM（如 Qwen-VL, LLaVA）中凍結(jié)的視覺編碼器。通過將 LLM 的隱狀態(tài)與渲染文本的視覺嵌入對齊，RoT 實現(xiàn)了即插即用（Plug-and-Play），無需額外的預(yù)訓(xùn)練開銷。渲染方案將文本推理步驟轉(zhuǎn)化為單行圖像，隱空間推理方法通過投影頭將 LLM 生成的隱狀態(tài)與視覺特征對齊。

為了適應(yīng)自回歸思維鏈的序列化建模，研究團(tuán)隊摒棄了固定尺寸的圖像渲染方案，采用了單行圖像渲染。該策略可以根據(jù)文本長度動態(tài)修改所需的圖像寬度。此外，單行的渲染方式確保圖像的 Patch 嚴(yán)格按照從左到右的方式提取，自然地將視覺序列與文本順序?qū)R。

移花接木的藝術(shù)：

兩步訓(xùn)練實現(xiàn)「降維打擊」

RoT 的實現(xiàn)過程主要分為兩個階段，旨在逐步將 LLM 的離散推理能力轉(zhuǎn)化為連續(xù)的視覺隱空間推理能力。

階段一：視覺對齊 (Visual Alignment)

這一階段凍結(jié)了 LLM 和視覺編碼器，僅訓(xùn)練一個輕量級的「視覺投影頭」（Visual Projection Head）。目標(biāo)是將 LLM 的文本隱狀態(tài)映射到由視覺編碼器提取的「渲染 CoT 圖像」的特征空間上。

此外，在第一階段中，為了使模型與所提出的推理模式保持一致，同時對<|img_end|>這一 special token 和答案的交叉熵?fù)p失進(jìn)行了建模：

階段二：潛在監(jiān)督微調(diào) (Latent Supervised Fine-Tuning)

在對齊之后，第二階段通過 LoRA 微調(diào) LLM，并且凍結(jié)已經(jīng)訓(xùn)練對齊的投影頭。此時，模型不再生成文本 Token，而是自回歸地生成一串連續(xù)的「潛在視覺 Token」（Latent Visual Tokens）。這些 Token 在隱空間中模擬了視覺編碼器的輸出，最終引導(dǎo)模型解碼出正確的文本答案。

推理與解碼策略

推理過程要求模型自主地從連續(xù)的潛在推理空間導(dǎo)航到離散的文本解空間。研究團(tuán)隊探索了兩種方案：基于 Special Token 的動態(tài)終止策略以及固定 Token 預(yù)算的靜態(tài)終止策略。

基于 Special Token 的動態(tài)終止策略

固定 Token 預(yù)算的靜態(tài)終止策略

該策略將潛在思維鏈的長度限制為一個固定的超參數(shù)。達(dá)到這個閾值時，會手動添加<|img_end|>這一 special token，以觸發(fā)從潛在推理到文本生成的轉(zhuǎn)換。

研究團(tuán)隊在實驗中發(fā)現(xiàn)，動態(tài)終止策略的性能明顯低于固定 Token 預(yù)算策略。這種性能差距可能源于連續(xù)潛空間中自我調(diào)節(jié)停止機(jī)制的內(nèi)在不穩(wěn)定性。在生成潛空間推理嵌入時，隱藏狀態(tài)可能無法始終如一地為終止標(biāo)記生成高置信度的預(yù)測，從而導(dǎo)致過早或延遲的轉(zhuǎn)換，破壞推理流程。

此外，采用固定 Token 預(yù)算策略時，每個數(shù)據(jù)集的最優(yōu) Token 預(yù)算各不相同。在 GSM8k-Aug 數(shù)據(jù)集上，32 個 Token 能實現(xiàn)最佳性能，而 MATH 數(shù)據(jù)集則需要 64 個 Token 才能達(dá)到峰值準(zhǔn)確率。研究者推測這種差異的出現(xiàn)是因為 MATH 數(shù)據(jù)集更具挑戰(zhàn)性，需要更長的推理鏈。

實測數(shù)據(jù)說話：

推理速度「狂飆」

研究團(tuán)隊在 GSM8k、MATH、SVAMP 等多個數(shù)學(xué)和邏輯推理基準(zhǔn)上對 RoT 進(jìn)行了廣泛測試。實驗基于 Qwen3-VL 和 LLaVA-V1.6 等主流架構(gòu)。

顯著的壓縮與加速：相比于顯式 CoT，RoT 實現(xiàn)了 3-4 倍的 Token 壓縮率。在推理速度上，RoT 展現(xiàn)出了巨大的優(yōu)勢。例如在 Qwen3-VL-4B 模型上，Pass@1/#L（準(zhǔn)確率與長度比）指標(biāo)顯著優(yōu)于基線。

優(yōu)于現(xiàn)有的隱式推理方法：與 Coconut、CoLaR 等最新的隱式推理方法相比，RoT 在準(zhǔn)確率上表現(xiàn)出色。特別是在 MultiArith 數(shù)據(jù)集上，RoT (Qwen3-VL-4B) 達(dá)到了 97.2% 的準(zhǔn)確率，顯著優(yōu)于同等規(guī)模下其他隱空間推理方案。

隱空間推理的可分析性：RoT 的一大亮點(diǎn)在于其可分析性。由于隱狀態(tài)被對齊到了視覺空間，可以通過熱力圖（Heatmap）等來觀察模型的「思考過程」。研究團(tuán)隊展示了 MATH 數(shù)據(jù)集的一個案例?？梢钥吹剑傻臐撛?Token 呈現(xiàn)出明顯的結(jié)構(gòu)化模式，Token 相似度矩陣顯示了推理的階段性。這證明模型并非在隨機(jī)生成向量，而是在進(jìn)行有邏輯的隱式推理。

單行渲染 vs. 多行渲染

在 RoT 中，傳統(tǒng)的固定尺寸的多行渲染會導(dǎo)致文本在圖像中頻繁換行。對于模型來說，這種換行在視覺空間中引入了不必要的「空間跳躍」，打斷了語義的連續(xù)性。

為了驗證這一點(diǎn)，研究團(tuán)隊對比了「固定尺寸的多行渲染圖像」與 RoT 文中使用的「單行動態(tài)寬度圖像」。

如上圖所示，單行渲染相比多行渲染收斂更快，同時能夠更好地契合語言模型從左到右的序列生成特性。

兩階段訓(xùn)練缺一不可

為了評估漸進(jìn)式訓(xùn)練策略的效果，研究團(tuán)隊分別對每個階段進(jìn)行獨(dú)立消融實驗。

去除第一階段會導(dǎo)致 MATH 的準(zhǔn)確率從 33.2% 降至 22.2%，表明視覺對齊對于構(gòu)建潛在空間結(jié)構(gòu)以及在復(fù)雜任務(wù)中防止表示坍縮至關(guān)重要。同樣，排除第二階段也會導(dǎo)致性能顯著下降，這會導(dǎo)致模型難以從連續(xù)的潛在空間中推導(dǎo)出最終答案。

展望

Render-of-Thought 提出了一種極具前景的「視覺化思維」范式。它打破了文本模態(tài)的限制，利用視覺信息的高密度特性來壓縮推理過程。

這項工作不僅大幅提升了推理效率，更重要的是，它通過「將思維渲染為圖像」這一直觀的想法，為理解大模型神秘的內(nèi)部隱空間提供了一扇新的窗口。對于未來在端側(cè)設(shè)備等資源受限場景下部署強(qiáng)推理模型，RoT 提供了一條切實可行的技術(shù)路徑。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.