国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

把它「畫」進(jìn)隱空間!新框架RoT探索大模型隱空間推理新范式

0
分享至



在 LLM 時代,思維鏈( CoT)已成為解鎖模型復(fù)雜推理能力的關(guān)鍵鑰匙。然而,CoT 的冗長問題一直困擾著研究者——中間推理步驟和解碼操作帶來了巨大的計算開銷和顯存占用,嚴(yán)重制約了模型的推理效率。

為了解決這個問題,研究界近期嘗試了「隱式 CoT」(Implicit CoT),即讓模型在內(nèi)部隱狀態(tài)中完成推理,而不輸出具體的文本。這種方法雖然快,但卻是個「黑盒」:我們無法知道模型到底想了什么,也難以進(jìn)行監(jiān)督。

有什么方案既保證推理速度快,又使得過程可分析,還無需昂貴的預(yù)訓(xùn)練?

針對這一挑戰(zhàn),騰訊內(nèi)容服務(wù)部 BAC 聯(lián)合清華大學(xué)與北京大學(xué),提出了一種名為Render-of-Thought (RoT)的新框架。RoT 的核心思想非常巧妙:利用多模態(tài)模型(VLM)已有的視覺編碼器作為「語義錨點(diǎn)」,將文本推理步驟「渲染」為圖像的視覺嵌入(Visual Embeddings)。

這種方法不僅將推理過程壓縮到了致密的視覺潛空間中,還通過視覺渲染讓隱式推理過程變得可分析且可追蹤。



  • 論文標(biāo)題:Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning
  • 論文地址:https://arxiv.org/abs/2601.14750
  • Github 地址:https://github.com/TencentBAC/RoT
  • Huggingface地址:https://huggingface.co/collections/TencentBAC/rot

顯式太慢,隱式太黑盒?

RoT 走出第三條路

顯式 CoT (Explicit CoT):讓模型把每一步推理都寫出來,就像學(xué)生做數(shù)學(xué)題寫步驟一樣。生成幾百個 Token 的中間步驟不僅費(fèi)時,還極其消耗顯存。

隱式 CoT (Implicit CoT):模型直接在內(nèi)部隱狀態(tài)中進(jìn)行推理,不輸出具體文本。這種方式就像把思考過程扔進(jìn)了一個「黑箱」,缺乏中間過程的監(jiān)督。

Render-of-Thought (RoT):另辟蹊徑,把「思考」變成了「作畫」。利用視覺信息的高密度特性,將冗長的文本壓縮成緊湊的視覺向量。這不僅有跡可循,還大幅提升了推理速度。



拒絕「黑盒」:

讓隱式推理「看得見、摸得著」

RoT 是一種將文本思維鏈通過光學(xué)渲染(Optical Rendering)和視覺知識蒸餾轉(zhuǎn)化為緊湊視覺表征的新范式。

與以往需要從頭學(xué)習(xí)「推理 Token」的隱式方法不同,RoT 直接利用了現(xiàn)有 VLM(如 Qwen-VL, LLaVA)中凍結(jié)的視覺編碼器。通過將 LLM 的隱狀態(tài)與渲染文本的視覺嵌入對齊,RoT 實現(xiàn)了即插即用(Plug-and-Play),無需額外的預(yù)訓(xùn)練開銷。渲染方案將文本推理步驟轉(zhuǎn)化為單行圖像,隱空間推理方法通過投影頭將 LLM 生成的隱狀態(tài)與視覺特征對齊。

為了適應(yīng)自回歸思維鏈的序列化建模,研究團(tuán)隊摒棄了固定尺寸的圖像渲染方案,采用了單行圖像渲染。該策略可以根據(jù)文本長度動態(tài)修改所需的圖像寬度。此外,單行的渲染方式確保圖像的 Patch 嚴(yán)格按照從左到右的方式提取,自然地將視覺序列與文本順序?qū)R。



移花接木的藝術(shù):

兩步訓(xùn)練實現(xiàn)「降維打擊」

RoT 的實現(xiàn)過程主要分為兩個階段,旨在逐步將 LLM 的離散推理能力轉(zhuǎn)化為連續(xù)的視覺隱空間推理能力。

階段一:視覺對齊 (Visual Alignment)

這一階段凍結(jié)了 LLM 和視覺編碼器,僅訓(xùn)練一個輕量級的「視覺投影頭」(Visual Projection Head)。目標(biāo)是將 LLM 的文本隱狀態(tài)映射到由視覺編碼器提取的「渲染 CoT 圖像」的特征空間上。





此外,在第一階段中,為了使模型與所提出的推理模式保持一致,同時對<|img_end|>這一 special token 和答案的交叉熵?fù)p失進(jìn)行了建模:





階段二:潛在監(jiān)督微調(diào) (Latent Supervised Fine-Tuning)

在對齊之后,第二階段通過 LoRA 微調(diào) LLM,并且凍結(jié)已經(jīng)訓(xùn)練對齊的投影頭。此時,模型不再生成文本 Token,而是自回歸地生成一串連續(xù)的「潛在視覺 Token」(Latent Visual Tokens)。這些 Token 在隱空間中模擬了視覺編碼器的輸出,最終引導(dǎo)模型解碼出正確的文本答案。



推理與解碼策略

推理過程要求模型自主地從連續(xù)的潛在推理空間導(dǎo)航到離散的文本解空間。研究團(tuán)隊探索了兩種方案:基于 Special Token 的動態(tài)終止策略以及固定 Token 預(yù)算的靜態(tài)終止策略。

  • 基于 Special Token 的動態(tài)終止策略







  • 固定 Token 預(yù)算的靜態(tài)終止策略

該策略將潛在思維鏈的長度限制為一個固定的超參數(shù)。達(dá)到這個閾值時,會手動添加<|img_end|>這一 special token,以觸發(fā)從潛在推理到文本生成的轉(zhuǎn)換。

研究團(tuán)隊在實驗中發(fā)現(xiàn),動態(tài)終止策略的性能明顯低于固定 Token 預(yù)算策略。這種性能差距可能源于連續(xù)潛空間中自我調(diào)節(jié)停止機(jī)制的內(nèi)在不穩(wěn)定性。在生成潛空間推理嵌入時,隱藏狀態(tài)可能無法始終如一地為終止標(biāo)記生成高置信度的預(yù)測,從而導(dǎo)致過早或延遲的轉(zhuǎn)換,破壞推理流程。

此外,采用固定 Token 預(yù)算策略時,每個數(shù)據(jù)集的最優(yōu) Token 預(yù)算各不相同。在 GSM8k-Aug 數(shù)據(jù)集上,32 個 Token 能實現(xiàn)最佳性能,而 MATH 數(shù)據(jù)集則需要 64 個 Token 才能達(dá)到峰值準(zhǔn)確率。研究者推測這種差異的出現(xiàn)是因為 MATH 數(shù)據(jù)集更具挑戰(zhàn)性,需要更長的推理鏈。



實測數(shù)據(jù)說話:

推理速度「狂飆」

研究團(tuán)隊在 GSM8k、MATH、SVAMP 等多個數(shù)學(xué)和邏輯推理基準(zhǔn)上對 RoT 進(jìn)行了廣泛測試。實驗基于 Qwen3-VL 和 LLaVA-V1.6 等主流架構(gòu)。

  • 顯著的壓縮與加速:相比于顯式 CoT,RoT 實現(xiàn)了 3-4 倍的 Token 壓縮率。在推理速度上,RoT 展現(xiàn)出了巨大的優(yōu)勢。例如在 Qwen3-VL-4B 模型上,Pass@1/#L(準(zhǔn)確率與長度比)指標(biāo)顯著優(yōu)于基線。



  • 優(yōu)于現(xiàn)有的隱式推理方法:與 Coconut、CoLaR 等最新的隱式推理方法相比,RoT 在準(zhǔn)確率上表現(xiàn)出色。特別是在 MultiArith 數(shù)據(jù)集上,RoT (Qwen3-VL-4B) 達(dá)到了 97.2% 的準(zhǔn)確率,顯著優(yōu)于同等規(guī)模下其他隱空間推理方案。





  • 隱空間推理的可分析性:RoT 的一大亮點(diǎn)在于其可分析性。由于隱狀態(tài)被對齊到了視覺空間,可以通過熱力圖(Heatmap)等來觀察模型的「思考過程」。研究團(tuán)隊展示了 MATH 數(shù)據(jù)集的一個案例??梢钥吹剑傻臐撛?Token 呈現(xiàn)出明顯的結(jié)構(gòu)化模式,Token 相似度矩陣顯示了推理的階段性。這證明模型并非在隨機(jī)生成向量,而是在進(jìn)行有邏輯的隱式推理。



單行渲染 vs. 多行渲染

在 RoT 中,傳統(tǒng)的固定尺寸的多行渲染會導(dǎo)致文本在圖像中頻繁換行。對于模型來說,這種換行在視覺空間中引入了不必要的「空間跳躍」,打斷了語義的連續(xù)性。

為了驗證這一點(diǎn),研究團(tuán)隊對比了「固定尺寸的多行渲染圖像」與 RoT 文中使用的「單行動態(tài)寬度圖像」。



如上圖所示,單行渲染相比多行渲染收斂更快,同時能夠更好地契合語言模型從左到右的序列生成特性。

兩階段訓(xùn)練缺一不可

為了評估漸進(jìn)式訓(xùn)練策略的效果,研究團(tuán)隊分別對每個階段進(jìn)行獨(dú)立消融實驗。

去除第一階段會導(dǎo)致 MATH 的準(zhǔn)確率從 33.2% 降至 22.2%,表明視覺對齊對于構(gòu)建潛在空間結(jié)構(gòu)以及在復(fù)雜任務(wù)中防止表示坍縮至關(guān)重要。同樣,排除第二階段也會導(dǎo)致性能顯著下降,這會導(dǎo)致模型難以從連續(xù)的潛在空間中推導(dǎo)出最終答案。



展望

Render-of-Thought 提出了一種極具前景的「視覺化思維」范式。它打破了文本模態(tài)的限制,利用視覺信息的高密度特性來壓縮推理過程。

這項工作不僅大幅提升了推理效率,更重要的是,它通過「將思維渲染為圖像」這一直觀的想法,為理解大模型神秘的內(nèi)部隱空間提供了一扇新的窗口。對于未來在端側(cè)設(shè)備等資源受限場景下部署強(qiáng)推理模型,RoT 提供了一條切實可行的技術(shù)路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俾斯麥海發(fā)生6.3級地震

俾斯麥海發(fā)生6.3級地震

財聯(lián)社
2024-09-12 01:09:10
印度:世界不能是中美主導(dǎo),也不能是中國主導(dǎo),應(yīng)該中印一起領(lǐng)導(dǎo)

印度:世界不能是中美主導(dǎo),也不能是中國主導(dǎo),應(yīng)該中印一起領(lǐng)導(dǎo)

通文知史
2026-01-22 19:20:03
這都不算強(qiáng)奸?!

這都不算強(qiáng)奸?!

字圓球方
2026-01-23 16:11:45
某國產(chǎn)品牌豪車暴跌98%,豪車不是有外形就行,需要核心技術(shù)

某國產(chǎn)品牌豪車暴跌98%,豪車不是有外形就行,需要核心技術(shù)

柏銘銳談
2026-01-22 23:18:24
基辛格離世前預(yù)測:若三戰(zhàn)爆發(fā),只有3個國家敢打美國,沒有中國

基辛格離世前預(yù)測:若三戰(zhàn)爆發(fā),只有3個國家敢打美國,沒有中國

芊芊子吟
2025-12-24 16:40:03
46歲藍(lán)正龍悉尼被偶遇!造型邋遢似流浪漢,手提臺灣LV太搶眼

46歲藍(lán)正龍悉尼被偶遇!造型邋遢似流浪漢,手提臺灣LV太搶眼

史行途
2026-01-23 15:57:57
市場監(jiān)管總局通報48批次食品抽檢不合格情況

市場監(jiān)管總局通報48批次食品抽檢不合格情況

界面新聞
2026-01-23 19:04:08
關(guān)鍵時刻,人民日報評論靠譜過嗎?

關(guān)鍵時刻,人民日報評論靠譜過嗎?

黔有虎
2026-01-23 00:34:42
活久見!阿根廷總統(tǒng)米萊穿運(yùn)動鞋,參加川普的和平委員會成立大會

活久見!阿根廷總統(tǒng)米萊穿運(yùn)動鞋,參加川普的和平委員會成立大會

火山詩話
2026-01-23 14:21:22
安東尼奧:中國足球和日本差距巨大!會努力讓特別的事情發(fā)生

安東尼奧:中國足球和日本差距巨大!會努力讓特別的事情發(fā)生

奧拜爾
2026-01-23 16:41:29
女子網(wǎng)購50天后退款后續(xù):家境曝光兩個孩子,商家索要2千只賠500

女子網(wǎng)購50天后退款后續(xù):家境曝光兩個孩子,商家索要2千只賠500

離離言幾許
2026-01-23 00:01:41
剛剛,楊蘭蘭本人澳洲出庭!正式低頭承認(rèn)!

剛剛,楊蘭蘭本人澳洲出庭!正式低頭承認(rèn)!

澳洲紅領(lǐng)巾
2026-01-23 11:40:24
李亞鵬澄清做生意虧4000萬!并非如此,是被20年老兄弟害了

李亞鵬澄清做生意虧4000萬!并非如此,是被20年老兄弟害了

以茶帶書
2026-01-23 14:58:15
明知對方未離婚仍同居四十年,晚年求分居被索要補(bǔ)償:我做了錯事

明知對方未離婚仍同居四十年,晚年求分居被索要補(bǔ)償:我做了錯事

福建第一幫幫團(tuán)
2026-01-21 18:42:34
廣東大哥吐槽河南媳婦做飯菜像鬧饑荒,網(wǎng)友笑噴了:有得吃就行

廣東大哥吐槽河南媳婦做飯菜像鬧饑荒,網(wǎng)友笑噴了:有得吃就行

金汐
2026-01-23 01:07:48
陳育煌任吉林省副省長

陳育煌任吉林省副省長

新京報
2026-01-23 19:13:08
梁小龍死因被推翻!摯友陳光標(biāo)公布去世真相,根本不是因病去世

梁小龍死因被推翻!摯友陳光標(biāo)公布去世真相,根本不是因病去世

阿晪美食
2026-01-23 16:16:35
泰安市岱岳區(qū)人大常委會副主任李成勇被查

泰安市岱岳區(qū)人大常委會副主任李成勇被查

魯中晨報
2026-01-23 17:11:02
演員孫濤澄清閆學(xué)晶言論,落淚維護(hù)妻子

演員孫濤澄清閆學(xué)晶言論,落淚維護(hù)妻子

素素娛樂
2026-01-23 18:08:52
U23亞洲杯決賽賠率:中國不被看好,日本贏球賠率均1.5左右

U23亞洲杯決賽賠率:中國不被看好,日本贏球賠率均1.5左右

懂球帝
2026-01-23 14:02:18
2026-01-23 20:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12179文章數(shù) 142548關(guān)注度
往期回顧 全部

科技要聞

TikTok守住了算法"靈魂" 更握緊了"錢袋子"

頭條要聞

阿姨和未離婚男子同居四十年 晚年只求分居被索要25萬

頭條要聞

阿姨和未離婚男子同居四十年 晚年只求分居被索要25萬

體育要聞

跑個步而已,他們在燃什么?

娛樂要聞

演員孫濤澄清閆學(xué)晶言論 落淚維護(hù)妻子

財經(jīng)要聞

2026年,消費(fèi)沒有新故事?

汽車要聞

主打家庭大六座 奕境首款SUV將北京車展亮相

態(tài)度原創(chuàng)

家居
游戲
教育
手機(jī)
房產(chǎn)

家居要聞

在家度假 160平南洋混搭宅

《FF7RE》第三章進(jìn)度超預(yù)期!備受好評小游戲確認(rèn)回歸

教育要聞

重磅!綿陽外國語學(xué)校校長、副校長調(diào)整

手機(jī)要聞

165Hz 滿幀生態(tài) + 極客面板 真我Neo8全面評測:這才是新一代潮玩電競旗艦該有的樣子

房產(chǎn)要聞

正式官宣!三亞又一所名校要來了!

無障礙瀏覽 進(jìn)入關(guān)懷版