国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多模態(tài)推理新范式!DiffThinker:用擴散模型「畫」出推理和答案

0
分享至



在多模態(tài)大模型(MLLMs)領(lǐng)域,思維鏈(CoT)一直被視為提升推理能力的核心技術(shù)。然而,面對復(fù)雜的長程、視覺中心任務(wù),這種基于文本生成的推理方式正面臨瓶頸:文本難以精確追蹤視覺信息的變化。形象地說,模型不知道自己想到哪一步了,對應(yīng)圖像是什么狀態(tài)。

盡管近期的「Thinking with Image」范式可以通過工具等對圖像進(jìn)行操作,但它們難以擴展到更復(fù)雜的長程任務(wù),且在多輪交互中本身開銷巨大。

近日,來自上海人工智能實驗室、南京大學(xué)、香港中文大學(xué)和上海交通大學(xué)的研究團隊提出了一種全新的生成式多模態(tài)推理(Generative Multimodal Reasoning)范式,并發(fā)布了模型DiffThinker

DiffThinker 徹底打破了「多模態(tài)輸入 -> 文本輸出」的傳統(tǒng)定式,將推理過程重構(gòu)為圖像到圖像(Image-to-Image)的生成任務(wù)。通過擴散模型(Diffusion Models),DiffThinker 能夠在視覺空間中直接生成推理路徑。

實驗結(jié)果令人驚訝:在包含長程規(guī)劃、組合優(yōu)化、約束滿足、空間推理等 7 項視覺中心的復(fù)雜任務(wù)中,DiffThinker 的表現(xiàn)顯著優(yōu)于包括GPT-5 (+314.2%)和Gemini-3-Flash (+111.6%)在內(nèi)的頂尖閉源模型,以及經(jīng)過相同數(shù)據(jù)微調(diào)的 Qwen3-VL-32B 基線 (+39.0%)。

  • 論文標(biāo)題:DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
  • 論文地址
  • https://arxiv.org/abs/2512.24165
  • 項目主頁
  • https://diffthinker-project.github.io
  • 代碼倉庫
  • https://github.com/lcqysl/DiffThinker



01 從「以文思考」到「以圖思考」

現(xiàn)有的多模態(tài)大模型在處理視覺推理任務(wù)時,難以追蹤視覺信息的變化。比如在空間導(dǎo)航任務(wù)(VSP、Maze 等)中,模型僅靠語言分析路徑,但輸入圖像不變,路徑一長就很容易「看走眼」,不知道自己已經(jīng)走到了哪。又比如拼圖任務(wù),模型如果不能直接對拼圖操作,很難憑空想象出答案。即便是最新的「Thinking with Image」范式,也往往依賴于多輪對話和工具調(diào)用,導(dǎo)致推理鏈路極長,難以擴展到復(fù)雜場景。

研究團隊還在項目主頁提供了幾個小游戲,以直觀理解人與 MLLM 的思維范式差異。

那么,為什么不能讓模型直接「看」著問題,把答案「畫」出來?

DiffThinker 提出的核心理念正是如此。研究團隊認(rèn)為,多模態(tài)推理不應(yīng)局限于符號空間,而應(yīng)回歸視覺空間,利用擴散模型直接生成答案。具體來說,DiffThinker 基于 Qwen-Image-Edit,配合 Flow Matching 訓(xùn)練直接用圖像生產(chǎn)答案。



02 DiffThinker 的四大核心特性


作為全新的生成式推理范式,DiffThinker 展現(xiàn)出了傳統(tǒng) MLLM 難以企及的四大特性:

  • 高效推理(Efficient Reasoning)相比于 MLLM 動輒生成數(shù)千個 Token 的長思維鏈,DiffThinker 在訓(xùn)練和推理效率上均表現(xiàn)出色,且準(zhǔn)確率更高。



  • 可控推理(Controllable Reasoning)MLLM 的輸出長度不可預(yù)測,常出現(xiàn)過長思維鏈甚至輸出崩潰導(dǎo)致死循環(huán)。而 DiffThinker 通過固定步數(shù)的歐拉求解器,能夠以確定的計算預(yù)算完成推理,不受任務(wù)邏輯復(fù)雜度的干擾。

  • 原生并行推理(Native Parallel Reasoning)這是擴散模型獨有的優(yōu)勢。在推理時,DiffThinker 能夠在視覺空間中同時探索多條潛在路徑,并隨著去噪過程逐步收斂到最優(yōu)解。這使得模型可以「邊畫邊推理」,更直觀。



  • 協(xié)同推理(Collaborative Reasoning)DiffThinker 還可以與 MLLM 合作。它生成多個候選視覺解,再由 MLLM 進(jìn)行邏輯驗證。實驗顯示,這種「DiffThinker 生成 + MLLM 驗證」的組合,性能實現(xiàn)「1+1>2」,超越了任何單一模型。



03 實驗結(jié)果:碾壓級的性能


研究團隊在四個領(lǐng)域的七大任務(wù)上進(jìn)行了系統(tǒng)評測,包括:

  • 序列規(guī)劃:VSP,VSP-Super,Maze(迷宮)
  • 組合優(yōu)化:TSP(旅行商問題)
  • 約束滿足:Sudoku(數(shù)獨)
  • 空間配置:Jigsaw(拼圖),VisPuzzle

主要結(jié)果如下:



DiffThinker 在所有任務(wù)上的平均得分高達(dá)87.4,而 GPT-5 僅為 21.1,Gemini-3-Flash 為 41.3。同數(shù)據(jù)訓(xùn)練的 Qwen3-VL-32B 也只有62.9。

04 視頻生成 vs 圖像生成


既然是視覺推理,用視頻模型(Video Generation)會不會更好?

團隊基于 Wan2.2-TI2V-5B 開發(fā)了 DiffThinker-Video 版本。結(jié)果發(fā)現(xiàn),雖然視頻能展示動態(tài)過程,但在推理準(zhǔn)確率上反而不如圖像生成模型,且推理時間增加了近一倍(1.1s vs 2.0s)。這表明,在當(dāng)前的算力與模型架構(gòu)下,「以圖思考」仍是比「以視頻思考」更高效的路徑。

05 結(jié)語


DiffThinker 的出現(xiàn),標(biāo)志著生成式多模態(tài)推理(Generative Multimodal Reasoning)時代的開啟。它證明了擴散模型不僅能畫畫,還能進(jìn)行嚴(yán)密的邏輯推理。

對于長程、視覺中心的復(fù)雜任務(wù),將推理過程從「文本流」轉(zhuǎn)變?yōu)椤敢曈X流」,或許正是通往下一代通用人工智能的關(guān)鍵一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
安在旭和蘇志燮吊唁安圣基,宋承憲哭了,車仁表穿高領(lǐng)毛衣很帥

安在旭和蘇志燮吊唁安圣基,宋承憲哭了,車仁表穿高領(lǐng)毛衣很帥

娛圈小愚
2026-01-08 10:38:49
3名男子舉報上海移動 為創(chuàng)收逼迫員工上門斷用戶網(wǎng)絡(luò) 上海移動客服人員:舉報內(nèi)容是不存在的

3名男子舉報上海移動 為創(chuàng)收逼迫員工上門斷用戶網(wǎng)絡(luò) 上海移動客服人員:舉報內(nèi)容是不存在的

閃電新聞
2026-01-08 15:01:28
馬杜羅迎來幫手,六國挺身而出,四國對美國發(fā)出通牒,特朗普急了

馬杜羅迎來幫手,六國挺身而出,四國對美國發(fā)出通牒,特朗普急了

來科點譜
2026-01-06 09:00:36
法國第一美人消失25年,被救時竟已淪為46斤人畜,親媽在閣樓里藏了整整25年的秘密終于曝光了

法國第一美人消失25年,被救時竟已淪為46斤人畜,親媽在閣樓里藏了整整25年的秘密終于曝光了

歷史回憶室
2026-01-02 19:54:11
都體:曼聯(lián)為小因扎吉開1500萬鎊年薪,但他現(xiàn)在兩年5000萬歐

都體:曼聯(lián)為小因扎吉開1500萬鎊年薪,但他現(xiàn)在兩年5000萬歐

懂球帝
2026-01-08 18:26:20
微信辟謠網(wǎng)傳新規(guī)則

微信辟謠網(wǎng)傳新規(guī)則

界面新聞
2026-01-08 14:53:45
美國人預(yù)測:未來20年,世界上最強大的"7個國家",看都有誰?

美國人預(yù)測:未來20年,世界上最強大的"7個國家",看都有誰?

小熊侃史
2026-01-07 11:18:33
廣東傳3好3壞消息!阿旺喊話遼寧,少杰傷情更新,王洪澤發(fā)文自勉

廣東傳3好3壞消息!阿旺喊話遼寧,少杰傷情更新,王洪澤發(fā)文自勉

后仰大風(fēng)車
2026-01-08 06:45:07
汶川地震缺重型直升機痛心,直-17仿支奴干失敗,中國終走自研路

汶川地震缺重型直升機痛心,直-17仿支奴干失敗,中國終走自研路

暮光視界
2026-01-08 09:46:20
白宮:被扣油輪上船員 可能被帶到美國接受審判

白宮:被扣油輪上船員 可能被帶到美國接受審判

每日經(jīng)濟新聞
2026-01-08 07:40:58
杜月笙的發(fā)妻沈月英,和表哥私會,云雨過后,她含淚囑咐表哥

杜月笙的發(fā)妻沈月英,和表哥私會,云雨過后,她含淚囑咐表哥

百態(tài)人間
2026-01-07 16:41:09
新疆生產(chǎn)建設(shè)兵團黨委常委、副司令員李旭被查

新疆生產(chǎn)建設(shè)兵團黨委常委、副司令員李旭被查

澎湃新聞
2026-01-08 18:32:26
13年后王石又做了一鍋紅燒肉,終究比不過胡歌的那鍋紅燒肉

13年后王石又做了一鍋紅燒肉,終究比不過胡歌的那鍋紅燒肉

阿訊說天下
2026-01-06 15:30:46
正大量上市!這種紅薯自帶毒素,比喝酒還傷肝,家里有的盡快扔掉

正大量上市!這種紅薯自帶毒素,比喝酒還傷肝,家里有的盡快扔掉

DrX說
2026-01-08 14:57:29
“AI火了,我們卻快完了!”頂級開源框架Tailwind之父含淚裁掉75%兄弟:半年后,這個項目可能就沒了

“AI火了,我們卻快完了!”頂級開源框架Tailwind之父含淚裁掉75%兄弟:半年后,這個項目可能就沒了

InfoQ
2026-01-08 13:32:50
全球嘩然!中國“人造太陽”捅破西方理論天花板,這招“笨功夫”讓對手慌了

全球嘩然!中國“人造太陽”捅破西方理論天花板,這招“笨功夫”讓對手慌了

Hi秒懂科普
2026-01-06 19:19:08
白鹿給閨蜜呵呵買車,網(wǎng)友:世界欠我一個白鹿

白鹿給閨蜜呵呵買車,網(wǎng)友:世界欠我一個白鹿

萱小蕾o
2026-01-07 16:55:32
中老年人要遠(yuǎn)離洋蔥?醫(yī)生提醒:不想進(jìn)醫(yī)院,這幾物別輕易下嘴

中老年人要遠(yuǎn)離洋蔥?醫(yī)生提醒:不想進(jìn)醫(yī)院,這幾物別輕易下嘴

健康之光
2025-12-31 08:55:06
中國駐日大使罕見缺席日方新年問候交流會!日本政壇大佬施壓高市

中國駐日大使罕見缺席日方新年問候交流會!日本政壇大佬施壓高市

時時有聊
2026-01-08 07:45:16
“買不起羽絨服,還敢生5個孩子?”老師一句話,讓家長無地自容

“買不起羽絨服,還敢生5個孩子?”老師一句話,讓家長無地自容

妍妍教育日記
2026-01-06 10:18:39
2026-01-08 22:40:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12080文章數(shù) 142532關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

10歲抗癌"王子"病情惡化 家人"放棄治療"孩子憧憬出院

頭條要聞

10歲抗癌"王子"病情惡化 家人"放棄治療"孩子憧憬出院

體育要聞

世乒賽銀牌得主,說自己夢里都是孫穎莎

娛樂要聞

抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評

財經(jīng)要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

親子
時尚
手機
本地
家居

親子要聞

雀巢在至少50個國家和地區(qū)召回部分嬰幼兒配方奶粉

190萬贊的爆款女孩,等待代表作

手機要聞

一加手機2025年銷量增速位居行業(yè)第一:一加15/Ace 6銷量創(chuàng)新高

本地新聞

1986-2026,一通電話的時空旅程

家居要聞

理性主義 冷調(diào)自由居所

無障礙瀏覽 進(jìn)入關(guān)懷版