国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

打破文本記憶局限!ViLoMem要記視覺(jué)關(guān)注點(diǎn),顯著提升多模態(tài)推理能力!

0
分享至

文章來(lái)源:我愛(ài)計(jì)算機(jī)視覺(jué)(ID:aicvml)

你是否發(fā)現(xiàn),現(xiàn)在的多模態(tài)大模型(MLLMs)雖然在單次回答上表現(xiàn)驚艷,但往往像個(gè)“健忘癥患者”?它們處理每一個(gè)問(wèn)題時(shí)都是從零開(kāi)始(de novo),反復(fù)掉進(jìn)同一個(gè)坑里,昨天犯過(guò)的視覺(jué)識(shí)別錯(cuò)誤,今天換個(gè)姿勢(shì)又犯一遍。

已有的記憶增強(qiáng)Agent大多只是簡(jiǎn)單地把過(guò)去的“軌跡”存起來(lái)。但這種做法有兩個(gè)硬傷:一是“撿了芝麻丟了西瓜”,隨著記憶被反復(fù)壓縮,關(guān)鍵的領(lǐng)域知識(shí)逐漸流失;二是“偏科”,往往只記住了邏輯層面的總結(jié),卻丟掉了視覺(jué)感知的細(xì)節(jié)。這完全不符合人類的認(rèn)知習(xí)慣——我們的語(yǔ)義記憶是“多模態(tài)且融合”的,既有對(duì)“長(zhǎng)什么樣”的視覺(jué)印象,也有對(duì)“怎么推理”的邏輯抽象。

針對(duì)這個(gè)痛點(diǎn),南京理工大學(xué)聯(lián)合百度等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新的雙流記憶框架——ViLoMem(Visual-Logical Memory)。它像人類大腦一樣,分門別類地存儲(chǔ)“視覺(jué)干擾模式”和“邏輯推理錯(cuò)誤”,讓模型不僅知道“怎么想”,更知道“往哪看”。在六個(gè)多模態(tài)基準(zhǔn)測(cè)試中,ViLoMem顯著減少了重復(fù)的視覺(jué)和邏輯錯(cuò)誤,特別是在數(shù)學(xué)推理任務(wù)上表現(xiàn)搶眼。



  • 論文地址 :https://arxiv.org/abs/2511.21678

  • 機(jī)構(gòu) :南京理工大學(xué)、百度、阿德萊德大學(xué)AIML、新加坡科技設(shè)計(jì)大學(xué)

  • 作者 :Weihao Bo, Shan Zhang, Yanpeng Sun等

  • 項(xiàng)目主頁(yè) :https://weihao-bo.github.io/ViLoMeo-page/

  • 代碼倉(cāng)庫(kù) :https://github.com/weihao-bo/ViLoMem

為什么我們需要“視覺(jué)-邏輯”雙流記憶?

現(xiàn)有的多模態(tài)模型在解決復(fù)雜問(wèn)題(特別是數(shù)學(xué)和圖表題)時(shí),很多時(shí)候不是“腦子”不夠用,而是“眼睛”沒(méi)看準(zhǔn)。比如,把圖中的三角形看成了直角三角形,或者忽略了關(guān)鍵的陰影部分。

如下圖1所示,當(dāng)模型面對(duì)一個(gè)多模態(tài)問(wèn)題時(shí),早期的嘗試可能既包含邏輯錯(cuò)誤,也包含視覺(jué)錯(cuò)誤。如果只通過(guò)文本反饋來(lái)修正,模型往往難以糾正底層的感知偏差。


ViLoMem 的核心洞見(jiàn)在于:視覺(jué)注意力的錯(cuò)誤直接導(dǎo)致了下游的邏輯幻覺(jué),形成連鎖反應(yīng)。 因此,必須將“視覺(jué)干擾”和“邏輯幻覺(jué)”解耦,分別建立記憶。

  • 視覺(jué)流(Visual Stream) :負(fù)責(zé)記住“哪里容易看錯(cuò)”。比如,“當(dāng)看到這種反光的物體表面時(shí),不要誤以為是某種材質(zhì)”。

  • 邏輯流(Logical Stream) :負(fù)責(zé)記住“推理規(guī)則”。比如,“應(yīng)用垂直平分線定理前,先確認(rèn)點(diǎn)是否在直線上”。

這種設(shè)計(jì)靈感來(lái)源于人類的認(rèn)知神經(jīng)科學(xué):人類的大腦有專門的視覺(jué)聯(lián)想皮層(處理視覺(jué)語(yǔ)義)和頂下小葉等區(qū)域(處理抽象規(guī)則),并通過(guò)前顳葉(ATL)進(jìn)行整合。ViLoMem 正是模擬了這種機(jī)制。

ViLoMem 框架詳解:生長(zhǎng)與精煉

ViLoMem 是一個(gè)即插即用的雙流記憶框架,通過(guò)一個(gè)閉環(huán)的“記憶周期”(Memory Cycle)來(lái)實(shí)現(xiàn)持續(xù)學(xué)習(xí)。整個(gè)流程包括記憶的檢索、利用、生成和更新。


記憶生成:精準(zhǔn)歸因,結(jié)構(gòu)化存儲(chǔ)

當(dāng)模型在某個(gè)問(wèn)題上失敗時(shí),ViLoMem 不會(huì)籠統(tǒng)地記錄“這題做錯(cuò)了”,而是啟動(dòng)并行的錯(cuò)誤歸因生成機(jī)制

  1. 視覺(jué)記憶生成 :利用 MLLM 分析圖像和錯(cuò)誤軌跡,判斷是否發(fā)生了視覺(jué)誤解(如對(duì)象混淆、符號(hào)遺漏)。如果是,則生成一條 視覺(jué)指南(Visual Guideline) ,告訴模型“下次遇到類似的圖,要特別注意查看XXX區(qū)域”。

  2. 邏輯記憶生成 :利用 LLM 純粹從文本層面分析推理鏈,識(shí)別計(jì)算錯(cuò)誤或公式誤用,生成 邏輯指南(Logic Guideline) 。

為了避免記憶庫(kù)無(wú)限膨脹導(dǎo)致檢索困難,ViLoMem 遵循“生長(zhǎng)與精煉(Grow-and-Refine)”原則。新生成的指南會(huì)與已有記憶進(jìn)行相似度比對(duì):如果發(fā)現(xiàn)相似的錯(cuò)誤模式,就進(jìn)行合并(Merge),提煉出更通用的規(guī)則;如果是新的錯(cuò)誤類型,則創(chuàng)建(Create)新的記憶條目。這種機(jī)制有效防止了災(zāi)難性遺忘和知識(shí)碎片化。

記憶檢索:雙重策略,有的放矢

在解決新問(wèn)題時(shí),ViLoMem 采用差異化的檢索策略來(lái)獲取最相關(guān)的建議:

  • 視覺(jué)記憶檢索(兩階段法)

    • 第1步 :先用圖像嵌入(Image Embedding)快速召回視覺(jué)上相似的歷史案例。

    • 第2步 :再用文本嵌入(Text Embedding)結(jié)合當(dāng)前問(wèn)題的具體語(yǔ)義進(jìn)行重排序。

    • 高亮 :為了更直觀地指導(dǎo)模型“往哪看”,ViLoMem還會(huì)根據(jù)檢索到的錯(cuò)誤模式,生成 問(wèn)題感知注意力圖(Question-Aware Attention Map) ,高亮顯示圖像中容易出錯(cuò)的區(qū)域作為輔助輸入。

  • 邏輯記憶檢索(精準(zhǔn)定位)

    • 先對(duì)當(dāng)前問(wèn)題進(jìn)行分析,提取學(xué)科領(lǐng)域和關(guān)鍵概念(如“幾何”、“勾股定理”)。

    • 利用這些結(jié)構(gòu)化信息構(gòu)造查詢向量,在邏輯記憶庫(kù)中精準(zhǔn)匹配相關(guān)的推理規(guī)則。

如下圖3所示,無(wú)論是材質(zhì)識(shí)別的視覺(jué)陷阱,還是圖表讀數(shù)的細(xì)節(jié)錯(cuò)誤,ViLoMem 都能精準(zhǔn)地從歷史經(jīng)驗(yàn)中提取出對(duì)應(yīng)的“避坑指南”。


實(shí)驗(yàn)結(jié)果:全方位提升

研究團(tuán)隊(duì)在 MMMU、MathVista、MathVision 等六個(gè)主流多模態(tài)基準(zhǔn)上對(duì) ViLoMem 進(jìn)行了廣泛評(píng)估。涵蓋了 GPT-4.1、Qwen3-VL-235B 和 Qwen3-VL-8B 等不同規(guī)模的模型。

主實(shí)驗(yàn)結(jié)果

如表1所示,ViLoMem 在所有模型和基準(zhǔn)上均取得了一致的性能提升。



  • 數(shù)學(xué)推理提升顯著 :在 MathVision 上,GPT-4.1 結(jié)合 ViLoMem 后準(zhǔn)確率提升了 6.48% 。這印證了論文的觀點(diǎn):數(shù)學(xué)任務(wù)對(duì)視覺(jué)感知的精確度要求極高,消除視覺(jué)誤差能帶來(lái)巨大的收益。

  • 小模型也有大智慧 :8B 參數(shù)量的 Qwen3-VL 在 MMMU 上提升了 4.38% ,說(shuō)明結(jié)構(gòu)化的外部記憶可以有效補(bǔ)充小模型參數(shù)知識(shí)的不足。

消融實(shí)驗(yàn)與分析

為了驗(yàn)證雙流記憶的必要性,研究者進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)(下表2)。


結(jié)果顯示,單獨(dú)去掉邏輯記憶或視覺(jué)記憶都會(huì)導(dǎo)致性能下降。更有趣的是,視覺(jué)錯(cuò)誤主導(dǎo)了記憶生成(如圖4 (a)所示,約59%-93%的生成事件源于視覺(jué)錯(cuò)誤),這再次強(qiáng)調(diào)了在多模態(tài)任務(wù)中關(guān)注視覺(jué)感知的重要性。


跨模型與跨領(lǐng)域遷移

ViLoMem 還展現(xiàn)出了優(yōu)秀的通用性:

  • 跨模型遷移 :把強(qiáng)模型(如 Qwen3-VL-235B)生成的記憶給弱模型(如 8B)使用,弱模型的性能甚至超過(guò)了自我生成的記憶(下表3)。這意味著我們可以用大模型“教”小模型避坑。

  • 跨領(lǐng)域遷移 :雖然任務(wù)對(duì)齊的記憶效果最好,但在 MathVision 和 RealWorldQA 這樣都依賴空間推理的任務(wù)間,記憶也表現(xiàn)出了正向的遷移效果(下表4)。

一點(diǎn)思考

ViLoMem 的成功給我們帶來(lái)了一個(gè)重要的啟示:在追求更大的模型參數(shù)之前,也許我們應(yīng)該先優(yōu)化模型“從錯(cuò)誤中學(xué)習(xí)”的能力。人類之所以聰明,很大程度上是因?yàn)槲覀兡苡涀 吧洗挝以谶@里跌了一跤”。

這種將感知(視覺(jué))與認(rèn)知(邏輯)解耦并協(xié)同的記憶機(jī)制,或許能成為大模型能力不斷進(jìn)階的“錯(cuò)題集”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
牛群也沒(méi)想到,折騰半生家產(chǎn)盡失,如今美國(guó)畢業(yè)的兒子成晚年依靠

牛群也沒(méi)想到,折騰半生家產(chǎn)盡失,如今美國(guó)畢業(yè)的兒子成晚年依靠

寒士之言本尊
2025-12-19 20:26:51
明星全家福,誰(shuí)丑遺傳誰(shuí),丑基因是一點(diǎn)沒(méi)浪費(fèi),白瞎了好基因

明星全家福,誰(shuí)丑遺傳誰(shuí),丑基因是一點(diǎn)沒(méi)浪費(fèi),白瞎了好基因

翰林濤濤
2025-12-19 10:01:23
北京這一晚,55歲劉奕君秒了41歲向佐,才懂男人剛陽(yáng)硬朗的魅力

北京這一晚,55歲劉奕君秒了41歲向佐,才懂男人剛陽(yáng)硬朗的魅力

娛說(shuō)瑜悅
2025-12-20 18:38:52
酸菜再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病患者常吃酸菜,或出現(xiàn)5種變化

酸菜再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病患者常吃酸菜,或出現(xiàn)5種變化

橘子約定
2025-11-28 09:39:09
褪去稚氣!全紅嬋歸隊(duì),新造型亮相,攜手陳若琳,劍指2026

褪去稚氣!全紅嬋歸隊(duì),新造型亮相,攜手陳若琳,劍指2026

體育見(jiàn)習(xí)官
2025-12-21 21:41:39
如果當(dāng)年蔣介石退守緬甸,而不是去臺(tái)灣,有可能變成什么樣?

如果當(dāng)年蔣介石退守緬甸,而不是去臺(tái)灣,有可能變成什么樣?

孫錫北漂拍客
2025-12-18 17:24:51
特朗普鳴槍,貿(mào)易休戰(zhàn)結(jié)束?想從四領(lǐng)域?qū)θA下死手,中方反將三軍

特朗普鳴槍,貿(mào)易休戰(zhàn)結(jié)束?想從四領(lǐng)域?qū)θA下死手,中方反將三軍

阿握聊事
2025-12-21 20:53:39
人挪活樹(shù)挪死!25歲河南隊(duì)主力自由身加盟海港,8場(chǎng)首發(fā)貢獻(xiàn)2進(jìn)球

人挪活樹(shù)挪死!25歲河南隊(duì)主力自由身加盟海港,8場(chǎng)首發(fā)貢獻(xiàn)2進(jìn)球

茜子足球
2025-12-21 20:44:30
安徽帥哥洪牛去世,結(jié)婚才10天,婚禮上多輛跑車,葬禮上妹妹戴孝

安徽帥哥洪牛去世,結(jié)婚才10天,婚禮上多輛跑車,葬禮上妹妹戴孝

千言?shī)蕵?lè)記
2025-12-18 19:59:34
不要忙著打日本,中國(guó)應(yīng)該去全國(guó)各地的武器倉(cāng)庫(kù)突擊大檢查!

不要忙著打日本,中國(guó)應(yīng)該去全國(guó)各地的武器倉(cāng)庫(kù)突擊大檢查!

時(shí)分秒說(shuō)
2025-12-09 12:11:20
家里有青春期的孩子才懂“半大小子,吃窮老子”的含金量!

家里有青春期的孩子才懂“半大小子,吃窮老子”的含金量!

夜深愛(ài)雜談
2025-12-21 18:36:37
臀大腰粗不用愁,粉色吊帶搭灰色瑜伽褲,透露著野性的時(shí)尚感

臀大腰粗不用愁,粉色吊帶搭灰色瑜伽褲,透露著野性的時(shí)尚感

小喬古裝漢服
2025-12-21 12:10:43
孫銘徽:上賽季總決賽我打了4針?lè)忾] 冒著重傷風(fēng)險(xiǎn)不想再錯(cuò)過(guò)冠軍

孫銘徽:上賽季總決賽我打了4針?lè)忾] 冒著重傷風(fēng)險(xiǎn)不想再錯(cuò)過(guò)冠軍

818體育
2025-12-21 21:10:06
聲稱拿下庫(kù)皮揚(yáng)斯克的俄軍司令庫(kù)佐夫列夫被曝消失!或已身亡

聲稱拿下庫(kù)皮揚(yáng)斯克的俄軍司令庫(kù)佐夫列夫被曝消失!或已身亡

項(xiàng)鵬飛
2025-12-21 20:34:23
澳門回歸前,富商馬萬(wàn)祺前來(lái)提醒:請(qǐng)向中央反映,澳門必須駐軍

澳門回歸前,富商馬萬(wàn)祺前來(lái)提醒:請(qǐng)向中央反映,澳門必須駐軍

壹知眠羊
2025-12-19 07:17:58
華山航拍驚現(xiàn)“斷柱”:拜了千年的山,可能是上古神話案發(fā)現(xiàn)場(chǎng)?

華山航拍驚現(xiàn)“斷柱”:拜了千年的山,可能是上古神話案發(fā)現(xiàn)場(chǎng)?

詩(shī)意世界
2025-12-17 08:00:03
三胎生父有眉目了!已立好遺囑的張柏芝,讓謝霆鋒父子甩掉大黑鍋

三胎生父有眉目了!已立好遺囑的張柏芝,讓謝霆鋒父子甩掉大黑鍋

李橑在北漂
2025-12-21 06:20:28
中國(guó)黃金現(xiàn)貨價(jià)格再創(chuàng)新高

中國(guó)黃金現(xiàn)貨價(jià)格再創(chuàng)新高

常滌非觀點(diǎn)
2025-12-21 15:27:52
歐盟11國(guó)部隊(duì)進(jìn)入烏克蘭,澤連斯基放棄北約,俄烏停火臨近

歐盟11國(guó)部隊(duì)進(jìn)入烏克蘭,澤連斯基放棄北約,俄烏停火臨近

瑪麗蓮萌兔
2025-12-19 07:21:59
公認(rèn)最難吃的10種蔬菜,吃過(guò)5種以上算你牛,全吃過(guò)的真不多

公認(rèn)最難吃的10種蔬菜,吃過(guò)5種以上算你牛,全吃過(guò)的真不多

農(nóng)夫也瘋狂
2025-12-19 14:34:41
2025-12-21 22:35:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5273文章數(shù) 64595關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬(wàn)個(gè)應(yīng)用

頭條要聞

46歲獨(dú)居女子離世遺產(chǎn)歸公買墓地遇難題 最新進(jìn)展公布

頭條要聞

46歲獨(dú)居女子離世遺產(chǎn)歸公買墓地遇難題 最新進(jìn)展公布

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂(lè)要聞

星光大賞太尷尬!搶話擋鏡頭,場(chǎng)地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

健康
本地
房產(chǎn)
藝術(shù)
軍事航空

這些新療法,讓化療不再那么痛苦

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

房產(chǎn)要聞

中交·藍(lán)色港灣一周年暨藍(lán)調(diào)生活沙龍圓滿舉行

藝術(shù)要聞

俄羅斯畫(huà)家尼古拉·波格丹諾夫·貝爾斯基人物繪畫(huà)作品

軍事要聞

石破茂:擁核絕不會(huì)給日本帶來(lái)正面影響

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版