国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI看圖一本正經(jīng)胡說八道?「一拉一推」讓模型看得全又準

0
分享至

  • BiPS團隊 投稿
    量子位 | 公眾號 QbitAI

隨著視覺-語言模型(VLM)推理能力不斷增強,一個隱蔽的問題逐漸浮現(xiàn):

很多錯誤不是推理沒做好,而是“看錯了”。

在復(fù)雜視覺任務(wù)中,模型往往能正確識別對象、理解問題,甚至給出完整的推理鏈,卻因捕捉了錯誤的視覺證據(jù),得出自信卻錯誤的答案。

現(xiàn)有方法通常在推理階段“指路”——例如生成視覺提示或調(diào)用外部工具,以臨時對齊證據(jù)。這類策略雖有效,卻面臨明顯局限:視覺線索形式受限、高度依賴具體任務(wù),且推理開銷大。更重要的是,它引出一個根本性問題:

如果模型始終需要外部提醒才知道“看哪兒”,它是否真的理解了視覺世界?

為此,微軟亞洲研究院與清華大學提出BiPS(Bi-directional Perceptual Shaping),從源頭重塑模型的“看圖方式”。

BiPS不在推理時臨時提示關(guān)注區(qū)域,而是在訓練階段就教會模型:面對特定問題,哪些視覺細節(jié)必須關(guān)注,哪些可以忽略。通過系統(tǒng)性地對齊問題與視覺證據(jù),BiPS促使模型內(nèi)化一種核心能力——帶著問題去看圖。因此,在推理時無需任何額外提示,模型也能自動聚焦于真正決定答案的關(guān)鍵區(qū)域與細節(jié)。

實驗表明,這種“看哪兒”的能力具有跨任務(wù)遷移性,為構(gòu)建更可靠、通用的視覺理解系統(tǒng)開辟了新路徑。

視線錯位:VLM的“看”與“想”為何脫節(jié)?

我們常被視覺-語言模型(VLM)行云流水的回答迷惑,以為它真的“看懂”了圖片。但事實可能是:它識別出了圖中物體,卻抓錯了關(guān)鍵信息。

人類的視覺是目標驅(qū)動的:問趨勢就追曲線,問數(shù)值就盯刻度,問關(guān)系就比位置。但當前VLM的“看”仍停留在打標簽階段,缺乏對關(guān)鍵證據(jù)的精準定位能力。它知道圖里有什么,卻不知道該看哪里

為解決這一“視線錯位”,學界常采用視覺證據(jù)引導(dǎo)——通過框選、掩碼或線索提示,為模型的“視線”裝上“準星”。然而,這種引導(dǎo)式感知存在三重局限:

其一,世界不是矩形的。圖表中的折線拐點、幾何題中的交疊多邊形、醫(yī)學影像中的彌散病灶……這些關(guān)鍵線索往往是不規(guī)則且彌散的,難以被標準框或掩碼完整覆蓋。裁大引入噪聲,裁小丟失細節(jié),模型“看”到了區(qū)域,卻依然看錯了證據(jù)。

其二,聚焦能力無法遷移。當前提示方法多為特定任務(wù)定制,依賴特定數(shù)據(jù)分布或標注規(guī)則。模型的感知能力被綁死在任務(wù)專屬的視覺表示上,難以泛化。換一個任務(wù),就得重教它“怎么看”。

其三,感知被推遲到推理之后。多數(shù)方案將視覺聚焦視為推理鏈中的中間補救步驟,不僅拖慢效率,更讓錯誤在后續(xù)推理中滾雪球式放大。

核心挑戰(zhàn)由此浮現(xiàn):如何讓模型學會“帶著問題去看圖”?

從“推理時補救”到“訓練時內(nèi)化”:BiPS的核心轉(zhuǎn)向



如果問題根源不在“推理不夠聰明”,而在“從第一眼就看錯了圖”,是否該換個思路?

能否不再依賴推理階段的視覺外掛,而是在訓練階段,就讓模型真正學會識別什么是“正確的視覺證據(jù)”?

這正是BiPS(Bi-directional Perceptual Shaping)的核心革命。

它不做邊界框、不打掩碼、不調(diào)工具,而是:

把推理階段依賴的視覺提示,提前轉(zhuǎn)化為指導(dǎo)模型“該往哪兒看”的訓練信號。讓模型學會本能聚焦關(guān)鍵證據(jù)。

一拉一推:讓模型既“看全”,又“看準”

BiPS的核心在于一套方向相反、粒度互補的雙重感知塑形機制:

先把模型的視線“拉”回到所有相關(guān)證據(jù),再“推”它看向真正關(guān)鍵的細節(jié)。



“拉”:看少,但看全

真實問答常依賴分散卻環(huán)環(huán)相扣的視覺證據(jù)鏈——如折線走勢、圖例顏色、坐標刻度與子圖標題的組合。

為此,BiPS構(gòu)建Evidence-Preserving View(證據(jù)保留視圖):系統(tǒng)性剔除干擾,僅保留回答必需的視覺元素,寧可粒度粗,也不遺漏關(guān)鍵。

模型需基于這種“信息更少但結(jié)構(gòu)完整”的視圖,輸出與原始圖像一致的答案。

這一過程將模型從噪聲與偏見中拉回,使其回答錨定于完整的證據(jù)鏈。

“推”:看對關(guān)鍵細節(jié)

“看全”只是起點。若模型僅模糊定位相關(guān)區(qū)域,仍可能依賴語言先驗或統(tǒng)計偏見作答。

BiPS引入Evidence-Ablated View(證據(jù)消融視圖):精準移除決定答案的關(guān)鍵細節(jié)(如某條折線)。這類改動視覺上微小,卻足以顛覆答案。

此時訓練目標反轉(zhuǎn):一旦關(guān)鍵證據(jù)消失,模型必須拒絕原答案。

這是一種反事實約束——任何繞過關(guān)鍵視覺證據(jù)的“替代推理”都應(yīng)失效。

協(xié)同塑形感知

“拉”與“推”構(gòu)成遞進流程:

  • “拉”確?;卮鸹谕暾?、必要的視覺證據(jù);
  • “推”迫使模型識別不可替代的細粒度線索。

二者協(xié)同,推動模型從表面關(guān)聯(lián)走向因果一致的證據(jù)依賴,學會像人類一樣“帶著問題看世界”。

圖表是最好的老師:用精確證據(jù),教會模型“看哪里”

當BiPS把“看準”作為訓練目標后,一個現(xiàn)實問題隨之而來:

那些精細又緊扣問題的視覺證據(jù),到底從哪兒來?

圖表是極佳的訓練起點:它們以多子圖、細折線、小標記與精確刻度等,構(gòu)成了高密度、高信息量的視覺場景。這些微小元素往往是解題的關(guān)鍵線索,提供了豐富且細粒度的感知材料

更重要的是,圖表中的視覺證據(jù)是可控的。每個元素都可被程序化地添加、移除或遮蔽,并能直接驗證其對答案的影響,從而能夠以程序化的方式,準確構(gòu)建“證據(jù)保留”與“證據(jù)消融”的對照視圖。

因此,在BiPS的訓練體系中,圖表是一個高復(fù)雜度、高度可控的實驗場:既足夠復(fù)雜以提供真實的細粒度證據(jù),又足夠可控以精準操縱這些證據(jù)。模型在此學習的,并非解讀圖表,而是在復(fù)雜視覺場景中,學會將注意力聚焦于與問題真正相關(guān)的局部線索

13K訓練樣本,8個基準:一次“小數(shù)據(jù)”的能力遷移

BiPS展示出了一種高效而穩(wěn)定的訓練范式。僅用13K條圖表樣本對基礎(chǔ)模型進行微調(diào),無需人工標注,也未針對不同任務(wù)定制專門工具或模板。訓練目標單一明確:學會“問題指哪,就看哪”的視覺邏輯



效果顯著:在8個不同的評測基準上,模型均實現(xiàn)了一致且顯著的性能提升,涵蓋:

  • 真實圖表理解(如CharXiv)
  • 圖像驅(qū)動的數(shù)理邏輯推理(如MathVision)
  • 通用視覺問答(如MMStar)

以Qwen2.5-VL-7B為基礎(chǔ)模型,BiPS帶來了平均準確率+7.3%的提升,這一提升并非集中在某一特定領(lǐng)域,而是跨越數(shù)據(jù)分布、跨越任務(wù)類型的全面進步。

即便在推理能力已高度強化的Qwen3-VL-8B-Thinking上,這一效果依然成立:

CharXiv:53.0→58.1;MathVision:62.7→63.9;MMStar:75.3→76.3

這些結(jié)果表明,BiPS學到的不是“圖表特有的解題技巧”,而是一種可遷移的“看對地方”的能力

學會“看對地方”:邁向通用智能的關(guān)鍵一步

真正的視覺智能不僅是“看到”,更是在復(fù)雜信息中,聚焦于與問題相關(guān)的關(guān)鍵證據(jù)

BiPS實現(xiàn)的并非簡單的技巧優(yōu)化,而是一種根本性的能力轉(zhuǎn)變:使模型的視覺注意力從被動、均勻的掃視,轉(zhuǎn)變?yōu)橹鲃?、問題驅(qū)動的精準聚焦

這無疑是通向通用視覺智能的關(guān)鍵一步,其核心在于:讓模型的眼睛,真正看向問題的關(guān)鍵。

論文鏈接:

https://arxiv.org/abs/2512.22120

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
春節(jié)高速免費最后1分鐘:有人壓哨通過省下1000多元,也有車主從蕭山上高速后“卡點”失敗交了幾百元通行費

春節(jié)高速免費最后1分鐘:有人壓哨通過省下1000多元,也有車主從蕭山上高速后“卡點”失敗交了幾百元通行費

都市快報橙柿互動
2026-02-24 09:16:26
隱瞞了我們62年!摘假發(fā)卸掉濃妝,李谷一的真實容貌其實長這樣

隱瞞了我們62年!摘假發(fā)卸掉濃妝,李谷一的真實容貌其實長這樣

相思賦予誰a
2026-02-23 12:08:28
特朗普非常迫切,中國非常淡定從容!

特朗普非常迫切,中國非常淡定從容!

占豪
2026-02-25 01:18:03
春節(jié)期間樓市成交量突現(xiàn)翻倍式增長,房價的玩笑這次開大了

春節(jié)期間樓市成交量突現(xiàn)翻倍式增長,房價的玩笑這次開大了

重遠投資觀
2026-02-24 15:23:23
西紅柿立大功!醫(yī)生研究發(fā)現(xiàn):老人吃西紅柿,或能緩解4種癥狀

西紅柿立大功!醫(yī)生研究發(fā)現(xiàn):老人吃西紅柿,或能緩解4種癥狀

醫(yī)學原創(chuàng)故事會
2026-01-21 21:50:30
《好好的時光》央視首播收視第1,觀眾評價一針見血,扮嫩又鬧騰

《好好的時光》央視首播收視第1,觀眾評價一針見血,扮嫩又鬧騰

娛君墜星河
2026-02-24 11:54:23
徹底撕破臉!谷愛凌坦言:代表中國參賽后,在美遭毆打、宿舍被闖

徹底撕破臉!谷愛凌坦言:代表中國參賽后,在美遭毆打、宿舍被闖

科學發(fā)掘
2026-02-25 02:38:37
7場5球1助!皇馬新大羅卻遭狠批,19歲就散步,難接班姆巴佩

7場5球1助!皇馬新大羅卻遭狠批,19歲就散步,難接班姆巴佩

阿泰希特
2026-02-24 14:15:02
鄧家佳翻車!2026年唯一公開發(fā)“LNY”的中國明星,評論區(qū)淪陷

鄧家佳翻車!2026年唯一公開發(fā)“LNY”的中國明星,評論區(qū)淪陷

萌神木木
2026-02-22 15:20:15
軍購特別條例下月6日付委,韓國瑜提醒國民黨團趨吉避兇

軍購特別條例下月6日付委,韓國瑜提醒國民黨團趨吉避兇

新時光點滴
2026-02-25 01:55:06
你最爽的一次經(jīng)歷是啥樣?網(wǎng)友:還清了所有外債

你最爽的一次經(jīng)歷是啥樣?網(wǎng)友:還清了所有外債

另子維愛讀史
2026-02-22 22:58:56
新加坡大滿貫:2月25日賽程公布,孫穎莎戰(zhàn)老將,向鵬黃友政對決

新加坡大滿貫:2月25日賽程公布,孫穎莎戰(zhàn)老將,向鵬黃友政對決

乒談
2026-02-24 23:12:17
12345不能亂打了!2026年開始整治亂打熱線現(xiàn)象

12345不能亂打了!2026年開始整治亂打熱線現(xiàn)象

醫(yī)脈圈
2026-02-24 12:13:20
黎智英女兒:懇請谷愛凌為父發(fā)聲后,不到24小時,港府回應(yīng)了

黎智英女兒:懇請谷愛凌為父發(fā)聲后,不到24小時,港府回應(yīng)了

百態(tài)人間
2026-02-24 15:45:57
2026年2月,建筑集團公司已經(jīng)全面停工停產(chǎn)!

2026年2月,建筑集團公司已經(jīng)全面停工停產(chǎn)!

巢客HOME
2026-02-23 20:26:27
貝加爾湖墜車事件:活下來的江蘇爸爸,往后的每一天都是煎熬

貝加爾湖墜車事件:活下來的江蘇爸爸,往后的每一天都是煎熬

社會日日鮮
2026-02-23 14:05:41
徐璐打羽毛球 注意力都被她的身材給吸引了 誰還看打羽毛球的過程啊

徐璐打羽毛球 注意力都被她的身材給吸引了 誰還看打羽毛球的過程啊

林子說事
2026-02-24 11:51:44
恭喜汪小菲又當爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

恭喜汪小菲又當爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

娛樂圈圈圓
2026-02-24 15:30:08
鞏俐21歲時寫的字,顛覆了我的想象!

鞏俐21歲時寫的字,顛覆了我的想象!

石場阿鑫
2026-01-16 13:41:02
炸鍋!國美才女淪陷海外,私密視頻被掛成人網(wǎng),留學生集體背鍋?

炸鍋!國美才女淪陷海外,私密視頻被掛成人網(wǎng),留學生集體背鍋?

戧詞奪理
2026-02-23 15:32:24
2026-02-25 05:23:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12196文章數(shù) 176392關(guān)注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機器人Unitree As2

頭條要聞

男子摟住繼女強吻動作親密 當?shù)貗D聯(lián)介入

頭條要聞

男子摟住繼女強吻動作親密 當?shù)貗D聯(lián)介入

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經(jīng)要聞

縣城消費「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

游戲
親子
健康
手機
公開課

LOL傳奇選手公布戀情!發(fā)博曬照被夸夫妻相,女方身份曝光

親子要聞

秋田滿滿的破局之道:升級品類、捕捉喂養(yǎng)痛點,并提供“更優(yōu)解”

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機要聞

蘋果發(fā)布iOS 26.4 Beta 2系統(tǒng)更新,液態(tài)玻璃設(shè)計有新變化!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版