国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AdaResoner實(shí)現(xiàn)Agentic Vision的主動(dòng)「視覺(jué)工具思考」

0
分享至



你見(jiàn)過(guò) 7B 模型在拼圖推理上干翻 GPT-5 嗎?

不是靠堆參數(shù),不是靠更大的數(shù)據(jù),而是靠一件事:學(xué)會(huì)「什么時(shí)候該用工具」。

大多數(shù)「工具增強(qiáng)」模型是這樣的:遇到任務(wù) X → 調(diào)用固定工具 Y → 祈禱結(jié)果正確。一旦場(chǎng)景稍微變化,模型就開始抽風(fēng)——不知道什么工具該用、什么工具不該用。

AdaReasoner 解決的是更本質(zhì)的問(wèn)題:把 what / when / how(用什么、何時(shí)用、怎么用)當(dāng)成推理能力來(lái)學(xué)。



  • 論文標(biāo)題:AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning
  • 論文(arXiv):https://arxiv.org/abs/2601.18631
  • 項(xiàng)目主頁(yè):https://adareasoner.github.io
  • 代碼:https://github.com/ssmisya/AdaReasoner
  • 模型與數(shù)據(jù):https://huggingface.co/collections/hitsmy/adareasoner
  • 視頻(YouTube):https://www.youtube.com/watch?v=_SOyD-lomOM

先看 10 秒效果:


https://mp.weixin.qq.com/s/WH8kXeIsh97T7WjO0m2xRA?search_cli

AdaReasoner 工作流程示意

Google 近期宣布,為其輕量級(jí)模型 Gemini 3 Flash 引入一項(xiàng)名為「Agentic Vision」(代理視覺(jué))的新能力。

這項(xiàng)更新標(biāo)志著多模態(tài) AI 處理圖像的方式發(fā)生了根本性轉(zhuǎn)變:從傳統(tǒng)的靜態(tài)識(shí)別,升級(jí)為具備「思考、行動(dòng)、觀察」循環(huán)的主動(dòng)調(diào)查模式。

在此之前,包括 GPT 在內(nèi)的大多數(shù)前沿多模態(tài)模型處理圖像的方式類似于人類的「匆匆一瞥」:模型接收?qǐng)D像,進(jìn)行一次性處理并輸出結(jié)果。這種方式在面對(duì)需要細(xì)致觀察的任務(wù)時(shí),往往會(huì)因?yàn)榧?xì)節(jié)丟失而產(chǎn)生幻覺(jué)或猜測(cè)。

Agentic Vision 的工作機(jī)制:Gemini 3 Flash 現(xiàn)在能夠像人類調(diào)查員一樣通過(guò)以下循環(huán)進(jìn)行推理:

  • 思考(Think)——分析用戶指令和圖像初步內(nèi)容,制定調(diào)查計(jì)劃。
  • 行動(dòng)(Act)——自動(dòng)生成并執(zhí)行 Python 代碼來(lái)操作圖像。例如,對(duì)圖像進(jìn)行縮放、裁剪特定區(qū)域、旋轉(zhuǎn)視角或繪制輔助線。
  • 觀察(Observe)——檢查代碼執(zhí)行后的新視圖或數(shù)據(jù),獲取更精確的視覺(jué)證據(jù)。

上述過(guò)程可以多次迭代,直到模型收集到足夠的確鑿證據(jù)來(lái)回答問(wèn)題。

有意思的是:AdaReasoner 與 Agentic Vision 殊途同歸。AdaReasoner 同樣實(shí)現(xiàn)并驗(yàn)證了幾乎相同的范式:



工業(yè)界與學(xué)術(shù)界同時(shí)押注「主動(dòng)工具使用」,說(shuō)明這個(gè)方向正在成為多模態(tài)推理的主流范式。

AdaReasoner 的獨(dú)特價(jià)值在于:我們不只是驗(yàn)證了這套范式有效,更提出了一套讓開源小模型也能習(xí)得這種能力的訓(xùn)練方法——這正是接下來(lái)要詳細(xì)介紹的內(nèi)容。

01 痛點(diǎn):多模態(tài)推理為什么

總是「看起來(lái)很會(huì),細(xì)節(jié)就開始猜」?

在多模態(tài)推理里,「看清細(xì)節(jié)」和「多步推理」經(jīng)?;ハ嗫ú弊樱?/p>

感知不夠精確 → 證據(jù)不足 → 推理再漂亮也容易變成「guided guessing」;

反過(guò)來(lái),如果能把關(guān)鍵證據(jù)用工具查出來(lái)、畫出來(lái)、驗(yàn)證出來(lái),模型就能把算力用在判斷與規(guī)劃上。

換句話說(shuō):工具不是外掛,而是把推理從「猜」拉回「查」的關(guān)鍵路徑。

02 一句話介紹 AdaReasoner:

把工具使用當(dāng)成「通用推理技能」

AdaReasoner 是一個(gè)訓(xùn)練范式:讓模型不僅會(huì)「調(diào)用工具」,更會(huì)做三類決策:

  • 選擇:該用哪個(gè)工具?要不要組合多個(gè)工具?
  • 時(shí)機(jī):什么時(shí)候該用?什么時(shí)候不該用?
  • 魯棒性:工具失敗/無(wú)用怎么辦?是否回退、是否換策略?



AdaReasoner 把「工具使用」當(dāng)成推理技能來(lái)學(xué)習(xí):會(huì)采納有用工具、丟棄無(wú)關(guān)工具,并按任務(wù)調(diào)節(jié)調(diào)用頻率。

03 三個(gè)關(guān)鍵設(shè)計(jì):

讓「會(huì)用工具」從口號(hào)變成能力

3.1 Tool Cold Start (TC):把「犯錯(cuò)-修正」寫進(jìn)數(shù)據(jù)里

我們不是只給模型看「完美路徑」,而是刻意加入兩類真實(shí)世界會(huì)發(fā)生的場(chǎng)景:

  • 反思與回溯:試一下 → 檢查 → 不對(duì)就撤回/換方案。
  • 工具失敗處理:工具返回錯(cuò)誤/無(wú)效 → 及時(shí)止損 → 回退到模型自身能力。



定性案例:多輪工具規(guī)劃 + 反思糾錯(cuò) + 組合工具完成復(fù)雜視覺(jué)推理

3.2 Tool-GRPO (TG):優(yōu)化「多輪工具編排」,而不是單次調(diào)用

多模態(tài)工具推理往往不是「一次調(diào)用結(jié)束」,而是多回合:

觀察 → 調(diào)用 → 再觀察 → 再調(diào)用 → 最終回答。

Tool-GRPO 針對(duì) multi-turn 場(chǎng)景做了專門的強(qiáng)化學(xué)習(xí)優(yōu)化,并用自適應(yīng)獎(jiǎng)勵(lì)把工具使用變成「不確定時(shí)的可靠后備」,而不是強(qiáng)制流程。

3.3 Adaptive Learning (ADL):逼模型學(xué)「語(yǔ)義」,別背「名字」

為了避免模型死記硬背某個(gè)工具名(比如看到 "Point" 就條件反射),我們做了兩件事:

  • 工具名/參數(shù)名隨機(jī)化(去掉字面提示)。
  • 工具描述改寫(同一語(yǔ)義、多種表達(dá))。



隨機(jī)化訓(xùn)練的直觀示意



AdaReasoner 框架總覽:Tool Cold Start → Tool-GRPO → Adaptive Learning

04 最硬的證據(jù):

小模型為什么能「跨級(jí)打怪」?

先給結(jié)論:AdaReasoner-7B 相對(duì) base 模型在多個(gè)基準(zhǔn)上實(shí)現(xiàn)顯著提升(在選取的 8 個(gè) benchmark 上平均 +24.9%),并在結(jié)構(gòu)化推理任務(wù)上接近滿分。



主實(shí)驗(yàn)結(jié)果:在 VSP、Jigsaw、GUIQA 等任務(wù)上顯著提升。

更重要的是:不是「工具越多越好」,而是訓(xùn)練配方?jīng)Q定工具是否真的幫得上忙。

例如在單任務(wù)設(shè)置下:

  • VSP: Base 28.09 → TC 64.91 → TG 73.18 → TC+TG 97.64
  • Jigsaw: Base 45.70 → TC 84.20 → TC+TG 96.60(超過(guò) GPT-5 的 80.10)



瓶頸遷移示意:當(dāng)工具規(guī)劃足夠好,性能瓶頸從「模型規(guī)模」部分遷移到「工具效用與工具規(guī)劃能力」

05 最有意思的部分:模型真的

學(xué)出了「三種自適應(yīng)工具行為」

這部分是 AdaReasoner 最像「智能體」的地方:我們沒(méi)有寫規(guī)則讓它這么做,但它在 RL 過(guò)程中學(xué)會(huì)了。

行為 1:會(huì)「采納」有用的新工具(Adopt)

把 A* 規(guī)劃工具放進(jìn)強(qiáng)化學(xué)習(xí)階段(Cold Start 沒(méi)見(jiàn)過(guò)),模型會(huì)逐步提高調(diào)用頻率并穩(wěn)定掌握:

VSP Navigation 從 44.83 → 96.33



Navigation 任務(wù)示意



A* 工具調(diào)用頻率隨 RL 訓(xùn)練演化

行為 2:會(huì)「丟棄」無(wú)關(guān)工具(Discard)

更關(guān)鍵的是:A* 對(duì) Verify 任務(wù)沒(méi)用,甚至是干擾項(xiàng)。

在「只在推理時(shí)提供 A*」的設(shè)置里,Verify 會(huì)出現(xiàn) 94.20 → 80.00 的下降。

而在 RL 訓(xùn)練后,模型會(huì)逐步壓制無(wú)關(guān)調(diào)用,讓 Verify 維持在接近滿分(99.20)。

一句話:它不僅會(huì)用工具,還會(huì)學(xué)會(huì)「別亂用」。

行為 3:會(huì)「調(diào)節(jié)」調(diào)用頻率(Modulate)

工具也不是開/關(guān)二選一。模型會(huì)根據(jù)子任務(wù)「調(diào)頻」:

Point 工具在導(dǎo)航更關(guān)鍵(~3.2 calls/sample),在驗(yàn)證更克制(~1.0 call/sample)



Point 工具調(diào)用頻率「調(diào)頻」:Navigation 中更關(guān)鍵,Verification 中更克制

06 換工具說(shuō)明書

也能用:泛化與穩(wěn)健性

現(xiàn)實(shí)里最常見(jiàn)的崩潰方式是:工具定義、參數(shù)名、描述文案一變,模型就「不會(huì)用了」。

AdaReasoner 用 ADL(隨機(jī)化 + 改寫)把「工具規(guī)劃」從文本表面形式里解耦出來(lái)。

一個(gè)很直觀的證據(jù)來(lái)自工具使用統(tǒng)計(jì):

  • 在 Jigsaw 上達(dá)到 3.54 CPS 且工具執(zhí)行成功率 98.50%,最終準(zhǔn)確率 88.60。
  • 在 VStar 這種更開放的 VQA 上仍能主動(dòng)調(diào)用工具(1.47 CPS)并取得 70.68。



工具使用統(tǒng)計(jì)(CPS、成功率)與性能

此外,使用 ADL,模型能夠更容易在新的任務(wù)上取得更好的表現(xiàn)。我們僅使用 Jigsaw 這一個(gè)任務(wù)的 SFT 數(shù)據(jù),在三個(gè)任務(wù)上 RL,可以看到,使用 ADL 的版本能夠在另外兩個(gè)任務(wù)上給模型帶來(lái)效果上的提升。



ADL 能將單個(gè)任務(wù)上學(xué)來(lái)的 agent planning 能力遷移到 SFT 沒(méi)見(jiàn)過(guò)的任務(wù)上。

07 我們想強(qiáng)調(diào)的

學(xué)術(shù)結(jié)論(Takeaways)

多模態(tài)推理不只是 「think harder」。更關(guān)鍵的是:

actively seeing, verifying, and planning with tools.

當(dāng)工具編排學(xué)得足夠好,瓶頸會(huì)發(fā)生遷移:

model scale → tool utility + tool planning

這對(duì)小模型尤其重要:參數(shù)有限時(shí),「會(huì)用工具」就是最直接的能力放大器。

從 Agentic Vision 看趨勢(shì):Google 用 Agentic Vision 把 Think-Act-Observe 內(nèi)置到 Gemini,學(xué)術(shù)界用 AdaReasoner 驗(yàn)證這套范式在開源模型上的可行性——兩條路線同時(shí)驗(yàn)證了「主動(dòng)工具使用」的價(jià)值。對(duì)于希望在自己數(shù)據(jù)/場(chǎng)景上復(fù)現(xiàn)這種能力的研究者和開發(fā)者,AdaReasoner 提供了一套完整的開源方案。

Adaptive Learning 對(duì)提升模型的泛化性也有很大幫助,可以幫助將 agent planning 能力遷移到以前沒(méi)見(jiàn)過(guò)的 agent 和新的任務(wù)上去。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
五洲恒通總經(jīng)理李國(guó)秋因意外去世,終年58歲

五洲恒通總經(jīng)理李國(guó)秋因意外去世,終年58歲

界面新聞
2026-02-24 11:04:00
弱冷空氣在廣東“開工”,多地有分散性零星小雨!早晚有輕霧

弱冷空氣在廣東“開工”,多地有分散性零星小雨!早晚有輕霧

南方都市報(bào)
2026-02-24 11:37:04
威爾士賽:常冰玉爆冷零封墨菲進(jìn)32強(qiáng),中國(guó)小將四連破百平紀(jì)錄!

威爾士賽:常冰玉爆冷零封墨菲進(jìn)32強(qiáng),中國(guó)小將四連破百平紀(jì)錄!

世界體壇觀察家
2026-02-24 19:08:53
“福特”號(hào)航母650個(gè)廁所壞了近9成,近5000人上廁所排隊(duì)要四五十分鐘,美軍只能先??肯ED

“福特”號(hào)航母650個(gè)廁所壞了近9成,近5000人上廁所排隊(duì)要四五十分鐘,美軍只能先??肯ED

大象新聞
2026-02-24 12:44:26
2026年,看電視不用再交“月租”了!這幾種方法,合法還免費(fèi)

2026年,看電視不用再交“月租”了!這幾種方法,合法還免費(fèi)

小柱解說(shuō)游戲
2026-02-24 06:38:45
返程被堵高速,發(fā)現(xiàn)應(yīng)急車道被占用,女子挨個(gè)拍照,半小時(shí)舉報(bào)20多輛車,當(dāng)事人發(fā)聲:不能讓守規(guī)矩的人吃虧;交警回應(yīng):處理中

返程被堵高速,發(fā)現(xiàn)應(yīng)急車道被占用,女子挨個(gè)拍照,半小時(shí)舉報(bào)20多輛車,當(dāng)事人發(fā)聲:不能讓守規(guī)矩的人吃虧;交警回應(yīng):處理中

每日經(jīng)濟(jì)新聞
2026-02-24 18:36:05
賽前必「摸?!??阿里云這個(gè) AI 裝置成了運(yùn)動(dòng)員的「冬奧許愿池」

賽前必「摸福」?阿里云這個(gè) AI 裝置成了運(yùn)動(dòng)員的「冬奧許愿池」

愛(ài)范兒
2026-02-12 17:06:16
墨西哥販毒集團(tuán)報(bào)復(fù)行動(dòng)已致73死,目前未收到中國(guó)公民受傷信息,騷亂地華人:毒販燒掉汽車攔路,街上空無(wú)一人

墨西哥販毒集團(tuán)報(bào)復(fù)行動(dòng)已致73死,目前未收到中國(guó)公民受傷信息,騷亂地華人:毒販燒掉汽車攔路,街上空無(wú)一人

極目新聞
2026-02-24 18:14:46
自熱火鍋放真皮沙發(fā)上,留下海底撈logo,當(dāng)事人:印記去不掉了,當(dāng)時(shí)偷懶不想起床就放在了沙發(fā)上

自熱火鍋放真皮沙發(fā)上,留下海底撈logo,當(dāng)事人:印記去不掉了,當(dāng)時(shí)偷懶不想起床就放在了沙發(fā)上

觀威海
2026-02-24 17:06:08
返程路上女子被丈夫丟在服務(wù)區(qū),當(dāng)場(chǎng)崩潰!丈夫:沒(méi)發(fā)現(xiàn),很懊悔

返程路上女子被丈夫丟在服務(wù)區(qū),當(dāng)場(chǎng)崩潰!丈夫:沒(méi)發(fā)現(xiàn),很懊悔

半島晨報(bào)
2026-02-24 15:51:26
福布斯發(fā)布:谷愛(ài)凌收入排名第一

福布斯發(fā)布:谷愛(ài)凌收入排名第一

第一財(cái)經(jīng)資訊
2026-02-24 10:49:08
10萬(wàn)億!世界銅王正威集團(tuán)的坑比恒大的還深

10萬(wàn)億!世界銅王正威集團(tuán)的坑比恒大的還深

新浪財(cái)經(jīng)
2026-02-24 17:14:00
夢(mèng)鴿心中永遠(yuǎn)的痛:如今58歲的她,已經(jīng)為兒子鋪好下一條路了嗎?

夢(mèng)鴿心中永遠(yuǎn)的痛:如今58歲的她,已經(jīng)為兒子鋪好下一條路了嗎?

小熊侃史
2026-02-24 18:06:25
華南五虎全軍覆沒(méi)!從叱咤風(fēng)云到集體沉淪,一場(chǎng)跨越二十年的地產(chǎn)大敗局

華南五虎全軍覆沒(méi)!從叱咤風(fēng)云到集體沉淪,一場(chǎng)跨越二十年的地產(chǎn)大敗局

阿離家居
2026-02-24 15:32:27
38歲中國(guó)商人在土耳其被綁架殺害,10名嫌疑人落網(wǎng),警方披露細(xì)節(jié):其在機(jī)場(chǎng)開始被跟蹤,遭同行女子引誘擄上車

38歲中國(guó)商人在土耳其被綁架殺害,10名嫌疑人落網(wǎng),警方披露細(xì)節(jié):其在機(jī)場(chǎng)開始被跟蹤,遭同行女子引誘擄上車

大風(fēng)新聞
2026-02-24 14:52:03
外交部回應(yīng)“特朗普3月31日訪華”:中美雙方就特朗普總統(tǒng)訪華事宜保持溝通;其上次訪華是在2017年

外交部回應(yīng)“特朗普3月31日訪華”:中美雙方就特朗普總統(tǒng)訪華事宜保持溝通;其上次訪華是在2017年

大風(fēng)新聞
2026-02-24 16:47:11
吵架將孩子扔河里后續(xù):原因曝光,夫妻身份被扒,娃狀態(tài)讓人擔(dān)憂

吵架將孩子扔河里后續(xù):原因曝光,夫妻身份被扒,娃狀態(tài)讓人擔(dān)憂

社會(huì)日日鮮
2026-02-24 09:37:52
被「中國(guó)釣王」鄧剛認(rèn)證的釣魚神車,吉利銀河翼真L380到底是什么來(lái)路?

被「中國(guó)釣王」鄧剛認(rèn)證的釣魚神車,吉利銀河翼真L380到底是什么來(lái)路?

AutoBusiness
2025-09-05 11:47:55
高速免費(fèi)最后60秒收費(fèi)站上演飛馳人生,有人卡點(diǎn)失敗繳費(fèi)400多元!有人“壓哨”通過(guò),兩臺(tái)車省下1000多元

高速免費(fèi)最后60秒收費(fèi)站上演飛馳人生,有人卡點(diǎn)失敗繳費(fèi)400多元!有人“壓哨”通過(guò),兩臺(tái)車省下1000多元

極目新聞
2026-02-24 00:56:49
法國(guó)怒了:對(duì)特朗普親家下“封殺令”

法國(guó)怒了:對(duì)特朗普親家下“封殺令”

環(huán)球時(shí)報(bào)國(guó)際
2026-02-24 15:35:35
2026-02-24 20:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12344文章數(shù) 142569關(guān)注度
往期回顧 全部

科技要聞

AI顛覆發(fā)展最新犧牲品!IBM跳水重挫超13%

頭條要聞

20家日本實(shí)體被列入管制名單 中方:完全正當(dāng) 合理合法

頭條要聞

20家日本實(shí)體被列入管制名單 中方:完全正當(dāng) 合理合法

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛(ài)單板滑雪的少年

娛樂(lè)要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時(shí)繁榮」了十天

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬(wàn)元起

態(tài)度原創(chuàng)

房產(chǎn)
游戲
健康
手機(jī)
數(shù)碼

房產(chǎn)要聞

330萬(wàn)人涌入!春節(jié)全國(guó)樓市,第一個(gè)賣爆的區(qū)域出現(xiàn)了!

天國(guó)拯救影視化官宣!主創(chuàng)卸任創(chuàng)意總監(jiān)全力投身

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機(jī)要聞

iQOO 15R發(fā)布,這配置能打嗎?

數(shù)碼要聞

宜鼎推出CXL AIC擴(kuò)展卡:可為兼容設(shè)備擴(kuò)展最大256GB內(nèi)存

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版