国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

UniPat AI 開(kāi)源 SWE-Vision:五百行代碼打造SOTA視覺(jué)智能體!

0
分享至

模態(tài)大模型在代碼能力上進(jìn)步驚人,但在基礎(chǔ)視覺(jué)任務(wù)上卻頻繁失誤。UniPat AI 構(gòu)建了一個(gè)極簡(jiǎn)的視覺(jué)智能體框架——SWE-Vision,讓模型可以編寫(xiě)并執(zhí)行 Python 代碼來(lái)處理和驗(yàn)證自己的視覺(jué)判斷。在五個(gè)主流視覺(jué)基準(zhǔn)測(cè)試中,SWE-Vision 均達(dá)到了當(dāng)前最優(yōu)水平。

01|模型看得見(jiàn),卻沒(méi)法精確處理

多模態(tài)大模型的代碼能力在過(guò)去一年取得了驚人進(jìn)展——獨(dú)立搭建項(xiàng)目、排查 bug、完成復(fù)雜重構(gòu),表現(xiàn)已可比肩資深工程師。然而在"理解視覺(jué)世界"這件事上,它們的表現(xiàn)遠(yuǎn)沒(méi)有代碼能力那樣可靠。UniPat AI 此前發(fā)布的多模態(tài)基準(zhǔn) BabyVision 就揭示了這一現(xiàn)象:模型常常給出大段看似合理的推理,卻在最基礎(chǔ)的計(jì)量、計(jì)數(shù)和空間關(guān)系判斷上出錯(cuò)。

UniPat AI此前發(fā)布的多模態(tài)理解benchmark BabyVision已被多個(gè)近期發(fā)布的重磅模型產(chǎn)品納入評(píng)測(cè)體系,并在其技術(shù)報(bào)告中被引用,體現(xiàn)了社區(qū)對(duì)這一問(wèn)題的廣泛關(guān)注。

當(dāng)我們仔細(xì)審視BabyVision中模型出錯(cuò)的案例時(shí),可以發(fā)現(xiàn)一個(gè)關(guān)鍵點(diǎn):?jiǎn)栴}往往是"模型看見(jiàn)了,卻無(wú)法精確處理":

  • 閱讀柱狀圖時(shí),模型能感知到"大約 75%",但無(wú)法精確計(jì)算比值;
  • 在復(fù)雜場(chǎng)景中計(jì)數(shù)時(shí),模型可能識(shí)別了每一個(gè)物體,但在逐一清點(diǎn)時(shí)出錯(cuò);
  • 描述空間位置時(shí),模型能給出定性判斷,但難以穩(wěn)定進(jìn)行距離計(jì)算和幾何推理。

面對(duì)這些錯(cuò)誤,人類通常會(huì)怎么做?掏出工具:畫(huà)輔助線、作出標(biāo)記、用尺測(cè)量、用筆計(jì)算。

這個(gè)觀察引發(fā)了一個(gè)關(guān)鍵猜想:既然模型已經(jīng)極其擅長(zhǎng)編程,能否讓它用代碼——這個(gè)它最熟悉的工具——來(lái)彌補(bǔ)視覺(jué)處理中的精度短板?

SWE-Vision 正是對(duì)這一猜想的系統(tǒng)性驗(yàn)證。



其結(jié)果令人矚目:在五個(gè)不同的視覺(jué)基準(zhǔn)測(cè)試中——涵蓋基礎(chǔ)感知、圖表推理、數(shù)學(xué)問(wèn)題解決、空間理解和復(fù)雜的多步驟視覺(jué)挑戰(zhàn)——SWE-Vision 始終改進(jìn)了前沿 LLM,如 GPT-5.2-xhigh 和 Seed-2.0-Pro,并取得了最先進(jìn)的結(jié)果:在 BabyVision 上達(dá)到 64.4,在 MathVision 上達(dá)到 94.0,在 Zero-Bench-Sub 上達(dá)到 50.1,在 OmniSpatial 上達(dá)到 69.0,在 CharXiv-RQ 上達(dá)到 82.5。

02|SWE-Vision 是什么:一個(gè)“極簡(jiǎn)視覺(jué)智能體”

SWE-Vision 并不需要再造一堆專用視覺(jué)工具,而是把要做的事壓縮到極簡(jiǎn):

2.1 工具層:只保留兩個(gè)工具

config.py 里定義的工具只有兩個(gè):execute_code 和 finish。

  • execute_code:讓模型在一個(gè)可持續(xù)保留狀態(tài)的 Jupyter 環(huán)境里執(zhí)行 Python
  • finish:當(dāng)模型確信答案正確時(shí)輸出最終答案

這里最關(guān)鍵的不是“能執(zhí)行代碼”,而是工具接口本身非常小、非常通用。SWE-Vision 沒(méi)有給模型塞一堆專用視覺(jué) API,而是只暴露一個(gè)模型本來(lái)就很熟悉的動(dòng)作:寫(xiě) Python。

2.2 控制層:一個(gè)標(biāo)準(zhǔn)的 agentic loop

agent.py 里的 VLMToolCallAgent 實(shí)現(xiàn)了完整的循環(huán):先把用戶問(wèn)題和圖片組織成消息;然后調(diào)用支持 tool use 的聊天接口;如果模型發(fā)起 execute_code,就把代碼送到 notebook 內(nèi)核執(zhí)行;再把執(zhí)行結(jié)果作為 tool message 回流給模型;模型據(jù)此決定繼續(xù)調(diào)用工具還是 finish。repo 里默認(rèn) tool_choice="auto",并支持 reasoning 模式;在開(kāi)啟時(shí)會(huì)把推理 effort 設(shè)為高檔,并允許最多 100 輪迭代。

2.3 執(zhí)行層:Docker 里的持久化 Jupyter kernel

kernel.py 不是簡(jiǎn)單 exec() 一段代碼,而是正經(jīng)啟動(dòng)一個(gè) Docker 容器,再在容器里拉起 ipykernel。宿主側(cè)通過(guò)
jupyter_client.BlockingKernelClient連接這個(gè)內(nèi)核,并從 IOPub / shell 通道收集執(zhí)行結(jié)果。內(nèi)核是持久化的,變量、導(dǎo)入、圖像對(duì)象和中間結(jié)果都能跨多次 execute_code 保留;同時(shí)代碼運(yùn)行在隔離的 Docker 環(huán)境里,宿主與容器通過(guò)掛載目錄交換文件。kernel.py 還會(huì)在啟動(dòng)后做 health check,并把 matplotlib 后端配置成 inline,以便抓取圖像輸出。

簡(jiǎn)單來(lái)說(shuō),SWE-Vision 不強(qiáng)迫模型每題都寫(xiě)代碼,但給它一個(gè)隨時(shí)可用并且熟悉的“視覺(jué)工具庫(kù)”。

03|一次請(qǐng)求在系統(tǒng)里到底怎么流動(dòng):從看圖推理到帶圖循環(huán)驗(yàn)證

SWE-Vision 像一個(gè)會(huì)看圖的數(shù)據(jù)科學(xué)家,其完整工作流如下:

  1. 用戶給問(wèn)題 + 圖片
  2. 模型先思考:這題能不能直接答?需不需要計(jì)算/驗(yàn)證?
  3. 需要就調(diào)用 execute_code:在 Notebook 里用 PIL / NumPy / matplotlib 等做分析
  4. 代碼輸出(數(shù)值/報(bào)錯(cuò)/可視化圖)回流給模型
  5. 模型繼續(xù)迭代,直到調(diào)用finish 給最終答案



它有幾個(gè)關(guān)鍵設(shè)計(jì):

  • 有狀態(tài)的執(zhí)行環(huán)境:變量、導(dǎo)入、圖片加載都能跨多次調(diào)用保留
  • Docker 沙箱:確??煽匕踩h(huán)境 + 復(fù)現(xiàn)性;
  • Image-in / Image-out:意味著模型不僅能讀取輸入圖像,還能將自己生成的可視化結(jié)果回傳給自身進(jìn)行驗(yàn)證——這是實(shí)現(xiàn)自我糾錯(cuò)的關(guān)鍵;
  • OpenAI function calling 標(biāo)準(zhǔn)接口:保證了與主流模型的開(kāi)箱即用兼容性。

這套設(shè)計(jì)的價(jià)值在于:允許模型像一個(gè)真正的科學(xué)家一樣,先做實(shí)驗(yàn)再下結(jié)論。

04|為什么 stateful notebook 比一次性 code executor 更關(guān)鍵

很多人第一次看 SWE-Vision 會(huì)覺(jué)得,它不過(guò)是在 VLM 外面加了個(gè) Python 工具。真正的差別其實(shí)在于stateful。在SWE-Vision 中內(nèi)核狀態(tài)會(huì)在多次調(diào)用間保留;這意味著模型可以像人類分析師那樣分步工作:第一輪先讀圖、檢查尺寸;第二輪裁剪局部、看邊緣;第三輪統(tǒng)計(jì)顏色或測(cè)距離;第四輪畫(huà)輔助線做確認(rèn);最后再生成答案。

如果代碼執(zhí)行是無(wú)狀態(tài)的,這種多步分析會(huì)非常笨重:每一步都要重新導(dǎo)入庫(kù)、重載圖片、重建變量,模型也更難維護(hù)中間假設(shè)。SWE-Vision 通過(guò)持久化 kernel,把“多輪工具調(diào)用”變成了“同一個(gè) notebook 會(huì)話里的連續(xù)實(shí)驗(yàn)”。從工程實(shí)現(xiàn)上看,這也是它為什么能處理圖表測(cè)量、空間關(guān)系和復(fù)雜多步視覺(jué)任務(wù),而不只是做一次性的 OCR 或檢測(cè)。

05|SWE-Vision 的關(guān)鍵在于“能驗(yàn)證自己的視覺(jué)判斷”

在 SWE-Vision「觀察科學(xué)圖表、總結(jié)規(guī)律」的案例中,我們看到了一種截然不同的行為模式。如下圖所示,這是科研場(chǎng)景中常見(jiàn)的圖表分析任務(wù):我們要求模型判斷,在 Quarters = 15 時(shí),哪一張子圖中紅色虛線與黑色實(shí)線之間的差距最大。

SWE-Vision 智能體給出了一套極其嚴(yán)謹(jǐn)且可解釋的解法。首先,它排除了不存在紅色虛線的子圖(d);隨后,對(duì)每一張候選子圖在 Quarters = 15 處精確繪制輔助線,定位紅線與黑線的交點(diǎn);接著,通過(guò)可執(zhí)行代碼精確計(jì)算兩條曲線在該位置的數(shù)值差距;最終基于計(jì)算結(jié)果給出正確答案。

這種“先結(jié)構(gòu)化分析、再程序化測(cè)量、最后數(shù)值驗(yàn)證”的思維與行動(dòng)閉環(huán),與傳統(tǒng)視覺(jué)語(yǔ)言模型依賴直覺(jué)式“瞪眼觀察”直接給出答案的方式形成鮮明對(duì)比。它不僅顯著提升了結(jié)果的可靠性與可解釋性,也展示出更高的能力上限與更強(qiáng)的泛化潛力。



06|為什么極簡(jiǎn)設(shè)計(jì)反而更強(qiáng)

SWE-Vision 的一個(gè)重要結(jié)論是:對(duì)視覺(jué)任務(wù)而言,加入通用代碼工具,是提升前沿多模態(tài)模型視覺(jué)能力的一個(gè)有效 test-time scaling 方向。

它之所以有效,恰恰在于其極簡(jiǎn):

  • 工具數(shù)量少,決策邊界清晰;
  • 工具語(yǔ)義與模型已有能力高度一致;
  • 支持多輪迭代和狀態(tài)積累;
  • 中間結(jié)果可被再次觀察,而不是一次性返回文本;
  • 不綁定某個(gè)特定 benchmark 的專用手工策略。

這與很多“為了某類視覺(jué)任務(wù)單獨(dú)發(fā)明一套工具接口”的方法不同。這些方法往往在某些窄任務(wù)上能提升,但泛化性不足;而 SWE-Vision 的目標(biāo),是提供一個(gè)盡可能通用的視覺(jué)增強(qiáng)框架,讓模型自己決定何時(shí)調(diào)用代碼、如何組織分析步驟。

07|五大基準(zhǔn)全線提升:更加通用的“視覺(jué)能力增強(qiáng)器”

SWE-Vision 在五個(gè)覆蓋面很廣的視覺(jué)基準(zhǔn)上進(jìn)行了評(píng)測(cè)(基礎(chǔ)感知、圖表、數(shù)學(xué)、空間、綜合多步推理),核心發(fā)現(xiàn)高度一致:引入代碼執(zhí)行能力,能系統(tǒng)性地抬升前沿模型的視覺(jué)表現(xiàn)上限。

在對(duì)比實(shí)驗(yàn)中(同一模型 vs SWE-Vision),SWE-Vision 對(duì)兩個(gè)前沿的視覺(jué)語(yǔ)言模型(GPT-5.2,Seed-2.0)都帶來(lái)顯著提升:





“反直覺(jué)”的一點(diǎn)是:提升幅度最大的,往往不是最復(fù)雜的高階推理任務(wù),而是最基礎(chǔ)的感知和精確處理能力——例如 BabyVision 中的計(jì)數(shù)、顏色識(shí)別和空間關(guān)系判斷。這類任務(wù)人類靠直覺(jué)加簡(jiǎn)單工具就能穩(wěn)定完成,而模型僅憑"語(yǔ)言化視覺(jué)"則極易忽略細(xì)節(jié)、數(shù)錯(cuò)個(gè)數(shù)、缺乏驗(yàn)證手段。

SWE-Vision 的結(jié)果也給我們揭示了另一種可能:對(duì)于視覺(jué)來(lái)說(shuō),測(cè)試時(shí)擴(kuò)展(test-time scaling,TTS)不一定只能靠“多想幾段文字”,也可以靠“多寫(xiě)幾行代碼”來(lái)看得更精細(xì)。

08|未來(lái)的發(fā)展方向:讓“代碼增強(qiáng)視覺(jué)”變成視覺(jué)智能體的原生能力

與用于訓(xùn)練多模態(tài) LLMs 的傳統(tǒng)數(shù)據(jù)(基本上是問(wèn)題,圖片,答案三元組)不同,訓(xùn)練視覺(jué)智能體模型需要多模態(tài)交錯(cuò)的智能體軌跡。它還需要一個(gè)交互式環(huán)境來(lái)支持強(qiáng)化學(xué)習(xí)、工具使用和評(píng)估,使模型不僅能學(xué)習(xí)回答問(wèn)題,還能學(xué)習(xí)感知、行動(dòng)和反思,要徹底釋放“工具增強(qiáng)視覺(jué)”的潛力,模型需要更多深度交織的視覺(jué)-編程 SFT/RL 數(shù)據(jù)與環(huán)境,來(lái)學(xué)會(huì)感知、行動(dòng)和反思。

具體而言,下一步的關(guān)鍵方向包括:

  • 判斷時(shí)機(jī):學(xué)會(huì)識(shí)別何時(shí)視覺(jué)推理需要代碼輔助,何時(shí)可以直接回答
  • 中間驗(yàn)證:在多步推理過(guò)程中主動(dòng)檢驗(yàn)中間結(jié)果的正確性
  • 失敗恢復(fù):在代碼方案無(wú)效時(shí)及時(shí)跳出,切換到替代策略
  • 原生融合:讓"觀察"與"計(jì)算"不再是兩個(gè)獨(dú)立步驟,而是深度融合,一體兩面

SWE-Vision 的開(kāi)源代碼已在 GitHub 發(fā)布。編程輔助的精確視覺(jué)理解是一個(gè)值得社區(qū)共同探索的方向——五百行代碼的極簡(jiǎn)框架,也許是這段旅程一個(gè)不錯(cuò)的起點(diǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
珠海樓市:已經(jīng)砸不動(dòng)了

珠海樓市:已經(jīng)砸不動(dòng)了

林子說(shuō)事
2026-04-18 10:51:24
40年前的床單設(shè)計(jì),憑什么讓成年人瘋狂搶購(gòu)?

40年前的床單設(shè)計(jì),憑什么讓成年人瘋狂搶購(gòu)?

娛圈觀察員
2026-04-16 09:20:12
暴跌百億的“相機(jī)圈蘋(píng)果”,為輕視中國(guó)付出代價(jià)

暴跌百億的“相機(jī)圈蘋(píng)果”,為輕視中國(guó)付出代價(jià)

金錯(cuò)刀
2026-04-16 12:10:16
超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

娛樂(lè)圈見(jiàn)解說(shuō)
2026-04-18 14:54:03
太尷尬了!雷軍又被吐槽:山東地名有多“費(fèi)”學(xué)歷,連雷軍都讀錯(cuò)

太尷尬了!雷軍又被吐槽:山東地名有多“費(fèi)”學(xué)歷,連雷軍都讀錯(cuò)

火山詩(shī)話
2026-04-18 08:11:07
5-4!趙心童兩連鞭斬獲晉級(jí)先機(jī),世錦賽16強(qiáng)席位爭(zhēng)奪存懸念!

5-4!趙心童兩連鞭斬獲晉級(jí)先機(jī),世錦賽16強(qiáng)席位爭(zhēng)奪存懸念!

世界體壇觀察家
2026-04-18 21:00:55
馬關(guān)條約簽約131年同日,日艦闖入臺(tái)灣海峽,高市早苗上臺(tái)后首次

馬關(guān)條約簽約131年同日,日艦闖入臺(tái)灣海峽,高市早苗上臺(tái)后首次

軍機(jī)Talk
2026-04-17 20:54:52
終于等到你!重慶銅梁龍花錢(qián)從魯能挖走的強(qiáng)援,本輪終于首秀登場(chǎng)

終于等到你!重慶銅梁龍花錢(qián)從魯能挖走的強(qiáng)援,本輪終于首秀登場(chǎng)

振剛說(shuō)足球
2026-04-18 15:37:42
存儲(chǔ)芯片封測(cè):長(zhǎng)電科技、太極實(shí)業(yè)、通富微電、華天科技潛力誰(shuí)大

存儲(chǔ)芯片封測(cè):長(zhǎng)電科技、太極實(shí)業(yè)、通富微電、華天科技潛力誰(shuí)大

長(zhǎng)風(fēng)價(jià)值掘金
2026-04-18 22:10:57
朱芳雨:很遺憾沒(méi)能用勝利答謝球迷,希望季后賽能得到大家支持

朱芳雨:很遺憾沒(méi)能用勝利答謝球迷,希望季后賽能得到大家支持

懂球帝
2026-04-18 23:29:08
廣東“莫氏雞煲大公主”爆火前后反差大,晚上干到凌晨2點(diǎn)才收工,發(fā)文吐槽:這個(gè)雞你們是非吃不可嗎

廣東“莫氏雞煲大公主”爆火前后反差大,晚上干到凌晨2點(diǎn)才收工,發(fā)文吐槽:這個(gè)雞你們是非吃不可嗎

大象新聞
2026-04-15 12:57:04
世錦賽戰(zhàn)報(bào):趙心童完全沒(méi)睡醒,張安達(dá)5-3領(lǐng)先艾倫晉級(jí)下一輪

世錦賽戰(zhàn)報(bào):趙心童完全沒(méi)睡醒,張安達(dá)5-3領(lǐng)先艾倫晉級(jí)下一輪

工從昊懂球阿靖
2026-04-18 23:00:30
當(dāng)年無(wú)人問(wèn)津的6大爛片,如今都逆風(fēng)翻盤(pán)成為了經(jīng)典

當(dāng)年無(wú)人問(wèn)津的6大爛片,如今都逆風(fēng)翻盤(pán)成為了經(jīng)典

小Q侃電影
2026-03-02 19:55:20
狂攬凈利2800億,員工年薪人均113萬(wàn)!互聯(lián)網(wǎng)領(lǐng)軍者再創(chuàng)巔峰!

狂攬凈利2800億,員工年薪人均113萬(wàn)!互聯(lián)網(wǎng)領(lǐng)軍者再創(chuàng)巔峰!

青眼財(cái)經(jīng)
2026-04-16 21:39:31
得知范漢杰每月只有60元生活費(fèi),周恩來(lái)親自解決:還按200元發(fā)放

得知范漢杰每月只有60元生活費(fèi),周恩來(lái)親自解決:還按200元發(fā)放

大運(yùn)河時(shí)空
2026-04-16 10:30:03
雌激素旺盛!萊昂諾爾公主姐妹脂肪集中在大腿臀部,不像少女身材

雌激素旺盛!萊昂諾爾公主姐妹脂肪集中在大腿臀部,不像少女身材

夜深愛(ài)雜談
2026-04-18 19:16:34
新型出軌,真的越來(lái)越流行了

新型出軌,真的越來(lái)越流行了

洞讀君
2026-03-29 21:10:03
學(xué)生的瓜能有多炸裂,網(wǎng)友的分享一個(gè)比一個(gè)逆天!

學(xué)生的瓜能有多炸裂,網(wǎng)友的分享一個(gè)比一個(gè)逆天!

黯泉
2026-04-18 13:31:58
“生娃率”持續(xù)走低,廈門(mén)教授給出建議:不生孩子就下調(diào)養(yǎng)老金

“生娃率”持續(xù)走低,廈門(mén)教授給出建議:不生孩子就下調(diào)養(yǎng)老金

大果小果媽媽
2026-04-02 13:16:39
觀眾口碑大爆,票房劍指20億,陳思誠(chéng)將打敗餃子成第一導(dǎo)演

觀眾口碑大爆,票房劍指20億,陳思誠(chéng)將打敗餃子成第一導(dǎo)演

影視高原說(shuō)
2026-04-18 08:06:39
2026-04-19 03:52:49
甲子光年
甲子光年
中國(guó)科技產(chǎn)業(yè)化前沿智庫(kù)
3415文章數(shù) 9263關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開(kāi)火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開(kāi)火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒(méi)有人再嘲笑他了

娛樂(lè)要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬(wàn)科"2.0:管理層如何吸血萬(wàn)物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬(wàn)元起

態(tài)度原創(chuàng)

教育
房產(chǎn)
藝術(shù)
親子
公開(kāi)課

教育要聞

親愛(ài)的老己,歡迎在二十六歲,邁入人生的夏季|中山大學(xué)國(guó)際新聞420分經(jīng)驗(yàn)貼

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!??跇鞘校蝗粴⑷肷衩胤科?!

藝術(shù)要聞

波蘭美女奧拉·卡茲馬雷克,絕美風(fēng)情讓人驚艷!

親子要聞

退燒藥怎么用?90%家長(zhǎng)都搞錯(cuò)了

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版