国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

500行極簡(jiǎn)開源框架,硬剛GPT/Gemini視覺極限!

0
分享至


新智元報(bào)道

編輯:KingHZ

【新智元導(dǎo)讀】多模態(tài)模型代碼寫得像老司機(jī),卻在數(shù)手指、量柱子時(shí)頻頻翻車?UniPat AI用五百行代碼打造的SWE-Vision,讓模型「掏出Python尺子」自我驗(yàn)證,一舉拿下五大視覺相關(guān)基準(zhǔn)SOTA。

模態(tài)大模型在代碼能力上進(jìn)步驚人,但在基礎(chǔ)視覺任務(wù)上卻頻繁失誤。

UniPat AI構(gòu)建了一個(gè)極簡(jiǎn)的視覺智能體框架——SWE-Vision,讓模型可以編寫并執(zhí)行Python代碼來處理和驗(yàn)證自己的視覺判斷。

在五個(gè)主流視覺基準(zhǔn)測(cè)試中,SWE-Vision均達(dá)到了當(dāng)前最優(yōu)水平。

模型看得見,卻沒法精確處理

在過去一年,多模態(tài)大模型的代碼能力取得了驚人進(jìn)展——獨(dú)立搭建項(xiàng)目、排查bug、完成復(fù)雜重構(gòu),表現(xiàn)已可比肩資深工程師。

然而,在「理解視覺世界」這件事上,它們的表現(xiàn)遠(yuǎn)沒有代碼能力那樣可靠。

UniPat AI此前發(fā)布的多模態(tài)基準(zhǔn)BabyVision就揭示了這一現(xiàn)象:模型常常給出大段看似合理的推理,卻在最基礎(chǔ)的計(jì)量、計(jì)數(shù)和空間關(guān)系判斷上出錯(cuò)。

UniPat AI此前發(fā)布的多模態(tài)理解benchmark BabyVision已被多個(gè)近期發(fā)布的重磅模型產(chǎn)品納入評(píng)測(cè)體系,并在其技術(shù)報(bào)告中被引用,體現(xiàn)了社區(qū)對(duì)這一問題的廣泛關(guān)注。

當(dāng)我們仔細(xì)審視BabyVision中模型出錯(cuò)的案例時(shí),可以發(fā)現(xiàn)一個(gè)關(guān)鍵點(diǎn):問題往往是「模型看見了,卻無法精確處理

  • 閱讀柱狀圖時(shí),模型能感知到「大約75%」,但無法精確計(jì)算比值;

  • 在復(fù)雜場(chǎng)景中計(jì)數(shù)時(shí),模型可能識(shí)別了每一個(gè)物體,但在逐一清點(diǎn)時(shí)出錯(cuò);

  • 描述空間位置時(shí),模型能給出定性判斷,但難以穩(wěn)定進(jìn)行距離計(jì)算和幾何推理。

面對(duì)這些錯(cuò)誤,人類通常會(huì)怎么做?

掏出工具:畫輔助線、作出標(biāo)記、用尺測(cè)量、用筆計(jì)算。

這個(gè)觀察引發(fā)了一個(gè)關(guān)鍵猜想:既然模型已經(jīng)極其擅長(zhǎng)編程,能否讓它用代碼——這個(gè)它最熟悉的工具——來彌補(bǔ)視覺處理中的精度短板?

SWE-Vision正是對(duì)這一猜想的系統(tǒng)性驗(yàn)證。


其結(jié)果令人矚目:在五個(gè)不同的視覺基準(zhǔn)測(cè)試中——涵蓋基礎(chǔ)感知、圖表推理、數(shù)學(xué)問題解決、空間理解和復(fù)雜的多步驟視覺挑戰(zhàn)——SWE-Vision始終改進(jìn)了前沿LLM,如GPT-5.2-xhigh和Seed-2.0-Pro,并取得了最先進(jìn)的結(jié)果

在BabyVision上達(dá)到64.4,

在MathVision上達(dá)到94.0,

在Zero-Bench-Sub上達(dá)到50.1,

在OmniSpatial上達(dá)到69.0,

在CharXiv-RQ上達(dá)到82.5。

SWE-Vision是什么

一個(gè)「極簡(jiǎn)視覺智能體」

SWE-Vision并不需要再造一堆專用視覺工具,而是把要做的事壓縮到極簡(jiǎn):


工具層:只保留兩個(gè)工具

config.py里定義的工具只有兩個(gè):execute_code和finish。

  • execute_code:讓模型在一個(gè)可持續(xù)保留狀態(tài)的Jupyter環(huán)境里執(zhí)行Python

  • finish:當(dāng)模型確信答案正確時(shí)輸出最終答案

這里最關(guān)鍵的不是「能執(zhí)行代碼」,而是工具接口本身非常小、非常通用。SWE-Vision沒有給模型塞一堆專用視覺API,而是只暴露一個(gè)模型本來就很熟悉的動(dòng)作:寫Python。


控制層:一個(gè)標(biāo)準(zhǔn)的agentic loop

agent.py里的VLMToolCallAgent實(shí)現(xiàn)了完整的循環(huán):

  • 先把用戶問題和圖片組織成消息;

  • 然后調(diào)用支持tool use的聊天接口;

  • 如果模型發(fā)起execute_code,就把代碼送到notebook內(nèi)核執(zhí)行;

  • 再把執(zhí)行結(jié)果作為tool message回流給模型;

  • 模型據(jù)此決定繼續(xù)調(diào)用工具還是finish。

repo里默認(rèn)tool_choice="auto",并支持reasoning模式;在開啟時(shí)會(huì)把推理effort設(shè)為高檔,并允許最多100輪迭代。


執(zhí)行層:Docker里的持久化Jupyter kernel

kernel.py不是簡(jiǎn)單exec()一段代碼,而是正經(jīng)啟動(dòng)一個(gè)Docker容器,再在容器里拉起ipykernel。宿主側(cè)通過jupyter_client.BlockingKernelClient連接這個(gè)內(nèi)核,并從IOPub/shell通道收集執(zhí)行結(jié)果。

內(nèi)核是持久化的,變量、導(dǎo)入、圖像對(duì)象和中間結(jié)果都能跨多次execute_code保留;同時(shí)代碼運(yùn)行在隔離的Docker環(huán)境里,宿主與容器通過掛載目錄交換文件。

kernel.py還會(huì)在啟動(dòng)后做health check,并把matplotlib后端配置成inline,以便抓取圖像輸出。

簡(jiǎn)單來說,SWE-Vision不強(qiáng)迫模型每題都寫代碼,但給它一個(gè)隨時(shí)可用并且熟悉的「視覺工具庫(kù)」。

請(qǐng)求到底怎么流動(dòng)

從看圖推理到帶圖循環(huán)驗(yàn)證

SWE-Vision像一個(gè)會(huì)看圖的數(shù)據(jù)科學(xué)家,其完整工作流如下:

  1. 用戶給問題+圖片

  2. 模型先思考:這題能不能直接答?需不需要計(jì)算/驗(yàn)證?

  3. 需要就調(diào)用execute_code:在Notebook里用PIL/NumPy/matplotlib等做分析

  4. 代碼輸出(數(shù)值/報(bào)錯(cuò)/可視化圖)回流給模型

  5. 模型繼續(xù)迭代,直到調(diào)用finish給最終答案


它有幾個(gè)關(guān)鍵設(shè)計(jì)

  • 有狀態(tài)的執(zhí)行環(huán)境:變量、導(dǎo)入、圖片加載都能跨多次調(diào)用保留

  • Docker沙箱:確??煽匕踩h(huán)境+復(fù)現(xiàn)性;

  • Image-in/Image-out:意味著模型不僅能讀取輸入圖像,還能將自己生成的可視化結(jié)果回傳給自身進(jìn)行驗(yàn)證——這是實(shí)現(xiàn)自我糾錯(cuò)的關(guān)鍵;

  • OpenAI function calling標(biāo)準(zhǔn)接口:保證了與主流模型的開箱即用兼容性。

這套設(shè)計(jì)的價(jià)值在于:允許模型像一個(gè)真正的科學(xué)家一樣,先做實(shí)驗(yàn)再下結(jié)論。

為何stateful notebook比一次性code executor更關(guān)鍵?

很多人第一次看SWE-Vision會(huì)覺得,它不過是在VLM外面加了個(gè)Python工具。

真正的差別其實(shí)在于stateful。

在SWE-Vision中,內(nèi)核狀態(tài)會(huì)在多次調(diào)用間保留。

這意味著模型可以像人類分析師那樣分步工作:

  • 第一輪先讀圖、檢查尺寸;

  • 第二輪裁剪局部、看邊緣;

  • 第三輪統(tǒng)計(jì)顏色或測(cè)距離;

  • 第四輪畫輔助線做確認(rèn);

  • 最后再生成答案。

如果代碼執(zhí)行是無狀態(tài)的,這種多步分析會(huì)非常笨重:每一步都要重新導(dǎo)入庫(kù)、重載圖片、重建變量,模型也更難維護(hù)中間假設(shè)。

SWE-Vision通過持久化kernel,把「多輪工具調(diào)用」變成了「同一個(gè)notebook會(huì)話里的連續(xù)實(shí)驗(yàn)」。

從工程實(shí)現(xiàn)上看,這也是它為什么能處理圖表測(cè)量、空間關(guān)系和復(fù)雜多步視覺任務(wù),而不只是做一次性的OCR或檢測(cè)。

SWE-Vision的關(guān)鍵

在于「能驗(yàn)證自己的視覺判斷」

在SWE-Vision「觀察科學(xué)圖表、總結(jié)規(guī)律」的案例中,我們看到了一種截然不同的行為模式。

如下圖所示,這是科研場(chǎng)景中常見的圖表分析任務(wù):我們要求模型判斷,在Quarters=15時(shí),哪一張子圖中紅色虛線與黑色實(shí)線之間的差距最大。

SWE-Vision智能體給出了一套極其嚴(yán)謹(jǐn)且可解釋的解法。

首先,它排除了不存在紅色虛線的子圖(d);

隨后,對(duì)每一張候選子圖在Quarters=15處精確繪制輔助線,定位紅線與黑線的交點(diǎn);

接著,通過可執(zhí)行代碼精確計(jì)算兩條曲線在該位置的數(shù)值差距;

最終基于計(jì)算結(jié)果給出正確答案。

這種「先結(jié)構(gòu)化分析、再程序化測(cè)量、最后數(shù)值驗(yàn)證」的思維與行動(dòng)閉環(huán),與傳統(tǒng)視覺語(yǔ)言模型依賴直覺式「瞪眼觀察」直接給出答案的方式形成鮮明對(duì)比。

它不僅顯著提升了結(jié)果的可靠性與可解釋性,也展示出更高的能力上限與更強(qiáng)的泛化潛力。


為什么極簡(jiǎn)設(shè)計(jì)反而更強(qiáng)

SWE-Vision的一個(gè)重要結(jié)論是:對(duì)視覺任務(wù)而言,加入通用代碼工具,是提升前沿多模態(tài)模型視覺能力的一個(gè)有效test-time scaling方向。

它之所以有效,恰恰在于其極簡(jiǎn):

  • 工具數(shù)量少,決策邊界清晰;

  • 工具語(yǔ)義與模型已有能力高度一致;

  • 支持多輪迭代和狀態(tài)積累;

  • 中間結(jié)果可被再次觀察,而不是一次性返回文本;

  • 不綁定某個(gè)特定benchmark的專用手工策略。

這與很多「為了某類視覺任務(wù)單獨(dú)發(fā)明一套工具接口」的方法不同。

這些方法往往在某些窄任務(wù)上能提升,但泛化性不足。而SWE-Vision的目標(biāo),是提供一個(gè)盡可能通用的視覺增強(qiáng)框架,讓模型自己決定何時(shí)調(diào)用代碼、如何組織分析步驟。

五大基準(zhǔn)全線提升

更加通用的「視覺能力增強(qiáng)器」

SWE-Vision在五個(gè)覆蓋面很廣的視覺基準(zhǔn)上進(jìn)行了評(píng)測(cè)(基礎(chǔ)感知、圖表、數(shù)學(xué)、空間、綜合多步推理),核心發(fā)現(xiàn)高度一致:引入代碼執(zhí)行能力,能系統(tǒng)性地抬升前沿模型的視覺表現(xiàn)上限。

在對(duì)比實(shí)驗(yàn)中(同一模型vsSWE-Vision),SWE-Vision對(duì)兩個(gè)前沿的視覺語(yǔ)言模型(GPT-5.2,Seed-2.0)都帶來顯著提升



「反直覺」的一點(diǎn)是:提升幅度最大的,往往不是最復(fù)雜的高階推理任務(wù),而是最基礎(chǔ)的感知和精確處理能力——例如BabyVision中的計(jì)數(shù)、顏色識(shí)別和空間關(guān)系判斷。

這類任務(wù)人類靠直覺加簡(jiǎn)單工具就能穩(wěn)定完成,而模型僅憑「語(yǔ)言化視覺」則極易忽略細(xì)節(jié)、數(shù)錯(cuò)個(gè)數(shù)、缺乏驗(yàn)證手段。

SWE-Vision的結(jié)果也給我們揭示了另一種可能:

對(duì)于視覺來說,測(cè)試時(shí)擴(kuò)展(test-time scaling,TTS)不一定只能靠「多想幾段文字」,也可以靠「多寫幾行代碼」來看得更精細(xì)。

未來,「代碼增強(qiáng)視覺」成視覺智能體原生能力

與用于訓(xùn)練多模態(tài)LLMs的傳統(tǒng)數(shù)據(jù)(基本上是問題,圖片,答案三元組)不同,訓(xùn)練視覺智能體模型需要多模態(tài)交錯(cuò)的智能體軌跡。

它還需要一個(gè)交互式環(huán)境來支持強(qiáng)化學(xué)習(xí)、工具使用和評(píng)估,使模型不僅能學(xué)習(xí)回答問題,還能學(xué)習(xí)感知、行動(dòng)和反思,要徹底釋放「工具增強(qiáng)視覺」的潛力,模型需要更多深度交織的視覺-編程SFT/RL數(shù)據(jù)與環(huán)境,來學(xué)會(huì)感知、行動(dòng)和反思。

具體而言,下一步的關(guān)鍵方向包括:

  • 判斷時(shí)機(jī):學(xué)會(huì)識(shí)別何時(shí)視覺推理需要代碼輔助,何時(shí)可以直接回答

  • 中間驗(yàn)證:在多步推理過程中主動(dòng)檢驗(yàn)中間結(jié)果的正確性

  • 失敗恢復(fù):在代碼方案無效時(shí)及時(shí)跳出,切換到替代策略

  • 原生融合:讓「觀察」與「計(jì)算」不再是兩個(gè)獨(dú)立步驟,而是深度融合,一體兩面

SWE-Vision的開源代碼已在GitHub發(fā)布。編程輔助的精確視覺理解是一個(gè)值得社區(qū)共同探索的方向——五百行代碼的極簡(jiǎn)框架,也許是這段旅程一個(gè)不錯(cuò)的起點(diǎn)。

官網(wǎng): https://unipat.ai

Blog: https://unipat.ai/blog/SWE-Vision

開源地址: https://github.com/UniPat-AI/SWE-Vision

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
朋友借我車去新疆,我提前把ETC卡拔了,4個(gè)鐘頭后他從高速來電

朋友借我車去新疆,我提前把ETC卡拔了,4個(gè)鐘頭后他從高速來電

小陸搞笑日常
2026-03-14 19:49:26
72歲王健林健康引擔(dān)憂,眼神癡呆嘴歪到認(rèn)不出,疑患癌后消耗暴瘦

72歲王健林健康引擔(dān)憂,眼神癡呆嘴歪到認(rèn)不出,疑患癌后消耗暴瘦

往史過眼云煙
2026-03-15 17:12:00
“甲醛大戶”被發(fā)現(xiàn),開水也洗不干凈,少往家買,更要學(xué)會(huì)辨別!

“甲醛大戶”被發(fā)現(xiàn),開水也洗不干凈,少往家買,更要學(xué)會(huì)辨別!

美食格物
2026-03-14 01:05:07
12萬欠款只還5萬?起底“打折還債”灰產(chǎn):有商家稱要先逾期才能辦

12萬欠款只還5萬?起底“打折還債”灰產(chǎn):有商家稱要先逾期才能辦

時(shí)代周報(bào)
2026-03-15 18:50:12
向太直播:我大部分收入都來自全球的房產(chǎn)租金,每個(gè)月200萬左右

向太直播:我大部分收入都來自全球的房產(chǎn)租金,每個(gè)月200萬左右

觀魚聽雨
2026-03-16 08:24:06
移民澳洲5年我終于承認(rèn):墨爾本華人圈被分成三層,鄙視鏈很殘酷

移民澳洲5年我終于承認(rèn):墨爾本華人圈被分成三層,鄙視鏈很殘酷

天下霸奇
2026-03-16 08:13:50
極目Z1艙駕一體域控的野心:不只是集成,是重新定義商用車的價(jià)值模型

極目Z1艙駕一體域控的野心:不只是集成,是重新定義商用車的價(jià)值模型

智駕網(wǎng)
2026-03-11 11:23:52
315重磅曝光:國(guó)內(nèi)最黑心的20種食物,看完你還敢吃嗎?

315重磅曝光:國(guó)內(nèi)最黑心的20種食物,看完你還敢吃嗎?

愛下廚的阿釃
2026-03-16 06:01:34
F1官方賬號(hào)發(fā)布合照裁掉頒獎(jiǎng)嘉賓吳艷妮,僅留一只手臂

F1官方賬號(hào)發(fā)布合照裁掉頒獎(jiǎng)嘉賓吳艷妮,僅留一只手臂

懂球帝
2026-03-15 14:10:06
外協(xié)登頂、國(guó)乒丟雙冠!最扎心的,是王勵(lì)勤面無表情為勒布倫頒獎(jiǎng)

外協(xié)登頂、國(guó)乒丟雙冠!最扎心的,是王勵(lì)勤面無表情為勒布倫頒獎(jiǎng)

十點(diǎn)街球體育
2026-03-15 22:27:30
315曝光!這6種“坑人食品”別再亂買了,家家戶戶冰箱里可能都有

315曝光!這6種“坑人食品”別再亂買了,家家戶戶冰箱里可能都有

復(fù)轉(zhuǎn)這些年
2026-03-15 22:54:32
市值蒸發(fā)70億!純天然椰子水居然是勾兌糖水,3.15第一個(gè)雷炸

市值蒸發(fā)70億!純天然椰子水居然是勾兌糖水,3.15第一個(gè)雷炸

社會(huì)日日鮮
2026-03-16 06:53:17
特朗普點(diǎn)名法日韓英派遣軍艦去霍爾木茲海峽護(hù)航,結(jié)果四國(guó)都不響應(yīng)

特朗普點(diǎn)名法日韓英派遣軍艦去霍爾木茲海峽護(hù)航,結(jié)果四國(guó)都不響應(yīng)

文匯報(bào)
2026-03-16 03:39:00
歐洲不僅不支持特朗普,甚至希望他輸

歐洲不僅不支持特朗普,甚至希望他輸

觀察者網(wǎng)
2026-03-15 13:16:14
浙大教授:機(jī)關(guān)養(yǎng)老金漲幅降一半,可釋放超1150億,農(nóng)民養(yǎng)老金將追平低保

浙大教授:機(jī)關(guān)養(yǎng)老金漲幅降一半,可釋放超1150億,農(nóng)民養(yǎng)老金將追平低保

學(xué)人Scholar
2026-03-07 20:11:42
管住嘴!315爆雷的這五樣食品,輕則生病重則致癌,一個(gè)都不能吃

管住嘴!315爆雷的這五樣食品,輕則生病重則致癌,一個(gè)都不能吃

社會(huì)日日鮮
2026-03-16 07:06:57
不滿被中企暫停所有業(yè)務(wù),巴拿馬政府隔空喊話,呼吁中國(guó)趕緊恢復(fù)

不滿被中企暫停所有業(yè)務(wù),巴拿馬政府隔空喊話,呼吁中國(guó)趕緊恢復(fù)

觀察者海風(fēng)
2026-03-15 16:33:42
中南大學(xué)湘雅醫(yī)院一研究生墜江身亡 聯(lián)合調(diào)查組已介入調(diào)查

中南大學(xué)湘雅醫(yī)院一研究生墜江身亡 聯(lián)合調(diào)查組已介入調(diào)查

極目新聞
2026-03-16 08:56:25
女籃險(xiǎn)勝捷克引熱議!蘇群:張子宇與現(xiàn)代籃球脫軌 很難再有李夢(mèng)了

女籃險(xiǎn)勝捷克引熱議!蘇群:張子宇與現(xiàn)代籃球脫軌 很難再有李夢(mèng)了

狼叔評(píng)論
2026-03-15 22:30:34
南京一家長(zhǎng)投訴校園周邊“毒卡片”,印有“我的生活已步入臥軌”“看我不爽就上吊”等,店主稱不知情,是網(wǎng)上供貨,監(jiān)管部門:全部下架

南京一家長(zhǎng)投訴校園周邊“毒卡片”,印有“我的生活已步入臥軌”“看我不爽就上吊”等,店主稱不知情,是網(wǎng)上供貨,監(jiān)管部門:全部下架

大風(fēng)新聞
2026-03-15 16:46:05
2026-03-16 11:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14732文章數(shù) 66693關(guān)注度
往期回顧 全部

科技要聞

315曝光AI大模型"投毒"!39.9元篡改AI答案

頭條要聞

鄭麗文硬懟:北京我去定了 若不碰兩岸國(guó)民黨穩(wěn)死

頭條要聞

鄭麗文硬懟:北京我去定了 若不碰兩岸國(guó)民黨穩(wěn)死

體育要聞

那個(gè)送老奶奶去醫(yī)院的球員,成了隊(duì)史第一人

娛樂要聞

第98屆奧斯卡金像獎(jiǎng)獲獎(jiǎng)名單公布

財(cái)經(jīng)要聞

2月70城房?jī)r(jià)出爐:京滬二手房環(huán)比轉(zhuǎn)漲

汽車要聞

浴火重生,2026上汽乘用車要大干一場(chǎng)

態(tài)度原創(chuàng)

本地
游戲
時(shí)尚
教育
公開課

本地新聞

坐標(biāo)北京,過敏季反向遷徒

新作《八方旅人0》助力 系列總銷量突破700萬

內(nèi)娛小白花,公然模仿某巨星卻被全網(wǎng)夸爆?

教育要聞

加州最大、歷史最悠久社區(qū)學(xué)院宣布關(guān)閉中心校區(qū)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版