国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

視覺GPT時刻來了!DeepMind用Vision Banana證明「生成即理解」

0
分享至



編輯|Panda、澤南

前兩天,OpenAI 的 ChatGPT Images 2.0 驚艷了世界,其在實測中的表現(xiàn)整體上已經(jīng)超過了之前 SOTA 的 Nano Banaba Pro。

就在人們還在驚嘆于 AI 圖像生成的卓越能力時,谷歌 DeepMind 卻放出了一篇重量級論文《Image Generators are Generalist Vision Learners》,其中系統(tǒng)性地證明了之前許多人已經(jīng)有過的直覺:圖像生成器就是強大的通用視覺學習器

要想理解物理世界,何必依靠專用模型?



  • 論文標題:Image Generators are Generalist Vision Learners
  • 論文地址:https://arxiv.org/abs/2604.20329v1
  • 項目地址:https://vision-banana.github.io/

Google DeepMind 的研究發(fā)現(xiàn),類似于 LLM 的生成式預訓練會讓模型涌現(xiàn)出語言理解和推理能力,圖像生成訓練能使模型學習到強大且通用的視覺表征,從而在各種視覺任務中實現(xiàn) SOTA 的性能。

基于這一發(fā)現(xiàn),他們還基于 Nano Banana Pro 構(gòu)建了一個通用模型Vision Banana,并取得了相當亮眼的表現(xiàn),媲美甚至超越了零樣本領域?qū)<夷P,比如用于分割任務?Segment Anything Model 3、用于深度估計的 Depth Anything 系列。



作者 Shangbang Long 的分享推文

這項研究意義重大,其表明圖像生成可以作為視覺任務的統(tǒng)一通用接口。DeepMind 也在論文中表示:「我們可能正見證計算機視覺領域的重大范式轉(zhuǎn)變,其中生成式視覺預訓練在構(gòu)建同時支持生成和理解的基礎視覺模型中扮演核心角色!

這篇論文由多位核心作者和貢獻者共同完成,另外,我們還能看到謝賽寧和何愷明等熟悉的名字。謝賽寧連發(fā)數(shù)推,強調(diào)了通用模型的崛起與超越:像 Vision Banana 這樣的單一多模態(tài)通用模型,在圖像分割、邊緣檢測等底層感知任務上首次擊敗了 SAM3 和 DepthAnything3 等頂尖的領域?qū)S媚P。以往被視為不同問題的感知任務,現(xiàn)在都可以通過簡單的提示詞在統(tǒng)一的系統(tǒng)下完成。



下面我們就來詳細看看這項重量級研究成果。

研究背景

生成即理解的猜想由來已久

在 AI 研究領域,一個長期存在的直覺是:能夠創(chuàng)造視覺內(nèi)容的模型,理應也能理解視覺內(nèi)容。畢竟,若模型不能深刻理解物體的形狀、語義和空間關系,它又怎能生成如此高保真、語義精確的圖像?

然而現(xiàn)實卻與這一直覺存在明顯落差。長期以來,視覺表征學習領域的主流方法并不屬于生成式建模家族,而是以有監(jiān)督的判別式學習、對比學習、Bootstrapping 和自編碼等方法為主導。盡管早期的生成式視覺預訓練探索展現(xiàn)出了有潛力的擴展行為,其效果卻始終落后于非生成式模型。

在自然語言處理領域,這一局面早已被打破。

GPT 系列模型證明,生成式預訓練(即讓模型預測下一個 token)能夠讓 LLM 涌現(xiàn)出強大的語言理解與推理能力,再經(jīng)過指令微調(diào),模型就能在各類任務上實現(xiàn) SOTA 性能。

DeepMind 的研究者們不禁發(fā)問:圖像生成能否扮演與文本生成類似的角色?圖像生成器,是不是也就是通用視覺學習器?

核心方法

把所有視覺理解任務「偽裝」成畫圖任務

該論文提出的Vision Banana,基座就是那個名為 Nano Banana Pro (NBP) 的圖像生成模型。

研究團隊沒有給這個生成模型增加任何專門用于視覺理解(如檢測、分割)的復雜網(wǎng)絡結(jié)構(gòu),也沒有修改底層架構(gòu)。他們的方法極其巧妙 ——將視覺感知任務的輸出空間,全部參數(shù)化為 RGB 圖像格式。具體來說,他們在原始的圖像生成訓練數(shù)據(jù)中,摻入了一小部分視覺任務數(shù)據(jù),進行輕量級的指令微調(diào)。

為了教導模型聽懂指令,并直接「畫」出視覺任務的結(jié)果,Vision Banana 實行圖像化輸出解碼。例如在語義分割中,提示詞會規(guī)定「把滑板畫成純黃色 <255, 255, 0>」,模型就會直接生成一張帶有顏色掩碼的 RGB 圖片,隨后只需將對應顏色的像素提取出來,就能完美還原出分割結(jié)果。



在做 3D 深度估計時,他們則設計了一套嚴格可逆的數(shù)學映射機制(利用冪律變換),將物理世界中從 0 到無窮大的度量深度映射到 RGB 色彩立方體的邊緣上。模型輸出一張漸變的「偽色彩圖」,解碼后就能直接換算成精準的物理深度距離。



通過這種用畫圖來做題的方法,一個統(tǒng)一的 Vision Banana 模型在 2D 和 3D 視覺理解任務上,打敗或逼平了一眾目前頂尖的各類專業(yè)模型:



深度估計的精妙色彩映射

在所有可視化方案中,深度估計的 RGB 編碼設計最為精巧,值得單獨展開。

深度值的范圍是 [0, ∞),而 RGB 值的范圍是有界的 [0, 1]^3,如何在二者之間建立一個雙射(bijection),是工程設計的核心挑戰(zhàn)。

研究者采用了冪變換對深度值進行「彎曲」處理,將原始深度映射為 [0, 1) 區(qū)間內(nèi)的歸一化距離,再沿 RGB 立方體的棱邊進行線性插值 —— 這條路徑類似于三維希爾伯特曲線的第一次迭代,從黑色到白色遍歷立方體的棱邊。由于冪變換和線性插值均可嚴格求逆,整個映射構(gòu)成了度量深度到 RGB 空間的完美雙射,模型推理生成的彩色圖像可以無損地解碼回精確的度量深度值。

此外,研究團隊還特意對近場物體賦予更高的顏色分辨率 —— 因為對機器人操作、深度傳感等應用而言,近距離物體的精確度量往往比遠景更為關鍵。

表面法向量估計

相比深度,表面法向量的可視化方案則要自然得多。表面法向量由 (x, y, z) 三個分量構(gòu)成,值域為 [-1.0, 1.0],與 RGB 顏色通道天然對齊。研究者采用右手坐標系(+x 向右、+y 向上、+z 朝外),將三個方向分量直接映射為 R、G、B 通道:朝左的表面呈現(xiàn)粉紅色調(diào),朝上的呈淺綠色,面向攝像機的呈淺藍 / 紫色。

這種內(nèi)在的對齊使得法向量估計幾乎無需額外設計,直接沿用生成模型的原生能力即可。

實驗結(jié)果

全面超越零樣本專家模型

2D 理解:分割任務

語義分割方面,Vision Banana 在 Cityscapes 數(shù)據(jù)集(19 類城市場景)上以 mIoU 0.699 超越 SAM 3 的 0.652,領跑所有零樣本遷移方法,進一步縮小了與閉集專有模型(如 SegMan-L)之間的差距。

實例分割方面,Vision Banana 采用「逐類推理」策略應對實例數(shù)量未知的挑戰(zhàn):每次推理僅針對一個類別,讓模型自動為不同實例動態(tài)分配顏色,推理后通過顏色聚類解碼出各個實例掩模。在 SA-Co/Gold 數(shù)據(jù)集上,Vision Banana 的 pmF1 為 0.540,與 DINO-X(0.552)基本持平,遠超 Gemini 2.5(0.461)和 OWLv2(0.420)等方法。

指稱表達式分割(Referring Expression Segmentation)是最能體現(xiàn)語言-視覺深度融合的任務 —— 模型需要理解自由形式的自然語言查詢,并據(jù)此精確分割對應目標。

Vision Banana 在此任務上表現(xiàn)尤為出色:在 RefCOCOg 數(shù)據(jù)集(UMD 驗證集)上取得 cIoU 0.738,在 ReasonSeg 驗證集上取得 gIoU 0.793,均超越 SAM 3 Agent(0.734 / 0.770)。更令人驚喜的是,當與 Gemini 2.5 Pro 結(jié)合使用時,Vision Banana 在 ReasonSeg 上甚至能超越部分在訓練集上經(jīng)過完整訓練的非零樣本方法。研究者觀察到,Vision Banana 繼承自生成式預訓練的多模態(tài)智能,使其能更有效地推理「分割什么」,這正是判別式模型難以企及的優(yōu)勢。



3D 理解:深度與法向量估計

單目度量深度估計是 3D 理解中公認的難題:2D 投影會不可逆地丟失三維幾何信息,而在沒有多視圖視差線索的單目設定下難度更甚。現(xiàn)有 SOTA 方法(如 Depth Anything V3、UniK3D、MoGe-2)通常需要在訓練或推理階段引入相機內(nèi)參(camera intrinsics)來消解固有歧義,并配以專門設計的架構(gòu)和損失函數(shù)。

Vision Banana 的策略截然不同:完全不使用相機參數(shù)(訓練和推理階段均如此),純粹依靠基礎模型在大規(guī)模圖像生成預訓練中習得的關于物體尺寸、距離關系的幾何先驗來推斷絕對尺度。更值得注意的是,所有訓練數(shù)據(jù)均來自合成渲染引擎,沒有使用任何真實世界的深度數(shù)據(jù),且所有評估基準的真實訓練數(shù)據(jù)均被排除在外。

在六大公開基準上,Vision Banana 的平均 δ_1 精度達到 0.882,在與 Depth Anything V3 直接可比的四個數(shù)據(jù)集(NYU、ETH3D、DIODE-indoor、KITTI)上平均 δ_1 為 0.929,超過 Depth Anything V3 的 0.918。與 UniK3D 相比領先近 6 個百分點,絕對相對誤差(AbsRel)比 MoGe-2 低約 20%。



研究者還做了一個頗具說服力的 vibe test:論文作者本人在鹿苑寺附近用普通智能手機拍攝了一張照片,Vision Banana 估計出照片中標注點的深度為 13.71 米,實際用谷歌地圖測量的距離為 12.87 米,絕對相對誤差僅約 0.065。



表面法向量估計方面,Vision Banana 在四個公開基準的室內(nèi)場景平均值上取得最低的均值和中值角度誤差,在戶外場景上與 Lotus-2 相當。定性對比顯示,Vision Banana 生成的法向量圖視覺保真度和細節(jié)粒度均明顯優(yōu)于 Lotus-2,即使在定量指標略遜的室外數(shù)據(jù)集(Virtual KITTI 2)上,其視覺質(zhì)量依然更勝一籌。

生成能力驗證

輕量級指令微調(diào)是否會損傷 Nano Banana Pro 原有的圖像生成能力?

研究團隊在 GenAI-Bench(文字生成圖像)和 ImgEdit(圖像編輯)兩個基準上進行了人類偏好評估,Vision Banana 對 Nano Banana Pro 的勝率分別為 53.5% 和 47.8%(見圖 1)。

這一結(jié)果清晰地表明,經(jīng)過指令微調(diào)的 Vision Banana 與基礎模型的生成能力基本持平,「通曉理解,不忘生成」。

范式轉(zhuǎn)變正在發(fā)生

這項研究的意義不僅在于一組亮眼的基準數(shù)字,更在于它提出并系統(tǒng)性驗證了兩個深刻的論斷。

其一,圖像生成器是通用視覺學習器。與 LLM 領域的生成式預訓練類比,圖像生成訓練使模型習得的視覺先驗不僅服務于生成任務,更已內(nèi)化為通用的視覺理解能力。這些生成先驗甚至能超越為特定任務精心設計的專有架構(gòu)和訓練范式。

其二,圖像生成是視覺任務的通用接口。正如文本生成統(tǒng)一了語言理解、推理、數(shù)學、代碼、智能體等各類任務,將視覺任務輸出參數(shù)化為 RGB 圖像,使得圖像生成也能成為視覺任務的統(tǒng)一界面。單一提示詞驅(qū)動、單一模型權(quán)重共享 —— 這種優(yōu)雅的統(tǒng)一性與 LLM 在語言領域的成功如出一轍。

此外,研究者還指出,生成式建模天然能處理視覺任務中的固有歧義。判別式專家模型通常需要特殊的架構(gòu)設計(如 SAM 系列對同一輸入返回多個分割掩模并只對其中一個計算損失)來應對一對多的輸出分布,而生成模型學習完整的數(shù)據(jù)分布,歧義由設計本身優(yōu)雅化解。

當然,研究者也坦承了若干局限與未來方向。當前評估專注于單目圖像輸入,多視圖和視頻輸入的擴展是自然的下一步,而視頻生成器是否能習得更豐富的時序感知視覺表征,是一個極具吸引力的研究方向。另一值得期待的方向是探索基礎視覺模型與 LLM 的協(xié)同融合,以增強跨模態(tài)推理。此外,與輕量級專家模型相比,基于圖像生成器的推理開銷仍然顯著偏高,加速與成本優(yōu)化將是走向廣泛部署的必由之路。

結(jié)語

Vision Banana 的出現(xiàn),讓「能生成即能理解」這一長期猜想從直覺變?yōu)榱擞袚?jù)可查的事實。

圖像生成,可能正在成為計算機視覺的「GPT 時刻」,就像生成式預訓練重塑了自然語言處理領域的格局一樣,以 Nano Banana Pro 為代表的大規(guī)模圖像生成模型,或許正是構(gòu)建真正意義上的「基礎視覺模型」所缺失的那塊拼圖。

DeepMind 在論文結(jié)尾寫道:「這些生成先驗超越了視覺專家模型長期依賴的專有架構(gòu)與訓練范式。我們正在目睹計算機視覺的范式轉(zhuǎn)變,生成式視覺預訓練將在構(gòu)建同時支持生成與理解的基礎視覺模型中扮演核心角色,并為基于視覺的 AGI鋪平道路!

這一判斷,值得整個計算機視覺社區(qū)認真對待。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“19歲女生受邀去泰國潑水節(jié)被轉(zhuǎn)賣電詐園”最新消息:園區(qū)初步同意放人,可遲遲不給具體位置,雙方仍在協(xié)商接人事宜

“19歲女生受邀去泰國潑水節(jié)被轉(zhuǎn)賣電詐園”最新消息:園區(qū)初步同意放人,可遲遲不給具體位置,雙方仍在協(xié)商接人事宜

三湘都市報
2026-04-23 17:18:29
羨慕!某研究所員工曬出26年前三個月收入

羨慕!某研究所員工曬出26年前三個月收入

微微熱評
2026-04-23 22:11:36
天問三號任務計劃于2031年前后攜帶火星樣品返回地球

天問三號任務計劃于2031年前后攜帶火星樣品返回地球

界面新聞
2026-04-24 09:46:31
江西省衛(wèi)生健康委員會原主任龔建平被"雙開"

江西省衛(wèi)生健康委員會原主任龔建平被"雙開"

界面新聞
2026-04-24 10:32:14
伊朗德黑蘭防空系統(tǒng)啟動

伊朗德黑蘭防空系統(tǒng)啟動

財聯(lián)社
2026-04-24 01:36:24
羅德里:再這么多比賽我踢不到32歲,歐洲杯奪冠后我筋疲力盡

羅德里:再這么多比賽我踢不到32歲,歐洲杯奪冠后我筋疲力盡

懂球帝
2026-04-24 01:27:07
距離謝娜演唱會開唱,還有10余天,我已經(jīng)笑死在評論區(qū)了!

距離謝娜演唱會開唱,還有10余天,我已經(jīng)笑死在評論區(qū)了!

娛樂圈筆娛君
2026-04-22 14:35:22
剛剛,向烏克蘭發(fā)放900億歐元、對俄實施第20輪制裁,全票通過!

剛剛,向烏克蘭發(fā)放900億歐元、對俄實施第20輪制裁,全票通過!

山河路口
2026-04-23 20:48:40
單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

思思夜話
2026-04-23 11:30:19
曝中國槍迷赴英看阿森納比賽被捕!坐了9年牢 獄警拿1-5來羞辱他

曝中國槍迷赴英看阿森納比賽被捕!坐了9年牢 獄警拿1-5來羞辱他

風過鄉(xiāng)
2026-04-23 17:16:10
馬英九今日表態(tài)痛心疾首,蕭旭岑政治命運何去何從?

馬英九今日表態(tài)痛心疾首,蕭旭岑政治命運何去何從?

梁察天下
2026-04-24 12:00:02
隨著掘金慘敗,老鷹兩連勝,NBA季后賽最新比分!森林狼2-1反超

隨著掘金慘敗,老鷹兩連勝,NBA季后賽最新比分!森林狼2-1反超

薇說體育
2026-04-24 14:10:53
一夜3大消息!湖人重大利好,衛(wèi)冕冠軍遭打擊,杜蘭特又添新傷

一夜3大消息!湖人重大利好,衛(wèi)冕冠軍遭打擊,杜蘭特又添新傷

體壇小李
2026-04-24 07:27:51
俄羅斯專家:美國所有總統(tǒng)都知道打伊朗的后果,只有特朗普不知道

俄羅斯專家:美國所有總統(tǒng)都知道打伊朗的后果,只有特朗普不知道

揭秘歷史的真相
2026-04-23 21:03:05
英國泰晤士高等教育2026年亞洲大學排名公布:清華、北大分列第一、二,香港8所高校全部躋身前一百名

英國泰晤士高等教育2026年亞洲大學排名公布:清華、北大分列第一、二,香港8所高校全部躋身前一百名

極目新聞
2026-04-24 07:30:32
夢碎IPO,中國糖水之王賣了

夢碎IPO,中國糖水之王賣了

投資家
2026-04-23 21:08:00
“兩高”最新司法解釋引巨大爭議,網(wǎng)友:有些內(nèi)容太可怕了!

“兩高”最新司法解釋引巨大爭議,網(wǎng)友:有些內(nèi)容太可怕了!

娛樂圈見解說
2026-04-24 08:11:57
六年八個億換不來一個聯(lián)賽冠軍,國際米蘭告訴你什么叫真正的豪門運營!

六年八個億換不來一個聯(lián)賽冠軍,國際米蘭告訴你什么叫真正的豪門運營!

星Xin辰大海
2026-04-24 07:54:55
如果在家突發(fā)心梗,黃金6分鐘自救法,快了解,關鍵時刻可自救

如果在家突發(fā)心梗,黃金6分鐘自救法,快了解,關鍵時刻可自救

健康科普365
2026-01-20 16:05:03
18歲女孩奶茶店打暑假工 辭職后因店里繁忙被臨時召回 上班途中遇車禍搶救3個月不幸身亡

18歲女孩奶茶店打暑假工 辭職后因店里繁忙被臨時召回 上班途中遇車禍搶救3個月不幸身亡

閃電新聞
2026-04-24 12:14:16
2026-04-24 15:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12847文章數(shù) 142635關注度
往期回顧 全部

科技要聞

剛剛,DeepSeek-V4 預覽版發(fā)布 百萬上下文

頭條要聞

女子乘高鐵被掉落行李箱砸到 向箱子主人索賠6百無果

頭條要聞

女子乘高鐵被掉落行李箱砸到 向箱子主人索賠6百無果

體育要聞

里程碑之戰(zhàn)拖后腿,哈登18分8失誤

娛樂要聞

王思聰被綠!戀愛期間女友被金主包養(yǎng)

財經(jīng)要聞

19家企業(yè)要"鋁代銅",格力偏不

汽車要聞

全景iDrive 續(xù)航近800km 新款寶馬7系/i7亮相

態(tài)度原創(chuàng)

教育
時尚
房產(chǎn)
旅游
健康

教育要聞

江西省委宣傳部原常務副部長陳東有:教育孩子不能太急切

襯衫+半裙,比別人好看不止一點點

房產(chǎn)要聞

三亞安居房,突然官宣!

旅游要聞

90元解鎖洛陽56個景區(qū)!@惠州市民,這個福利別錯過

干細胞如何讓燒燙傷皮膚"再生"?

無障礙瀏覽 進入關懷版