国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

24歲博士生造出空間AI大師G2VLM,讓機(jī)器人眼明手快

0
分享至

近日,24 歲的 00 后博士生胡文博和所在團(tuán)隊(duì)造出一款名為 G2VLM 的超級 AI 模型,它是一位擁有空間超能力的視覺語言小能手,不僅能從普通的平面圖片中精準(zhǔn)地重建出三維世界,還能像人類一樣進(jìn)行復(fù)雜的空間思考和空間推理。

它除了可以判斷一張照片里有一把椅子之外,還能知道這把椅子距離桌子有多遠(yuǎn),更能知道有多高、是正著放還是歪著放。這意味著,未來的機(jī)器人可能會更靈活地幫你拿取物品,AR/VR 游戲的世界會更加真實(shí),甚至自動駕駛汽車能夠更精準(zhǔn)地判斷距離和障礙物。


圖 | 胡文博(來源:胡文博)

在 SPAR-Bench 測試中,G2VLM 的總分比頂尖商業(yè)模型 GPT-4o 超出了 18.5 分,位居榜首。在 OmniSpatial、MindCube 等多個(gè)空間推理測試基準(zhǔn)中,它也取得了最優(yōu)或極具競爭力的成績。

最有趣的是,盡管 G2VLM 的模型尺寸只有 4B 參數(shù),遠(yuǎn)遠(yuǎn)小于一些動輒數(shù)百億甚至上千億參數(shù)的大型模型,但是它在空間任務(wù)上的表現(xiàn)卻輕松超過了這些大塊頭,這證明它的雙專家架構(gòu)設(shè)計(jì)得非常高效,不是靠蠻力,而是靠巧勁。

胡文博告訴 DeepTech:“機(jī)器人要執(zhí)行如泡咖啡這類復(fù)雜操作,必須實(shí)時(shí)、精準(zhǔn)地理解物體的位置、距離和相互關(guān)系。G2VLM 作為一個(gè)強(qiáng)大的基礎(chǔ)模型,可以為下游的具身智能模型提供預(yù)訓(xùn)練支持,極大地增強(qiáng)其空間感知與操作能力。”


(來源:https://arxiv.org/pdf/2511.21688)

從平面眼到立體眼:AI 的空間視力進(jìn)化史

G2VLM 和我們手機(jī)里的圖像識別軟件有著本質(zhì)不同,要想理解它的獨(dú)特之處得先從現(xiàn)有的視覺-語言模型講起。這類模型所存在的共同缺點(diǎn)在于,它們僅僅擁有平面眼。

假如你給這些 AI 看一張桌子的照片,經(jīng)過海量圖片訓(xùn)練的它們,可以很輕松地識別出這是一張桌子,甚至能夠描述桌子的顏色和樣式。

但是,如果你問它:桌子左邊的杯子距離桌子右邊的書籍大概有多遠(yuǎn)?或者你問它:能否繪制一張關(guān)于這個(gè)房間的三維結(jié)構(gòu)圖。這時(shí),它可能就傻眼了。因?yàn)樗幚韴D片的方式,就像把一幅有深度的油畫壓成一幅扁平的剪貼畫,丟失了至關(guān)重要的深度和空間關(guān)系信息。

這就像只通過影子來猜測物體的形狀,準(zhǔn)確度非常低。也就是說這些 AI 模型主要依靠圖片的紋理、顏色和已有的知識比如桌子通常比杯子大來猜測空間關(guān)系,而不是真正地理解三維幾何關(guān)系。因此,它們需要在精確空間感知的任務(wù)上,比如機(jī)器人導(dǎo)航、三維場景編輯或者回答復(fù)雜的空間關(guān)系問題時(shí),表現(xiàn)得差強(qiáng)人意。


(來源:https://arxiv.org/pdf/2511.21688)

靈感來源于人腦,打造雙專家協(xié)作系統(tǒng)

胡文博等人在設(shè)計(jì) G2VLM 的時(shí)候,從人腦處理視覺信息的方式中獲得了靈感。人腦主要有兩條視覺處理通路:第一條是“是什么”的通路,該通路負(fù)責(zé)識別物體是什么。

比如,看到紅色、圓形、有柄的東西,就能認(rèn)出來這是蘋果、第二條是“在哪里”的通路,該通路負(fù)責(zé)判斷物體的位置、距離和空間關(guān)系。比如,判斷蘋果在盤子上方,距離人手大約有 20 厘米。

G2VLM 將這個(gè)原理用在了 AI 模型上,它不是一個(gè)單一的“大腦”,而是由兩位專家緊密合作構(gòu)成的:

第一位是幾何感知專家,這位專家的專長是從 2D 圖片中解讀 3D 幾何信息,它的目標(biāo)是弄清楚物體的深度、各個(gè)點(diǎn)的三維坐標(biāo),以及拍攝照片的相機(jī)角度。

第二位專家是語義感知專家,這位專家繼承了現(xiàn)有 AI 模型的優(yōu)點(diǎn),擅長理解圖片內(nèi)容并用語言進(jìn)行描述。它能認(rèn)出物體和理解場景,并能回答一般性問題。

最關(guān)鍵的是,這兩位專家并不是各自為戰(zhàn),而是通過一個(gè)共享的注意力機(jī)制來進(jìn)行緊密相連,以便能夠隨時(shí)交流信息。當(dāng)語義專家說“這里有個(gè)沙發(fā)”時(shí),幾何專家就會立馬補(bǔ)充說:“這個(gè)沙發(fā)距離墻壁大約有 1.5 米,高度是 0.8 米?!边@種實(shí)時(shí)的、深度的協(xié)作,讓 G2VLM 同時(shí)具備了看懂內(nèi)容和理解空間的超能力。


(來源:https://arxiv.org/pdf/2511.21688)

獨(dú)特的學(xué)藝過程:兩步訓(xùn)練法

培養(yǎng)這樣一位雙料專家并非易事,胡文博為 G2VLM 設(shè)計(jì)了一套獨(dú)特的學(xué)藝方案:

在第一階段,讓其閉關(guān)修煉幾何神功。首先,得固定住語義專家也就是讓它暫時(shí)休息,此時(shí)只針對幾何專家進(jìn)行訓(xùn)練。胡文博等人使用帶有精確三維標(biāo)注的數(shù)據(jù)來訓(xùn)練它。

這就好比讓一名未來的建筑測量師,在擁有完整藍(lán)圖的成千上萬個(gè)建筑模型上反復(fù)練習(xí),直到練就一雙火眼金睛,光看照片就能在腦中精確構(gòu)建三維模型。這個(gè)過程非常耗費(fèi)計(jì)算資源,需要在數(shù)十臺頂級顯卡上連續(xù)訓(xùn)練好幾天。

在第二階段,讓其進(jìn)行融會貫通。當(dāng)幾何專家初步練就基本功之后,就輪到它和另一位專家一起訓(xùn)練了。

這時(shí),訓(xùn)練數(shù)據(jù)變成了各種需要空間推理的問題,比如需要解決“根據(jù)這兩張從不同角度拍攝的照片來判斷球是滾向了左邊還是右邊?”在這個(gè)階段,語義專家被喚醒之后,能夠?qū)W習(xí)如何主動利用幾何專家提供的深度和距離等信息來回答問題。

而幾何專家也有可能進(jìn)行自我微調(diào),來讓自己提供的空間信息更加適用于高級推理。通過這種聯(lián)合,兩位專家磨合得越來越好,最終合體成為強(qiáng)大的 G2VLM。


(來源:https://arxiv.org/pdf/2511.21688)

在多個(gè)國際 AI“比武擂臺”上證明自己

練成之后的 G2VLM 到底有多強(qiáng)?

在三維重建的測試中:就深度估計(jì)來說,給定一張單視角照片,它能估計(jì)出照片中每個(gè)像素點(diǎn)距離相機(jī)的實(shí)際深度,誤差很??;就點(diǎn)云估計(jì)來說,給定幾張多視角照片,它能生成密集且準(zhǔn)確的三維點(diǎn)云模型,清晰地勾勒出物體的形狀;就相機(jī)姿態(tài)估計(jì)來說,它能反推出拍攝每張照片時(shí),相機(jī)在空間中的精確位置和角度。

在這些純粹考驗(yàn)三維幾何理解能力的任務(wù)上,G2VLM 的表現(xiàn)與當(dāng)前世界上最頂尖的專用三維重建模型不相上下,甚至在某些指標(biāo)上更加出色,這意味著它的立體眼已經(jīng)達(dá)到了專業(yè)水準(zhǔn)。

在空間推理的測試中,它展現(xiàn)出了最閃耀的部分。胡文博等人在包含了深度比較、距離判斷、物體相對關(guān)系、空間想象等各類難題的綜合評測集上測試了 G2VLM,于是便有了本文開頭的精彩表現(xiàn)。

對于 G2VLM 這樣一個(gè)擁有立體眼和空間腦的 AI 來說,它會打開通往更多應(yīng)用的大門,比如打造更智能的機(jī)器人助手、打造沉浸感更強(qiáng)的 AR 和 VR、打造自動駕駛的安全衛(wèi)士、打造人人可用的三維內(nèi)容創(chuàng)作工具、打造強(qiáng)大的視覺問答與教育等。


(來源:https://arxiv.org/pdf/2511.21688)

胡文博表示:“這項(xiàng)成果的首創(chuàng)性在于,我們是首個(gè)在當(dāng)前主流視覺語言模型架構(gòu)中,原生地集成了從二維圖片直接預(yù)測三維信息的能力。以往要理解三維空間,往往需要依賴深度圖、相機(jī)位姿等難以大規(guī)模獲取的額外標(biāo)注信息。

而我們的模型僅需任意角度拍攝的二維圖片,就能預(yù)測出三維信息,并用于空間理解,這使得模型能夠擴(kuò)展到海量數(shù)據(jù)上進(jìn)行訓(xùn)練,更具實(shí)用性和可擴(kuò)展性?!?/p>

G2VLM 的突破性不止體現(xiàn)在測試成績里的那些數(shù)字,還在于它所蘊(yùn)含的理念。那就是要想讓 AI 真正理解我們身處的物理直接,不能只讓它學(xué)習(xí)圖片和文字,還得教會它關(guān)于這個(gè)世界的底層的、根本的幾何與空間規(guī)則?!翱傊?,G2VLM 作為一個(gè)強(qiáng)大的基礎(chǔ)模型,可以為下游的具身智能模型提供預(yù)訓(xùn)練支持,極大地增強(qiáng)其空間感知與操作能力。”胡文博總結(jié)稱。

另據(jù)悉,胡文博本科就讀于美國加州大學(xué)圣地亞哥分校,曾跟隨機(jī)器人學(xué)與具身智能領(lǐng)域?qū)<姨K昊進(jìn)行研究,接觸機(jī)器人機(jī)械臂和三維學(xué)習(xí),這激發(fā)了他對 3D 和具身智能的濃厚興趣。

隨后,胡文博跟隨計(jì)算機(jī)視覺專家屠卓文進(jìn)入視覺語言模型領(lǐng)域,參與開發(fā)了早期開源 VLM 模型 BLIVA,該模型在理解圖像中的文字和通用場景方面表現(xiàn)突出,相關(guān)論文發(fā)表在 AAAI 2024,獲得了數(shù)百次引用。這為胡文博當(dāng)前的研究奠定了重要基礎(chǔ)。

本科畢業(yè)后,胡文博在美國加州大學(xué)洛杉磯分校攻讀碩士學(xué)位,師從常凱威導(dǎo)師和彭楠赟導(dǎo)師(他們現(xiàn)在也是胡文博的博士導(dǎo)師),期間胡文博繼續(xù)專注于 VLM 與 3D 空間結(jié)合的研究方向,完成了一系列相關(guān)工作,相關(guān)論文發(fā)表在了 NeurIPS、ICLR 等機(jī)器學(xué)習(xí)頂級會議, 還獲得了 CVPR Workshop 最佳論文, 目前他依然在攻讀博士。

參考資料:

相關(guān)論文 https://arxiv.org/pdf/2511.21688

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
去年縣長兒子結(jié)婚,我隨禮 888888,今年父親過生日縣長送壽桃

去年縣長兒子結(jié)婚,我隨禮 888888,今年父親過生日縣長送壽桃

流螢敘情
2025-10-16 10:30:14
最高降4000元,小米正式官宣:1月5日,全品支持國補(bǔ)!

最高降4000元,小米正式官宣:1月5日,全品支持國補(bǔ)!

科技堡壘
2026-01-05 11:49:57
或比3倍航天發(fā)展還猛!6元商業(yè)航天隱形冠軍   手握5億SpaceX訂單

或比3倍航天發(fā)展還猛!6元商業(yè)航天隱形冠軍 手握5億SpaceX訂單

元芳說投資
2026-01-04 06:00:08
南通一局長被查,涉嫌嚴(yán)重違紀(jì)違法!

南通一局長被查,涉嫌嚴(yán)重違紀(jì)違法!

南通攻略
2026-01-05 10:20:39
婚姻里的“哄”,是最高級的浪漫

婚姻里的“哄”,是最高級的浪漫

青蘋果sht
2025-12-27 05:12:18
嘎子哥謝孟偉甩鍋團(tuán)隊(duì)太抽象!16分鐘洗白視頻遭群嘲

嘎子哥謝孟偉甩鍋團(tuán)隊(duì)太抽象!16分鐘洗白視頻遭群嘲

雷科技
2026-01-05 11:33:18
廣西發(fā)生的這件事,有些人已經(jīng)惡出了新高度!

廣西發(fā)生的這件事,有些人已經(jīng)惡出了新高度!

胖胖說他不胖
2026-01-05 11:00:08
全新一代寶馬3系首次全面曝光,外觀,內(nèi)飾大升級,真漂亮

全新一代寶馬3系首次全面曝光,外觀,內(nèi)飾大升級,真漂亮

米粒說車唯一呀
2026-01-05 14:27:46
已有四個(gè)孩子的樊少皇重情重義,默默發(fā)文哀悼剛離世的“虛竹”

已有四個(gè)孩子的樊少皇重情重義,默默發(fā)文哀悼剛離世的“虛竹”

萱小蕾o
2026-01-03 21:35:47
人狂必有禍!被何慶魁罵“白眼狼”的閆學(xué)晶,狐貍尾巴藏不住了

人狂必有禍!被何慶魁罵“白眼狼”的閆學(xué)晶,狐貍尾巴藏不住了

冷紫葉
2026-01-04 18:10:31
入粵始祖,后裔2700萬,客家八大姓氏之一,認(rèn)祖歸宗憑一首詩

入粵始祖,后裔2700萬,客家八大姓氏之一,認(rèn)祖歸宗憑一首詩

銘記歷史呀
2026-01-05 03:24:58
自己得不到的東西寧可毀掉!南京預(yù)審員親歷的1988年女演員被害案

自己得不到的東西寧可毀掉!南京預(yù)審員親歷的1988年女演員被害案

顧氏造船廠廠長
2026-01-05 08:00:11
陳震老婆遭“騷擾”!

陳震老婆遭“騷擾”!

電動知家
2026-01-04 11:41:46
特朗普對哥倫比亞總統(tǒng)再發(fā)威脅!哥倫比亞經(jīng)濟(jì)能不依賴美國么?

特朗普對哥倫比亞總統(tǒng)再發(fā)威脅!哥倫比亞經(jīng)濟(jì)能不依賴美國么?

聞號說經(jīng)濟(jì)
2026-01-05 13:22:34
1952年,88歲齊白石將25歲新鳳霞拉進(jìn)屋:柜子里都是錢,你隨便拿

1952年,88歲齊白石將25歲新鳳霞拉進(jìn)屋:柜子里都是錢,你隨便拿

興趣知識
2025-12-31 18:24:12
凌晨3點(diǎn)手機(jī)突然自動轉(zhuǎn)賬!她的操作堪稱“范本”

凌晨3點(diǎn)手機(jī)突然自動轉(zhuǎn)賬!她的操作堪稱“范本”

極目新聞
2026-01-05 13:58:50
斯托克頓不攔著 歷史助攻王也是詹姆斯的

斯托克頓不攔著 歷史助攻王也是詹姆斯的

北青網(wǎng)-北京青年報(bào)
2026-01-05 12:06:14
亞歷山大狂妄發(fā)言遭全網(wǎng)群嘲!難道你把掘金尼克斯火箭當(dāng)空氣?

亞歷山大狂妄發(fā)言遭全網(wǎng)群嘲!難道你把掘金尼克斯火箭當(dāng)空氣?

田先生籃球
2026-01-04 10:28:43
美國對華戰(zhàn)略全錯(cuò)了?恰恰相反:美國每步都對,卻牌桌都下不去了

美國對華戰(zhàn)略全錯(cuò)了?恰恰相反:美國每步都對,卻牌桌都下不去了

伴君終老
2026-01-03 11:45:47
馬斯克這下懸了,中方怒批SpaceX兩次威脅天宮,不排除采取行動!

馬斯克這下懸了,中方怒批SpaceX兩次威脅天宮,不排除采取行動!

我心縱橫天地間
2026-01-04 21:57:06
2026-01-05 15:07:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16081文章數(shù) 514450關(guān)注度
往期回顧 全部

科技要聞

雷軍新年首播:確認(rèn)汽車業(yè)務(wù)降速

頭條要聞

媒體:美國捉拿馬杜羅后 多位專家示警賴清德

頭條要聞

媒體:美國捉拿馬杜羅后 多位專家示警賴清德

體育要聞

女子世界第一,9年前在咖啡店洗碗

娛樂要聞

黃宗澤奪雙料視帝,淚灑頒獎(jiǎng)臺憶往昔

財(cái)經(jīng)要聞

李迅雷:擴(kuò)內(nèi)需要把重心從"投"轉(zhuǎn)向"消"

汽車要聞

不是9S是8X!極氪全新高性能旗艦SUV命名官宣

態(tài)度原創(chuàng)

旅游
親子
家居
數(shù)碼
公開課

旅游要聞

“想得到的想不到的都有!”元旦沉浸式打卡昆明菜市場,成外地游客新時(shí)尚

親子要聞

2026年度育兒補(bǔ)貼今起開放申領(lǐng),流程新增一鍵續(xù)領(lǐng)功能

家居要聞

白色大理石 奢華現(xiàn)代

數(shù)碼要聞

瑞美熱水器好不好?這3點(diǎn)實(shí)力遠(yuǎn)超大牌

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版