国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

南洋理工等提出Puffin:像攝影師一樣思考,統(tǒng)一相機理解與生成

0
分享至

文章來源:我愛計算機視覺(ID:aicvml)

最近,AI在空間感知和內(nèi)容生成方面的能力又有了新突破。來自新加坡南洋理工大學、商湯科技、密西根大學和馬普所的研究者們聯(lián)手,帶來了一個名為 Puffin 的統(tǒng)一多模態(tài)模型。它巧妙地將兩個看似獨立的任務——從圖像中理解相機參數(shù)(比如拍攝角度、焦距)和根據(jù)相機參數(shù)生成圖像——融合在了一起。這讓AI不僅能“看懂”一張照片是怎么拍的,還能化身“攝影師”,從任意指定的視角“拍”出新照片。

這篇論文的核心亮點在于提出了一種“用相機思考(Thinking with Camera)”的新范式。簡單來說,就是把原本冰冷的、數(shù)字化的相機參數(shù)(比如旋轉角度、視野大小)翻譯成攝影師口中的“行話”(比如“荷蘭角傾斜”、“廣角鏡頭”、“低角度拍攝”)。這樣一來,大型語言模型就能更好地理解和推理這些空間信息,像一個經(jīng)驗豐富的攝影師一樣思考,從而在理解和生成任務上都表現(xiàn)得更出色。



  • 論文標題 : Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

  • 作者 : Kang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai Wang, Fei Wang, Wei Li, Chen Change Loy

  • 機構 : 新加坡南洋理工大學,商湯科技,密西根大學、Max-Planck Institute for Informatics

  • 論文地址 : https://arxiv.org/abs/2510.08673

  • 項目主頁 : https://kangliao929.github.io/projects/puffin/

  • 代碼倉庫 : https://github.com/kangliao929/puffin

背景:從“各自為戰(zhàn)”到“統(tǒng)一戰(zhàn)場”

在過去,AI處理與相機相關的問題時,通常是“兵分兩路”。

一條路是 相機為中心的理解(Camera-Centric Understanding),比如計算機視覺里的相機姿態(tài)估計,它的任務是從一張給定的圖片中,反推出拍攝這張照片時相機的位置、朝向、焦距等參數(shù)。這對于三維重建、AR/VR等應用至關重要。

另一條路是 相機為中心的生成(Camera-Centric Generation),比如計算機圖形學和AIGC里的可控圖像生成。我們給模型指定一個虛擬的相機位姿,讓它生成該視角下的圖像。這在電影特效、游戲場景生成、虛擬試衣等領域大有可為。

雖然這兩個任務都圍繞“相機”展開,但它們就像一枚硬幣的兩面,長期以來被分開研究,各自發(fā)展。研究者們敏銳地意識到,如果能將兩者統(tǒng)一起來,不僅能讓模型的能力更全面,還能讓理解和生成任務相互促進,實現(xiàn)“1+1>2”的效果。Puffin模型正是在這樣的背景下應運而生。


方法:“像語言一樣思考相機”

Puffin模型的核心思想是構建一個統(tǒng)一的框架,能夠同時學習相機理解和生成任務。下面我們來看看它是如何實現(xiàn)的。


“用相機思考”范式

CV君認為,這篇論文最有趣和最具啟發(fā)性的地方,就是這個“用相機思考”的范式。傳統(tǒng)方法通常直接處理數(shù)值化的相機參數(shù),或者學習它們的幾何表示,但這些對于大型語言模型(LMM)來說并不“友好”。

Puffin另辟蹊徑,它將相機參數(shù)與專業(yè)的攝影術語聯(lián)系起來。例如,它不直接處理-45°到45°的相機側傾角(Roll),而是將其映射為“荷蘭角(Dutch Angle)”;不直接處理視野(FoV),而是將其映射為“標準”、“廣角”、“長焦”等術語。通過這種方式,模型在進行相機參數(shù)預測時,實際上是在進行一種空間推理:它會分析圖像中的視覺線索(比如地平線的傾斜、物體的透視關系),然后像人類一樣思考“嗯,這張圖看起來有點歪,應該是用了荷蘭角拍攝”,最終在 標簽中記錄推理過程,并在 標簽中給出具體的參數(shù)預測。


這種方法巧妙地將LMM強大的語言推理能力引入到幾何問題中,讓模型不僅知其然(預測出參數(shù)),更知其所以然(理解參數(shù)背后的視覺表現(xiàn))。

Puffin-4M:大規(guī)模訓練數(shù)據(jù)

為了訓練Puffin這樣強大的模型,一個大規(guī)模、高質(zhì)量的數(shù)據(jù)集必不可少。為此,研究者們構建了 Puffin-4M 數(shù)據(jù)集,它包含了 400萬個“視覺-語言-相機”三元組。這個數(shù)據(jù)集覆蓋了各種場景和相機配置,為模型提供了豐富的學習素材。


數(shù)據(jù)集的構建流程也很有意思,它結合了現(xiàn)有的多個360°全景數(shù)據(jù)集,通過渲染生成帶有精確相機參數(shù)的圖像,并利用大型語言模型自動生成描述性文本和前文提到的“思考過程”文本。


與之前的數(shù)據(jù)集相比,Puffin-4M在規(guī)模、多樣性以及是否包含空間推理文本方面,都有著顯著優(yōu)勢。


統(tǒng)一的訓練策略

Puffin在一個統(tǒng)一的框架中,混合了多種訓練任務,包括相機參數(shù)理解、可控圖像生成、圖像描述等。通過精心設計的訓練配方,模型在各項能力上都得到了充分的鍛煉。


實驗效果:全面超越專用模型

是騾子是馬,拉出來遛遛。Puffin在相機理解和可控生成兩個核心任務上,都表現(xiàn)出了卓越的性能,甚至超越了許多為單一任務專門設計的模型。

相機理解能力

在MegaDepth、TartanAir等多個公開基準數(shù)據(jù)集上,Puffin在預測相機內(nèi)參(焦距)和外參(旋轉、平移)方面,其誤差都顯著低于之前的方法。這證明了“用相機思考”范式的有效性。


可控生成能力

在相機可控的圖像生成任務上,Puffin同樣表現(xiàn)出色。給定文本描述和目標相機參數(shù),它生成的圖像不僅內(nèi)容準確,而且相機視角也控制得非常精準。從下圖的誤差圖(Error Map)可以看出,Puffin生成的圖像在相機姿態(tài)上與目標真值的偏差(Median Error)遠小于其他多模態(tài)模型。


定量結果也證實了這一點,無論是在相機參數(shù)的直接對比還是在圖像相似度指標上,Puffin都取得了最佳或次佳的成績。


下圖直觀地展示了Puffin生成的相機參數(shù)分布與真實值(Ground Truth)的分布高度吻合,而之前的方法則有較大偏差。


豐富的應用潛力

得益于其統(tǒng)一的設計和強大的指令遵循能力,Puffin還能解鎖許多有趣的應用:

  • 空間想象 :給定一張圖片,想象從不同視角(比如更高、更左)看會是什么樣子。

  • 世界探索 :像玩FPS游戲一樣,在場景中“走動”,從不同位置生成連續(xù)的視圖,甚至可以用于三維重建。

  • 攝影指導 :分析一張照片,并給出如何改進構圖和拍攝參數(shù)的建議。

  • 3D對象植入 :準確預測出真實照片的相機參數(shù),從而可以將虛擬的3D模型無縫地植入到場景中。

總結

總而言之,Puffin模型通過“用相機思考”這一創(chuàng)新范式,成功地統(tǒng)一了相機為中心的理解與生成任務,為實現(xiàn)更全面的空間智能AI邁出了堅實的一步。作者已經(jīng)開源了代碼和數(shù)據(jù)集構建流程,這無疑將極大地推動相關領域的研究。

你覺得這個技術未來會用在哪些場景?一起來聊聊吧!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
浙江官宣:即將舉辦城市足球聯(lián)賽

浙江官宣:即將舉辦城市足球聯(lián)賽

新京報政事兒
2025-12-21 20:13:40
海南封關首日:30克金飾省近萬元,居民排長隊買榴蓮

海南封關首日:30克金飾省近萬元,居民排長隊買榴蓮

極目新聞
2025-12-21 08:11:42
石宇奇衛(wèi)冕失??!第二局0-7崩盤手腕明顯不適 祝賀波波夫顯格局

石宇奇衛(wèi)冕失敗!第二局0-7崩盤手腕明顯不適 祝賀波波夫顯格局

顏小白的籃球夢
2025-12-21 19:37:05
考古最新證實:阿房宮既沒建好也沒被火燒,杜牧《阿房宮賦》所描述的阿房宮景象非寫實之作

考古最新證實:阿房宮既沒建好也沒被火燒,杜牧《阿房宮賦》所描述的阿房宮景象非寫實之作

大象新聞
2025-12-21 10:49:06
羅永浩稱收入超99%中國人

羅永浩稱收入超99%中國人

超角度
2025-12-21 12:35:06
南博事件再升級!《江南春》調(diào)撥人是凌波,神秘顧客也浮出水面

南博事件再升級!《江南春》調(diào)撥人是凌波,神秘顧客也浮出水面

奇思妙想草葉君
2025-12-21 13:59:16
臉都不要了,但還是低估了他們的無恥

臉都不要了,但還是低估了他們的無恥

胖胖說他不胖
2025-12-21 11:00:20
南京博物館事件,我很擔心會走向“彭宇案”的老路

南京博物館事件,我很擔心會走向“彭宇案”的老路

人格志
2025-12-20 23:34:32
太不尋常了!日本外長公開承認波茨坦公告,日高官求中國一件事

太不尋常了!日本外長公開承認波茨坦公告,日高官求中國一件事

知鑒明史
2025-12-20 19:15:51
安徽省委決定:在全省開展持續(xù)深化違規(guī)吃喝問題專項整治,對頂風者嚴查快辦、絕不姑息

安徽省委決定:在全省開展持續(xù)深化違規(guī)吃喝問題專項整治,對頂風者嚴查快辦、絕不姑息

新京報政事兒
2025-12-21 20:13:56
日退將妄稱“美日臺聯(lián)手作戰(zhàn)”,帥化民打臉:美國沒那個意愿、日本沒那個能力

日退將妄稱“美日臺聯(lián)手作戰(zhàn)”,帥化民打臉:美國沒那個意愿、日本沒那個能力

海峽導報社
2025-12-21 12:36:02
陳慧琳素顏逛美國超市,臉好方,腮幫子鼓起來了,牙齒不整齊!

陳慧琳素顏逛美國超市,臉好方,腮幫子鼓起來了,牙齒不整齊!

庭小娛
2025-12-21 14:51:03
威武!倆中國女生埃及游,與當?shù)?人互毆,完勝后獲圍觀者豎拇指

威武!倆中國女生埃及游,與當?shù)?人互毆,完勝后獲圍觀者豎拇指

阿纂看事
2025-12-20 10:16:59
張學良三個兒子瘋的瘋,死的死,都以為張家就要絕后,結局如何?

張學良三個兒子瘋的瘋,死的死,都以為張家就要絕后,結局如何?

古書記史
2025-12-12 11:32:56
北京一副局長騎電動車送外賣,“原以為騎手最關心社保政策,沒想到他們張口就是‘別罰我款’”

北京一副局長騎電動車送外賣,“原以為騎手最關心社保政策,沒想到他們張口就是‘別罰我款’”

第一財經(jīng)資訊
2025-12-21 08:55:57
同仁堂假貨泛濫!央視曝光,3元成本翻20倍賣,家里有老人的速查

同仁堂假貨泛濫!央視曝光,3元成本翻20倍賣,家里有老人的速查

觀察鑒娛
2025-12-21 12:02:11
中美較量開始了:世紀號油輪事件,是特朗普對中國的敲打,中國硬核回擊!

中美較量開始了:世紀號油輪事件,是特朗普對中國的敲打,中國硬核回擊!

V記錄號
2025-12-21 14:58:44
彭珮云同志逝世

彭珮云同志逝世

新華社
2025-12-21 17:03:03
韓紅直呼“太離譜”,三甲醫(yī)生連番追問!5月齡小洛熙手術后離世仍需更多真相……

韓紅直呼“太離譜”,三甲醫(yī)生連番追問!5月齡小洛熙手術后離世仍需更多真相……

新民周刊
2025-12-21 14:48:33
這次,美國徹底把我們打醒了!

這次,美國徹底把我們打醒了!

戎評
2025-12-20 14:02:05
2025-12-21 20:40:49
算法與數(shù)學之美 incentive-icons
算法與數(shù)學之美
分享知識,交流思想
5273文章數(shù) 64595關注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關:十萬個應用

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場地還小

財經(jīng)要聞

老房子“強制體檢”,政府出手了

汽車要聞

-30℃,標致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

時尚
本地
旅游
手機
房產(chǎn)

紅色不流行了?今年最火的穿搭居然是它

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風骨

旅游要聞

20只國寶已就位 綿陽中華大熊貓苑12月29日試運營

手機要聞

華為Mate80系列迎雙喜:18天銷量破百萬,同比前代大幅增長!

房產(chǎn)要聞

中交·藍色港灣一周年暨藍調(diào)生活沙龍圓滿舉行

無障礙瀏覽 進入關懷版