国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

蘋果開源新模型!一秒鐘讓照片變3D世界

0
分享至


智東西
編譯 王欣逸
編輯 程茜

智東西12月19日消息,12月11日,蘋果發(fā)表論文介紹了3D生成模型SHARP,宣稱在標準GPU上,該模型能夠以不到1秒的時間將單張圖像重建為逼真的3D場景。目前,該模型已開源。


用戶僅需輸入一張普通照片,該模型即可通過神經(jīng)網(wǎng)絡(luò)一次性預測出整個場景的3D高斯表示參數(shù),整個生成過程在標準GPU上完成僅需不足一秒,隨后還能實時渲染出高分辨率、照片級真實感的相鄰視角圖像。此外,SHARP生成的3D場景具有絕對尺度的度量特性,能夠支持精確的相機位移操作。

定量評估顯示,SHARP在不同數(shù)據(jù)集上展現(xiàn)出強大的零樣本泛化能力,在多個數(shù)據(jù)集上實現(xiàn)了新的技術(shù)突破,與現(xiàn)有最佳模型相比,LPIPS指標(感知相似性)降低了25-34%,DISTS指標(結(jié)構(gòu)相似性)降低了21-43%,還將合成時間縮短了三個數(shù)量級,并支持以每秒100幀高分辨率渲染鄰近視圖的3D表征。

不少開發(fā)者對該模型進行了體驗。其中,有網(wǎng)友將其置于Vision Pro內(nèi)使用,僅需單張圖片就實現(xiàn)了身臨其境的效果,生成畫面的精細度也比較高。


還有網(wǎng)友上傳了一張油畫,該模型最終生成了一個位置關(guān)系準確、畫面完整的3D場景。


其他網(wǎng)友評價稱,該模型無法生成場景中不可見的部分,不過它的最大優(yōu)勢在于生成速度,“MacBook Pro 只需幾秒鐘(就能完成生成)……”。


該模型的詳細信息已發(fā)布在arXiv上,題為《SHARP:不到一秒的單圖像視角合成(Sharp Monocular View Synthesis in Less Than a Second)》。


論文地址:https://arxiv.org/abs/2512.10685

開源地址:

GitHub:https://github.com/apple/ml-sharp

Hugging Face:https://huggingface.co/apple/Sharp

一、保真度提高約20%-40%,合成時間縮短三個數(shù)量級

研究人員用多個數(shù)據(jù)集對SHARP模型進行評估,主要關(guān)注模型的兩個指標:LPIPS和DISTS,以考察模型的合成圖像與真實圖像之間的結(jié)構(gòu)相似性,符合人主觀感受的程度。這兩個數(shù)據(jù)越小,性能越優(yōu)。

在基線模型上,研究人員選取了一些現(xiàn)有的前沿模型,分別為:基于3D高斯分布的Flash 3D模型;使用多平面圖像的TMPI模型;基于圖像回歸的LVSM模型;采用擴散模型的穩(wěn)定虛擬相機(SVC)、ViewCrafter和Gen3C。

定量評估顯示,SHARP在所有數(shù)據(jù)集中的表現(xiàn)均為最佳,打敗所有模型。相較現(xiàn)有最佳模型,SHARP的LPIPS指標降低了25-34%,DISTS指標降低了21-43%。


研究人員對該模型的單圖像合成任務(wù)性能進行了評估,結(jié)果顯示,在單個GPU上,SHARP在保持高圖像保真度的同時,合成時間也位列第一梯隊。相較于同等質(zhì)量的模型,SHARP模型的合成時間縮短了三個數(shù)量級,這體現(xiàn)了其在效率和效果上的優(yōu)勢。


在不到1秒的時間里,該模型不僅能生成3D內(nèi)容,還能以每秒100幀以上的速度渲染高分辨率的局部視圖。從結(jié)果來看,SHARP細節(jié)處理清晰,結(jié)構(gòu)精細,第一張圖的主體和背景分離處理得很干凈,第二張圖顏色和形狀穩(wěn)定性比較出色,第三張圖動物的毛發(fā)根根分明。


二、能實時渲染、預測高分辨3D表征,無法生成不可見部分

視角合成研究經(jīng)歷了從早期基于多圖像幾何建模的經(jīng)典方法,到深度學習時代以神經(jīng)輻射場為代表的隱式表示突破,再到近年來顯式高效渲染技術(shù)(如3D高斯?jié)姙R)的發(fā)展歷程。

此前,大多數(shù)高斯?jié)姙R方法需要從不同視角拍攝同一場景的數(shù)十甚至數(shù)百張圖像,SHARP模型則專注于單張圖片的3D場景生成,它僅通過神經(jīng)網(wǎng)絡(luò)的一次前向傳播,就能從單張照片預測出完整的3D高斯場景表征。

SHARP模型的訓練過程包括合成數(shù)據(jù)訓練和自監(jiān)督微調(diào)兩個階段:在第一階段,研究人員使用具有完美圖像和深度真實標簽的合成數(shù)據(jù)對模型進行訓練,學習3D重建的基本原理。在第二階段,研究人員讓該模型在沒有視差合成真實標簽的真實圖像上進行自監(jiān)督微調(diào),通過生成偽真實標簽來適應(yīng)真實圖像,提高模型在真實世界圖像上的性能。

研究團隊對SHARP模型做出了三點創(chuàng)新:第一點是一種可進行端到端訓練的架構(gòu),這一架構(gòu)可預測高分辨率3D表征;第二是推出了魯棒高效的損失函數(shù)配置,研究人員精心選取了一系列損失函數(shù),在保障訓練穩(wěn)定性、抑制常見視覺偽影的同時,將視角合成質(zhì)量作為優(yōu)化重點;第三是引入一個簡潔的深度對齊模塊,這一模塊能夠有效解決訓練過程中的深度歧義問題。

SHARP模型包含四個可學習模塊:一個用于特征提取的預訓練編碼器、一個生成兩個獨立深度層的深度解碼器、一個深度調(diào)整模塊以及一個優(yōu)化所有高斯屬性的高斯解碼器??晌⒎指咚钩跏蓟骱徒M合器為最終的3D表示組裝高斯元素,預測出的高斯被渲染至輸入視圖和新穎視圖,以進行損失計算。


在優(yōu)化和評估過程中,SHARP模型使用了多種損失函數(shù)來優(yōu)化合成視圖的質(zhì)量,包括渲染損失、深度損失和正則化損失等。通過這些損失函數(shù)的組合,模型能夠生成高質(zhì)量的3D表示,并支持實時渲染。

基于以上技術(shù),SHARP模型實現(xiàn)了無需依賴多張圖像或耗時的逐場景優(yōu)化過程,即可重建出可信的3D場景。不過該方法存在一定的權(quán)衡:SHARP能精確渲染鄰近視角,但無法合成場景中完全不可見的部分。這意味著用戶不能過度偏離原照片的拍攝機位。

結(jié)語:3D場景生成門檻再降

SHARP模型在單圖像視點合成領(lǐng)域取得了顯著進展,該模型在單次前向傳播的同時,完成了從2D圖片理解、3D幾何重建到細節(jié)優(yōu)化的全過程,最終輸出一個能實時渲染的3D場景模型。

在應(yīng)用上,通過實時渲染高保真的3D場景,SHARP模型或?qū)閂R/AR應(yīng)用提供更加沉浸式的體驗,為游戲、電影、建筑等行業(yè)提供更多可能性。研究團隊稱,他們還將拓展現(xiàn)有方法論,通過結(jié)合擴散模型等方法,支持更遠距離視點的合成。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
A股:剛剛,國務(wù)院國資委重磅發(fā)布,信號很明確,下周要大變盤了

A股:剛剛,國務(wù)院國資委重磅發(fā)布,信號很明確,下周要大變盤了

云鵬敘事
2025-12-20 00:00:13
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
傷亡700人,中方援建大橋被炸,中械軍大勝,大批導彈成戰(zhàn)利品

傷亡700人,中方援建大橋被炸,中械軍大勝,大批導彈成戰(zhàn)利品

兵說
2025-12-19 12:43:40
笑死!老一輩總能精準找到最貴的隨手用,網(wǎng)友:簡直一模一樣

笑死!老一輩總能精準找到最貴的隨手用,網(wǎng)友:簡直一模一樣

夜深愛雜談
2025-12-19 15:40:30
國企也開始爆雷了!

國企也開始爆雷了!

微微熱評
2025-12-19 00:35:12
朱孝天風波升級!柴智屏吐槽他不太世故,性格20多年依舊沒變

朱孝天風波升級!柴智屏吐槽他不太世故,性格20多年依舊沒變

小徐講八卦
2025-12-18 14:41:46
九紫離火運(2024-2043)大洗牌!唯有這3大生肖是“九運真金”

九紫離火運(2024-2043)大洗牌!唯有這3大生肖是“九運真金”

古怪奇談錄
2025-12-19 14:22:22
關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

熱點菌本君
2025-10-01 17:24:05
滿眼馬賽克,多張克林頓,不見特朗普?美司法部“壓線”公開愛潑斯坦案文件

滿眼馬賽克,多張克林頓,不見特朗普?美司法部“壓線”公開愛潑斯坦案文件

上觀新聞
2025-12-20 14:37:09
C羅也想不到!利雅得勝利遭FIFA“凍結(jié)令”,沙特豪門沒錢了嗎

C羅也想不到!利雅得勝利遭FIFA“凍結(jié)令”,沙特豪門沒錢了嗎

萬花筒體育球球
2025-12-20 14:43:34
場均24分,主動上位搶球隊老大!奪冠熱門倒下,你們或許該交易

場均24分,主動上位搶球隊老大!奪冠熱門倒下,你們或許該交易

老梁體育漫談
2025-12-20 00:06:57
汕汕高鐵開通后,汕頭站將實施新列車運行圖→

汕汕高鐵開通后,汕頭站將實施新列車運行圖→

廣東發(fā)布
2025-12-20 13:22:02
外媒:004正組裝2座核動力裝置安全殼,“電力自由”30年不換燃料

外媒:004正組裝2座核動力裝置安全殼,“電力自由”30年不換燃料

書紀文譚
2025-12-20 13:47:21
魏建軍再開炮!推出購車防忽悠指南,有些車企瑟瑟發(fā)抖

魏建軍再開炮!推出購車防忽悠指南,有些車企瑟瑟發(fā)抖

象視汽車
2025-12-19 07:00:05
新一批中國愛心包裹和單車移交柬埔寨

新一批中國愛心包裹和單車移交柬埔寨

人民網(wǎng)
2025-12-19 16:23:42
四十年來最大的謎:包產(chǎn)到戶后農(nóng)民馬上就吃上了飽飯,是真的嗎?

四十年來最大的謎:包產(chǎn)到戶后農(nóng)民馬上就吃上了飽飯,是真的嗎?

老呶侃史
2025-12-19 08:59:36
19日18時至21日12時,廣州全市暫停辦理戶口、居民身份證、居住證等業(yè)務(wù)

19日18時至21日12時,廣州全市暫停辦理戶口、居民身份證、居住證等業(yè)務(wù)

新快報新聞
2025-12-19 21:11:12
再見快船!三方史詩級交易方案,哈登聯(lián)手愛德華茲,又要沖冠了?

再見快船!三方史詩級交易方案,哈登聯(lián)手愛德華茲,又要沖冠了?

老侃侃球
2025-12-20 03:00:03
全A唯一電池龍頭,4家社保基金重倉埋伏,利潤要增長600%啊

全A唯一電池龍頭,4家社?;鹬貍}埋伏,利潤要增長600%啊

鵬哥投研
2025-12-20 12:29:01
婚禮變葬禮,浩氣永長存——香港全城送別殉職消防員何偉豪

婚禮變葬禮,浩氣永長存——香港全城送別殉職消防員何偉豪

行者聊官
2025-12-20 10:19:19
2025-12-20 15:39:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10946文章數(shù) 116929關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

91歲老人欲把亡妻房子過戶給50歲女友:這是我的權(quán)利

頭條要聞

91歲老人欲把亡妻房子過戶給50歲女友:這是我的權(quán)利

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

戚薇女兒大變樣,10歲就進入“尷尬期”

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

藝術(shù)
親子
家居
房產(chǎn)
軍事航空

藝術(shù)要聞

馬巖松新作!桂林“超級星”正式揭幕!

親子要聞

5歲孩子剛放學回家,媽媽就給他出難題,看看他能搞定嗎?

家居要聞

高端私宅 理想隱居圣地

房產(chǎn)要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進入關(guān)懷版