国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

PixVerse R1 世界模型,以及它的原理|言出法隨、實時生成...無限月讀

0
分享至

PixVerse 發(fā)布了一個新東西,感覺...這是一場無限月讀的夢境

畫面持續(xù)生成,輸入的指令可以即時改變畫面內(nèi)容

官方技術(shù)報告的說法是:無限、連續(xù)的視覺流式傳輸

分辨率最高 1080P,響應(yīng)延遲秒級
(現(xiàn)在的 Demo 只是 720P,算力實在有限)

下面這個,是官方宣傳片,文末還有更多試玩錄屏:

世界模型到底在說什么

在世界模型這塊,老實說我只能算個門外漢,看到這個 PixVerse 的發(fā)布之后,我趕忙的去查看了相關(guān)的技術(shù)報告,以及詢問各種行業(yè)專家,以求給大家?guī)砀鼫?zhǔn)確的描述

恰好的,昨天 Luma AI 的模型產(chǎn)品負(fù)責(zé)人來到 AGI Bar,我們聊了一會兒,他平時在灣區(qū),對技術(shù)細(xì)節(jié)比較了解,前段時間剛?cè)诹?9 個億的美金,做世界模型

這就很...及時了,我們聊了半個多小時的模型發(fā)展,也包括現(xiàn)在各家的進展,再結(jié)合我之前學(xué)習(xí)的各類報告,有了這篇文章

對于世界模型,楊立昆有個說法,大意是:

給定一個現(xiàn)在的物理世界的狀態(tài),比如這個杯子停在桌子邊緣。再給定一個事件,比如:我把杯子推下去,會怎樣 對于人類的我們,可以想象:塑料杯的話,會彈起來;玻璃杯,則會摔碎 不得不說,人腦真的很厲害 現(xiàn)在的模型怎么知道這些?它得看過塑料杯摔在地上,看過玻璃杯摔在地上,看過各種杯子摔在地上的視頻 但如果我能通過語言模型的知識,知道這是玻璃杯還是塑料杯,知道玻璃落地會碎、塑料落地會保持完整,然后根據(jù)這個推斷去生成視頻,那就不一樣了

這個「杯子理論」,核心要表達的是:模型到底是在做模式匹配,還是真的理解了物理規(guī)律

兩條技術(shù)路線

現(xiàn)在做世界模型的團隊,技術(shù)路線上分成兩派:視頻路線3D 重建路線


視頻路線 vs 3D重建 視頻路線

Genie 3、PixVerse R1、Luma 走的都是這條路
核心思路是:通過足夠多的視頻信息,去理解 3D 的構(gòu)成

比如怎么知道一個物體從正面看是什么樣、從側(cè)面看是什么樣、從上面看是什么樣。模型從大量視頻中學(xué)習(xí)這些視角關(guān)系

講道理,我覺得人腦是這么學(xué)習(xí)的

3D 重建

李飛飛的 World Labs 走的是另一條路
Gaussian Splatting 把 3D 世界重建出來,人在里面走動,場景產(chǎn)生變化,這個有點像小扎之前提到的元宇宙

他們是直接用 Gaussian Splatting,把 3D 的世界給重建出來了。然后人在里面走,產(chǎn)生交互或者動作,去模擬出來

兩條路線,各有側(cè)重(只是目前來說)

3D 重建:空間一致性更強、可以導(dǎo)出資產(chǎn)
視頻路線:生成速度快、可以做實時交互;

PixVerse R1 的技術(shù)架構(gòu)

伴隨 PixVerse R1 發(fā)布的,還有一份技術(shù)報告,有興趣的可以讀一下


https://pixverse.ai/en/blog/pixverse-r1-next-generation-real-time-world-model

根據(jù)這份報告,PixVerse R1 由三個模塊支撐:Omni、MemoryIRE

Omni:原生多模態(tài)基座

端到端的多模態(tài)模型,文本、圖像、視頻、音頻被統(tǒng)一編碼成連續(xù) token 流

「原生」的含義是:多模態(tài)融合發(fā)生在模型底層,而非通過外掛編碼器拼接。減少模態(tài)之間的接口誤差


基座模型在大規(guī)模真實世界視頻上訓(xùn)練,學(xué)習(xí)場景演化的規(guī)律

Memory:自回歸流式生成

擴散模型生成固定長度片段,PixVerse R1 用自回歸機制,逐幀預(yù)測,理論上無長度限制

自回歸的經(jīng)典問題是誤差累積。PixVerse R1 加了記憶增強注意力機制:當(dāng)前幀生成時,會參考前序幀的隱狀態(tài)表示,維持長程一致性


聊到這里,朋友提了一個有意思的點:

自回歸的圖片模型從去年開始有了,Grok、GPT-4o Image、Gemini 的圖片生成,基本上都是自回歸加 Diffusion 的某種 Fusion 架構(gòu) 圖片模型上能看到對文字、對物理規(guī)律有更好的呈現(xiàn) 那大家猜測,用同樣的架構(gòu)在視頻上實現(xiàn),可能也能更好的理解物理世界規(guī)律 但自回歸的視頻模型,真的很難

國內(nèi)最早探索這個方向,并產(chǎn)出成果的,應(yīng)該是 Sand AI,曹越他們

PixVerse R1 的這次嘗試,則是把這個東西,推向了一個新的高度

IRE:實時響應(yīng)引擎

實現(xiàn)「實時」的關(guān)鍵模塊

擴散模型通常需要幾十步去噪迭代,延遲高。PixVerse R1 把采樣步數(shù)壓到 1 到 4 步


這里有三個技術(shù)點:

Direct Transport Mapping
網(wǎng)絡(luò)直接預(yù)測目標(biāo)分布,跳過逐步去噪

引導(dǎo)蒸餾
把 Classifier-Free Guidance 的條件梯度合并進學(xué)生模型,省掉推理時的額外計算

稀疏注意力
減少長序列依賴的冗余計算

產(chǎn)業(yè)背景

世界模型這個詞,最早進入大眾視野可能要追溯到 Sora


標(biāo)題:視頻生成模型,也是世界模擬器

Sora 的時候大家都覺得這是一個視頻模型。但 OpenAI 當(dāng)時說的是 World Model 他們當(dāng)時說的 World Model,是指在視頻的基礎(chǔ)上,模型能夠符合我們對于一個視頻的正常預(yù)期。比如鳥飛是什么樣的,原來的 Diffusion 模型很多東西跑起來不太符合客觀規(guī)律。Sora 把這個事情做了

現(xiàn)在各家的布局:

Google Genie 3(2025年8月) 720p 分辨率,24fps 幀率,持續(xù)交互可達數(shù)分鐘。還是基于 DiT 架構(gòu),做了一些改進

World Labs Marble(2025年11月) 李飛飛創(chuàng)立,首輪融資 2.3 億美元。生成持久化、可下載的 3D 環(huán)境,支持導(dǎo)出 Gaussian Splats 和 Mesh 格式

NVIDIA Cosmos(2025年1月) 物理 AI 基礎(chǔ)設(shè)施平臺,已被下載超 200 萬次。定位是服務(wù)自動駕駛和機器人訓(xùn)練

Runway GWM-1(2025年12月) 分化為三條產(chǎn)品線:交互式探索、機器人合成數(shù)據(jù)、人類行為模擬

PixVerse R1 剛剛發(fā)布,聚焦實時響應(yīng)。公司2025年9月獲得阿里巴巴領(lǐng)投的 6000 萬美元融資,年化經(jīng)常性收入約 4000 萬美元

局限性

技術(shù)報告里提到兩個約束:

誤差累積 長時間生成后,早期的小誤差可能逐步放大

物理精度與速度的權(quán)衡 為了實現(xiàn)實時,物理細(xì)節(jié)的渲染精度有所妥協(xié)

目前單次會話限時 5 分鐘,算力消耗較大

還有一個更根本的問題,字節(jié) Seed 團隊 2024年11月的研究(ICML 2025 發(fā)表)指出:視頻生成模型在分布外泛化上表現(xiàn)不好,縮放模型規(guī)模也沒用。核心問題是模型可能并沒有真正學(xué)會物理規(guī)則,只是在做模式匹配


這也是杯子理論指向的問題:看過足夠多杯子摔碎的視頻,和真正理解「玻璃落地會碎」,可能是兩回事

收尾

體驗地址:realtime.pixverse.ai

目前內(nèi)測中,需要邀請碼,我爭取了,但算力實在有限,實在沒有多余的,能在這里群發(fā)了(

最后,放一下更多 case 的試玩錄屏

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
韓國:70%的石油和20%的天然氣由中東進口 危機時將動用戰(zhàn)略儲備

韓國:70%的石油和20%的天然氣由中東進口 危機時將動用戰(zhàn)略儲備

財聯(lián)社
2026-03-02 19:02:07
外媒:特朗普對伊朗發(fā)出新威脅

外媒:特朗普對伊朗發(fā)出新威脅

參考消息
2026-03-01 15:52:28
現(xiàn)實教訓(xùn)!重慶女子離婚無家可歸,抱娃跪求前任接盤,被連趕3次

現(xiàn)實教訓(xùn)!重慶女子離婚無家可歸,抱娃跪求前任接盤,被連趕3次

今朝牛馬
2026-03-02 21:27:47
上海某電影院事件:81秒視頻流出,主角社交媒體曝光

上海某電影院事件:81秒視頻流出,主角社交媒體曝光

溫柔看世界
2026-03-02 16:33:22
伊朗指揮中樞遭團滅,數(shù)千名軍官正排隊投降

伊朗指揮中樞遭團滅,數(shù)千名軍官正排隊投降

西樓飲月
2026-03-02 16:30:15
中國與伊朗接近達成超音速導(dǎo)彈采購協(xié)議?外交部:不屬實!

中國與伊朗接近達成超音速導(dǎo)彈采購協(xié)議?外交部:不屬實!

澎湃新聞
2026-03-02 15:36:40
伊朗再對美以基地發(fā)動大規(guī)模襲擊

伊朗再對美以基地發(fā)動大規(guī)模襲擊

財聯(lián)社
2026-03-01 12:32:05
涉美伊局勢,復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

涉美伊局勢,復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

都市快報橙柿互動
2026-03-02 15:33:41
巴拿馬運河兩端港口運營恢復(fù),MSC完成首船裝卸

巴拿馬運河兩端港口運營恢復(fù),MSC完成首船裝卸

海事服務(wù)網(wǎng)CNSS
2026-03-02 19:58:04
A股:剛剛,中央四部門聯(lián)合發(fā)布,不出意外,周二將迎來新的轉(zhuǎn)變

A股:剛剛,中央四部門聯(lián)合發(fā)布,不出意外,周二將迎來新的轉(zhuǎn)變

另子維愛讀史
2026-03-02 19:31:01
伊朗生死關(guān)頭,一個關(guān)鍵人物走向前臺……

伊朗生死關(guān)頭,一個關(guān)鍵人物走向前臺……

補壹刀
2026-03-02 16:08:19
參宿四爆炸后,地球夜空會亮如白晝,至少半年不用開燈了

參宿四爆炸后,地球夜空會亮如白晝,至少半年不用開燈了

觀察宇宙
2026-03-02 19:09:35
突發(fā)! 內(nèi)賈德沒死? 親信稱: 他一切安好

突發(fā)! 內(nèi)賈德沒死? 親信稱: 他一切安好

每日經(jīng)濟新聞
2026-03-02 12:32:06
伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
暴跌40%,關(guān)店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動了

暴跌40%,關(guān)店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動了

好賢觀史記
2026-03-02 20:17:10
加水加糖加廢料,椰子水系統(tǒng)性摻假翻車!網(wǎng)友:真夠歹毒……

加水加糖加廢料,椰子水系統(tǒng)性摻假翻車!網(wǎng)友:真夠歹毒……

柴狗夫斯基
2026-03-02 10:46:05
上海影院現(xiàn)場意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

上海影院現(xiàn)場意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

離離言幾許
2026-03-02 12:52:58
36歲副鎮(zhèn)長開會時腦出血暈倒,除夕當(dāng)天不幸離世:上任僅10余天,最后一條動態(tài)為督促社火排練,留下3個孩子

36歲副鎮(zhèn)長開會時腦出血暈倒,除夕當(dāng)天不幸離世:上任僅10余天,最后一條動態(tài)為督促社火排練,留下3個孩子

極目新聞
2026-03-02 15:45:15
不到48小時,3大名人禁言被封,160萬粉賬號涼涼,不值得同情

不到48小時,3大名人禁言被封,160萬粉賬號涼涼,不值得同情

青橘罐頭
2026-03-02 17:26:53
伊朗發(fā)射近1200枚導(dǎo)彈報復(fù)美國和以色列

伊朗發(fā)射近1200枚導(dǎo)彈報復(fù)美國和以色列

中國網(wǎng)
2026-03-01 16:43:10
2026-03-03 02:47:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
309文章數(shù) 45關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
旅游
數(shù)碼
軍事航空

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫#钟袝蟊P殺出!

藝術(shù)要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

數(shù)碼要聞

高通MWC 2026發(fā)布多項通信技術(shù),定檔2029年開啟6G商用

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進入關(guān)懷版