国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

快手正悄悄地把可靈做成一個(gè)世界模型

0
分享至


作者 | 黃小藝
郵箱 | huangxiaoyi@pingwest.com

12月1日,可靈正式發(fā)布了新模型——可靈 O1,并連續(xù)發(fā)布了可圖 O1、音畫同出模型可靈2.6、可靈數(shù)字人2.0、可靈O1主體庫(kù)&對(duì)比模版共五個(gè)更新。

最核心的是兩個(gè)O系列的生成模型,與 GPT的o系列一樣,“O”代表著 Omni(all,一切),意味著模型不再局限于單一模態(tài)的輸入。

正因如此,O1也被視為視頻生成界的 “Nano Banana” 。它們的相似點(diǎn)在于,都是多模態(tài)整合,都具有強(qiáng)可控性多輪編輯能力

看起來(lái)很酷,但可靈的目標(biāo)并不止于“又一個(gè)視頻模型”。

如果梳理近一年可靈的各種動(dòng)作,你就會(huì)發(fā)現(xiàn),O系列或許只是一個(gè)序幕,接下來(lái),可靈的方向是要做出自己的世界模型。

1

“Video World Model是未來(lái)!”

事實(shí)上,可靈想做世界模型的這份野心,從來(lái)沒有隱藏過(guò)。

第一個(gè)火爆的視頻生成模型Sora,在發(fā)布之初就宣稱自己是“世界模擬器”。22個(gè)月過(guò)去,越來(lái)越多的視頻生成模型都在宣傳或研究上,或多或少地朝“世界模型”靠近,可靈也不例外。

各種論文在提供著清晰線索。

早在2024年12月,Sora公開上線的同月,快手就發(fā)布過(guò)一篇名為《Owl-1: Omni World Model for Consistent Long Video Generation》的論文,提出了Omni World Model(Owl-1),用于產(chǎn)生長(zhǎng)期連貫且全面的條件,實(shí)現(xiàn)持續(xù)的長(zhǎng)視頻生成,預(yù)測(cè)未來(lái)動(dòng)態(tài)[1]。

從論文來(lái)看,這是他們長(zhǎng)達(dá)一年的技術(shù)演進(jìn)的梳理。進(jìn)入2025年,快手的可靈團(tuán)隊(duì)就開始逐漸密集地發(fā)布世界模型相關(guān)研究。


在其中,你甚至可以找到各種當(dāng)下火爆的路線方向。

2025年8月Google 發(fā)了實(shí)時(shí)交互的Genie3,快手則對(duì)它對(duì)應(yīng)的這種生成式交互視頻在游戲領(lǐng)域的應(yīng)用做了研究,論文獲得了ICCV 2025 Highlight。


2025年11月李飛飛正式發(fā)布的3D “世界模型”,快手也有一個(gè)對(duì)應(yīng)的模型Terra。


這些名氣很大的關(guān)鍵節(jié)點(diǎn),快手的策略是緊跟不缺席。

不過(guò),隨著“世界模型”的概念被炒熱,這也存在一個(gè)爭(zhēng)議點(diǎn)——視頻生成模型,到底是不是世界模型?圖靈獎(jiǎng)得主 Yann LeCun 曾為此潑過(guò)一盆冷水。他認(rèn)為,“視頻生成并不等于世界模型”,單純預(yù)測(cè)下一個(gè)像素點(diǎn),只是對(duì)畫面的模仿,并非對(duì)物理世界的真正理解。

然后快手可靈團(tuán)隊(duì)在2025年11月也發(fā)布了一篇論文《Simulating the Visual World with Artificial Intelligence: A Roadmap》,里面給出了回應(yīng):視頻生成模型也可以學(xué)習(xí)物理規(guī)律,像素只是模型渲染給人類看的結(jié)果,不代表模型中間沒有計(jì)算和推理。

這篇論文可以看作是快手自己為“視頻生成模型如何通往世界模型”畫出的路線圖,在文中,快手明確將Kling 1.0歸類于第一代世界模型,Kling2.1 Master歸類于第二代世界模型。

在他們看來(lái),現(xiàn)代視頻模型并非直接預(yù)測(cè)像素,而是存在一個(gè)隱式世界模型作為“大腦”,負(fù)責(zé)在肉眼不可見的高維潛在空間(Latent Space)中進(jìn)行推演,這和LeCun的潛在空間推理同理,它接收當(dāng)前的各種狀態(tài)輸入,基于推理能力和內(nèi)化的物理法則——如重力、流體動(dòng)力學(xué)、物體恒常性——計(jì)算出下一時(shí)刻的世界狀態(tài)[3]。

快手專家研究員王鑫濤也直接在知乎上寫下判斷:“我相信,Video World Model 是未來(lái)”。


1

可靈最近研究都圍繞世界模型展開

繼續(xù)沿著《Simulating the Visual World with Artificial Intelligence: A Roadmap》這篇回看,快手那些看似碎片化的研究——從物理準(zhǔn)確性到鏡頭運(yùn)動(dòng)控制——其實(shí)都能被串聯(lián)進(jìn)這條通往“世界模型”之路中。

Roadmap里的一個(gè)核心是,團(tuán)隊(duì)認(rèn)為“視頻生成”走向“世界模型”的一個(gè)關(guān)鍵點(diǎn)是Navigation Mode(導(dǎo)航模式)。


快手認(rèn)為,真正的世界模型不能只靠“空間條件”(如布局、草圖、深度圖)來(lái)描摹畫面、進(jìn)行像素級(jí)或有限的控制;它必須能聽懂“導(dǎo)航條件”——即那些脫離了畫面依然成立的、具有時(shí)序的、具有空間推理的交互指令(如“向左轉(zhuǎn)”、“推拉鏡頭”)。


也正是因此,團(tuán)隊(duì)有關(guān)“導(dǎo)航條件”的研究格外多。

鏡頭運(yùn)動(dòng)就是一種導(dǎo)航條件,ICCV 高分論文 RecamMaster,提出了一種由攝像機(jī)控制的生成視頻重渲染框架,能夠在新的攝像機(jī)軌跡下再現(xiàn)輸入視頻的動(dòng)態(tài)場(chǎng)景[4];SynCamMaster 則進(jìn)一步讓模型在同一時(shí)間軸上實(shí)現(xiàn)多攝像機(jī)視頻生成,確保不同視角間的內(nèi)容一致性[5];而 AdaViewPlanner 則讓 AI 變成了攝影指導(dǎo),能自主規(guī)劃最佳觀察路徑[6]。這一系列研究,本質(zhì)上都是在提升模型對(duì)3D、4D空間的動(dòng)態(tài)感知。

這些研究,也反映在了此次的O系列里。

從目前可靈O系列的案例中也能看出,例如,可靈O1針對(duì)一張側(cè)面的車內(nèi)駕駛視頻,生成一張后座視角的車內(nèi)駕駛視頻;可圖O1將一張二維的房間設(shè)計(jì)圖,轉(zhuǎn)化為3維空間的設(shè)計(jì)圖等等。


按照快手Roadmap的定義,我們可以將可靈O1劃分在世界模型第二代到第三代之間。

在快手的定義中, 第二代的主要特征就是交互性,“導(dǎo)航模式”賦予了模型靈活的控制力,使其能遵循預(yù)定義軌跡執(zhí)行長(zhǎng)動(dòng)作序列,而第三代模型則更進(jìn)一步,核心在于“規(guī)劃能力”(Planning)與“實(shí)時(shí)交互”, 進(jìn)一步強(qiáng)化了導(dǎo)航模式,模型不僅能“聽指令走路”,還要能基于內(nèi)在的物理知識(shí),自主推演并生成無(wú)限長(zhǎng)的視頻序列。

也就是說(shuō),僅僅會(huì)“運(yùn)鏡”是不夠的,模型還必須懂物理、能思考。因此在導(dǎo)航類論文之外,快手還構(gòu)建了物理、推理方向的研究。

比如,快手推出的Monet訓(xùn)練框架,通過(guò)讓多模態(tài)大語(yǔ)言模型 (MLLMs)直接在連續(xù)的潛在視覺空間中進(jìn)行推理,增強(qiáng)視覺推理能力[7];

還有PhysMaster,作為一種模型外掛,通過(guò)注入物理知識(shí)來(lái)增強(qiáng)視頻生成模型的物理感知能力,使其能夠生成更符合物理規(guī)律的視頻。[8]。

隨著研究碎片們不斷補(bǔ)齊,O系列,會(huì)是可靈打開新“世界”的大門嗎?

1

在“賺錢工具”與“世界模擬器”的夾縫中

如果快手想要繼續(xù)向世界模型前進(jìn),實(shí)時(shí)性就是一個(gè)關(guān)鍵的卡點(diǎn)。

盡管 O1 模型在空間邏輯、指令遵循上有進(jìn)步,但生成一段 5 秒的視頻目前仍需耗時(shí)約 2 分鐘。這種“高延遲”并非 O1 獨(dú)有的問題,回看從可靈 1.0 到可靈 2.1 Master 的整個(gè)迭代軌跡,團(tuán)隊(duì)顯然采取了一種“畫質(zhì)優(yōu)先,速度讓位”的策略。


但對(duì)于一個(gè)旨在模擬世界的系統(tǒng)而言,如果無(wú)法做到實(shí)時(shí)響應(yīng),那么它更像是一個(gè)精美的“離線渲染器”,而非真正意義上可交互的“世界模型”。如何在保持高保真畫質(zhì)的同時(shí),將分鐘級(jí)的生成時(shí)間壓縮至秒級(jí)、毫秒級(jí),是一個(gè)難題。

不過(guò),在一篇《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》的論文中,團(tuán)隊(duì)也埋下了一個(gè)伏筆:隨著“上下文壓縮”技術(shù)的改進(jìn),視頻生成時(shí)間有望降低。

這一切也形成了一個(gè)非常有意思的“錯(cuò)位”:當(dāng)年第一個(gè)喊出“世界模擬器”口號(hào)的 Sora,如今反而越來(lái)越像個(gè)產(chǎn)品經(jīng)理,忙著搞 AI 視頻版的 TikTok,開發(fā) Cameo這種娛樂玩法,一門心思往應(yīng)用層鉆,而快手盡管攢了一系列的研究,但偏偏對(duì)外的產(chǎn)品公布里,就不提世界模型。

“技術(shù)向左,產(chǎn)品向右”的矛盾背后,是商業(yè)盤算。

在11月19日的Q3財(cái)報(bào)會(huì)上,程一笑提到,視頻模型與大語(yǔ)言模型本質(zhì)上均朝著世界模型方向演進(jìn),且視頻模型有望成為世界模型的核心技術(shù)支撐,但可靈現(xiàn)階段仍將“AI影視創(chuàng)作場(chǎng)景”作為核心目標(biāo)。

某種程度上,可靈的產(chǎn)品和模型是分離的。模型在水下,可靈平臺(tái)作為一個(gè)產(chǎn)品才是對(duì)外輸出的核心。據(jù)快手Q1的財(cái)報(bào)會(huì)披露,可靈AI營(yíng)業(yè)收入主要由P端付費(fèi)用戶(指專業(yè)的自媒體、視頻創(chuàng)作者和廣告營(yíng)銷從業(yè)者等)以及為企業(yè)客戶提供API服務(wù)構(gòu)成,而其中近70%由P端付費(fèi)用戶貢獻(xiàn)。

這群“金主”不在乎你是不是“世界模擬器”,也沒那么在乎實(shí)時(shí)性,他們只在乎能不能穩(wěn)定出片、能不能賺錢。因此可靈外宣稱自己是世界模型,似乎除了被挑剔,也沒有額外的增益。

但情況遲早要轉(zhuǎn)變。

單純作為“影視創(chuàng)作工具”的商業(yè)天花板是肉眼可見的,根據(jù)此前和11月19日披露的Q3數(shù)據(jù),可靈AI今年第一季度、第二季度、第三季度的收入分別超過(guò)1.5億元、2.5億元、3億元,全年預(yù)計(jì)收入1.4億美元,但增速逐漸放緩。

無(wú)論是谷歌 Veo3 被用于機(jī)器人領(lǐng)域,還是特斯拉利用生成式視頻訓(xùn)練自動(dòng)駕駛,亦或是游戲行業(yè)對(duì)AI引擎的渴求,具身智能、自動(dòng)駕駛、游戲引擎等領(lǐng)域,才是視頻生成模型真正的星辰大海,對(duì)模型的物理一致性和實(shí)時(shí)交互能力也提出了極高的要求。

所以,哪怕對(duì)于視頻生成模型來(lái)說(shuō),想要不再只是一個(gè)昂貴的玩具或是一個(gè)輔助的創(chuàng)作工具,做成“世界模型”是一件生死攸關(guān)的大事。因?yàn)橹挥心M真實(shí),才能挖動(dòng)和物理世界交互的金礦。

在今天的O系列之后,看起來(lái)我們可以期待快手接下來(lái)的“W”模型了。

參考資料:

[1]Owl-1: Omni World Model for Consistent Long Video Generation

[2]A Survey of Interactive Generative Video

[3]Simulating the Visual World with Artificial Intelligence: A Roadmap

[4]ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

[5]SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

[6]AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

[7]Monet: Reasoning in Latent Visual Space Beyond Images and Language

[8]PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning


點(diǎn)個(gè)愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
高市早苗支持率居高不下!高達(dá)75.9%,年輕人支持率突破92%

高市早苗支持率居高不下!高達(dá)75.9%,年輕人支持率突破92%

環(huán)球熱點(diǎn)快評(píng)
2025-12-24 14:13:34
一車企海報(bào)被指“用粵語(yǔ)不雅詞匯”引爭(zhēng)議,廣東網(wǎng)友:有被冒犯到,數(shù)字“7”因發(fā)音問題,在日常交流中需謹(jǐn)慎避諱;當(dāng)前爭(zhēng)議海報(bào)已被撤換

一車企海報(bào)被指“用粵語(yǔ)不雅詞匯”引爭(zhēng)議,廣東網(wǎng)友:有被冒犯到,數(shù)字“7”因發(fā)音問題,在日常交流中需謹(jǐn)慎避諱;當(dāng)前爭(zhēng)議海報(bào)已被撤換

揚(yáng)子晚報(bào)
2025-12-25 18:00:21
42歲男子被一次性植入6個(gè)支架后心臟驟停去世,鑒定認(rèn)為雙方同等責(zé)任

42歲男子被一次性植入6個(gè)支架后心臟驟停去世,鑒定認(rèn)為雙方同等責(zé)任

大風(fēng)新聞
2025-12-25 12:01:03
國(guó)防部:解放軍全時(shí)待戰(zhàn)、隨時(shí)能戰(zhàn)、戰(zhàn)之必勝

國(guó)防部:解放軍全時(shí)待戰(zhàn)、隨時(shí)能戰(zhàn)、戰(zhàn)之必勝

界面新聞
2025-12-25 15:58:25
重磅!字節(jié)跳動(dòng)的校招圖,把就業(yè)市場(chǎng)的遮羞布扯得粉碎…

重磅!字節(jié)跳動(dòng)的校招圖,把就業(yè)市場(chǎng)的遮羞布扯得粉碎…

慧翔百科
2025-12-25 09:05:26
“預(yù)制菜風(fēng)波”后賈國(guó)龍首發(fā)聲,稱回看當(dāng)初犯了三個(gè)錯(cuò)誤

“預(yù)制菜風(fēng)波”后賈國(guó)龍首發(fā)聲,稱回看當(dāng)初犯了三個(gè)錯(cuò)誤

揚(yáng)子晚報(bào)
2025-12-25 15:08:10
省委組織部公示:擬任4名市委書記!省會(huì)城市公安局長(zhǎng)擬任新職

省委組織部公示:擬任4名市委書記!省會(huì)城市公安局長(zhǎng)擬任新職

上觀新聞
2025-12-25 14:22:07
“堅(jiān)持計(jì)劃生育一百年不動(dòng)搖”的彭佩云去世,她父親的人生更傳奇

“堅(jiān)持計(jì)劃生育一百年不動(dòng)搖”的彭佩云去世,她父親的人生更傳奇

文史微鑒
2025-12-24 23:47:43
“99%純金咋掉色了?”南博鎮(zhèn)護(hù)之寶西漢金獸遭質(zhì)疑;原院長(zhǎng)姚遷:頸部留有銅銹綠斑痕跡

“99%純金咋掉色了?”南博鎮(zhèn)護(hù)之寶西漢金獸遭質(zhì)疑;原院長(zhǎng)姚遷:頸部留有銅銹綠斑痕跡

大風(fēng)新聞
2025-12-25 11:40:08
去年10月以來(lái)首次!離岸人民幣對(duì)美元收復(fù)“7”關(guān)口

去年10月以來(lái)首次!離岸人民幣對(duì)美元收復(fù)“7”關(guān)口

澎湃新聞
2025-12-25 10:44:26
徐湖平家掛兩幅“湖平如鏡”:一個(gè)是陳立夫?qū)懙?,一個(gè)是范增寫的

徐湖平家掛兩幅“湖平如鏡”:一個(gè)是陳立夫?qū)懙?,一個(gè)是范增寫的

漢史趣聞
2025-12-25 10:41:03
中國(guó)的鄭大世?18歲日本J聯(lián)賽后衛(wèi)選擇中國(guó)籍:國(guó)足可征召!

中國(guó)的鄭大世?18歲日本J聯(lián)賽后衛(wèi)選擇中國(guó)籍:國(guó)足可征召!

邱澤云
2025-12-25 16:19:54
南博事件劇終!80歲徐湖平結(jié)局注定,預(yù)估判刑時(shí)長(zhǎng),好日子到頭了

南博事件劇終!80歲徐湖平結(jié)局注定,預(yù)估判刑時(shí)長(zhǎng),好日子到頭了

娜烏和西卡
2025-12-25 11:06:28
亞洲周刊曝光徐鶯偽造身份11年,篡改民國(guó)收藏史,文博圈大佬站臺(tái)

亞洲周刊曝光徐鶯偽造身份11年,篡改民國(guó)收藏史,文博圈大佬站臺(tái)

阿纂看事
2025-12-25 13:38:27
今冬最冷時(shí)間表出爐,何時(shí)最冷?2026年春節(jié)冷不冷?早看早知道

今冬最冷時(shí)間表出爐,何時(shí)最冷?2026年春節(jié)冷不冷?早看早知道

好賢觀史記
2025-12-25 10:07:03
釘釘 “殺死” 釘釘

釘釘 “殺死” 釘釘

晚點(diǎn)LatePost
2025-12-23 19:42:21
迪拜品牌推出“Dabubu”盲盒,10個(gè)盲盒隱藏款有18K金鏈

迪拜品牌推出“Dabubu”盲盒,10個(gè)盲盒隱藏款有18K金鏈

半島晨報(bào)
2025-12-24 19:45:03
江門鶴山古勞麗水村在建橋施工點(diǎn)無(wú)防護(hù),廣州游客一家五口駕車墜西江全部遇難

江門鶴山古勞麗水村在建橋施工點(diǎn)無(wú)防護(hù),廣州游客一家五口駕車墜西江全部遇難

揚(yáng)子晚報(bào)
2025-12-25 15:25:15
2026 AI 商業(yè)中場(chǎng):從原生多模態(tài)到超級(jí)入口

2026 AI 商業(yè)中場(chǎng):從原生多模態(tài)到超級(jí)入口

晚點(diǎn)LatePost
2025-12-22 21:24:29
圣誕節(jié),就非得要過(guò)嗎?

圣誕節(jié),就非得要過(guò)嗎?

十柱
2025-12-25 10:16:04
2025-12-25 18:40:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來(lái)的基礎(chǔ),歡迎來(lái)到這個(gè)星球。
2741文章數(shù) 10422關(guān)注度
往期回顧 全部

科技要聞

屠龍少年被"招安"!英偉達(dá)平安夜豪擲200億

頭條要聞

河南學(xué)?;馂?zāi)班主任兼宿管被判刑 判決書披露量刑依據(jù)

頭條要聞

河南學(xué)?;馂?zāi)班主任兼宿管被判刑 判決書披露量刑依據(jù)

體育要聞

單賽季11冠,羽壇“安洗瑩時(shí)代”真的來(lái)了

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

時(shí)隔15月,人民幣升破7,三大推手曝光

汽車要聞

速來(lái)!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
健康
公開課
軍事航空

藝術(shù)要聞

緬懷 | 著名油畫家宮立龍逝世,享年73歲

今年冬天最火的搭配竟然是它?從現(xiàn)在美到明年

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基版“和平計(jì)劃”透露哪些信息

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版