国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

在技術(shù)的快速變遷中,抓住那些“不變”的東西|對話兩位AI創(chuàng)業(yè)者

0
分享至

編輯/文杰

導(dǎo)語

從Next Token到Next State。

當(dāng)生成式AI已經(jīng)能畫出以假亂真的圖像、寫出流暢的劇本、甚至生成連貫的視頻片段,下一個問題浮出水面:為什么我們還沒有看到一款真正屬于AI時代的互動娛樂產(chǎn)品?

技術(shù)要素似乎都已就位,但它們更像是散落一地的零件,尚未被組裝成一臺能跑起來的機(jī)器。整個行業(yè)更像是處在“盲人摸象”的階段,每個人都摸到了大象的一部分,但完整的圖景還沒有人真正看清。

最近405 游局請到的兩位嘉賓,恰好站在這頭大象的兩側(cè)。

戴勃,F(xiàn)eeling AI(云梧智能)創(chuàng)始人,香港大學(xué)助理教授。他從2014年讀博起就扎在生成式AI領(lǐng)域,博士就讀于香港中文大學(xué)MMLab,師從林達(dá)華教授,谷歌學(xué)術(shù)引用超過一萬次,近三年連續(xù)入選全球前2%頂尖科學(xué)家。他最廣為人知的工作是AnimateDiff——這個開源視頻生成模型一度席卷整個Stable Diffusion社區(qū)。2024年,他拒絕了多家大廠的邀約,選擇創(chuàng)辦Feeling AI,目標(biāo)是構(gòu)建世界模型的基礎(chǔ)設(shè)施,讓虛擬世界擁有:“活人感”。成立半年內(nèi),公司完成兩輪超億元融資。

胡修涵,捏Ta(看見概念)創(chuàng)始人。北大智能科學(xué)與經(jīng)濟(jì)學(xué)雙學(xué)位,哥倫比亞大學(xué)碩士,先后在Meta擔(dān)任短視頻技術(shù)架構(gòu)負(fù)責(zé)人、在阿里巴巴成為數(shù)據(jù)技術(shù)事業(yè)部最年輕的P8專家、在特贊從零搭建收入過億的產(chǎn)品線。2022年底,Stable Diffusion發(fā)布僅四個月,他就判斷“內(nèi)容的樂高變了”,隨即離職創(chuàng)業(yè)。捏Ta如今注冊用戶超1200萬,日均互動時長超110分鐘。2026年3月剛完成超千萬美元的Pre-A+輪融資。

兩人的淵源比商業(yè)敘事更早。他們是計算機(jī)競賽時期的老友,而將他們再次連接起來的,是AnimateDiff——戴勃做出這個模型后第一時間發(fā)給修涵看,修涵的反應(yīng)是“我一直想要這個東西”。此后一個扎進(jìn)世界模型的底層架構(gòu),一個在應(yīng)用層構(gòu)建AI原生的創(chuàng)作社區(qū),路線不同,但指向同一個終局。

這場對話圍繞幾個核心問題展開:當(dāng)內(nèi)容的基本單元從像素演進(jìn)到概念,創(chuàng)作和消費(fèi)的邊界會如何重新劃定?AI原生的應(yīng)用為什么必須是“主動的”和“實(shí)時的”,而不能是預(yù)生成再分發(fā)?世界模型到底該怎么理解——戴勃將其拆解為想法層、動態(tài)層和靜態(tài)層的三層架構(gòu),而修涵更關(guān)注它能否成為一個有內(nèi)生動力的持續(xù)系統(tǒng)。他們還深入討論了一個容易被忽視的區(qū)分:creation(專業(yè)創(chuàng)造)與recreation(大眾再創(chuàng)造/消遣式創(chuàng)作)。真正大眾化的UGC行為,本質(zhì)上更接近后者——對過程質(zhì)量要求高,對結(jié)果質(zhì)量要求不高,享受的是搭建本身的心流。

兩位創(chuàng)始人有一個共同的信念:最大的機(jī)會不是有人造出一個“綠洲”,而是有人提供造綠洲的積木。當(dāng)用戶能用概念而非代碼去搭建世界、定義規(guī)則、創(chuàng)造角色,互動娛樂的形態(tài)將不再受限于今天的想象力,而只受限于技術(shù)力何時跟上。

以下為 405 游局與戴勃和胡修涵的對話,游戲茶館經(jīng)授權(quán)整理文字版本,內(nèi)容有所編輯。

01

內(nèi)容的積木正在被重新定義

“以前內(nèi)容的積木是像素,未來的積木是概念。當(dāng)概念和提示詞直接綁定的時候,就是積木層面上最核心的變化?!?/strong>

筱寧:你們倆都偏技術(shù)背景,為什么這次創(chuàng)業(yè)都選了偏娛樂、偏內(nèi)容的方向?

修涵:我和戴勃一起搞過計算機(jī)競賽,畢業(yè)后一直做產(chǎn)品項(xiàng)目,在Facebook這樣產(chǎn)品文化優(yōu)先的公司里,做過很多設(shè)計AB testing、增長實(shí)驗(yàn)的事情,逐漸習(xí)慣從工程化和產(chǎn)品化的角度去思考技術(shù)創(chuàng)新帶來的影響。每一代AI技術(shù)變化,我的第一反應(yīng)都是怎么解決更確定的現(xiàn)實(shí)場景中的問題。

戴勃:我比較簡單。小時候我媽給我買了一臺小霸王學(xué)習(xí)機(jī),從此對互動內(nèi)容非常感興趣。讀博選方向時就想:能用自己做的技術(shù)去構(gòu)建互動內(nèi)容,會是讓我自己很滿意的狀態(tài)。眼看著技術(shù)逐漸成熟,就覺得不妨自己親手去做,因?yàn)橹挥凶隽瞬拍苷业酱鸢浮?/p>

筱寧:你們當(dāng)時決定創(chuàng)業(yè)是看到了什么樣的信號?

修涵:我一直關(guān)注的是內(nèi)容的原子性,怎么解構(gòu)和重構(gòu),也在思考模型如何影響創(chuàng)作者的協(xié)作方式。當(dāng)然,不是從底層原理的技術(shù)角度,而是從它怎么影響人的協(xié)作,怎么影響創(chuàng)作者去做內(nèi)容的工程角度。

2022年7月看到Stable Diffusion的時候,甚至不需要等到大語言模型出現(xiàn),我就清晰地認(rèn)識到內(nèi)容的樂高已經(jīng)變了過去可能是一幀圖、一個圖層,甚至精確到像素;而未來的“積木”很可能是概念——某種視覺層面的概念。這是積木層面的核心變遷。我們在這個過程中做了大量探索,也經(jīng)歷了 LoRA 等各種 building blocks 不斷演變的階段。

我覺得最近像 Nano Banana 和 Seedance 2.0 這類突破,已經(jīng)在逐步逼近“用概念就能構(gòu)建一個世界”的狀態(tài)。這是一個循序漸進(jìn)的理解過程。

筱寧:我們上次聊過,有些東西從頭到尾沒變,比如你最初對這件事的定義就是“GitHub + IP”。

修涵:我們思考內(nèi)容原子的變化,歷史上大概有三到四代:第一代以純像素為核心;第二代出現(xiàn)了模板、圖層、3D模型;第三代是Figma那一代的組件化;第四代就是現(xiàn)在以概念為核心的原子結(jié)構(gòu)。每一代都誕生了偉大的產(chǎn)品:第一、二代Photoshop,第三代Figma,第四代可能就在當(dāng)下。

越往深處看,這些積木越來越像代碼。而代碼的天然屬性決定了它可以實(shí)現(xiàn)GitHub式的協(xié)作。以前共創(chuàng)型的行為只有Wikipedia這種文字層面的協(xié)作,當(dāng)它跨越到視覺層面,就出現(xiàn)了核心模式變化的機(jī)會。其中被最多復(fù)用的積木就是IP的要素。

戴勃:我2014年讀博開始關(guān)注生成式AI,一路看著它走過來。2022年看到Stable Diffusion的成熟度之后,覺得技術(shù)到了一個臨界點(diǎn)。

2023年我們做了一個視頻生成的工作叫AnimateDiff,做出來后我第一時間發(fā)給修涵看,他直接跟我說“一直想要這個東西”。我們開源出去后,大概兩三個月整個Stable Diffusion社區(qū)都被吸引了。Reddit上至今還有專門的分區(qū),甚至現(xiàn)在有了Seedance,還是有人在用AnimateDiff做各種內(nèi)容。

這給我的啟發(fā)是:我好像也能掌握這種成熟的技術(shù)了。一開始我們傾向于通過合作的方式推進(jìn)——我做技術(shù),開源或合作。但23年下半年嘗試之后,整體感覺不夠快。AnimateDiff五月做完,七月發(fā)給修涵看,但真正產(chǎn)生熱度是在十月份,已經(jīng)過了三個月。你不親自做的話,進(jìn)展會很慢。

站在那個節(jié)點(diǎn)你會開始反問自己:這是運(yùn)氣,是偶然還是必然?最好的方式就是直接去面對需求,這樣才知道技術(shù)該往哪里加速迭代。所以我們決定自己下場,把AI的基建做好。我們相信從這種基建能誕生更原生的應(yīng)用,而這需要用戶在過程中一起進(jìn)化想法。

02

AI原生應(yīng)用的特點(diǎn):

主動、實(shí)時、在生成中消費(fèi)

“如果完全是預(yù)生成之后再分發(fā)的模式,我對它打敗抖音都沒什么信心。所以我非常支持‘在生成中消費(fèi)’?!?/strong>

筱寧:你們都說在做一種“新的東西”,具象一點(diǎn)說,從體驗(yàn)層面你們期待的遠(yuǎn)方是什么樣的?

戴勃:我說不出具體形態(tài),但可以說出它應(yīng)該具備的特點(diǎn)。生成式AI最大的特點(diǎn)是它的不確定性——在可控范圍內(nèi)的不確定性?!癆I”這個詞1956年誕生時就定義了它應(yīng)該具備creativity:能不能進(jìn)行educated guess?你有control,你是educated,但又有不確定性。

這種不確定性意味著AI原生的應(yīng)用一定要在推理時發(fā)生。不應(yīng)該是離線產(chǎn)生內(nèi)容然后你去消費(fèi),而是在實(shí)時交互的過程中,模型配合人進(jìn)行推理、產(chǎn)生內(nèi)容。

第二個特點(diǎn)是從被動式變成主動式。不是等你來操作,而是它會主動給你反饋和刺激。所以新應(yīng)用最大的兩個特點(diǎn)就是:主動無限實(shí)時

修涵:從商業(yè)和需求的角度也推導(dǎo)到了類似方向。用戶在社區(qū)里看到別人的內(nèi)容更像是一個廣告片,他真正消費(fèi)的過程是他自己在生成的那一刻。

往遠(yuǎn)期推:長期的終極形態(tài),某種意義上就是人類的共同幻想——虛擬空間,或者西部世界式的體驗(yàn)。但它會有一些傳統(tǒng)內(nèi)容難以覆蓋的角度,因此IP的作用會更強(qiáng),因?yàn)槊恳淮蝺?nèi)容都不固定,你需要一些不變的東西來幫助認(rèn)知,一個系統(tǒng)如果全都在變,等于沒法用。覆蓋的長尾屬性會更強(qiáng)、個人屬性會更強(qiáng),因?yàn)橥ㄓ玫母哔|(zhì)量已經(jīng)被解決得很好了,接下來的問題是“不通用的高質(zhì)量”如何產(chǎn)出。供需關(guān)系會導(dǎo)致經(jīng)濟(jì)利益分配也往這個方向移動,通用的高質(zhì)量會貶值。

現(xiàn)在已經(jīng)能看到這種趨勢——很多平臺上AI生成的漂亮小姐姐跳舞視頻,雖然還有流量價值,但要帶貨已經(jīng)非常困難。這就是升值和貶值正在發(fā)生的過程。

筱寧:你們反復(fù)提到IP這個詞。在AI時代,IP應(yīng)該怎么理解?

修涵:AI時代的IP可能不是我們現(xiàn)在理解的商業(yè)意義上的IP。知識產(chǎn)權(quán)這個概念本身是隨著印刷業(yè)誕生的,本質(zhì)上是印刷業(yè)技術(shù)推演出來的制度。AI在一定程度上完全打破了“單件內(nèi)容生產(chǎn)需要付出人類勞動”這個基礎(chǔ)假設(shè)。

我比較相信的本質(zhì)是:IP就是對某類內(nèi)容的共識。不管它是一個形象的共識,還是某個故事環(huán)境的共識,大家對這個東西有一個共同的認(rèn)知。有時候表現(xiàn)為MEME,有時候表現(xiàn)為某種梗。這些本質(zhì)上就是大家反復(fù)使用的“復(fù)讀機(jī)”,長期來看都是某種意義上的IP。

03

Creation與Recreation,

UGC的真實(shí)邏輯與應(yīng)用層的機(jī)會

“要拆分清楚creation和recreation的區(qū)別。Recreation——消遣——是非常廣泛的UGC行為,對過程質(zhì)量要求很高,對結(jié)果質(zhì)量要求不高?!?/strong>

筱寧:我們這一代人被PGC內(nèi)容服務(wù)得非常好。那我們真的有那么多UGC需求嗎?如果消費(fèi)本質(zhì)依賴用戶自己參與生成過程,是不是拔高了對人的要求?

戴勃:回到修涵說的,真正的消費(fèi)過程發(fā)生在創(chuàng)作過程中,產(chǎn)出的內(nèi)容更像一個trailer。這個空間仍然存在,因?yàn)槊總€人都有表達(dá)的欲望。抖音通過相機(jī)記錄生活瞬間,就提供了UGC的途徑。

第二個問題,creativity有兩方面:有沒有動機(jī),有沒有能力。生成式AI提供了能力。而為什么我強(qiáng)調(diào)應(yīng)用應(yīng)該是主動式的?就是為了解決動機(jī)問題。你會有靈感,但創(chuàng)作的過程不易,比如很多作家會說創(chuàng)作其實(shí)很痛苦。互動式的創(chuàng)作模式讓你從小的靈感開始,慢慢保持熱度。生成式AI恰恰能回答這個悖論。

修涵:從另一個角度補(bǔ)充。這個播客的聽眾可能更多從游戲視角看問題,我們不否認(rèn)游戲行業(yè)整體主導(dǎo)的是PGC。但如果從廣義的娛樂型游玩體驗(yàn)來看,UGC無處不在。

服務(wù)型體驗(yàn)的特點(diǎn)是創(chuàng)作者要非常盡心盡力地為受眾做設(shè)計,要求很高,所以必然收束在一小群人中。但很多UGC本質(zhì)上是悅己的,帶有社交性,本質(zhì)是表達(dá)自我。從抖音的濾鏡玩法,到線下織毛衣、做拼豆、搭樂高,都是先享受那個心流過程,然后幻想自己能做出很好的東西去展示。炫耀是派生的,但有這個幻想空間很重要。

沒聽說過誰去搞攝影是不希望自己拍出來的東西好的。但買了設(shè)備自娛自樂的人里,全部分享出來的可能也很少,但它依然構(gòu)成了一種很強(qiáng)的娛樂行為。

Recreation——初期不以純粹表達(dá)目的為核心的行為——對過程質(zhì)量要求很高,對結(jié)果質(zhì)量要求不高。有一個小圈子持續(xù)捧你,就很開心了。這符合長尾效應(yīng)的內(nèi)容價值。而且內(nèi)容不存在絕對的UGC和絕對的PGC。你用一個抖音模板做完一個東西,模板很可能是PGC的,但最后的內(nèi)容是你的表達(dá)和模板共同構(gòu)成的——誰的貢獻(xiàn)更大,有時候拆不清楚。AI其實(shí)提供了一個通用的高質(zhì)量基線保證。

在此基礎(chǔ)上,任何娛樂方式長期都會有四個關(guān)鍵要件:第一,角色——你自己的代表、你的POV;第二,環(huán)境和世界;第三,規(guī)則——對應(yīng)衍生的玩法規(guī)則;第四,交互方式。

大家現(xiàn)在總想找到一種不變的交互方式來做穩(wěn)定的平臺推演,但這個點(diǎn)被Vibe Coding很大地挑戰(zhàn)了。不太容易變的是世界和規(guī)則。角色最先容易成立,但用完丟的可能性也大;環(huán)境和規(guī)則比較容易持續(xù)存在,可以打造一系列的動力系統(tǒng)。

這些東西可以做“Creative Harness”——怎么讓AI變成一匹可以被馴服的烈馬?它不被關(guān)在籠子里,仍然有驚喜,但又被你拴著往一個方向奔馳,給大家?guī)順啡ぁ?/p>

筱寧:如果視覺一致性攻克了,什么會被改寫?

戴勃:關(guān)鍵是實(shí)時推理能力。在長時間推理穩(wěn)定性的基礎(chǔ)上,把單次推理的延時降到實(shí)時,你就不再是在用一個工具,而是在一個完整的世界模型里和agent一起交互。某種意義上就像是《頭號玩家》里的綠洲。

筱寧:應(yīng)用層的最大機(jī)會在哪?頭號玩家里的綠洲也是有人造了一個綠洲嘛。

戴勃:最大的不是有個人造了綠洲,而是有人提供了造綠洲的積木。最終的綠洲是由一個個星球組成的,而每個星球是用戶自己創(chuàng)造的。因?yàn)橛辛朔e木的能力,他可以構(gòu)建不同的世界觀和規(guī)則。像修涵說的,樂趣來自于構(gòu)建的過程。構(gòu)建完成之后——甚至不用完成——就可以有無數(shù)人過來接著參與、共同構(gòu)建。出發(fā)點(diǎn)是有個人提供了空間和積木,讓你去搭。

修涵:我補(bǔ)充一點(diǎn),為什么長期來看這個需求存在?人對環(huán)境的感受和體驗(yàn),本質(zhì)上也是在給自己的腦子建設(shè)對世界的理解。你無法真實(shí)理解從未親身經(jīng)歷過的東西。所以本質(zhì)上是提供多重的人生。

人的需求無非就是延長壽命、增加體驗(yàn)時間、在單位時間內(nèi)增加更多體驗(yàn)——通過提供更多人生體驗(yàn)的基建方式,本身就是最大的機(jī)會。這些體驗(yàn)沒辦法完全通過別人來給你構(gòu)建好再提供給你——那在一定程度上是偽命題。

戴勃:很多時候人在現(xiàn)實(shí)世界里被束縛的就是“我要做選擇,只能選其中一條路”。世界模型就應(yīng)該能創(chuàng)造這種可能性。它本質(zhì)上和游戲是同一件事——“游”就是到處走走,“戲”就是這里碰一下那里碰一下去做交互。之前的游戲有一些部分是因?yàn)榧夹g(shù)力的限制變成了當(dāng)下的形態(tài),但這不是人的想象力的限制,而是技術(shù)力的限制。這一步應(yīng)該被解放。

修涵:我稍微反向debate一下。“游戲是一個有約束的藝術(shù)”——從傳統(tǒng)有限游戲的角度,這非常成立,也是我特別尊重游戲行業(yè)的核心原因。我們很少說“用戶能直接做出游戲來”,因?yàn)槲覍ΚM義游戲的定義是非常尊重的。它是一種體驗(yàn)策劃——就像人一輩子可能只經(jīng)歷一次的婚禮,它能形成現(xiàn)在的規(guī)范和要求是很精妙的,不是隨手拍個腦袋給你一個體驗(yàn)就行了。

但體驗(yàn)單元是可以被拆解和工程化的。比如現(xiàn)在很多開放世界游戲,大家會說像個“縫合怪”,里面有很多玩法,甚至巴不得把看電影的體驗(yàn)也縫進(jìn)去。這就是一種以環(huán)境和世界為驅(qū)動、在里面縫很多種玩法的趨勢。

但從把AI發(fā)揮好的角度來說,應(yīng)該從小往上長,而不是從專業(yè)體驗(yàn)往下拆小。因?yàn)閺膶I(yè)體驗(yàn)往下拆會限制AI的發(fā)揮。我時常說“從游戲的視角來看,資產(chǎn)不重總讓人覺得沒法尊重”。這個視角會導(dǎo)致從游戲往UGC拆的時候總有一種說不清的味道。

所以我們在想的是:從AI原生視角出發(fā),它最好被構(gòu)造的小模塊是什么?不好被構(gòu)造的部分先讓人來做。UGC的真實(shí)解法,很多還是從更原生的、從小往上長的邏輯中長出來的。

04

世界模型,

從盲人摸象到三層架構(gòu)

“世界模型應(yīng)該有一種活人感?;钊烁芯褪撬鼤印!?/strong>

筱寧:如果我們想要實(shí)時性、推理能力、可控的創(chuàng)造性,今天距離實(shí)現(xiàn)差距在哪里?

修涵:要素的實(shí)現(xiàn)已經(jīng)有了,只是沒有被很好地整體解壓縮出來,給大家?guī)砗芎玫捏w驗(yàn)。并不是說你現(xiàn)在不能開始建角色、建面向AI的世界、建將來可以玩的規(guī)則——比如酒館類產(chǎn)品,就是在一定程度上建玩法規(guī)則為主;我們可能更多從角色到世界的角度去關(guān)注環(huán)境和視覺共識要素。只是如果模型的實(shí)時性、持續(xù)能力這些問題都很卡、成本很高,那建好的規(guī)則最終能覆蓋的體驗(yàn)變革還是有限的。

戴勃:現(xiàn)在的狀態(tài)給我的感覺是既很近又很遠(yuǎn)。要素都具備了,但是一種大水漫灌式的具備——每個方向都有涉及,意味著你可以開始進(jìn)行要素的組合。修涵說的沉淀世界觀和規(guī)則,這些沉淀不會因?yàn)榧夹g(shù)的進(jìn)化而從頭再來。

但技術(shù)在深度、廣度和維度三個方面都有所欠缺。深度——比如酒館場景,劇情復(fù)雜度或演繹長度拉長后就開始出問題。廣度——各種類型中始終有擅長和不擅長的區(qū)分。維度——文字式的、語言為主的,要素更齊全;但更視覺化、更立體的世界模型方向還很缺乏。

總體來說,大家可以拿這種“不是零”的狀態(tài)去組合,但真的要往終局走,起碼從技術(shù)上還是要靜下心來思考技術(shù)審美,然后以比較快的速度持續(xù)推進(jìn)。

筱寧:你們是怎么理解“世界模型”這個概念的?

戴勃:現(xiàn)在講世界模型的人很多,用一個成語來形容最合適:盲人摸象。不同的人因?yàn)椴煌膽?yīng)用場景和背景,摸到了大象的不同部分。

我自己的理解很簡單:它就是一個類似于元宇宙的游戲,現(xiàn)實(shí)世界有的元素它都應(yīng)該具備,我們把它拆成三層。

第一層:邏輯/想法層——每個動態(tài)實(shí)體的想法:我為什么要進(jìn)行這些活動?

第二層:動態(tài)層——我有了想法之后,怎么把想法執(zhí)行出來。

第三層:靜態(tài)/表現(xiàn)層——把動態(tài)的行動裝載到一個環(huán)境里呈現(xiàn)出來。不管這個環(huán)境是傳統(tǒng)游戲引擎構(gòu)建的3D環(huán)境,還是AI構(gòu)建的3D環(huán)境——比如李飛飛老師的World Lab,還是以谷歌Genie 3為代表的視頻類環(huán)境。

不同的人根據(jù)場景,可能不需要把三層都做好。但一個真正的世界模型,就是你能不能把現(xiàn)實(shí)一一對應(yīng),它是活著的,動態(tài)實(shí)體都有自己的想法和規(guī)劃。

修涵:我希望它至少是一個持續(xù)的、有自己內(nèi)生動力的系統(tǒng)?,F(xiàn)在的問題是,你一個角色去到多個場景,中間是斷層的;或者它不主動,你不推就不動。而人的現(xiàn)實(shí)世界和線下體驗(yàn),很多都是靠世界環(huán)境本身幫你實(shí)現(xiàn)目的。只要能解決持續(xù)性和主動性的問題,我們之前對優(yōu)質(zhì)內(nèi)容的很多假設(shè)其實(shí)都可以改。

筱寧:視覺模型訓(xùn)練上,是不是面臨和語言模型很不一樣的挑戰(zhàn)?

戴勃:語言模型的范式是next token prediction,世界模型強(qiáng)調(diào)的是next state prediction。其實(shí)語言模型也可以在語言domain里實(shí)現(xiàn)世界模型——你用文字維護(hù)世界的state。這也是為什么代碼能力很重要:它提供了一種恒定、穩(wěn)定、一致的方式來檢查模型的思考過程和邏輯準(zhǔn)確性。如果是純自然語言描述,你會陷入“它到底是真不懂,還是沒說清楚”的困境。

視覺內(nèi)容還需要一致性——但不是邏輯的一致性,而是符合物理直覺的一致性。我想強(qiáng)調(diào):從應(yīng)用角度,我們要的不是“物理一致性”,而是“物理直覺一致性”。人不會去計算視覺內(nèi)容背后的物理規(guī)律是否一致,只要不違和,我們就覺得它符合物理直覺。

筱寧:對做互動娛樂來說,視覺這塊需要攻克的難點(diǎn)在哪?

戴勃:傳統(tǒng)的方式是用游戲引擎構(gòu)建世界內(nèi)容。游戲引擎嵌入物理規(guī)律的方式比較“硬核”——傳統(tǒng)仿真學(xué),把公式真的寫在里面進(jìn)行計算。而神經(jīng)網(wǎng)絡(luò)只告訴它輸入和輸出,中間怎么從輸入到輸出完全是自己學(xué)的,沒有任何規(guī)律或公式的guidance,非常“軟”。但這樣帶來的問題是它會走捷徑,你無法判斷它總結(jié)的規(guī)律跟你想要的規(guī)律是否一致。

所以現(xiàn)在需要攻克的問題就是:如何把兩者的優(yōu)勢融合?既有“軟”的靈活性,又有“硬”的保證。只有這樣才能實(shí)現(xiàn)長時間視覺內(nèi)容上的一致性。

從視覺內(nèi)容的結(jié)構(gòu)上來說,模型應(yīng)該知道自己在表達(dá)什么。不是“這個像素現(xiàn)在是什么顏色、下一刻應(yīng)該連續(xù)變化”,而是知道“這個像素屬于一個人的手,下一刻是整個手在變化,然后投影到像素上應(yīng)該怎么變化”。有了這種更符合現(xiàn)實(shí)結(jié)構(gòu)的認(rèn)知,就能從根本上解決幻覺問題,幻覺本質(zhì)上來自于模型不知道自己生成的像素是什么意思。

筱寧:你們最近開源的模型著重解決記憶和規(guī)劃,為什么?

戴勃:我們是三層同步演進(jìn)的——想法層、動態(tài)層和靜態(tài)層。甚至中間的動態(tài)層,我們在構(gòu)建動力學(xué)世界模型,剛好完成了模型架構(gòu)的創(chuàng)新。打個比方——就好像Transformer架構(gòu)已經(jīng)確定了,剩下的就是從GPT-1到GPT-2到GPT-3的過程。

三層同步演進(jìn),每層有自己的技術(shù)成熟度和節(jié)奏。想法層因?yàn)橹悄荏w相關(guān)技術(shù)發(fā)展快、成熟好,節(jié)奏就快一些。動態(tài)層我們覺得非常重要,又是大家目前忽略的部分,它掩蓋在具身智能的浪潮里,但對互動娛樂同樣關(guān)鍵。

筱寧:“動力學(xué)世界模型”怎么理解?

戴勃:動態(tài)作為世界狀態(tài)的一部分需要遵循物理規(guī)律。人在現(xiàn)實(shí)中總結(jié)出來的動態(tài)物理規(guī)律統(tǒng)稱為動力學(xué):人的運(yùn)動學(xué)、衣服的動力學(xué)、流體動力學(xué)、空氣動力學(xué)等等。我們做的就是把動力學(xué)的物理先驗(yàn)嵌入到Transformer架構(gòu)上,使得next state prediction能非常穩(wěn)定。

筱寧:為什么動態(tài)層在交互娛樂場景里特別重要?

戴勃:一個靜態(tài)的環(huán)境談不上交互。沒有動態(tài)的空間、動態(tài)的載體,就談不上主動和交互。靜態(tài)的東西你只能單方面參與,它沒有反饋。只有動態(tài)才會給你反饋,你才會在反饋中產(chǎn)生新的可能性,不斷生長出更龐大的體驗(yàn)和內(nèi)容。

白話來講:世界模型應(yīng)該有一種活人感。活人感就是它會動,一動不動還挺嚇人的。

筱寧:視頻天然就是動的。你特別把動態(tài)拿出來強(qiáng)調(diào),想說的是什么?

戴勃:視頻確實(shí)是動的,但像素上的連續(xù)不代表背后的規(guī)律是一致的——所以才會出現(xiàn)錯誤累積和幻覺。要么用更多數(shù)據(jù)逼模型自己學(xué)會一套統(tǒng)一的物理規(guī)律,要么把人在現(xiàn)實(shí)中積累的物理規(guī)律當(dāng)先驗(yàn)嵌到模型里。兩種都可以。

另外,視頻生成是把靜態(tài)環(huán)境的表現(xiàn)和動態(tài)用一個模型放在一起建模了。我認(rèn)為應(yīng)該分開。一個直觀的例子:我們坐在房間里,我揮了一下手,從合理的角度,只有人相關(guān)的狀態(tài)進(jìn)行了更新,環(huán)境不應(yīng)該跟著我一起刷新。就像游戲里角色往前走一步,整個環(huán)境重新生成一遍,這不合理。

05

高估與低估,

創(chuàng)業(yè)者如何穿越技術(shù)周期

“慢的時候公司其實(shí)挺難死的,快的時候公司很容易死。很多人有錯覺,覺得快的時候機(jī)會來了。”

筱寧:你們怎么區(qū)分一件事到底只是技術(shù)看起來很強(qiáng),還是真的能長出新東西?

戴勃:我們會從客觀的定性原理上去分析一個技術(shù)——拋開名詞,看它突破的那個點(diǎn)到底是什么。

什么容易被高估?一是迭代速度,二是人的適應(yīng)能力。人很難想象自己沒經(jīng)歷過的事情。即使是做這些技術(shù)的人也有局限——AnimateDiff做出來后,最后能用它做出很好內(nèi)容的人不一定是我們自己。所以我一直比較克制,不太想去定義世界模型原生的應(yīng)用到底是什么。

修涵:從技術(shù)視角容易高估應(yīng)用落地的速度,低估用戶心智的變化成本。過去幾年最容易犯的錯誤是過于追求終局。底層成立條件如果不存在,就是過去“純產(chǎn)品經(jīng)理視角做AI產(chǎn)品”比較困難的核心原因——結(jié)果要么體驗(yàn)不可持續(xù),新鮮勁一過就完了;要么單點(diǎn)的東西不夠驚喜。這兩層一直在對抗。

筱寧:AI底層技術(shù)的發(fā)展速率一直在變——23年上半年很快,24年相對靜態(tài),最近半年又特別快。你更喜歡哪種時候?

修涵:都各有挑戰(zhàn)。核心問題是:慢的時候思考公司在積累什么,快的時候知道那些積累怎么立刻和快速變化發(fā)生關(guān)系,這樣快的時候才不會慌亂。

另一個悖論是:慢的時候公司其實(shí)挺難死的,快的時候公司很容易死。很多人有錯覺,覺得快的時候機(jī)會來了。

筱寧:如果面對一個爆炸性的新技術(shù),你們的第一反應(yīng)是什么?

戴勃:第一時間溯源:它從哪演化來的,有什么不同,為什么引起轟動。在我的視野范圍內(nèi),不太會有從天而降的新技術(shù)的感覺。重要的是兩層:第一,拋開噪聲,了解變化的實(shí)質(zhì);第二,反?。簽槭裁床皇俏易龀鲞@個變化的?長此以往才能變成引領(lǐng)者。

修涵:我們的第一反應(yīng)是趕緊實(shí)驗(yàn),看到底是什么水平,現(xiàn)在論文的cherry pick太多了。越過判斷之后,關(guān)注的是它是否改變用戶主鏈路的體驗(yàn)。很多技術(shù)是錦上添花,主鏈路上能影響的事情不會那么多。一個核心標(biāo)準(zhǔn):用戶愿不愿意回來再多消耗token。如果對用戶核心loop有更大的提升和變化,那它就是一個非常需要把握住的變化。

筱寧:你們最近聊得挺多的,聊最多的話題是什么?

戴勃:一個是技術(shù)進(jìn)展還是太慢了。

尤其是視覺內(nèi)容這一塊。雖然視頻生成模型進(jìn)展得很好,但在關(guān)鍵維度上還是太慢了——它并不是完全為互動娛樂方向在推進(jìn),有其他牽引力量。第二個就是探討:哪些技術(shù)是熱鬧,哪些是真東西。我們更多是希望,既然技術(shù)正在盲人摸象的階段,而我們在應(yīng)用場景上有一些共同的vision。

筱寧:在這種環(huán)境里做應(yīng)用方向的創(chuàng)業(yè),對創(chuàng)始人最重要的能力是什么?

修涵:從自身角度出發(fā),我覺得我們靠韌性做事。我總覺得不同的方式都能做出階段性成果,有些人沖浪,有些人爬山。更關(guān)鍵的是對自己的認(rèn)知要清楚,了解自己、了解團(tuán)隊,不要強(qiáng)迫干自己不適合干的事。如果提出過高的預(yù)期,團(tuán)隊就很難發(fā)揮出最強(qiáng)長項(xiàng),做出超出其他人水平的成果。

戴勃:拋開EGO,客觀看待技術(shù)演進(jìn),從第一性原理出發(fā)推演終局的架構(gòu)和元素,然后結(jié)合團(tuán)隊的擅長,選一條梯度下降最快的方向往前走。尤其要避免做技術(shù)帶來的EGO。

筱寧:未來兩到三年,你們最想達(dá)成什么?

修涵:我們在逐漸構(gòu)造“共同搭世界”的工作體系,人和agent協(xié)作參與。接下來兩三年最核心的問題是:能否出現(xiàn)質(zhì)量上真正足夠高的體驗(yàn)——在消費(fèi)屬性上能和其他消費(fèi)類型公平競爭的體驗(yàn)?只要出現(xiàn)頭幾個這樣的模式,它的系統(tǒng)性效率就能做到更好,之后就很難剎住車了。

所以我們本質(zhì)上在解決冷啟動的機(jī)制——定義的問題,或者說協(xié)議的問題。接下來可能圍繞海外做更多實(shí)驗(yàn),最終的爆發(fā)力會體現(xiàn)在這些組合之后帶來的涌現(xiàn)結(jié)果上。

筱寧:最近一年,商業(yè)化會是壓力和挑戰(zhàn)嗎?

修涵:既有好消息也有壞消息。好消息是:互動型玩法的付費(fèi)意愿和付費(fèi)率在全球范圍內(nèi)都比預(yù)估的更好。壞消息是:token的成本和新模型的價格并沒有變便宜,成本壓力會持續(xù)存在。所以我現(xiàn)在傾向于盡可能用最好的能力上限,但不要把自己玩死。收入會隨過程自然增長,可能比大家想的更自然。

戴勃:兩三年內(nèi)我們會持續(xù)按照三層結(jié)構(gòu)構(gòu)建世界模型基模,在此基礎(chǔ)上探討原生應(yīng)用——整個技術(shù)版圖想得挺清楚的。我們也會很關(guān)注agentic AI的發(fā)展——它一方面是世界模型想法層的組成部分,同時也是一種生產(chǎn)力。如果它真的能提升效率,很多事情的時間會來得更早??赡軆赡曛髸悬c(diǎn)久,AI領(lǐng)域的兩年非常非常久。

筱寧:你們是要自己做應(yīng)用的,不會滿足于只做模型?

戴勃:一定要把自己的認(rèn)知在應(yīng)用層打磨。遠(yuǎn)離應(yīng)用場景會讓技術(shù)迭代偏離;而且我們講的是像語言模型承載ChatGPT那樣、世界模型承載的原生應(yīng)用——從模型到應(yīng)用之間距離不會那么大。

筱寧:這個應(yīng)用形態(tài)會是工具還是內(nèi)容?

戴勃:肯定不是工具,是一種互動娛樂的應(yīng)用,也不是傳統(tǒng)意義的內(nèi)容——用戶一進(jìn)來就同時在做內(nèi)容消費(fèi)和內(nèi)容創(chuàng)作。

筱寧:可以理解為是一個平臺嗎?

戴勃:我覺得是平臺,但現(xiàn)在會比較謹(jǐn)慎地去描述它。就像ChatGPT——當(dāng)模型成熟之后,它很快變成一種共識。所以我現(xiàn)在不太想用現(xiàn)有的詞匯去定義它。


? “發(fā)送“社群”加入游戲茶館行業(yè)交流群”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陳忠和:69歲不顯老,與女兒來往不多,他為大齡兒子的婚事操心

陳忠和:69歲不顯老,與女兒來往不多,他為大齡兒子的婚事操心

細(xì)品名人
2026-04-18 07:21:48
陳濤一把好牌打稀爛!姜至鵬疑對老實(shí)隊長口吐蓮花 球迷:對口型

陳濤一把好牌打稀爛!姜至鵬疑對老實(shí)隊長口吐蓮花 球迷:對口型

刀鋒體育
2026-04-18 10:41:59
北影節(jié)紅毯:高圓圓美的驚心動魄,被周冬雨嚇了一跳,高葉太敢穿

北影節(jié)紅毯:高圓圓美的驚心動魄,被周冬雨嚇了一跳,高葉太敢穿

糊咖娛樂
2026-04-17 11:24:40
大面積閉店!深圳“奶茶一姐”為何輸給了河南草根兄弟?

大面積閉店!深圳“奶茶一姐”為何輸給了河南草根兄弟?

帥真商業(yè)
2026-04-15 18:58:55
中國敢不敢登船查美國運(yùn)往臺灣的軍火,美國在賭中國不敢。

中國敢不敢登船查美國運(yùn)往臺灣的軍火,美國在賭中國不敢。

安安說
2026-04-18 11:11:26
小仙女要“打拳”,她直接把全身涂黑:你們的拳,打空了

小仙女要“打拳”,她直接把全身涂黑:你們的拳,打空了

紅色少女主播
2026-04-17 23:17:45
維特根斯坦的顛覆性啟示:為何很多人無法洞察本質(zhì)?

維特根斯坦的顛覆性啟示:為何很多人無法洞察本質(zhì)?

高天SEKH
2026-04-17 11:19:17
騎士官宣關(guān)鍵球員將缺席對陣猛龍的比賽,哈登公開發(fā)聲

騎士官宣關(guān)鍵球員將缺席對陣猛龍的比賽,哈登公開發(fā)聲

海闊山遙YAO
2026-04-18 09:35:47
吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

吃相太難看!莫氏雞煲爆火后,惡心一幕出現(xiàn),終走上呆呆妹的老路

以茶帶書
2026-04-15 17:30:12
發(fā)現(xiàn)一個殘酷真相:被美軍抓走的馬杜羅,已經(jīng)被徹底遺忘了?

發(fā)現(xiàn)一個殘酷真相:被美軍抓走的馬杜羅,已經(jīng)被徹底遺忘了?

小樾說歷史
2026-04-17 11:52:02
入住成都凱悅嘉軒酒店屋里藏了只蝙蝠 旅客手臂現(xiàn)傷口連打11針疫苗 醫(yī)生:屬狂犬病三級暴露

入住成都凱悅嘉軒酒店屋里藏了只蝙蝠 旅客手臂現(xiàn)傷口連打11針疫苗 醫(yī)生:屬狂犬病三級暴露

信網(wǎng)
2026-04-17 18:11:18
3-0大冷門,中超倒數(shù)第一碾壓中超第3,52歲于根偉率隊迎首勝

3-0大冷門,中超倒數(shù)第一碾壓中超第3,52歲于根偉率隊迎首勝

側(cè)身凌空斬
2026-04-17 21:57:54
賴清德親自下令叫停,“陸委會”改口堵死恢復(fù)兩岸直航的口子!

賴清德親自下令叫停,“陸委會”改口堵死恢復(fù)兩岸直航的口子!

荊楚寰宇文樞
2026-04-17 22:57:42
干得漂亮!巴基斯坦戰(zhàn)機(jī)硬核巡航德黑蘭,以絕對武力威懾以色列!

干得漂亮!巴基斯坦戰(zhàn)機(jī)硬核巡航德黑蘭,以絕對武力威懾以色列!

慕名而來只為你
2026-04-18 11:11:09
炸鍋!人民幣歷史性逆襲!原油結(jié)算占 41%,超越歐元打破美元霸權(quán)

炸鍋!人民幣歷史性逆襲!原油結(jié)算占 41%,超越歐元打破美元霸權(quán)

混沌錄
2026-04-17 13:22:05
看上去像“公務(wù)員”,其實(shí)連編制都沒有的6個職業(yè)

看上去像“公務(wù)員”,其實(shí)連編制都沒有的6個職業(yè)

細(xì)說職場
2026-04-12 17:02:40
陪玩陪睡已過時!繼關(guān)曉彤事件、注射不明物后,娛樂圈再曝潛規(guī)則

陪玩陪睡已過時!繼關(guān)曉彤事件、注射不明物后,娛樂圈再曝潛規(guī)則

叨嘮
2026-04-17 21:04:39
我國肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

我國肝癌高發(fā),茶葉是背后的禍因?醫(yī)生勸告:3種茶才是幫兇

岐黃傳人孫大夫
2026-04-12 06:30:03
中國速度震驚西方!歐美高管訪華后集體焦慮?真相太扎心

中國速度震驚西方!歐美高管訪華后集體焦慮?真相太扎心

大衛(wèi)聊科技
2026-04-17 14:06:36
巨石強(qiáng)森曝光祖父照片:真人版毛伊原型是他

巨石強(qiáng)森曝光祖父照片:真人版毛伊原型是他

影視情報室
2026-04-17 08:42:31
2026-04-18 11:48:49
游戲茶館 incentive-icons
游戲茶館
關(guān)注全球移動游戲產(chǎn)業(yè)
11064文章數(shù) 20624關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

牛彈琴:特朗普迎來最興奮的一天 三個細(xì)節(jié)信息量很大

頭條要聞

牛彈琴:特朗普迎來最興奮的一天 三個細(xì)節(jié)信息量很大

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

藝術(shù)
親子
手機(jī)
房產(chǎn)
公開課

藝術(shù)要聞

何多苓油畫新作(2026-2025)

親子要聞

能把這套寶寶巴士玩透的孩子,啟蒙知識是手拿把掐啦

手機(jī)要聞

華為蟬聯(lián)冠軍、蘋果蟬聯(lián)亞軍,W15周數(shù)據(jù)分析

房產(chǎn)要聞

重磅利好!2500個學(xué)位,海口濱江片區(qū),要建九年一貫制學(xué)校!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版