国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

「敢不敢」勝過(guò)「能不能」,萬(wàn)字解析可靈 AI 的「非典型」突圍路

0
分享至

文 | 極客公園GreekPark

一個(gè)不知道什么叫做「去世」的小男孩,想用自己攢下的 15 塊錢,給奶奶燒一部「紙手機(jī)」。

這兩天,AI 短片《紙手機(jī)》感動(dòng)了無(wú)數(shù)網(wǎng)友。在這短短 5 分鐘的時(shí)間里,有人想起了離開已久的親人,有人感慨,第一次在 AI 制作的內(nèi)容中看到了「人世間」。

作品全網(wǎng)播放量破億背后,創(chuàng)作者李婷、楊選和其依托的創(chuàng)作平臺(tái)可靈 AI 也在默契地進(jìn)行某種「驗(yàn)證」——如果有更好的底層技術(shù)作為支撐,人類+AI 的敘事能力,能否被推向新的邊界。


《紙手機(jī)》畫面截圖

今年春節(jié)過(guò)后,可靈 AI 發(fā)布了可靈 3.0 系列模型,包括:Video 3.0、Video 3.0 Omni(多模態(tài)交互)、Image 3.0 Omni(圖像生成和編輯)。

邁入 3.0 時(shí)代的可靈 AI,正以 All-in-One 的一體化架構(gòu)重塑視頻模型體系,實(shí)現(xiàn)多模態(tài)輸入與輸出的高度統(tǒng)一。通過(guò)在角色一致性、鏡頭語(yǔ)言和多模態(tài)融合等維度的底層突破,可靈 3.0 全面打通了涵蓋生成、編輯及后期的影視級(jí)全制作鏈路。

如果說(shuō)《紙手機(jī)》的出圈,驗(yàn)證了今天的視頻生成大模型可以是好內(nèi)容的「推手」?伸` AI 的故事,則讓人看到了一個(gè)「敢不敢」勝過(guò)「能不能」的真實(shí)創(chuàng)新樣板。

兩年多前,在 Sora 驚艷世界卻遲遲不落地的真空期,快手可靈憑借超強(qiáng)的戰(zhàn)略直覺與執(zhí)行力,搶先發(fā)布了全球首個(gè)用戶可用的 DiT 大模型。

在不久前極客公園創(chuàng)始人張鵬與快手高級(jí)副總裁兼可靈 AI 事業(yè)部總負(fù)責(zé)人蓋坤的深度對(duì)談中,我們得以窺見這一奇跡背后的「非典型」路徑:早期可靈甚至是在資源受限的情況下,靠著對(duì)技術(shù)路線的極速押注完成了對(duì)硅谷巨頭的側(cè)翼包抄。

蓋坤談到一個(gè)重要的范式轉(zhuǎn)移:在大模型這種「單次嘗試代價(jià)巨大」的開放世界里,傳統(tǒng)的互聯(lián)網(wǎng)「AB 測(cè)試」與「賽馬模式」已經(jīng)失效。蓋坤詳述了可靈「三位一體」的成功公式——即如何將極致的愿景洞察、不設(shè)邊界的算法突破與全新的交互介質(zhì)(如將動(dòng)作視為一種模態(tài))深度融合。

從可靈 3.0 的 AIO(All-in-One)原生多模態(tài)架構(gòu),到 Motion Control 對(duì)創(chuàng)作控制權(quán)的再分配;從對(duì) AI 視頻生成賽道的戰(zhàn)略判斷,到對(duì)新內(nèi)容平臺(tái)可能誕生路徑的推演,這場(chǎng)對(duì)談不僅回答了「為什么是快手可靈」,也試圖勾勒一個(gè)更長(zhǎng)遠(yuǎn)的問(wèn)題:

當(dāng)視頻生成成為重構(gòu)供給的基礎(chǔ)設(shè)施;當(dāng)模態(tài)不斷被拆解、被重組,人類的想象力是否終于可以擺脫專業(yè)門檻,被高質(zhì)量、規(guī)模化地呈現(xiàn)?


快手高級(jí)副總裁兼可靈 AI 事業(yè)部總負(fù)責(zé)人蓋坤

精彩觀點(diǎn):

?「敢不敢」是前置條件,如果不決策,連上牌桌的機(jī)會(huì)都沒有。

? 邏輯有兩點(diǎn),一個(gè)是生存躍遷,這是上頭部牌桌的唯一機(jī)會(huì)。如果不搏這一把,可靈很可能陷入「平庸-無(wú)資源-被淘汰」的負(fù)循環(huán)。還有一個(gè)是「光腳」心態(tài),當(dāng)時(shí)我們本來(lái)就是 Nobody。博輸了還是 Nobody,博贏了就徹底改變命運(yùn)。

? 基座指標(biāo)要保,但解決新問(wèn)題才是未來(lái)的核心。

? 如果沒有合適的交互介質(zhì),連 Pro-C 也控制不了 AI。

? 當(dāng)規(guī)模化、多樣性的好內(nèi)容多到一定程度,全新的 AI 內(nèi)容平臺(tái)就會(huì)誕生。

? 大模型時(shí)代改變了游戲規(guī)則:一次嘗試的代價(jià)巨大(千萬(wàn)美金起步),且創(chuàng)新是在無(wú)限可能的空間里尋找不存在的路徑(如多模態(tài)、DiT 架構(gòu))。核心能力在于由領(lǐng)軍人物進(jìn)行頂層技術(shù)與業(yè)務(wù)意志的規(guī)劃。這種組織不再靠隨機(jī)賽馬,而是靠極強(qiáng)的 Vision(愿景)牽引,在一個(gè)茫茫多的可能性中下重注賭對(duì)方向。

01 如何從「默默無(wú)聞」到「全球首發(fā)」

張鵬:首先聊聊可靈 3.0,之前放出的素材反饋非常炸裂。這次的核心亮點(diǎn)應(yīng)該是 15 秒的長(zhǎng)時(shí)長(zhǎng)、超強(qiáng)的可控性,以及在分鏡轉(zhuǎn)場(chǎng)層面變得更加簡(jiǎn)潔流暢了。

蓋坤:我可以從更長(zhǎng)的時(shí)間尺度來(lái)介紹一下 3.0。我們內(nèi)部將 3.0 項(xiàng)目稱為 All-in-One(AIO)模型,它是多模態(tài)模型思路的延續(xù)。

去年 12 月我們發(fā)布了兩個(gè)階段性模型:可靈 O1 和可靈 2.6。這兩個(gè)模型在我們的敘事邏輯中各有分工:

? O1 側(cè)重多模態(tài)輸入(Input):允許用戶在文本指令中插入各類非文本文件,來(lái)表達(dá)文字難以描述的意圖,比如具體的人物形象、細(xì)微的動(dòng)作指令等。

? 2.6 側(cè)重多模態(tài)輸出(Output):除了輸出高質(zhì)視頻,還要同時(shí)輸出匹配的音頻(音畫同步)。

我們最初的愿景就是奔著 AIO(All-in-One)去的,但由于技術(shù)建設(shè)、經(jīng)驗(yàn)積累和產(chǎn)品打磨都需要時(shí)間,所以我們采取了階段性策略,先分別攻克多模態(tài)輸入和輸出的試點(diǎn)。

張鵬:所以 3.0 是基于 O1 的思路演進(jìn)而來(lái)的?

蓋坤:思路一脈相承,但 3.0 是個(gè)重新訓(xùn)練的模型。我們?cè)谟懻?O1 和 2.6 的時(shí)候就意識(shí)到,這兩者最終必須合二為一。一個(gè)真正的多模態(tài)模型,應(yīng)該既具備強(qiáng)大的多模態(tài)輸入能力,又具備音畫同出的輸出能力。

張鵬:這和 OpenAI 的 Sora 最初的思路是一致的。

蓋坤:3.0 是多模態(tài)模型演進(jìn)中的一個(gè)完整里程碑。在驗(yàn)證了 O1(輸入端)和 2.6(輸出端)的技術(shù)路線和用戶反饋后,我們推出了現(xiàn)在的 3.0 和 3.0 Omni。

這兩個(gè)產(chǎn)品背后其實(shí)是同一個(gè)模型,但在產(chǎn)品邏輯上我們做了區(qū)分。我們發(fā)現(xiàn),雖然 O1 式的多模態(tài)輸入可控性極高,對(duì)專業(yè)創(chuàng)作者很友好,但對(duì)普通用戶來(lái)說(shuō)門檻太高了——很多人不知道該如何精準(zhǔn)地通過(guò)多模態(tài)素材來(lái)表達(dá)意圖,畢竟這種「交互語(yǔ)言」不完全等同于自然語(yǔ)言。

張鵬:所以你們?cè)诮换用孀隽朔謱樱?.0 負(fù)責(zé)通用化,Omni 負(fù)責(zé)專業(yè)化。

蓋坤:沒錯(cuò)?伸` 3.0 遵循傳統(tǒng)的「文生視頻」和「圖生視頻」入口,界面簡(jiǎn)潔,符合大眾用戶的使用習(xí)慣。但我們也把 Omni 的核心能力(如主體庫(kù))植入了進(jìn)去,用戶可以通過(guò)主體庫(kù)來(lái)確保視頻中人物形象的一致性。

可靈 3.0 Omni 相當(dāng)于「極客版」或「專業(yè)版」。它的自由度極大,支持輸入的范圍更廣(如視頻參考),控制能力更強(qiáng),但也需要用戶投入更多的精力去描述和指定。

張鵬:主要區(qū)別在于 Input 層的交互邏輯。場(chǎng)景資產(chǎn)現(xiàn)在支持嗎?還是主要針對(duì)人物?

蓋坤:目前主要是針對(duì)人物的主體庫(kù)。

張鵬:在模型初始的時(shí)候設(shè)定的目標(biāo),其實(shí)會(huì)決定后續(xù)的發(fā)展走向,所以你們當(dāng)時(shí)的目標(biāo)是從什么視角出發(fā)的?

蓋坤:從可靈誕生的第一天起,我給團(tuán)隊(duì)傳達(dá)的愿景就非常明確,這兩年來(lái)從未改變。

可靈最早的愿景源于我的一個(gè)想象:如果 AI 的視頻生成能力足夠強(qiáng),我是不是可以獨(dú)自把腦海中的電影拍出來(lái)?舉個(gè)具體的例子,我學(xué)生時(shí)代非常喜歡《三體》。雖然《三體》已經(jīng)被影視化過(guò)幾次,但我覺得它們都沒有完全呈現(xiàn)出我心目中那種宇宙史詩(shī)般的畫面感和敘事張力。我不是導(dǎo)演,也不會(huì)操作專業(yè)相機(jī),如果 AI 足夠強(qiáng)大,它能幫我把腦海中的視覺圖景和情感表達(dá)實(shí)現(xiàn)出來(lái)嗎?

這種想象泛化開來(lái),就是可靈的愿景:「讓每個(gè)人都能成為導(dǎo)演,讓每個(gè)人都能拍出自己心中的好故事!惯@是我們對(duì)市場(chǎng)需求的定義,也是我們要達(dá)到的彼岸。

張鵬:我們來(lái)梳理一下從可靈 1.0、1.6 到 2.0、3.0 的技術(shù)演進(jìn)。在這個(gè)宏大目標(biāo)下,技術(shù)是如何一步步生長(zhǎng)過(guò)來(lái)的?我記得 1.6 或 2.0 版本引入了「首尾幀控制」,這在當(dāng)時(shí)印象很深。如果劃分關(guān)鍵版本號(hào)背后的技術(shù)變革,你會(huì)如何歸類?

蓋坤:對(duì)于可靈而言,外部自媒體曾總結(jié)過(guò)兩個(gè)關(guān)鍵里程碑:一個(gè)是可靈 1.0,一個(gè)是 O1。這兩個(gè)節(jié)點(diǎn)確實(shí)代表了可靈方向上最重要的 Milestone。

可靈 1.0 的意義是它讓快手從「Nobody」變成了全球大模型領(lǐng)域的一個(gè)「正式玩家(Serious Player)」。1.0 達(dá)成的核心成就是:全球第一個(gè)發(fā)布的、用戶真正可用的 DiT(Diffusion Transformer)架構(gòu)視頻生成模型。

雖然 OpenAI 在 2024 年春節(jié)期間發(fā)布了 Sora 的 Demo,極具震撼力,但 Sora 當(dāng)時(shí)用戶不可用,直到 12 月才真正發(fā)布產(chǎn)品。

當(dāng)時(shí)我定下了一個(gè)目標(biāo):要做全球第一個(gè)(可用產(chǎn)品),并超越 Sora。當(dāng)我提出這個(gè)目標(biāo)時(shí),整個(gè)屋子的人都驚呆了,覺得「你們真的要挑戰(zhàn) OpenAI 嗎?」我的回答是:「Why not?」

這背后是我們對(duì)競(jìng)爭(zhēng)態(tài)勢(shì)的精細(xì)測(cè)算。我判斷 Sora 的 Demo 是 OpenAI 為了阻擊 Google 的發(fā)布而臨時(shí)拿出來(lái)的。阻擊完成后,OpenAI 的核心資源必然會(huì)回到語(yǔ)言模型上,以保持領(lǐng)先。我推測(cè)他們會(huì)在 5-6 月發(fā)語(yǔ)言模型,隨后才會(huì)把資源調(diào)回 Sora 進(jìn)行產(chǎn)品化。所以,我給內(nèi)部定的死命令是:必須在 5 月內(nèi)完成從模型到產(chǎn)品的全線就緒。

最終,我們?cè)?6 月 6 日正式發(fā)布。很多人好奇「為什么是快手先做出來(lái)了?」因?yàn)榇蠹铱赡軐?duì)快手的技術(shù)儲(chǔ)備和資源整合能力缺乏預(yù)判。

02 早期研發(fā)的艱辛:資源「鈑金」時(shí)代

張鵬:做 1.0 版本時(shí),你投入了多少資源支撐這個(gè)「全球第一」?這個(gè)賬你應(yīng)該算過(guò)。

蓋坤:可靈 1.0 的起步非?部。在那個(gè)階段,我們甚至沒有足夠的頂級(jí) NVIDIA 顯卡可用,很多訓(xùn)練是靠公司此前采購(gòu)的 AMD 卡或其他廠家的芯片支撐的。

張鵬:那訓(xùn)練過(guò)程肯定磕磕絆絆,不夠順滑。

蓋坤:是的。當(dāng)時(shí)可靈團(tuán)隊(duì)在公司內(nèi)部還處于默默無(wú)名的狀態(tài)。我負(fù)責(zé)管理社區(qū)科學(xué)部,在大模型方向上規(guī)劃了幾個(gè)維度,硬是從現(xiàn)有資源里「擠」出了一些算力卡。說(shuō)實(shí)話,當(dāng)時(shí)用的很多還不是英偉達(dá)的卡,算是「雜牌」卡,沒有任何一家主流視頻模型公司會(huì)選擇那樣的配置。

張鵬:聽起來(lái)這不像是標(biāo)準(zhǔn)的工業(yè)化生產(chǎn),更像是一種「鈑金活兒」,是靠手工和拼勁兒硬生生打磨出來(lái)的。

蓋坤:確實(shí)是這樣。不過(guò)隨著模型效果越來(lái)越好,團(tuán)隊(duì)信心也不斷提升,內(nèi)部慢慢形成了一個(gè)正循環(huán):效果越好,信心越大,我也就更有理由在資源池里向他們傾斜。

03 敢不敢與能不能

張鵬:在戰(zhàn)略評(píng)估時(shí),你是如何推演「可行性」的?「敢不敢」挑戰(zhàn) OpenAI 是一個(gè)維度,但物理上的「能不能」是如何推理出來(lái)的?

蓋坤:「敢不敢」是前置條件,如果不決策,連上牌桌的機(jī)會(huì)都沒有。當(dāng)時(shí)我拍下「全球第一個(gè)發(fā)布并超越 Sora」的目標(biāo)時(shí),團(tuán)隊(duì)內(nèi)部充滿了震驚甚至抵觸。

我的邏輯有兩點(diǎn),一個(gè)是生存躍遷,這是上頭部牌桌的唯一機(jī)會(huì)。如果不搏這一把,可靈很可能陷入「平庸-無(wú)資源-被淘汰」的負(fù)循環(huán)。還有一個(gè)是「光腳」心態(tài),當(dāng)時(shí)我們本來(lái)就是 Nobody。博輸了還是 Nobody,博贏了就徹底改變命運(yùn)。

張鵬:這一波浪潮里,「敢不敢」有時(shí)真的比「能不能」更重要。

蓋坤:「敢不敢」是起點(diǎn),但「能不能」靠的是硬核能力。團(tuán)隊(duì)的技術(shù)底子必須過(guò)硬,否則喊口號(hào)沒用。我們會(huì)把模型的每一層架構(gòu)都討論得非常透徹。我們也有對(duì)模型、數(shù)據(jù)量、卡數(shù)和時(shí)間進(jìn)行量化拆解。雖然有風(fēng)險(xiǎn),但我們算下來(lái) 1.0 版本在過(guò)億級(jí)或數(shù)億級(jí)數(shù)據(jù)量下是物理可行的。

我當(dāng)時(shí)還推測(cè) OpenAI 會(huì)為了應(yīng)對(duì) Google 而分心,優(yōu)先回歸語(yǔ)言模型大版本的迭代,這為我們留出了 6-7 月的窗口期。事后證明,OpenAI 直到 12 月才真正發(fā)布產(chǎn)品,我們對(duì)競(jìng)爭(zhēng)節(jié)奏的判斷基本準(zhǔn)確。

04 從 Disagree 到 120% 的 Commit

張鵬:你把不確定性壓到了極限。但技術(shù)能力之外,如何讓一群覺得「目標(biāo)不可能」的人真正動(dòng)起來(lái)?

蓋坤:意愿至關(guān)重要。當(dāng)時(shí)團(tuán)隊(duì)展現(xiàn)了快手一直倡導(dǎo)的核心價(jià)值觀:Disagree and Commit(保留意見但全力執(zhí)行)。

當(dāng)我剛提出目標(biāo)時(shí),屋子里幾乎所有人都在反對(duì),認(rèn)為這個(gè)目標(biāo)壓得太死,憑什么覺得能搞定?我的方法很簡(jiǎn)單:深度拆解加上目標(biāo)強(qiáng)壓。

同時(shí),這群同學(xué)也憋著一股勁。很多核心成員此前在公司內(nèi)默默無(wú)名,他們也意識(shí)到,這一戰(zhàn)如果打成了,就是真正的「一戰(zhàn)成名」。這種「光腳不怕穿鞋」的斗志,在重大目標(biāo)面前起到了決定性作用。

但我最看重的是他們那種「保留意見但全力執(zhí)行」(Disagree and Commit)的品質(zhì)。這不只是口頭答應(yīng),而是先激烈討論、表達(dá)反對(duì),但在目標(biāo)定死、進(jìn)入執(zhí)行階段后,能投入 120% 的精力和意愿。我見過(guò)很多團(tuán)隊(duì),雖然口頭上被壓服了,但在實(shí)際執(zhí)行中會(huì)有巨大的動(dòng)作變形。可靈團(tuán)隊(duì)這種價(jià)值觀的傳承,在早期起到了至關(guān)重要的作用。

05 多模態(tài)架構(gòu)的必然邏輯

張鵬:1.0 的成功在于敢于率先突破壁壘,拿到了最大的紅利。但在那個(gè)節(jié)點(diǎn),大部分人還看不清方向,你能先發(fā)制人是因?yàn)槟愀矣谠跊]有共識(shí)時(shí)做決策。那么你認(rèn)為的第二個(gè)里程碑 O1),為什么如此重要?

蓋坤:其實(shí)從 2024 年到 2025 年,我的 OKR 里始終貫穿著一個(gè)詞:多模態(tài)。

這個(gè)想法源于我對(duì)「愿景」的倒推:如果目標(biāo)是讓一個(gè)人能拍出腦海中的電影,那么現(xiàn)在的技術(shù)還缺什么?結(jié)論很明顯:語(yǔ)言作為溝通媒介,在視覺表達(dá)上是極其匱乏的。

比如,在拍攝中,你很難用語(yǔ)言精準(zhǔn)描述一個(gè)人的長(zhǎng)相并保證多鏡頭的一致性,或者描述一段極其復(fù)雜的微表情和動(dòng)作細(xì)節(jié)。文字太抽象,無(wú)法還原精準(zhǔn)的創(chuàng)意圖景。

張鵬:也就是說(shuō),在視頻創(chuàng)作領(lǐng)域,純語(yǔ)言并不是一個(gè)高效的介質(zhì)。

蓋坤:對(duì),所以我們要進(jìn)化交互方式。我們?cè)?2025 年 4 月推出了 MVL(多模態(tài)視覺語(yǔ)言)。其本質(zhì)是解決輸入側(cè)的問(wèn)題:雖然人類最習(xí)慣語(yǔ)言,但語(yǔ)言描述不了的細(xì)節(jié),可以用圖片、視頻等其他模態(tài)的信息來(lái)補(bǔ)充。在我們的架構(gòu)里,這些多模態(tài)信息被轉(zhuǎn)化為語(yǔ)言流中的「特殊詞(Special Tokens)」,比如「圖 1 中的人是主角」,從而實(shí)現(xiàn)更精準(zhǔn)的控制。

06 如何在迷霧中帶隊(duì)爬山?

張鵬:MVL 是解決問(wèn)題的架構(gòu),而 O1 則是承載這種能力的完整模型。在這個(gè)過(guò)程中,團(tuán)隊(duì)內(nèi)部是否再次經(jīng)歷了不共識(shí)?

蓋坤:這次不共識(shí)的時(shí)間比 1.0 時(shí)期長(zhǎng)得多。當(dāng)時(shí)算法團(tuán)隊(duì)面前有兩個(gè)分叉,一個(gè)是無(wú)限雕花,沿著 1.0、1.5、1.6 到 2.0 的路徑,不斷卷文生視頻、圖生視頻的技術(shù)指標(biāo)。這個(gè)的優(yōu)點(diǎn)是路徑清晰,每提升一點(diǎn)指標(biāo),市場(chǎng)和業(yè)務(wù)都會(huì)給出正向反饋,團(tuán)隊(duì)能持續(xù)獲得「確定性」的獎(jiǎng)勵(lì)。

另一個(gè)是升維躍遷,不再糾結(jié)于基礎(chǔ)功能的指標(biāo)精度,而是徹底改變模型的理念和輸入輸出方式。這里的挑戰(zhàn)意味著我們要解決一堆從未有人解過(guò)的新問(wèn)題。

張鵬:你顯然是堅(jiān)定支持后者的。

蓋坤:是的。我堅(jiān)信大模型的「涌現(xiàn)」能力:當(dāng)你把新問(wèn)題解得足夠好時(shí),它反而能帶動(dòng)老問(wèn)題的泛化處理。

當(dāng)時(shí)團(tuán)隊(duì)面臨兩個(gè)巨大的不確定性,一個(gè)是市場(chǎng)不確定性,沒人做過(guò)這種多模態(tài)交互,用戶會(huì)買賬嗎?另一個(gè)是技術(shù)不確定性,這種架構(gòu)在技術(shù)上能否跑通?

特別是 2025 年 Nano Banana 出來(lái)時(shí),我一方面遺憾視頻領(lǐng)域的進(jìn)度被圖像領(lǐng)域的類似技術(shù)搶了先,另一方面也慶幸它幫我們完成了內(nèi)部「統(tǒng)一思想」的過(guò)程,讓團(tuán)隊(duì)意識(shí)到多模態(tài)就是唯一的終點(diǎn)。

但我作為掌舵者必須明確方向:基座指標(biāo)要保,但解決新問(wèn)題才是未來(lái)的核心。

張鵬:1.0 時(shí)的阻力來(lái)自于「不相信能做成」,而這次的阻力來(lái)自于「大家不再是光腳的了」,開始有了成本意識(shí)和聲譽(yù)顧慮。

蓋坤:沒錯(cuò)。大家開始在乎技術(shù)投入產(chǎn)出比。

張鵬:這種痛苦也理解。絕大多數(shù)人習(xí)慣了看山頂?shù)娘L(fēng)景,現(xiàn)在你讓他們下到滿是迷霧的山腳重新出發(fā),去爬一座看不見頂?shù)纳,這確實(shí)極度考驗(yàn)。

很多創(chuàng)新公司其實(shí)都會(huì)面臨同樣的抉擇:是在現(xiàn)有高度上不斷做工程精度的「雕花」,還是對(duì)齊大目標(biāo),一波波地翻山越嶺?

蓋坤:這就是可靈第二個(gè)節(jié)點(diǎn)比第一個(gè)節(jié)點(diǎn)進(jìn)步的地方。1.0 時(shí)期,Sora 的 Demo 已經(jīng)在前面了,技術(shù)方案(如 DiT 架構(gòu))雖然細(xì)節(jié)沒公布,但學(xué)術(shù)界早有雛形,大家對(duì)「能不能做出來(lái)」沒疑問(wèn),只是在趕工期。

而到了 O1、3.0 階段,我們是在選擇是平滑地走向下一個(gè)小高峰,還是穿越延綿的山脈去尋找終極目標(biāo)。現(xiàn)在團(tuán)隊(duì)對(duì)于「挑戰(zhàn)未知」已經(jīng)形成了一種肌肉記憶,這種自信和沉淀非常寶貴。

張鵬:現(xiàn)在可靈的人才流動(dòng)情況如何?

蓋坤:目前總體是凈流入,但流入流出的動(dòng)力都很強(qiáng)。流入動(dòng)力是說(shuō)來(lái)可靈挑戰(zhàn)世界一流的技術(shù),做真正 Great 的產(chǎn)品。流出動(dòng)力就是高位變現(xiàn)。在可靈積累了足夠的 Credit,去外面也能拿到極高的待遇。

這很正常,我也坦誠(chéng)面對(duì)。如果目標(biāo)拉得不夠高,優(yōu)秀的人才覺得沒意思自然會(huì)走;只有不斷探索無(wú)人區(qū),才能持續(xù)吸引想做大事的人上車。

張鵬:接下來(lái)聊聊最近火出圈的 Motion Control(動(dòng)作控制)。這種讓 C 端用戶覺得震撼、甚至產(chǎn)生病毒式傳播的功能,是你們預(yù)判到的爆發(fā)點(diǎn)嗎?

蓋坤:在我的視角里,Motion Control 的起點(diǎn)依然是需求,而非單純追求「爆款」,里面確實(shí)有賭對(duì)的成分。其實(shí)大家看到的爆版已經(jīng)是我們的第二版了。

在 2.0 發(fā)布會(huì)時(shí),我們提出了 MVL(多模態(tài)視覺語(yǔ)言)的理念。當(dāng)時(shí)我們就在思考:除了圖像、視頻和語(yǔ)言,還有什么可以作為新模態(tài)?

張鵬:當(dāng)時(shí)用戶的痛點(diǎn)是動(dòng)作不可控、容易崩壞。

蓋坤:對(duì)。角色一致性問(wèn)題解決得比較快,但動(dòng)作控制一直是難點(diǎn)。我們當(dāng)時(shí)就在探索如何把「動(dòng)作」抽象成一種模態(tài)進(jìn)行控制。

張鵬:所以,「動(dòng)作」在你們看來(lái)也是一種模態(tài)。

蓋坤:在我們的認(rèn)知里,動(dòng)作(Motion)本身就是一個(gè)模態(tài)。現(xiàn)在的交互還處于中間階段,即用戶需要上傳一個(gè)已有的視頻,讓 AI 去跟隨。但最終的目標(biāo)是實(shí)現(xiàn)動(dòng)作的抽象化,讓用戶能直接與「動(dòng)作模態(tài)」交互,從而實(shí)現(xiàn)真正的自由創(chuàng)作。

張鵬:直接下令讓角色「快樂(lè)地奔跑」,它就能跑出來(lái),而不是非得找個(gè)跑步視頻喂給它。

蓋坤:沒錯(cuò)。在 2.0 發(fā)布會(huì)上,我預(yù)告動(dòng)作控制時(shí),其實(shí)是把它放在多模態(tài)視覺語(yǔ)言(MVL)的大版圖里。雖然當(dāng)時(shí)業(yè)界還沒完全理解這種前瞻性,但我堅(jiān)信這是通往愿景的必經(jīng)之路。

張鵬:這種前瞻思維往往伴隨著內(nèi)部的博弈。這中間有遇到什么波折嗎?

蓋坤:早期確實(shí)有爭(zhēng)議。第一版動(dòng)作控制的技術(shù)實(shí)現(xiàn)不夠理想,產(chǎn)品入口也深,用戶很難發(fā)現(xiàn)。

但在管理上,我堅(jiān)持要把這個(gè)方向做下去。后來(lái)團(tuán)隊(duì)在技術(shù)上實(shí)現(xiàn)了突破:我們沒有采用學(xué)術(shù)界主流的「火柴人」方案,而是對(duì)動(dòng)作模態(tài)的定義進(jìn)行了創(chuàng)新。

張鵬:后來(lái)是調(diào)高了內(nèi)部的「獎(jiǎng)勵(lì)函數(shù)」,給團(tuán)隊(duì)加壓了嗎?

蓋坤:其實(shí)是自然生長(zhǎng)的過(guò)程,我只是提供了必要的「陽(yáng)光和水」,核心工作是團(tuán)隊(duì)自主完成的。當(dāng)模型進(jìn)入測(cè)試尾期,內(nèi)部的測(cè)試用例出來(lái)的結(jié)果讓我們非常驚艷。那種質(zhì)感已經(jīng)超越了傳統(tǒng)的 AI 生成感,甚至讓我找回了早期刷短視頻時(shí)(如海草舞時(shí)期)那種停不下來(lái)的感覺。

張鵬:當(dāng)時(shí)你預(yù)感到它會(huì)火,那上線后的真實(shí)反饋是怎樣的?

蓋坤:上線后我一直在等它「爆」。我們 12 月中旬上線,等了十幾天,直到 1 月初先在印度火了,接著是韓國(guó)。

有意思的是,這屬于「意料之中的潛力,意料之外的路徑」。我們預(yù)期的爆點(diǎn)是極其硬核的帥哥美女跳舞,那是我們能力最強(qiáng)、素質(zhì)最高的點(diǎn)。但實(shí)際走紅的點(diǎn)反而是小朋友和寵物的趣味舞蹈。

我們的宣發(fā)體量并不大,用戶生態(tài)的自發(fā)傳播帶來(lái)了這次的影響。

07 多模態(tài)的終局:走向 All-in-One

張鵬:所以本質(zhì)上,你們是通過(guò)把「動(dòng)作」引入多模態(tài)版圖,創(chuàng)造了新的可能性。那么下一步呢?除了動(dòng)作,還有沒有其他待開發(fā)的模態(tài)?

蓋坤:動(dòng)作模態(tài)還沒做完整,F(xiàn)在的動(dòng)作控制更像是一個(gè)插件或單獨(dú)的功能,下一步的目標(biāo)是實(shí)現(xiàn)真正的 All-in-One(全模態(tài)大一統(tǒng))——將動(dòng)作模態(tài)深度抽象并融入模型。

至于未來(lái),為了解決「場(chǎng)景一致性」等更高階的需求,我們可能會(huì)對(duì)模態(tài)進(jìn)行進(jìn)一步的擴(kuò)展和定義。

張鵬:「場(chǎng)景一致性」最終會(huì)對(duì)應(yīng)到什么模態(tài)?

蓋坤:它不一定是一個(gè)簡(jiǎn)單的模態(tài),更像是一個(gè)綜合解決方案。

目前人物一致性已經(jīng)有了長(zhǎng)足進(jìn)步,但場(chǎng)景一致性依然是大問(wèn)題。當(dāng)用戶要求變高時(shí),你會(huì)發(fā)現(xiàn)切鏡頭后屋子的結(jié)構(gòu)變了。雖然現(xiàn)在大家往往被特寫鏡頭吸引而忽視背景,但在未來(lái)的完整敘事里,場(chǎng)景的一致性必須是斷點(diǎn)。

我們可能需要通過(guò)簡(jiǎn)單的 3D 堆疊(3D Stacking)疊加精細(xì)的表觀細(xì)節(jié)生成能力(Appearance Generation),讓場(chǎng)景在不同鏡頭、角度和位置下保持絕對(duì)一致。這在拍攝復(fù)雜的太空片或史詩(shī)級(jí)故事片時(shí)尤為關(guān)鍵。

張鵬:現(xiàn)在業(yè)界有個(gè)調(diào)侃的觀點(diǎn):AI 已經(jīng)很強(qiáng)了,但由于普通用戶缺乏專業(yè)描述能力,AI 的上限很難被激發(fā)。這也解釋了為什么現(xiàn)在很多創(chuàng)業(yè)公司都轉(zhuǎn)向了 Pro-C(專業(yè)級(jí)個(gè)人用戶),因?yàn)橹挥羞@部分人能用 AI 賺到錢并為此付費(fèi)。

蓋坤:其實(shí)不只是普通用戶,如果沒有合適的交互介質(zhì),連 Pro-C 也控制不了 AI。如果你不提供一種契合 AI 能力邏輯的交互方式,專業(yè)人士同樣會(huì)覺得 AI 難以馴服。

張鵬:所以,未來(lái)的核心目標(biāo)其實(shí)是重新定義交互。這種交互不再是簡(jiǎn)單的 UI/UX 調(diào)色,而是通過(guò)拆解不同的模態(tài)(如動(dòng)作、表情、3D 結(jié)構(gòu)等)來(lái)改變交互介質(zhì),讓模型的能力真正落到產(chǎn)品里。這已經(jīng)從純?cè)O(shè)計(jì)變成了一個(gè)極其深度的技術(shù)課題。

蓋坤:總結(jié)來(lái)說(shuō),可靈的核心能力是由三件事支撐的集合。首先是愿景驅(qū)動(dòng),這里包含終極需求和未來(lái)市場(chǎng)的想象力。我們所有的技術(shù)反推,起點(diǎn)都是為了實(shí)現(xiàn)「讓每個(gè)人都能拍出腦海中的電影」。

其次是不設(shè)邊界的技術(shù)功底,作為算法出身,我要求技術(shù)研發(fā)不設(shè)邊界,但前提是「心里有譜」。你得清楚模型在技術(shù)邏輯上究竟能突破到哪一步。

最后是產(chǎn)品交互的同步變革:像 MVL 這種理念,本質(zhì)是產(chǎn)品交互層面的創(chuàng)新。任何單方面的能力都不足以支撐現(xiàn)在的可靈。我需要知道模型的發(fā)展方向,更要知道如何通過(guò)重構(gòu)人和 AI 之間的交互介質(zhì),來(lái)釋放人的創(chuàng)作欲。

張鵬:你如何定義「模態(tài)」和「解決方案」?

蓋坤:模態(tài)是你定義的一種新的輸入/輸出格式,比如文字、圖像、視頻、動(dòng)作序列,甚至未來(lái)的 3D 建模態(tài)。解決方案是多種模態(tài)共同配合來(lái)解決一個(gè)復(fù)雜問(wèn)題。

對(duì)于普通用戶來(lái)說(shuō),能操作的 3D 往往是非常粗糙的。但要實(shí)現(xiàn)視頻的一致性,精細(xì)的細(xì)節(jié)必不可少。這就是為什么我主張將模態(tài)與解決方案分層:我們可能需要用一個(gè)粗糙的 3D 模型作為骨架,疊加生圖模態(tài)的表觀細(xì)節(jié),再配合文字描述,三個(gè)模態(tài)合力來(lái)解決任意視角下的場(chǎng)景一致性問(wèn)題。

我們現(xiàn)在在做的 Scaling 模態(tài),本質(zhì)上是把世界的運(yùn)行公式拆解得更完整。每定義一種新模態(tài)(如我們對(duì)動(dòng)作控制的技術(shù)處理),就像創(chuàng)造一種新語(yǔ)言,雖然極難,但這才是真正的創(chuàng)新路徑。

張鵬:這本質(zhì)上是把世界的運(yùn)行公式拆解得更完整,讓工程化實(shí)現(xiàn)變得更容易。

蓋坤:沒錯(cuò)。但創(chuàng)造一個(gè)新模態(tài)(如我們對(duì)動(dòng)作控制的底層處理)極難,它不是現(xiàn)有東西的排列組合,而是需要無(wú)數(shù)次的想象與驗(yàn)證,就像創(chuàng)造一門新語(yǔ)言。我們團(tuán)隊(duì)的路徑就是沿著目標(biāo),在技術(shù)和交互上「不設(shè)邊界」。大多數(shù)人是在已有模態(tài)中做選擇,而我們是直接創(chuàng)造新模態(tài)。

08、 1 到 3 年內(nèi)實(shí)現(xiàn)「人人都是導(dǎo)演」

張鵬:你提到了一個(gè)詞——「中期愿景」。這個(gè)中期是怎么定義的?

蓋坤:我不是按時(shí)間定義,而是按對(duì)世界的改變來(lái)定義。

我的中期愿景是:讓每個(gè)人都能用 AI 拍出好故事、好電影。考慮到現(xiàn)在 AI 并沒有減速,甚至在加速進(jìn)化,我覺得快則一年,慢則三年,這個(gè)愿景就能實(shí)現(xiàn)。

目前行業(yè)里 AI 真人短劇的火爆已經(jīng)驗(yàn)證了這一點(diǎn)。從最初的萌芽到如今已經(jīng)出現(xiàn)真正賺錢的作品,這非常像一年多以前的動(dòng)態(tài)漫,或者幾年前短劇剛起步的狀態(tài)。AI 徹底改寫短劇賽道已經(jīng)是確定性事件,接下來(lái)就是電影。

張鵬:這其實(shí)是平權(quán)化的過(guò)程。不需要是業(yè)界大導(dǎo)演,也能擁有拍出高質(zhì)量作品的資源。

蓋坤:對(duì)。目前大家還在賺「工具」層面的錢,但這層成熟后,真正的 ToC 機(jī)會(huì)就來(lái)了。

我一直認(rèn)為:當(dāng)規(guī)模化、多樣性的好內(nèi)容多到一定程度,全新的 AI 內(nèi)容平臺(tái)就會(huì)誕生。

傳統(tǒng)內(nèi)容平臺(tái)靠雙邊網(wǎng)絡(luò)(創(chuàng)作者與用戶)構(gòu)筑了極其穩(wěn)固的護(hù)城河。新玩家很難切入,因?yàn)閮啥嘶ハ嗫ú弊。?AI 打破了這一僵局——它提供了一種無(wú)法被壟斷的新供給。

張鵬:要打開新消費(fèi),必須先有新供給。拼多多當(dāng)年打淘寶也是這個(gè)邏輯。但如果僅僅是內(nèi)容變了,它可能只是「第二個(gè)快手」。這種新平臺(tái)會(huì)有什么本質(zhì)的機(jī)制變化嗎?

蓋坤:我認(rèn)為有兩步走。第一階段是內(nèi)容質(zhì)量。這是必要條件,質(zhì)量必須足夠高,用戶才愿意看。第二階段是互動(dòng)與交互。當(dāng)內(nèi)容質(zhì)量在賽道內(nèi)拉不開差距時(shí),新的變量就是個(gè)性化與實(shí)時(shí)互動(dòng)。

在 AI 時(shí)代,這種交互非常直觀。比如看一部「爽文」邏輯的短劇,主角可以是你自己。如果你能把自己的形象、性格代入其中,且 AI 能保證生成質(zhì)量,這種極致的個(gè)性化消費(fèi)將徹底改變?nèi)伺c內(nèi)容的關(guān)系。

張鵬:先解決好內(nèi)容的「量產(chǎn)」,再通過(guò) AI 實(shí)現(xiàn)「主角是你自己」的深度參與。

蓋坤:在 AI 生成內(nèi)容的時(shí)代,游戲與影視的邊界會(huì)模糊。系統(tǒng)不僅能「猜你喜歡」,還能讓你通過(guò)互動(dòng)直接影響情節(jié)走向。這背后是極致的個(gè)性化與極致的互動(dòng),這兩個(gè)維度存在巨大的想象空間。

張鵬:這會(huì)催生全新的商業(yè)模式。如果用戶能把自己「注入」到角色里,甚至讓 AI 稍微美化一下形象,大家是非常愿意付費(fèi)的。現(xiàn)在已有團(tuán)隊(duì)基于 LoRA 技術(shù)為每個(gè)人定制專屬模型,這意味著「長(zhǎng)期記憶」可以轉(zhuǎn)化為不斷迭代的個(gè)人模型。

蓋坤:沒錯(cuò)。當(dāng)各平臺(tái)的生成質(zhì)量都達(dá)到臨界點(diǎn)、拉不開差距時(shí),個(gè)性化與可操控性就成了決定勝負(fù)的「決勝點(diǎn)」。

張鵬:一個(gè)新平臺(tái)想要顛覆舊秩序,必須在質(zhì)量、個(gè)性化、可操控性這三個(gè)維度同時(shí)撞線。否則,單純的質(zhì)量?jī)?yōu)勢(shì)很快會(huì)被對(duì)手追平。

蓋坤:傳統(tǒng)內(nèi)容平臺(tái)(如抖音、快手)的雙邊網(wǎng)絡(luò)是基于人的,帶有強(qiáng)烈的真人社交屬性。而 AI 內(nèi)容平臺(tái)最重要的變化在于社交屬性的轉(zhuǎn)化。

很多人不看好 AI 內(nèi)容平臺(tái),是覺得虛擬形象無(wú)法滿足真人的社交需求。但我認(rèn)為需求并沒有消失,而是轉(zhuǎn)化為「AI 虛擬社交」或「情感陪伴」。它不再是單純?yōu)榱私⒕下關(guān)系,而是像電子寵物或情感伴侶一樣的直達(dá)體驗(yàn)。

張鵬:這個(gè)比喻很有趣,社交不再是約著去「喝咖啡」,而是跳過(guò)過(guò)程,直接為用戶提供「咖啡因」。現(xiàn)在的爽劇就是這種邏輯——不講究口感(畫面細(xì)節(jié)),只講究功效(心理爽感)。

蓋坤:AI 真人短劇之所以能在影視賽道率先跑通,是因?yàn)樗瑒∮脩魧?duì)畫面質(zhì)量的容忍度較高。用戶可以忍受微小的變形,只要情節(jié)足夠吸引人。

這個(gè)過(guò)程是階梯式的:

1. 動(dòng)態(tài)漫階段:畫面質(zhì)量甚至可以「崩到飛起」,因?yàn)榍楣?jié)占比極大。

2. 短劇階段:咖啡因效應(yīng)強(qiáng),對(duì)畫面的容忍度依然較大。

3. 高階影視階段:隨著技術(shù)提升,用戶最終會(huì)對(duì)畫面、質(zhì)量、情節(jié)提出全面要求。

技術(shù)進(jìn)步正在逐級(jí)解鎖用戶需求。當(dāng)畫面質(zhì)量不再是障礙,規(guī)模化、多樣性的好內(nèi)容供給就會(huì)徹底爆發(fā)。

蓋坤:視頻生文模型生成的描述越精準(zhǔn)、越細(xì)膩,訓(xùn)練出的文生視頻模型對(duì)指令的遵循度就越高。這屬于各家的核心技術(shù)壁壘,大家通常秘而不宣,但它確實(shí)決定了模型最終的「智商」。視頻模型不是一個(gè)孤立的單點(diǎn)突破,它的多點(diǎn)聯(lián)動(dòng)效應(yīng)極強(qiáng)。如果視頻理解(標(biāo)注)做得不好,生成的上限也就被鎖死了。

張鵬:這事兒就像蓋房子,是一層層壘上去的。如果最底層的數(shù)據(jù)和邏輯壘歪了,后面的模型表現(xiàn)就沒法看了。

蓋坤:很多人對(duì)視頻大模型有誤解,覺得它只是語(yǔ)言模型的一個(gè)應(yīng)用或延伸。實(shí)際上,它是一個(gè)完全獨(dú)立的各種基礎(chǔ)模型。

它之所以比語(yǔ)言模型出現(xiàn)得晚,是因?yàn)樗且粋(gè)高度復(fù)雜的系統(tǒng)工程,存在極強(qiáng)的技術(shù)依賴。語(yǔ)言模型更像是一個(gè)「單點(diǎn)」突破——通過(guò)爬取和清洗天然存在的文字?jǐn)?shù)據(jù)就能起步;但視頻模型不同,自然界中并不存在現(xiàn)成的「文本-視頻」高質(zhì)量對(duì)齊數(shù)據(jù)。

張鵬:也就是說(shuō),在視頻領(lǐng)域,如果你沒有技術(shù)手段自己去「造」出高質(zhì)量數(shù)據(jù),你連起步的資格都沒有。這本質(zhì)上不是資源問(wèn)題,而是算法問(wèn)題。

蓋坤:對(duì),「數(shù)據(jù)本身就是一個(gè)算法問(wèn)題」。但在產(chǎn)品交互層,用戶是看不到這層「材料科學(xué)」般的底層投入的。

一個(gè)頂尖的視頻生成團(tuán)隊(duì),必須在「視頻理解」上有極深的沉淀。你不能只搞生成,你得先用一系列復(fù)雜的理解模型去處理、標(biāo)注、生成高質(zhì)量的訓(xùn)練素材。這絕非單點(diǎn)突破能搞定的。

09 為什么是快手?

張鵬:很多人好奇「為什么是可靈」。大家常猜測(cè)是因?yàn)榭焓钟泻A康亩桃曨l數(shù)據(jù)積累,或者是因?yàn)樵缙诘囊曨l審核業(yè)務(wù)帶火了視頻理解技術(shù)。

蓋坤:這些關(guān)系不大。我認(rèn)為快手給可靈帶來(lái)的最大資產(chǎn)是一個(gè)現(xiàn)成的、建制化的團(tuán)隊(duì)。

這個(gè)團(tuán)隊(duì)在「理解」和「生成」上都有深厚功底。對(duì)于很多入局者來(lái)說(shuō),光是組建這樣一個(gè) Ready 的團(tuán)隊(duì),可能就要耗費(fèi)巨大的精力,甚至根本搞不定。

張鵬:這個(gè)團(tuán)隊(duì)最初是怎么規(guī)劃的?

蓋坤:2023 年,一笑決定投入卡做大模型,我負(fù)責(zé)規(guī)劃和實(shí)施,當(dāng)時(shí)大家默認(rèn)指的都是語(yǔ)言模型。但我年底在「社區(qū)科學(xué)線」規(guī)劃了幾個(gè)前瞻方向,其中就包括視頻生成。我們把相關(guān)人才碼在一起組成了團(tuán)隊(duì),但坦白說(shuō),當(dāng)時(shí)的技術(shù)路線還很模糊。

張鵬:是 Sora 的出現(xiàn)指明了方向?

蓋坤:Sora 的 Demo 是 2024 年春節(jié)期間發(fā)布的,極大地刺激了業(yè)界。

我在假期里就給團(tuán)隊(duì)布置了任務(wù):如果我們要復(fù)現(xiàn) Sora,技術(shù)方案是什么?春節(jié)回來(lái)后,我們就在這個(gè)辦公室開會(huì)。當(dāng)時(shí)很多大廠還在猶豫是繼續(xù)走原有的路徑還是轉(zhuǎn)向,但我們?cè)诖汗?jié)后的前幾個(gè)工作日就完成了技術(shù)對(duì)齊,決定全線放棄其他架構(gòu),All-in DiT(Diffusion Transformer)架構(gòu)。

當(dāng)時(shí)大家把方案討論清楚后,覺得物理可行,我才拍板定下了那個(gè)「要做全球第一個(gè)可用產(chǎn)品」的目標(biāo)。

我后來(lái)在內(nèi)部打過(guò)一個(gè)比方:OpenAI 就像是一個(gè)高冷的女神,她做出了驚人的東西,大家只會(huì)遠(yuǎn)觀議論,不覺得自己能行;但當(dāng)可靈作為一個(gè)「鄰居」把這事兒干成了,大家才猛然驚醒——原來(lái)這事兒真的能落地,我們也能干!

10 AI 時(shí)代組織能力的「第三次演進(jìn)」

張鵬:過(guò)去這段時(shí)間,你對(duì)于組織團(tuán)隊(duì)這方面有什么思考和收獲嗎?

蓋坤:我可以分享一下我對(duì)過(guò)去二十年企業(yè)組織能力的看法,我認(rèn)為它們經(jīng)歷了三個(gè)階段:

首先是產(chǎn)品與運(yùn)營(yíng)驅(qū)動(dòng)階段,例如阿里早期有極致的 To B 產(chǎn)品和運(yùn)營(yíng)能力,核心是搞定供給側(cè)。騰訊早期有極致的 To C 產(chǎn)品能力,在社交上構(gòu)建出了網(wǎng)絡(luò)效應(yīng)。這些業(yè)務(wù)早期階段中算法不是必要要素,所以業(yè)務(wù)邏輯中不太需要處理「算法不確定性」。

然后是算法與實(shí)驗(yàn)驅(qū)動(dòng)階段,這類業(yè)務(wù)(如 Google 的搜索、字節(jié)與快手的推薦)必須處理算法帶來(lái)的不確定性。核心手段是 AB 實(shí)驗(yàn)和 bottom up 的試錯(cuò)機(jī)制。通過(guò)海量的實(shí)驗(yàn)來(lái)尋找業(yè)務(wù)的最優(yōu)解。局限性在于 AB 實(shí)驗(yàn)是有天花板的。它適用于在有限的候選集里做低成本嘗試。

最后是 Vision 與頂層意志驅(qū)動(dòng)階段,大模型時(shí)代改變了游戲規(guī)則:一次嘗試的代價(jià)巨大(千萬(wàn)美金起步),且創(chuàng)新是在無(wú)限可能的空間里尋找不存在的路徑(如多模態(tài)、DiT 架構(gòu))。核心能力在于由領(lǐng)軍人物進(jìn)行頂層技術(shù)與業(yè)務(wù)意志的規(guī)劃。這種組織不再只依靠隨機(jī)賽馬,而是靠極強(qiáng)的 Vision(愿景)牽引,在一個(gè)茫茫多的可能性中下重注賭對(duì)方向。

11 大模型時(shí)代的「隧穿效應(yīng)」

張鵬:在大模型時(shí)代,由于每一次嘗試的代價(jià)都極其巨大,且面對(duì)的是一個(gè)完全沒有參考系的「開放世界」,傳統(tǒng)的 A/B 測(cè)試已經(jīng)失效了。

現(xiàn)在的競(jìng)爭(zhēng)更像是愛因斯坦式的「思維實(shí)驗(yàn)」時(shí)代。誰(shuí)能在腦海中先通過(guò)精準(zhǔn)的 Vision 完成推演,誰(shuí)就能在現(xiàn)實(shí)中獲得最高的執(zhí)行效率。這種 Vision 就是「魔法」,它能讓團(tuán)隊(duì)實(shí)現(xiàn)「隧穿效應(yīng)」,繞過(guò)對(duì)手那些你根本扛不過(guò)的肌肉和資源,直接抵達(dá)戰(zhàn)場(chǎng)中心。

蓋坤:沒錯(cuò)。在短視頻推薦時(shí)代,靠的是人力的試錯(cuò)和極高的人素效率。但在大模型這種基模時(shí)代,語(yǔ)境徹底變了。

快手在資源和肌肉上很難和這種推土機(jī)式的試錯(cuò)效率競(jìng)爭(zhēng)。如果非要拼肌肉,那就是斯巴達(dá) 300 勇士沖向十幾萬(wàn)大軍,哪怕打出神跡,最后也只能光榮戰(zhàn)死。我們必須變「法師」,靠領(lǐng)先的技術(shù)方法論和頂層規(guī)劃去制造局部?jī)?yōu)勢(shì),這才是第二名趕超第一名的唯一路徑。

張鵬:所以社區(qū)科學(xué)線的存在,其實(shí)就是快手在算法領(lǐng)域保持「法師」屬性的核心?

蓋坤:我一直致力于算法層面的原創(chuàng)創(chuàng)新。在社科線,我們將搜、推、廣與大模型結(jié)合,這種在方法論層面的文明和底蘊(yùn),讓我們?cè)诿鎸?duì)第一名的肌肉競(jìng)爭(zhēng)時(shí),能守住那塊屬于自己的陣地?伸`的誕生,就是這種「頂層牽引」和「Vision 驅(qū)動(dòng)」在視頻生成領(lǐng)域的具象化爆發(fā)。

張鵬:聽說(shuō)這個(gè)房間(1405 辦公室)對(duì)你們意義非凡?

蓋坤:是的?伸`所有重大的轉(zhuǎn)折點(diǎn)決策都是在這個(gè)房間里做的。

一個(gè)是 2023 年底決定啟動(dòng)視頻生成方向;另一個(gè)是 2024 年春節(jié)后,決定全線放棄其他方案,All-in DiT 架構(gòu),并拍板要做全球第一個(gè)可用產(chǎn)品。這些決策不僅需要技術(shù)判斷,更需要一種能量。

張鵬:這也是中國(guó)企業(yè)最精彩的地方:不是單純的彎道超車,而是看準(zhǔn)時(shí)機(jī)后的「直線加速」。

張鵬:今天聊得非常暢快。過(guò)去大家看可靈,往往看的是參數(shù)和樣片,我這次來(lái)就是想還原背后的那些「底層代碼」——是什么在驅(qū)動(dòng)你們?

蓋坤:快手是個(gè)實(shí)在的公司,可靈的每一步都是實(shí)實(shí)在在走出來(lái)的。在這個(gè)時(shí)代,大家遺忘得很快,只有把產(chǎn)品做到極致,不斷翻越一座座山丘,才能真正抵達(dá)彼岸。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
NBA第一!約基奇賽季砍下34次三雙,他能打破單季三雙紀(jì)錄嗎?

NBA第一!約基奇賽季砍下34次三雙,他能打破單季三雙紀(jì)錄嗎?

林子說(shuō)事
2026-04-09 18:14:40
曝樊振東放棄世乒賽另有隱情!向鵬0-3一輪游,國(guó)乒想換人來(lái)不及

曝樊振東放棄世乒賽另有隱情!向鵬0-3一輪游,國(guó)乒想換人來(lái)不及

侃球熊弟
2026-04-09 19:36:39
歐洲下達(dá)“逐客令”,C919下調(diào)15米標(biāo)準(zhǔn)破局!西方壟斷要破了

歐洲下達(dá)“逐客令”,C919下調(diào)15米標(biāo)準(zhǔn)破局!西方壟斷要破了

標(biāo)體
2026-04-09 11:07:07
有趣的醫(yī)學(xué)案例:直腸射精!

有趣的醫(yī)學(xué)案例:直腸射精!

黯泉
2026-04-07 21:58:25
涉共有物分割糾紛,廣州匯悅臺(tái)三百平豪宅以六千多萬(wàn)掛網(wǎng)法拍

涉共有物分割糾紛,廣州匯悅臺(tái)三百平豪宅以六千多萬(wàn)掛網(wǎng)法拍

南方都市報(bào)
2026-04-09 18:09:04
地鐵員工大量辭職,直言不僅是因?yàn)楣べY低,3大原因太現(xiàn)實(shí)

地鐵員工大量辭職,直言不僅是因?yàn)楣べY低,3大原因太現(xiàn)實(shí)

李橑在北漂
2026-04-09 14:02:36
安徽省委:堅(jiān)決擁護(hù)黨中央決定

安徽省委:堅(jiān)決擁護(hù)黨中央決定

農(nóng)民日?qǐng)?bào)
2026-04-09 16:43:59
鄭麗文在大陸第三天又換裝!一身撞色穿搭知性又干練,還對(duì)鏡比OK

鄭麗文在大陸第三天又換裝!一身撞色穿搭知性又干練,還對(duì)鏡比OK

八八尚語(yǔ)
2026-04-09 11:07:18
美國(guó)表態(tài)后,國(guó)民黨集體變臉!鄭麗文訪陸,戳穿島內(nèi)政客真面目?

美國(guó)表態(tài)后,國(guó)民黨集體變臉!鄭麗文訪陸,戳穿島內(nèi)政客真面目?

青梅侃史啊
2026-04-09 15:07:33
雷霆統(tǒng)治力:連續(xù)兩季奪常規(guī)賽冠軍 亞歷山大連140場(chǎng)20+沖2連冠

雷霆統(tǒng)治力:連續(xù)兩季奪常規(guī)賽冠軍 亞歷山大連140場(chǎng)20+沖2連冠

醉臥浮生
2026-04-09 12:27:50
比被新能源車淘汰更可怕的是:油車車主,或?qū)⒚媾R這3個(gè)難題

比被新能源車淘汰更可怕的是:油車車主,或?qū)⒚媾R這3個(gè)難題

小熊侃史
2026-04-08 09:53:12
建國(guó)后粟裕為何仕途不順?陳賡:沒辦法,不受歡迎的2種人他都占

建國(guó)后粟裕為何仕途不順?陳賡:沒辦法,不受歡迎的2種人他都占

興趣知識(shí)
2026-04-09 15:27:48
凈利潤(rùn)暴跌19%!十萬(wàn)員工失業(yè)震驚全網(wǎng),電車一哥到底怎么了?

凈利潤(rùn)暴跌19%!十萬(wàn)員工失業(yè)震驚全網(wǎng),電車一哥到底怎么了?

墨史軒
2026-04-08 14:38:11
茅臺(tái)提價(jià),市場(chǎng)不認(rèn)

茅臺(tái)提價(jià),市場(chǎng)不認(rèn)

快馬財(cái)媒
2026-04-09 08:11:49
時(shí)隔幾天!松島輝空正式表態(tài),回應(yīng)世界杯爭(zhēng)議一幕

時(shí)隔幾天!松島輝空正式表態(tài),回應(yīng)世界杯爭(zhēng)議一幕

林子說(shuō)事
2026-04-09 17:55:00
中國(guó)女首富陳麗華去世,1288萬(wàn)賓利送遲重瑞,自己坐奔馳和保姆車

中國(guó)女首富陳麗華去世,1288萬(wàn)賓利送遲重瑞,自己坐奔馳和保姆車

云淡風(fēng)輕16
2026-04-09 18:15:00
高圓圓的腳是我見過(guò)最漂亮的腳丫子。

高圓圓的腳是我見過(guò)最漂亮的腳丫子。

別人都叫我阿螫
2026-04-09 17:29:15
2026村干部離任補(bǔ)助新規(guī)實(shí)施,村支書干滿10年,每月能領(lǐng)多少錢?

2026村干部離任補(bǔ)助新規(guī)實(shí)施,村支書干滿10年,每月能領(lǐng)多少錢?

復(fù)轉(zhuǎn)這些年
2026-04-08 12:30:17
霸凌全紅嬋群已解散,多個(gè)知名人士名單曝光,全是隊(duì)友和朋友!

霸凌全紅嬋群已解散,多個(gè)知名人士名單曝光,全是隊(duì)友和朋友!

眼光很亮
2026-04-08 12:25:48
三位唐僧現(xiàn)狀:一位已是大學(xué)教授,一位已是富豪,只有他混的最慘

三位唐僧現(xiàn)狀:一位已是大學(xué)教授,一位已是富豪,只有他混的最慘

青橘罐頭
2026-04-08 17:11:46
2026-04-09 21:24:49
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
131986文章數(shù) 862080關(guān)注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

白宮打擊伊朗決策內(nèi)幕披露:魯比奧曾直言以計(jì)劃亂扯

頭條要聞

白宮打擊伊朗決策內(nèi)幕披露:魯比奧曾直言以計(jì)劃亂扯

體育要聞

8萬(wàn)人面前心臟驟停 現(xiàn)在他還站在球場(chǎng)上

娛樂(lè)要聞

金莎官宣結(jié)婚 與老公孫丞瀟相差18歲

財(cái)經(jīng)要聞

;鹗兹眨魻柲酒潈H有4艘船通過(guò)

汽車要聞

文飛掌舵,給神行者帶來(lái)了什么?

態(tài)度原創(chuàng)

本地
親子
健康
公開課
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

親子要聞

芬蘭兩歲娃被幼兒園“窮人床”卡死,好條件都在監(jiān)獄里?

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

黎真主黨發(fā)射火箭彈 回應(yīng)以違反停火協(xié)議

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版