網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

頂級視頻模型半衰期只有 30 天，但生成式媒體 infra 公司的收入?yún)s在一年增長了 60 倍

2026-01-16 20:47:00　來源: FounderPark

北京舉報

分享至

「在生成式媒體領(lǐng)域，算力將比數(shù)據(jù)先耗盡。」

算力成本有多夸張？

如果將一個頂尖的 LLM 處理單個 Prompt（約 200 Token）所需的算力定義為 1 個單位。
那么，生成一張高質(zhì)量圖像所需的算力大約是其 100 倍。
再進一步，生成一個 5 秒鐘、24fps（每秒 24 幀）的標(biāo)準(zhǔn)清晰度視頻（包含約 120 幀），算力需求又是生成圖像的 100 倍
如果目標(biāo)是生成 4K 超高清分辨率的視頻，算力需求還要在這個基礎(chǔ)上再驚人地增加 10 倍。

可以說，算力受限，是視頻生成模型當(dāng)下最典型的難題。

fal.ai，是在這個背景下跑出來的一家生成式媒體 infra 公司。通過一套統(tǒng)一、低延遲的 API 和云端推理平臺，讓開發(fā)者和企業(yè)，能高性能調(diào)用圖像、視頻、音頻等多模態(tài)生成模型。

平臺上托管了數(shù)百個先進模型，包括 DeepMind（Veo）、Kling、MiniMax 還有 OpenAI（Sora）。提供的價值很直接：客戶不用自己搞 GPU 基礎(chǔ)設(shè)施，不用運維，就能快速部署復(fù)雜模型。

在商業(yè)層面，fal.ai 在 2025 年直接起飛了。截至 2025 年 7 月，fal.ai過去 12 個月的收入增長 60 倍。2025 年 7 月至 12 月期間，公司估值翻了三倍；去年 12 月，搞定 1.4 億美元 D 輪融資，估值干到 45 億美元。

為什么是 fal.ai？

這篇文章，重點解析了 fal.ai 如何通過架構(gòu)設(shè)計、性能優(yōu)化以及生態(tài)協(xié)作，在生成式媒體的大趨勢下快速抓住機會、然后建立起自己的護城河。

??關(guān)注 Founder Park，最及時最干貨的創(chuàng)業(yè)分享

超 19000 人的「AI 產(chǎn)品市集」社群！不錯過每一款有價值的 AI 應(yīng)用。

邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者，飛書掃碼加群：

進群后，你有機會得到：

最新、最值得關(guān)注的 AI 新品資訊；
不定期贈送熱門新品的邀請碼、會員碼；
最精準(zhǔn)的AI產(chǎn)品曝光渠道

01fal 為什么早早押注生成式視頻？

fal 是一家為開發(fā)者和企業(yè)提供高性能的 AI 生成媒體平臺的 infra 公司，通過 API 和云端加速引擎讓圖像、視頻、音頻等 AI 模型能快速推理和部署。2025 年 12 月，fal 完成了 1.4 億美元 D 輪融資，由紅杉資本領(lǐng)投，凱鵬華盈、英偉達等跟投，公司估值達到 45 億美元。

fal 成立于 2021 年，當(dāng)時 DALL-E 2、ChatGPT 和 Llama 等模型相繼問世，但市場對于 LLMs 過度關(guān)注，AGI 的宏大敘事吸引了絕大多數(shù)的資金與頂尖人才。相比之下，圖像與視頻生成在當(dāng)時被視為一個被忽視的市場，大家普遍認為缺乏清晰的行業(yè)用例，更像是一個僅僅用于娛樂的「玩具級應(yīng)用」。

然而，fal 團隊在早期就敏銳地觀察到雖然圖像與視頻生成在當(dāng)時還是一個相對小眾的市場，但客戶的增長速度極快。因此團隊并沒有選擇隨大流去追逐 LLM 的熱潮，而是選擇在這個當(dāng)時看似邊緣的領(lǐng)域加倍下注，甚至在 Sora 發(fā)布前的兩三個月，就已經(jīng)將公司定位明確調(diào)整為「Generative Media Platform」。這種差異化的押注，使得 fal 在視頻模型爆發(fā)前夕便已完成了在 infra 領(lǐng)域的生態(tài)卡位。

fal 對生成式視頻這么有信心的原因其實是基于一個非常底層的邏輯：視頻占據(jù)了互聯(lián)網(wǎng) 80% 以上的帶寬，那么在生成端，Generative Video 的市場規(guī)模理應(yīng)與 LLM 相當(dāng)，甚至更為龐大。盡管當(dāng)時專注于解決這一問題的公司寥寥無幾，但 fal 堅信這不僅僅是帶寬的消耗，更是人類信息消費習(xí)慣的直接映射。

fal 進一步引用了 Andrej Karpathy 的觀點來支撐自身對視頻價值的深層理解：人類本質(zhì)上是視覺動物，相比于閱讀「文字墻」（Wall of Text），視頻是一種信息壓縮率更高、更符合人類直覺的媒介。

Andrej Karpathy 的觀點

比如在教育場景中，視頻的這種優(yōu)勢尤為明顯：一個復(fù)雜的概念，如果用文字描述可能需要 10000 個字符，但通過視頻往往只需要 15 秒就能更清晰地傳達。fal 認為，目前教育市場在視頻生成領(lǐng)域幾乎仍處于未被觸及的狀態(tài)的限制僅僅在于模型的質(zhì)量尚未完全達標(biāo)，一旦 infra 能夠支持更高質(zhì)量、更可控的視頻生成，視頻將在娛樂之外釋放出巨大的生產(chǎn)力價值，徹底改變?nèi)藗儷@取信息和學(xué)習(xí)的方式。

02技術(shù)壁壘：

fal 從「算力受限」入手，加速視頻生成

fal 團隊認為視頻模型與 LLM 在底層計算特征上存在本質(zhì)區(qū)別。對于自回歸的 LLMs 而言，性能瓶頸通常是內(nèi)存帶寬受限，這是因為在預(yù)測下一個 Token 時，系統(tǒng)需要將巨大的模型權(quán)重（例如 6000 億參數(shù)）從顯存搬運到 SRAM 中進行計算，速度往往受限于搬運的效率而非計算本身。

相比之下，視頻生成模型則是典型的「算力受限」場景。視頻模型需要在成千上萬個 Token 上同時進行去噪和注意力計算。例如，一個視頻可能包含 10 萬個 Token，生成過程需要執(zhí)行 50 次去噪步驟，每一步都要對所有 Token 進行注意力運算。這導(dǎo)致 GPU 的計算帶寬被完全填滿，系統(tǒng)不再僅僅等待內(nèi)存?zhèn)鬏?，而是被純粹的運算量所卡住。

為了量化這種差異，fal 給出了具體的算力對比數(shù)據(jù)：

?如果將一個 SOTA 級別的 LLM 處理單個 Prompt（約 200 Token）所需的算力定義為「1 個單位」，那么生成一張圖像的算力大約是其 100 倍。

?進一步推算，生成一個 5 秒鐘、24fps 的標(biāo)準(zhǔn)清晰度視頻（包含約 120 幀），那么算力需求是圖像的 100 倍，是 LLM 處理單一 prompt 的 10000 倍。

?如果要生成 4K 分辨率的視頻，算力需求還要再增加 10 倍。

這種指數(shù)級的算力需求差異，解釋了為何通用的大模型推理架構(gòu)難以直接高效地服務(wù)于視頻生成，也突顯了針對 Compute Bound 場景進行深度優(yōu)化的必要性。

因此，fal 組建了一支專注于極致性能的編譯器團隊，這支約占公司 10% 人力的精銳力量將全部精力投入到了 Kernels 的編寫與優(yōu)化中。值得一提的是，fal 的工程負責(zé)人 Batuhan 從 14 歲便開始編寫編譯器，曾是 Python 語言核心編譯器和解釋器的核心維護者，也是當(dāng)時最年輕的維護者之一。

面對不斷涌現(xiàn)的各類視頻模型架構(gòu)，fal 并沒有選擇針對單一模型進行孤立優(yōu)化，以免在模型迭代后前功盡棄，而是選擇構(gòu)建了一個核心的 Tracing Compiler（追蹤編譯器）。這個編譯器能夠追蹤模型的實際執(zhí)行過程，智能地識別出執(zhí)行路徑中的通用模式，從而為后續(xù)的性能加速奠定基礎(chǔ)。

在具體執(zhí)行策略上，fal 采用了一種基于 Templated Kernels（模板化內(nèi)核）的動態(tài)替換方案。通過編譯器在運行時（Runtime）的追蹤，系統(tǒng)能夠?qū)⒆R別出的通用計算模式替換為高度特化的專用 Kernels，從而顯著提升在異構(gòu)硬件上的執(zhí)行效率。這種在 Kernel 層面進行的數(shù)學(xué)上精確且合理的抽象，使得 fal 不僅能追求極致速度，還能確保模型輸出質(zhì)量的穩(wěn)定性，這在對畫質(zhì)要求極高的媒體行業(yè)至關(guān)重要。

憑借這種專注，fal 的推理引擎通常能領(lǐng)先 PyTorch 等通用框架 3 到 6 個月的時間，當(dāng)通用框架追趕上 fal 一年前的性能水平時，fal 已經(jīng)完成了下一輪的優(yōu)化迭代。

此外，fal 正在將自身的底層優(yōu)勢從離線生成快速擴展至 Real-time Media 領(lǐng)域。隨著視頻生成向 24fps 的實時流式傳輸演進，用戶希望在輸入 Prompt 的同時即刻獲得視覺反饋。fal 早在一年前優(yōu)化 Speech-to-speech 模型時就積累了大量低延遲經(jīng)驗，包括如何在全球分布式 GPU 集群中將請求路由至最近的節(jié)點，以及如何最小化系統(tǒng)自身的開銷。現(xiàn)在，fal 正將這些針對亞秒級延遲的系統(tǒng)級優(yōu)化技術(shù)移植到實時視頻生成中，來解決當(dāng)生成時間壓縮至毫秒級時所面臨的 infra 挑戰(zhàn)。

03成本優(yōu)勢：

fal 如何管理算力成本？

與傳統(tǒng)依賴單一云廠商的模式不同，fal 管理著分布在約 35 個不同數(shù)據(jù)中心的計算資源。這些資源構(gòu)成了高度異構(gòu)的計算組，每個數(shù)據(jù)中心可能擁有完全不同的硬件規(guī)格和網(wǎng)絡(luò)環(huán)境。因此 fal 面臨的一個挑戰(zhàn)就在于，如何將這些物理上分散、規(guī)格上參差不齊的硬件資源，在邏輯上整合成一個統(tǒng)一的集群來調(diào)度，使運作效率能夠達到仿佛是來自單一 Hyperscaler 的同構(gòu)集群那樣的水平。

為了駕馭這種復(fù)雜的異構(gòu)環(huán)境，fal 團隊花費了三年時間構(gòu)建了從 Orchestrator（編排器）到自研 CDN 服務(wù)的一整套軟件系統(tǒng)。fal 將自身構(gòu)建的 infra 網(wǎng)絡(luò)定義為 Distributed Super Computing（分布式超級計算）。

這套 infra 具備高度的智能化調(diào)度能力，核心邏輯之一是基于 Warm Cache 狀態(tài)進行路由：系統(tǒng)能夠識別哪些 GPU 已經(jīng)加載了特定的模型權(quán)重，并將請求精準(zhǔn)分發(fā)給這些「熱」節(jié)點，從而避免了重復(fù)加載模型的巨大開銷。

Warm Cache 狀態(tài)是指緩存已經(jīng)被預(yù)先加載了有用的數(shù)據(jù)，因此在后續(xù)訪問中更有可能直接命中緩存、提高響應(yīng)速度，而不是每次都去源數(shù)據(jù)獲取。

這套 infra 還能根據(jù)模型需求智能選擇最匹配的芯片類型，高效管理模型的加載與卸載，并根據(jù)實時變化的客戶流量動態(tài)調(diào)整資源。這種技術(shù)讓 fal 能夠在任何有算力的地方挖掘產(chǎn)能，從而支持大規(guī)模的生成式媒體工作負載。

此外，fal 在 infra 的選型上還采取了明確的差異化策略，戰(zhàn)略性地避開了傳統(tǒng)的 Hyperscalers，轉(zhuǎn)而深度利用 Neo-clouds（新興云廠商）。

團隊觀察到，在當(dāng)前的 GPU 算力市場中，即便是 Hyperscalers 也并不總是擁有絕對的規(guī)模優(yōu)勢，甚至像 Microsoft 這樣的大廠也在從 Neo-clouds 購買算力。相比于受到公開市場壓力、必須維持既定云利潤率的上市巨頭，成立僅三年的私有 Neo-clouds 公司面臨的利潤壓力較小，這為 fal 提供了更具彈性的合作空間。

這種策略也帶來了顯著的成本優(yōu)勢。fal 指出，Hyperscalers 與 Neo-clouds 之間存在巨大的價格差異，使用 Hyperscalers 的成本有時可能比 Neo-clouds 高出 2 倍甚至 3 倍。造成這種差異的原因在于，Hyperscalers 擁有更高的運營開支（比如有更嚴(yán)格的 SLAs 和正常運行時間保障），且在供不應(yīng)求的市場環(huán)境下，它們傾向于維持高價以獲取更好的收益。相反，Neo-clouds 處于完全競爭的市場環(huán)境中，為了爭奪海量的市場需求，它們傾向于通過價格競爭來填補產(chǎn)能。fal 通過這種套利策略，成功在 GPU 資源緊缺的環(huán)境下獲得了極具競爭力的算力成本。

04生態(tài)卡位：

fal 是連接開發(fā)者與多家模型的單一接口

fal 是連接多個模型供應(yīng)商的單一樞紐

fal 團隊在 25 年 Q2 和 Q3 觀察到一個極其顯著的數(shù)據(jù)指標(biāo)：一個頂級視頻模型的「半衰期」（Half-life）僅為 30 天。這意味著視頻生成領(lǐng)域的競爭格局極度不穩(wěn)定，市場上的 Top 5 模型 list 始終處于持續(xù)不斷的變動之中：來自不同實驗室的新模型發(fā)布層出不窮，不斷地取代舊模型的領(lǐng)先地位。這種極快的折舊速度導(dǎo)致目前的模型格局仍處于一種動蕩狀態(tài)。

在這種環(huán)境下，開發(fā)者面臨著巨大的風(fēng)險：如果將所有雞蛋放在一個籃子里，也就是針對單一模型去進行優(yōu)化或綁定，那么一旦下一個更強的模型出現(xiàn)，之前的投入就會瞬間失效。目前 fal 平臺同時運行著超過 600 個生成式媒體模型。對于開發(fā)者而言，fal 成為了一個連接多方模型供應(yīng)商的單一樞紐。

這讓開發(fā)者可以不再受制于任何單一模型，因為在實際應(yīng)用中，人們通常需要在同一時間使用多種不同的模型，以應(yīng)對極短的技術(shù)生命周期。fal 通過這種方式積累了龐大的開發(fā)者基礎(chǔ)。

fal 團隊還回顧了三年前行業(yè)的一個普遍誤判：當(dāng)時人們普遍預(yù)測會出現(xiàn)「全能模型」（Omni Models），即一個巨大的單體模型能夠同時完美處理視頻、音頻、圖像、代碼和文本等所有模態(tài)。

然而現(xiàn)實證明，針對特定輸出類型進行優(yōu)化往往能獲得更好的效果。技術(shù)優(yōu)勢往往建立在對特定模態(tài)的極致打磨上，例如最好的超分模型通常只專注于超分任務(wù)，即便是在圖像生成領(lǐng)域，最好的文生圖模型與圖生圖編輯模型也往往不同。

超分任務(wù)指的是一種計算機視覺/圖像處理任務(wù)，目標(biāo)是從低分辨率（低清晰度）的圖像或視頻輸入中生成一個更高分辨率、更清晰的輸出。

這種專業(yè)化的需求導(dǎo)致了模型生態(tài)的極度豐富，即使是同一架構(gòu)家族的模型，也需要部署獨立的權(quán)重。因此，市場上并未出現(xiàn)贏家通吃的局面，而是呈現(xiàn)出顯著的長尾效應(yīng)：fal 平臺上任何時刻都有接近 50 個活躍模型被頻繁使用，此外還有大量因具備特定「人格」或特性而被開發(fā)者青睞的長尾模型。

盡管熱門模型一直在不斷更迭，但在客戶的實際使用中，fal 觀察到一種長期穩(wěn)定的「組合拳」模式：開發(fā)者通常會同時維護兩類模型。

1.偏于昂貴的大模型，如 Sora、Veo 或 Kling，這類模型代表了當(dāng)前視頻生成的最高質(zhì)量，用于產(chǎn)出最終的成品。

2.主力模型（Workhorse Models），它們雖然體量較小、成本更低，但效果足夠好，非常適合用于高頻次的生成任務(wù)或原型驗證。

這種高低搭配的策略，使得開發(fā)者能夠在控制成本的同時，靈活滿足不同業(yè)務(wù)環(huán)節(jié)對質(zhì)量和速度的差異化需求。

fal 是連接實驗室與開發(fā)者的分發(fā)樞紐

目前 fal 已經(jīng)不僅僅是一個 infra 提供商，更演變成了模型實驗室的關(guān)鍵分發(fā)渠道。通過過去兩年建立的強大營銷機器和開發(fā)者社區(qū)，fal 積累了大量忠實的開發(fā)者用戶，這對于急需落地場景的模型實驗室構(gòu)成了巨大的吸引力。因此，包括 DeepMind（Veo）、Kling、MiniMax 以及 OpenAI（Sora）在內(nèi)的頂級廠商，都選擇 fal 作為合作伙伴。

這種合作關(guān)系往往通過聯(lián)合營銷（Co-marketing）的形式展開，作為交換，fal 經(jīng)常能獲得新模型的獨家首發(fā)權(quán)（Exclusive Release Access）或長期獨家合作。模型廠商希望接觸最大的開發(fā)者平臺，而 fal 借此吸引更多開發(fā)者，形成了一個正向增強的飛輪效應(yīng)，鞏固了自身作為行業(yè)首選分發(fā)平臺的地位。

05用戶是怎么使用生成式模型的？

fal 團隊通過分析平臺數(shù)據(jù)發(fā)現(xiàn)，在 fal 的前 100 名客戶中，平均每個客戶在同一時間會使用 14 個不同的模型。

進一步，團隊觀察到，目前開發(fā)者和創(chuàng)作者在平臺上并非簡單地輸入一段文本就直接生成一部 5 分鐘的商業(yè)廣告。相反，為了獲得更高的可控性，他們正在無意中復(fù)刻傳統(tǒng)動畫巨頭（如 Pixar）早已成熟的制作流程：

1.在前期制作階段，創(chuàng)作者會先使用 Text-to-Image 模型來反復(fù)迭代，直到確定理想的視覺美學(xué)和風(fēng)格，并據(jù)此生成一系列靜態(tài)圖像來構(gòu)建 Storyboard（故事板）。

2.在確定了關(guān)鍵幀和視覺基調(diào)后，流程才會進入制作階段。此時，視頻模型介入，負責(zé)在這些靜態(tài)圖像之間進行 Interpolation（插值），將故事板串聯(lián)成動態(tài)的視頻。

這種將「前期構(gòu)思」與「后期生成」拆解開來的做法，最初在傳統(tǒng)行業(yè)是出于成本考量，但在 AI 時代，它更多是為了速度和精確控制。這使得創(chuàng)作者能夠像操作 Photoshop 圖層一樣，對每一個環(huán)節(jié)進行精細調(diào)整，而不是單純依賴模型的隨機生成。

這種模塊化的工作流為 AI 時代的媒體制作帶來了極大的靈活性。fal 提到，AI 讓工作流變得非常有趣，一旦所有的節(jié)點都鋪設(shè)完畢，那么，當(dāng)一個新的、更強的 Text-to-Image 模型發(fā)布時，創(chuàng)作者只需「按下一個按鈕」，整個流水線就可以基于新模型自動重新運行，生成全新的視覺組合。

盡管這種「牽一發(fā)而動全身」的重跑成本可能很高（例如更新一個環(huán)節(jié)導(dǎo)致重跑整個流程花費 1000 美元），但對于追求極致效果的專業(yè)工作室或創(chuàng)作者而言，這種能夠精確控制并隨意替換組件的能力是無價的。這也解釋了為什么專業(yè)工作室更傾向于使用開源模型，因為只有開源生態(tài)允許他們深入控制每一個切片，添加自定義的 Adapters 或調(diào)整權(quán)重，從而將 AI 的生成能力完全馴化為自己工作流的一部分。

為了降低這種復(fù)雜工作流的構(gòu)建門檻，fal 與 Shopify 合作開發(fā)了一個 No-code workflow builder（無代碼工作流構(gòu)建器）。這個工具對于非技術(shù)人員，比如 Shopify 的產(chǎn)品經(jīng)理和市場團隊，非常友好，他們可以利用該工具來快速測試不同的創(chuàng)意，或者橫向比較不同模型的輸出效果。盡管探索過程往往始于可視化的無代碼界面，但這些經(jīng)過驗證的流程最終都會通過 API 沉淀下來，被正式集成到軟件產(chǎn)品中。隨著越來越多的傳統(tǒng)軟件工程組織開始對圖像和視頻模型產(chǎn)生興趣，這種從原型探索到工程化落地的多模型調(diào)用模式正在快速普及。

Use Case

?教育：動態(tài)生成的個性化學(xué)習(xí)體驗

fal 團隊在訪談中強調(diào)，教育市場目前幾乎是一片藍海，擁有巨大的未開發(fā)潛力。其中一個極具創(chuàng)新性的案例是 Adaptive Security。這家公司正在 fal 平臺上構(gòu)建一種全新的培訓(xùn)模式：傳統(tǒng)的安全培訓(xùn)通常使用固定的腳本和錄像，但 Adaptive Security 能夠根據(jù)受訓(xùn)者的具體情況，「即時（on the fly）」生成動態(tài)的培訓(xùn)視頻。這種高度個性化的內(nèi)容生成方式，解決了傳統(tǒng)教育內(nèi)容千篇一律的痛點。

Adaptive Security 是一家由 Brian Long 和 Andrew Jones 于 2024 年創(chuàng)立的 AI 網(wǎng)絡(luò)安全公司，專注于通過先進的 AI 技術(shù)提供下一代安全意識培訓(xùn)、AI 攻擊模擬和實時風(fēng)險分析，幫助組織防御如深偽（deepfake）、生成式釣魚、語音/短信詐騙等復(fù)雜的社會工程類網(wǎng)絡(luò)威脅。

此外，fal 還提到了 AI Native Studios 的興起，例如一款名為 Faith 的圣經(jīng)應(yīng)用程序，它利用 AI 制作高質(zhì)量的圣經(jīng)故事視頻，在 App Store 上獲得了極高的排名，這也證明了 AI 原生內(nèi)容在垂直教育領(lǐng)域的吸引力。

?游戲：Text-to-Game 將是 Text-to-Video 的自然延續(xù)

對于游戲領(lǐng)域，fal 提出了一個觀點：Text-to-Game（文生游戲）將是 Text-to-Video（文生視頻）的自然延續(xù)。如果說視頻是靜態(tài)的視覺流，那么游戲就是可交互的視頻。fal 預(yù)測，隨著模型能力的提升，未來將出現(xiàn)一種全新的游戲形態(tài)：「一次性」的超休閑游戲（Disposable Hyper-casual Games）。用戶可能只需要輸入一個指令，模型就能生成一個只能玩一次、玩完即棄的微型游戲。雖然目前 3A 級大作的生成還需要 3-4 年的時間，但這種基于 World Models 的輕量級游戲體驗已經(jīng)不再遙遠，并將徹底改變大眾對游戲分發(fā)和消費的認知。

?AI 原生 IP：無主 IP 的商業(yè)化奇跡

在 IP 商業(yè)化方面，fal 觀察到一個有趣的現(xiàn)象：雖然好萊塢擁有的經(jīng)典 IP 價值巨大，但完全由 AI 生成的無主 IP 也在通過另一種路徑崛起，特別提到了是 Italian Brainrot，這些角色最初沒有任何版權(quán)歸屬，完全是由互聯(lián)網(wǎng)社區(qū)利用 AI 工具生成的。由于內(nèi)容生成的成本極低，社區(qū)可以生成無數(shù)種排列組合，最終那些能夠捕捉大眾情緒的形象會脫穎而出。

這些 AI 原生角色不僅在社交媒體上爆火，甚至還被開發(fā)成了 Roblox 游戲，甚至肯可能產(chǎn)生了可觀的收入。這證明了在生成式媒體時代，廉價的生成能力結(jié)合社區(qū)篩選機制，完全有能力創(chuàng)造出具有商業(yè)價值的新一代 IP。

Italian Brainrot 是 2025 年在社交媒體上瘋傳的一種網(wǎng)絡(luò)迷因（meme）現(xiàn)象，通常由 AI 生成的荒誕圖像或短視頻組成，內(nèi)容是各種奇怪的動物或物體混合體配上偽意大利風(fēng)格的名字和夸張的「意大利語」旁白，以荒誕、無意義、過度刺激的風(fēng)格吸引觀眾。

在談及如何避免 AI 生成的內(nèi)容淪為廉價的垃圾內(nèi)容時，fal 以 Meta 發(fā)布的 Vibes 和 OpenAI 的 Sora 做對比：Meta 發(fā)布的 Vibes 讓人感覺像是一臺缺乏情感連接的老虎機（Slot machine），用戶玩了幾次之后就可能放棄了；而 OpenAI 的 Sora 將重點放在了朋友、寵物和人際連接上，因此技術(shù)只是基底，能夠建立情感共鳴的內(nèi)容才是區(qū)別于「無限垃圾內(nèi)容」的關(guān)鍵。

06fal 對生成式媒體未來發(fā)展的三個判斷

視頻模型的架構(gòu)瓶頸在于壓縮率

fal 團隊明確指出，如果想要將視頻模型規(guī)模擴展 10 倍甚至 100 倍，現(xiàn)有的模型架構(gòu)在 Inference Efficiency 上已經(jīng)有了一個巨大的瓶頸。單純的工程化擴展已不足以解決問題，底層架構(gòu)必須發(fā)生改變。

fal 以圖像模型的發(fā)展史為例：早期的圖像生成需要在像素空間（Pixel Space）進行操作，效率極低；后來引入了 Latent Space（潛在空間）技術(shù)，成功將 64 個像素壓縮為一個像素，才實現(xiàn)了效率的質(zhì)的飛躍。同樣的邏輯現(xiàn)在必須應(yīng)用到視頻模型上，尤其是在時間維度的壓縮上。fal 指出，目前行業(yè)內(nèi)視頻模型在時間維度上的壓縮比率大約只有 4 倍，必須大幅提升壓縮率，才能從根本上驅(qū)動推理效率和訓(xùn)練效率的提升。

Latent Space（潛在空間）是機器學(xué)習(xí)（尤其是深度學(xué)習(xí)）中一種把復(fù)雜、高維數(shù)據(jù)壓縮成低維、抽象表示的空間，在這個空間里相似的數(shù)據(jù)點彼此更接近，從而幫助模型理解、生成和操控數(shù)據(jù)的核心特征。

這一點在追求 4K 實時視頻的目標(biāo)時顯得尤為緊迫。fal 的內(nèi)部測算顯示，要實現(xiàn) 4K 級別的實時生成，意味著需要在現(xiàn)有基礎(chǔ)上獲得 100 倍甚至更多的算力支持。面對如此巨大的算力缺口，僅僅指望硬件性能的自然增長是遠遠不夠的，硬件進步的速度無法在短時間內(nèi)填補這一鴻溝。因此，模型架構(gòu)必須變得更加高效。

在生成式媒體領(lǐng)域，算力將比數(shù)據(jù)先耗盡

fal 團隊認為生成式媒體領(lǐng)域之所以令人興奮，是因為仍有海量的探索空間。過去在數(shù)據(jù)處理上其實采取了最簡單可行的路徑：主要工作集中在對圖像進行標(biāo)注并訓(xùn)練模型進行視頻和圖像生成。然而，隨著行業(yè)向更高階的視頻與圖像編輯演進，創(chuàng)建高質(zhì)量數(shù)據(jù)集所需的 Data Engineering（數(shù)據(jù)工程）復(fù)雜度將大幅提升。

但與 LLM 領(lǐng)域普遍擔(dān)憂的數(shù)據(jù)枯竭不同，fal 認為，在生成式媒體領(lǐng)域，數(shù)據(jù)的供給端并不存在瓶頸，因為互聯(lián)網(wǎng)上擁有極度豐富且免費的視頻數(shù)據(jù)，因此 fal 給出了一個判斷：生成式媒體行業(yè)面臨的局面將是先耗盡算力，后耗盡數(shù)據(jù)（run out of compute before run out of video data）。

一年內(nèi)將涌現(xiàn)出電影級 AI 短片，而且動畫風(fēng)格會比寫實風(fēng)格更早爆發(fā)

fal 團隊對生成式媒體的發(fā)展速度給出了明確的預(yù)測：在不到一年的時間內(nèi)，市場將能看到完全由 AI 生成（無人類拍攝，但包含人類剪輯）的 Feature-grade short films（電影級短片），時長大約在 20 分鐘。fal 表示，目前的模型質(zhì)量結(jié)合成熟的 Storyboarding（故事板）工作流，技術(shù)基礎(chǔ)已經(jīng)具備。只要投入足夠的時間制作，這種級別的作品很快就會問世。

盡管目前行業(yè)內(nèi)絕大多數(shù)的目光都聚焦在 Photorealistic（照片級寫實）風(fēng)格上，但 fal 團隊認為，Animation（動畫）、Anime（動漫）或 Cartoon（卡通）風(fēng)格將比寫實風(fēng)格更早迎來爆發(fā)。這背后的商業(yè)邏輯在于，在傳統(tǒng)影視制作中，拍攝寫實畫面本身其實是相對便宜且容易實現(xiàn)的，真正昂貴的是制作非寫實的動畫內(nèi)容。AI 的介入大幅降低了昂貴的動畫制作成本，這比降低本就廉價的實拍成本更具顛覆性。

以 Midjourney 為例，Midjourney 已經(jīng)從最初追求照片級寫實（Photorealism）轉(zhuǎn)向了獨特的藝術(shù)風(fēng)格化（Artsy/Niche），這正是因為他們意識到，隨著技術(shù)進步，單純的寫實能力將不再稀缺且容易被商品化，而獨特的審美和風(fēng)格才是真正的護城河。

從觀眾接受度和技術(shù)實現(xiàn)難度來看，動畫風(fēng)格也具有天然優(yōu)勢。fal 指出，觀眾喜愛《玩具總動員》、《馴龍高手》或《史萊克》等經(jīng)典作品的背后原因其實在于動畫片的 Storytelling 的能力，而不是畫面是否有逼真的風(fēng)格。此外，寫實風(fēng)格對人物面部表情的要求非常高，目前 AI 仍難以完美處理，容易顯得面部表情不自然；相比之下，動畫風(fēng)格對表情的精確度更為寬容，不需要追求極致的仿真，這使得它能更快地被用于故事講述。因此，AI 很有可能像當(dāng)年計算機動畫改變電影業(yè)一樣，率先在非寫實領(lǐng)域創(chuàng)造出全新的敘事媒介。

但這并不意味著寫實風(fēng)格毫無進展。fal 表示，在視覺特效（VFX）領(lǐng)域，像爆炸或建筑倒塌這類純物理現(xiàn)象的生成，AI 其實已經(jīng)做得非常完美了。

轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.