你刷到的視頻是真的么？用物理規(guī)律拆穿Sora謊言

2025-11-05 16:27:02　來源: 機器之心Pro

北京舉報

分享至

作者張書海是華南理工大學博士四年級學生，主要研究方向為 AI 生成檢測、對抗防御、模型加速等，在人工智能國際頂級會議 NeurIPS、ICML、ICLR、CVPR 和 IJCAI、ICCV 以及領域權(quán)威期刊 IEEE TIP、TCSVT 和 Neural Networks 發(fā)表論文共 15 篇。

隨著生成式 AI（如 Sora）的發(fā)展，合成視頻幾乎可以以假亂真，帶來了深度偽造與虛假信息傳播的風險。現(xiàn)有檢測方法多依賴表層偽影或數(shù)據(jù)驅(qū)動學習，難以在高質(zhì)量生成視頻中保持較好的泛化能力。其根本原因在于，這些方法大都未能充分利用自然視頻所遵循的物理規(guī)律，挖掘自然視頻的更本質(zhì)的特征。

真實世界的視覺現(xiàn)象受物理過程支配，而生成模型難以完美遵循這些規(guī)律。因此，基于物理時空一致性的生成視頻檢測范式更具普適性和可解釋性。然而，高維時空物理規(guī)律通常由復雜偏微分方程刻畫，直接建模這些規(guī)律極具挑戰(zhàn)性，如何構(gòu)建有效的物理驅(qū)動的統(tǒng)計量，仍是核心難題。

本文介紹發(fā)表于 NeurIPS 2025 的文章《Physics-Driven Spatiotemporal Modeling for AI-Generated Video Detection》。

文章從第一性原理出發(fā)，提出了歸一化時空梯度（NSG）統(tǒng)計量，通過概率流守恒原理量化視頻空間概率梯度與時間密度變化的比值，揭示生成視頻中的物理不一致性；理論分析了生成視頻與真實視頻的NSG 分布差異，證明了生成視頻與真實視頻在該統(tǒng)計量的 MMD 距離大于真實視頻之間的距離；基于該統(tǒng)計量提出了通用的視頻檢測方法NSG-VD，該方法對自然視頻的分布進行建模，不依賴特定生成模型，對未知生成范式（如 Sora）和遷移場景具有較強的檢測效果。

論文鏈接： https://arxiv.org/abs/2510.08073v1
代碼鏈接： https://github.com/ZSHsh98/NSG-VD

實驗表明 NSG-VD 方法在 Recall 和 F1-score 指標分別超越已有最新方法 16.00% 和 10.75%。

研究背景：

AI 視頻檢測的困境

盡管生成式 AI 技術在視頻合成領域取得了突破性進展，但檢測領域的研究卻面臨著新的瓶頸。與圖像不同，視頻同時包含空間結(jié)構(gòu)與時間動態(tài)兩類復雜依賴關系，其真實演化過程往往受到多種物理約束（如運動連續(xù)性、能量守恒等）共同支配。要準確識別生成視頻，檢測模型不僅需要理解空間紋理的統(tǒng)計特征，還必須捕捉時間維度上連貫且可解釋的變化模式。

然而，現(xiàn)有大多數(shù)檢測方法仍主要聚焦于表層信號的不一致性，如局部光流異常或視覺紋理偽影。這些特征在早期生成模型中較為明顯，但在如今高質(zhì)量的視頻生成中已被顯著削弱。另一方面，依賴大規(guī)模標注數(shù)據(jù)的深度學習方法雖然在特定數(shù)據(jù)集上取得了優(yōu)異表現(xiàn)，卻難以泛化至未見過的生成范式，特別是在新興模型（如 Sora）出現(xiàn)后，檢測性能會急劇退化。

因此，當前 AI 視頻檢測的核心困境在于：如何超越表面特征層面的統(tǒng)計差異，從自然視頻的物理演化規(guī)律出發(fā)，構(gòu)建一種具有普適性性且對未知生成模型穩(wěn)健的檢測框架。

基于這一思考，作者提出一個關鍵問題：

如何從視頻本身的物理層面刻畫自然視頻的時空演化規(guī)律，從而揭示生成視頻中極其細微且潛在的物理異常？

事實上，真實世界中物體的運動遵循著明確的物理約束，例如一輛車從左向右行駛時，其像素的亮度與位置變化應當是連續(xù)且符合運動規(guī)律的。換言之，我們可將視頻的演化過程視為一種「概率流體」的時空流 —— 真實視頻中的動態(tài)如同穩(wěn)定、連續(xù)的流，而許多 AI 生成的視頻則可能在流上表現(xiàn)出斷裂、抖動或其他違反物理一致性的異常。

因此，作者將視頻的演化過程形式化為一種概率流的時空流動，并通過歸一化時空梯度（NSG）統(tǒng)計量來量化這種流的物理一致性。

物理一致性建模：

從概率流守恒到時空梯度

首先將視頻幀序列建模為高維空間中的概率分布演化過程。設 x 表示視頻幀在空間中的像素表示，t 表示時間，p (x,t) 為視頻在時刻 t 的概率密度函數(shù)。類比于流體力學中的質(zhì)量流動 [1]，定義概率流密度（probability flow density）：

其中 v (x,t) 表示概率流速度場，描述了概率密度在時空中的演化方向與速率。

概率質(zhì)量守恒要求系統(tǒng)滿足連續(xù)性方程（continuity equation）[2]，這是物理學中描述守恒量傳輸?shù)幕痉匠蹋?/p>

將 J (x,t) 代入上式，并對 logp (x,t) 應用鏈式法則，整理可得：

該式揭示了速度場 v (x,t) 如何同時編碼概率分布的時間演化與空間梯度。

歸一化時空梯度（NSG）統(tǒng)計量

式（5）表明，真實視頻會保持速度場與空間概率梯度對時間密度變化比值的乘積恒定?；诖耍x歸一化時空梯度（NSG）統(tǒng)計量：

從物理直覺上看，真實視頻的 NSG 呈現(xiàn)平滑連續(xù)的「流線」結(jié)構(gòu)，反映出自然運動的連貫性；而 AI 生成視頻在此過程中出現(xiàn)斷層、抖動等非物理現(xiàn)象，即違反了連續(xù)性方程。具體而言：

兩者結(jié)合后，NSG 為不同視頻場景提供了統(tǒng)一的一致性度量特征，可穩(wěn)健揭示生成視頻中的物理異常。

NSG 的計算近似

空間梯度估計：用擴散模型建模梯度特征

現(xiàn)代擴散模型（或更廣義的 score-based 模型）本質(zhì)上學習的是數(shù)據(jù)分布的 score 函數(shù) [5]：

即概率密度對輸入的梯度。這意味著，擴散模型實際上隱式捕獲了真實數(shù)據(jù)在高維空間中的概率流結(jié)構(gòu)。因此，可以用一個預訓練的 score 網(wǎng)絡 s_θ，來近似計算視頻幀的空間概率梯度：

式（8）實現(xiàn)了從生成模型到判別器的轉(zhuǎn)換，作者不再利用擴散模型生成視頻，而是讓它「感知」視頻幀是否符合自然分布的空間結(jié)構(gòu)。

時間導數(shù)估計：基于亮度不變假設

總的估計表達式

將上式與 score 估計結(jié)合，可得到 NSG 的可計算近似式：

該公式僅需一次 diffusion 模型前向計算（用于獲取 s_θ(x_t)）與幀間差分，即可在無需顯式光流估計或復雜運動分解的情況下，求得視頻的 NSG 分布。

NSG-VD：基于物理一致性的時空視頻檢測框架

在獲得 NSG 特征后，作者提出檢測算法NSG-VD。

核心思想：通過計算待測視頻與真實視頻參考集在 NSG 特征空間中的分布差異，利用最大均值差異（MMD）作為檢測指標，從而揭示生成視頻在物理一致性上的異常特征。

檢測流程

首先，構(gòu)建一組真實視頻參考集：

并為每個視頻 x 提取其在 T 幀上的 NSG 特征序列：

隨后，定義檢測函數(shù)：

其中 I (?) 為指示函數(shù)，τ 為判定閾值。根據(jù)函數(shù)輸出進行視頻真?zhèn)畏诸悾?/p>

為增強判別能力，作者采用可學習的深度核 [9] 并在訓練集數(shù)據(jù)上對其參數(shù)進行訓練。

理論保障

該定理表明，真實視頻和生成視頻的 NSG 特征距離上界與分布偏移程度 μ 有關。分布偏移越小，兩者特征距離上界越小；偏移越大，分離越明顯。這也意味著真實數(shù)據(jù)間的 NSG 特征的 MMD 比真實與生成數(shù)據(jù)間的更小，據(jù)此可用 NSG 特征區(qū)分真實和生成視頻。

實驗驗證：

跨生成模型與數(shù)據(jù)場景的性能分析

作者在大型基準 GenVideo 上進行了全面評估，包含 10 個不同的生成模型，涵蓋開源和閉源系統(tǒng)。實驗表明，NSG-VD 在多個標準評測中顯著優(yōu)于現(xiàn)有基線方法：

標準評測設置下的卓越性能

NSG-VD 在 Kinetics-400（真實視頻）與 Pika（生成視頻）的混合數(shù)據(jù)訓練后，展現(xiàn)出出色的泛化能力。在十類 AI 生成視頻上的平均檢測性能達到 Recall 88.02%、F1 90.87%，已全面超越此前的最佳方法 DeMamba。特別是在 Sora 等閉源生成模型檢測上，NSG-VD 取得了 78.57% 的 Recall，相比 DeMamba 的 48.21% 提升超過 30 個百分點，展現(xiàn)出顯著的性能優(yōu)勢。

數(shù)據(jù)不平衡場景下的魯棒性

在實際應用中，獲取大規(guī)模 AI 生成視頻的訓練數(shù)據(jù)往往具有較高成本與難度。為評估模型在更貼近真實場景下的表現(xiàn)，作者在訓練集僅包含 1,000 條 SEINE 的生成數(shù)據(jù)上進行了實驗。

結(jié)果表明，即使在僅使用 1,000 條 AI 生成視頻進行訓練的條件下，NSG-VD 仍展現(xiàn)出顯著的穩(wěn)健性與泛化能力：其在 Sora 上的召回率（Recall）高達 82.14%，遠超 DeMamba (33.93%) 與 NPR (10.71%) 等基線模型。這充分驗證了 NSG-VD 的高數(shù)據(jù)效率，其性能提升并非依賴于大規(guī)模訓練數(shù)據(jù)，而源于基于物理一致性的第一性原理建模的有效性。

消融研究：驗證物理建模的有效性

為進一步驗證 NSG 各組成模塊的作用，作者進行了系統(tǒng)性的消融實驗。

實驗結(jié)果表明，當僅使用空間概率梯度時，模型的 Recall 為 87.99%；僅使用時間密度變化時，Recall 降至 60.35%。將兩者進行物理一致性融合后，NSG-VD 的 Recall 提升至 88.02%，F(xiàn)1 值進一步達到 90.87%。這一結(jié)果充分說明，基于物理公式的時空聯(lián)合建模能夠有效捕捉視頻生成過程中的細微差異，不僅驗證了該建模范式的必要性，也凸顯了其顯著的性能優(yōu)勢。

決策閾值魯棒性分析

在實際部署中，方法的超參數(shù)敏感性至關重要。對此，作者分析了決策閾值 τ 的影響：

結(jié)果表明，在 τ∈[0.7,1.1] 的閾值范圍內(nèi)，NSG-VD 的各項指標（Recall、Accuracy、F1）穩(wěn)定性，證實了 NSG 特征對真?zhèn)我曨l的強大判別能力。該方法的核心在于物理驅(qū)動的時空梯度建模，而非依賴生成器特定偽影，因而能夠穩(wěn)健地檢測來源多樣的生成內(nèi)容。

總結(jié)與展望

本文提出了基于物理守恒的時空建模視頻檢測框架 NSG-VD，通過歸一化時空梯度（NSG）統(tǒng)計量量化視頻在空間和時間維度上的物理一致性，實現(xiàn)對 AI 生成視頻的通用檢測。實驗表明，NSG-VD 在多種生成模型、數(shù)據(jù)不平衡場景及遷移測試中均表現(xiàn)出卓越的泛化能力和穩(wěn)健性，顯著優(yōu)于現(xiàn)有方法。

NSG-VD 的核心創(chuàng)新在于將物理一致性約束引入檢測任務，通過 NSG 特征捕捉生成視頻中潛在的物理規(guī)律違例。這種物理驅(qū)動范式無需依賴特定生成模式的數(shù)據(jù)，在面對多樣化生成內(nèi)容時展現(xiàn)出強魯棒性，即便在數(shù)據(jù)不平衡場景下也能保持穩(wěn)定性能。

在當前「真假難辨」的生成時代，NSG-VD 引領我們從「圖像的真實」走向「物理的真實」—— 不關注視頻有多逼真，而關注其是否遵守物理規(guī)律。盡管該方法仍依賴一定的物理假設并存在計算開銷，未來工作將著力于開發(fā)更精細的物理模型、優(yōu)化輕量化計算方案，并探索實時檢測應用場景的可行性。

參考文獻

[1] Hodge, W. B., S. V. Migirditch, and William C. Kerr. "Electron spin and probability current density in quantum mechanics." American Journal of Physics 82.7 (2014): 681-690.

[2] Batchelor, George Keith. An introduction to fluid dynamics. Cambridge university press, 2000.

[3] Panton, Ronald L. Incompressible flow. John Wiley & Sons, 2024.

[4] B?hm, Arno. Quantum mechanics: foundations and applications. Springer Science & Business Media, 2013.

[5] Song, Yang, and Stefano Ermon. "Generative modeling by estimating gradients of the data distribution." Advances in neural information processing systems 32 (2019).

[6] Horn, Berthold KP, and Brian G. Schunck. "Determining optical flow." Artificial intelligence 17.1-3 (1981): 185-203.

[7] Zhang, Shuhai, et al. "Detecting Machine-Generated Texts by Multi-Population Aware Optimization for Maximum Mean Discrepancy." The Twelfth International Conference on Learning Representations.

[8] Zhang, Shuhai, et al. "Detecting adversarial data by probing multiple perturbations using expected perturbation score." International conference on machine learning. PMLR, 2023.

[9] Liu, Feng, et al. "Learning deep kernels for non-parametric two-sample tests." International conference on machine learning. PMLR, 2020.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.