国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

為什么「從 1 數(shù)到 10」這件事,所有視頻模型都不會(huì)?

0
分享至


AI 已經(jīng)學(xué)會(huì)了電影的視覺(jué)語(yǔ)法,但還沒(méi)學(xué)會(huì)世界的物理語(yǔ)法。


作者|湯一濤

編輯|靖宇

Seedance 2.0 有多猛,過(guò)去一個(gè)月大家已經(jīng)見(jiàn)識(shí)過(guò)了。好萊塢已經(jīng)集體下場(chǎng)發(fā)了聲明,西半球最強(qiáng)法務(wù)部迪士尼也給字節(jié)跳動(dòng)發(fā)了律師函。

但如果你讓它做一件事:生成一個(gè)男人從 1 數(shù)到 10 的視頻,它就露餡了。

能分清這是瑞安·雷諾茲還是本·斯蒂勒嗎?好萊塢的抵制是有道理的|視頻來(lái)源:@fofrai

生成出來(lái)的「人」五官端正、皮膚質(zhì)感逼真,廚房背景細(xì)節(jié)豐富得像是實(shí)拍。他說(shuō)出「one」的時(shí)候還一切正常,然后就開(kāi)始鬼打墻,嘴里不斷重復(fù)「t、t、t」這個(gè)音節(jié)(不是從 1 到 10 中任何一個(gè)數(shù)字的發(fā)音);或者伸出三根手指,口中卻自信地說(shuō)出「ten」。從頭到尾,他豎起的手指沒(méi)超過(guò)三根。

因?yàn)楸尘昂腿宋锒继鎸?shí)了,所以手指崩壞的瞬間反而制造出了一種強(qiáng)烈的「?jìng)稳烁小?/strong>。

這道題不只是 Seedance 2.0 的噩夢(mèng)。

視頻來(lái)自一位在 X 網(wǎng)友 fofr(簡(jiǎn)介顯示是在 DeepMind 的開(kāi)發(fā)者)。去年他就發(fā)現(xiàn),「從 1 數(shù)到 10 并用手指比出數(shù)字」這個(gè)對(duì)三歲小孩都毫無(wú)難度的任務(wù),是當(dāng)前所有 AI 視頻模型的共同死穴。

Seedance 2.0 發(fā)布后,他第一時(shí)間把這道老題扔了過(guò)去,果然也翻車(chē)了。

網(wǎng)友在這條推文下面掀起了一場(chǎng)自發(fā)的「AI 數(shù)數(shù)挑戰(zhàn)賽」。他們把同一道題喂給了 Sora、Veo、Kling 等幾乎所有主流模型,結(jié)果全軍覆沒(méi),沒(méi)有一個(gè)能正確地從 1 數(shù)到 10。

Veo 也沒(méi)法從 1 數(shù)到 10|視頻來(lái)源:@AGI_FromWalmart

當(dāng)一個(gè)行業(yè)最強(qiáng)的產(chǎn)品們被一道幼兒園級(jí)別的題目集體難倒,這其實(shí)指向了一個(gè)問(wèn)題:為什么這些模型已經(jīng)能騙過(guò)你的眼睛,卻無(wú)法理解常識(shí)

它們到底「理解」了什么,又缺失了什么?

01

統(tǒng)計(jì)預(yù)測(cè) vs 理解世界:

AI 視頻的能力邊界


「數(shù)不到 10」不是一個(gè)孤立的 bug,它揭示了一整片當(dāng)前 AI 的能力盲區(qū)。

原因也不復(fù)雜:所有的視頻模型本質(zhì)上做的是同一件事,從海量視頻數(shù)據(jù)中學(xué)習(xí)統(tǒng)計(jì)規(guī)律,然后在生成每一幀畫(huà)面時(shí)預(yù)測(cè)「接下來(lái)什么樣的像素排列最可能出現(xiàn)」。這和大語(yǔ)言模型的「預(yù)測(cè)下一個(gè)詞」(Next-Token Prediction)是同一套邏輯。

所以它們能把人臉毛孔、廚房光影、衣服褶皺渲染得以假亂真,因?yàn)橛?xùn)練數(shù)據(jù)里有海量樣本,統(tǒng)計(jì)規(guī)律足夠豐富。但一旦任務(wù)超出了樣本的范疇,進(jìn)入「常識(shí)」的領(lǐng)域,問(wèn)題就來(lái)了。

這些問(wèn)題大致可以分成三類。

首先就是手部精細(xì)動(dòng)作,這是最廣為人知的「AI 照妖鏡」。從圖像生成時(shí)代的「六指人」,到視頻生成時(shí)代的「軟糖手指」,手一直是 AI 的噩夢(mèng)。


Midjourney 和 DALL-E 爆火的 2022 年,「手部多指」是當(dāng)時(shí)文生圖最明顯的 Bug|圖片來(lái)源:Medium

公平地說(shuō),AI 在「畫(huà)手」這件事上已經(jīng)取得了巨大進(jìn)步。日常場(chǎng)景里,六指人和軟糖手已經(jīng)越來(lái)越少見(jiàn)了。

但 fofr 的測(cè)試之所以能讓所有模型集體翻車(chē),是因?yàn)樗皇且粋€(gè)視覺(jué)渲染問(wèn)題,同時(shí)還暗含了一個(gè)邏輯推理問(wèn)題。它要求在 10 秒內(nèi)連續(xù)變換 10 個(gè)不同手勢(shì),每個(gè)手勢(shì)的手指數(shù)量嚴(yán)格遞增,同時(shí)嘴里說(shuō)的數(shù)字還要對(duì)得上。

人的手有 27 塊骨骼、34 塊肌肉、超過(guò) 100 條韌帶,單個(gè)手掌就有 18 個(gè)自由度。即便采用高分辨率擴(kuò)散模型,若缺乏明確的三維先驗(yàn)知識(shí),也難以表達(dá)這種精確度。


人體運(yùn)動(dòng)維度示意圖|圖片來(lái)源:ScienceDirect

況且,在訓(xùn)練數(shù)據(jù)中,手通常出現(xiàn)在畫(huà)面邊緣、被物體遮擋或處于運(yùn)動(dòng)模糊中。模型能學(xué)到的高質(zhì)量手部樣本遠(yuǎn)少于面部。

第二類 AI 的能力盲區(qū)是物理規(guī)律。流體怎么流、物體怎么碰撞、織物怎么飄……這些人類靠直覺(jué)就能判斷的東西,AI 視頻經(jīng)常給出違反物理定律的答案。OpenAI 在發(fā)布 Sora 時(shí)的官方技術(shù)報(bào)告中就明確承認(rèn):Sora 無(wú)法準(zhǔn)確模擬許多基本物理交互,比如玻璃破碎,也無(wú)法正確反映某些物體狀態(tài)變化

第三類是時(shí)序邏輯的一致性。視頻不是一組彼此獨(dú)立的圖片,而是一條有因果關(guān)系的時(shí)間鏈:第 3 秒的畫(huà)面必須建立在第 2 秒的基礎(chǔ)上。但當(dāng)前的擴(kuò)散模型把時(shí)間當(dāng)作一個(gè)潛在的數(shù)學(xué)維度來(lái)處理。它在生成第 N 幀時(shí),沒(méi)有內(nèi)部機(jī)制去「記住」前面伸了幾根手指、下一步該加 1。時(shí)間一長(zhǎng),前后就對(duì)不上了。

作個(gè)類比的話,當(dāng)前的 AI 視頻模型像一個(gè)從沒(méi)見(jiàn)過(guò)真手的畫(huà)家,看了一百萬(wàn)張手的照片之后憑印象畫(huà)手。大部分時(shí)候畫(huà)得挺像,但他不知道手指只有五根,不知道伸出三根手指代表數(shù)字 3,更不知道從 3 到 4 意味著要再伸出一根。

02

另一條路:世界模型


既然問(wèn)題的根源是「不理解物理世界」,那有沒(méi)有人在試圖從根本上解決這個(gè)問(wèn)題?

事實(shí)上,這正在成為 AI 領(lǐng)域最受關(guān)注的新方向之一。一個(gè)正在凝聚共識(shí)的思路是:與其讓模型從海量視頻中學(xué)習(xí)「世界看起來(lái)是什么樣的」,不如讓它先理解「世界是怎么運(yùn)作的」。

這條路徑有一個(gè)共同的名字,叫做世界模型(world model)。世界模型的核心思路是讓 AI 建立對(duì)三維物理世界的結(jié)構(gòu)性理解,包括空間的幾何關(guān)系、物體的物理屬性、運(yùn)動(dòng)的動(dòng)力學(xué)規(guī)律等。

這就和當(dāng)前視頻生成模型的路徑產(chǎn)生了本質(zhì)區(qū)別。當(dāng)前模型在二維平面上預(yù)測(cè)像素排列的統(tǒng)計(jì)概率,世界模型則試圖讓 AI 在「懂」物理規(guī)律的基礎(chǔ)上做生成。

這個(gè)方向最知名的創(chuàng)業(yè)者是李飛飛。這位 ImageNet 的締造者在 2024 年創(chuàng)辦了 World Labs,核心目標(biāo)是讓 AI 擁有「空間智能」。她在去年的一篇長(zhǎng)文中寫(xiě)道:

「語(yǔ)言是人類認(rèn)知的產(chǎn)物,但世界遵循更復(fù)雜的規(guī)則——重力控制運(yùn)動(dòng),原子結(jié)構(gòu)決定光線如何產(chǎn)生顏色,無(wú)數(shù)物理定律約束著每一次交互。要讓 AI 真正理解這一切,需要一種全新的、遠(yuǎn)超大語(yǔ)言模型的架構(gòu)」。

今年 2 月,World Labs 完成了 10 億美元融資,其首個(gè)產(chǎn)品 Marble 已經(jīng)上線,可以從圖像或文本生成持久的 3D 環(huán)境。


Marble 可以從一張圖片或一段文字生成一個(gè)你能在里面自由走動(dòng)、持續(xù)編輯的 3D 世界|圖片來(lái)源:World Labs

李飛飛不是唯一的入局者。楊樂(lè)昆從 Meta 離職后創(chuàng)辦了 AMI Labs,同樣聚焦世界模型方向;Google DeepMind 的 Genie 系列模型也在探索 3D 環(huán)境的生成與模擬;Nvidia 則推出了 Cosmos,定位為「世界基礎(chǔ)模型」,試圖將視頻生成、物理感知模擬和機(jī)器人工作流統(tǒng)一到一個(gè)框架里。

當(dāng)這個(gè)領(lǐng)域最頂級(jí)的幾位研究者和最有錢(qián)的幾家公司同時(shí)往一個(gè)方向走,這本身就說(shuō)明了一些問(wèn)題。純數(shù)據(jù)驅(qū)動(dòng)路徑的天花板,正在成為越來(lái)越多人的共識(shí),只是解法還在探索中。

Seedance 2.0 剛出來(lái)的時(shí)候確實(shí)引起了一大波恐慌?!端朗獭肪巹?Rhett Reese 看完演示后甚至寫(xiě)下了「我不想承認(rèn),但我們可能完了」。

這種反應(yīng)可以理解,Seedance 2.0 確實(shí)很強(qiáng),但「數(shù)不到 10」提供了一個(gè)有用的校準(zhǔn)視角:這些模型學(xué)會(huì)了電影的視覺(jué)語(yǔ)法,但還沒(méi)學(xué)會(huì)世界的物理語(yǔ)法。它們的進(jìn)步,更多是「看起來(lái)更真」,而不是「更懂現(xiàn)實(shí)」。

從本質(zhì)上說(shuō),一個(gè)不知道手指只有五根的系統(tǒng),距離真正取代人類創(chuàng)作者,中間還隔著一次范式級(jí)別的跨越。

人類可以稍稍松口氣了,至少在 AI 學(xué)會(huì)數(shù)到 10 之前

*頭圖來(lái)源:Nano Banana

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

馬年春節(jié)最火的可能不是年味,而是 AI「小龍蝦」OpenClaw!

這個(gè)存活在人們 IM(即時(shí)通訊)工具里的 AI Agent,第一次將 Agent 的流行,描繪得如此傳神,「人手一蝦」已成極客標(biāo)配。

別人都養(yǎng)好幾只「龍蝦」了,你卻還沒(méi)上手?

下周一晚 20:00,極客公園視頻號(hào)直播間,我們特邀 MiniMax Agent 產(chǎn)品負(fù)責(zé)人梁麗,手把手教你如何一鍵「云養(yǎng)」。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巴基斯坦外長(zhǎng):美伊雙方必須繼續(xù)恪守停火承諾;伊朗:將就伊美談判一事舉行新聞發(fā)布會(huì),繼續(xù)和巴基斯坦聯(lián)系磋商

巴基斯坦外長(zhǎng):美伊雙方必須繼續(xù)恪守?;鸪兄Z;伊朗:將就伊美談判一事舉行新聞發(fā)布會(huì),繼續(xù)和巴基斯坦聯(lián)系磋商

揚(yáng)子晚報(bào)
2026-04-12 12:12:50
楊舒予中國(guó)女籃隊(duì)長(zhǎng),拒絕宮魯鳴集訓(xùn),遠(yuǎn)赴澳大利亞年薪令人唏噓

楊舒予中國(guó)女籃隊(duì)長(zhǎng),拒絕宮魯鳴集訓(xùn),遠(yuǎn)赴澳大利亞年薪令人唏噓

楓塵余往逝
2026-04-12 07:18:38
小貓不舍出嫁的小主人,每天跑幾公里探望八百遍…老公笑了:娘家來(lái)人啦!

小貓不舍出嫁的小主人,每天跑幾公里探望八百遍…老公笑了:娘家來(lái)人啦!

拜見(jiàn)喵主子
2026-04-11 11:24:45
恒大集團(tuán)許家印坑的最慘的9位大佬

恒大集團(tuán)許家印坑的最慘的9位大佬

地產(chǎn)微資訊
2026-03-29 19:08:15
雷暴周一!15股迎天量解禁,37股遭減持,這50家別碰

雷暴周一!15股迎天量解禁,37股遭減持,這50家別碰

慧眼看世界哈哈
2026-04-12 06:23:18
百萬(wàn)豪車(chē)被陪葬后續(xù):死者身份披露,官方通報(bào)處理結(jié)果,家屬回應(yīng)

百萬(wàn)豪車(chē)被陪葬后續(xù):死者身份披露,官方通報(bào)處理結(jié)果,家屬回應(yīng)

小娛樂(lè)悠悠
2026-04-11 10:05:05
女大學(xué)生吐槽“普信男”視頻火了,卻因長(zhǎng)相被嘲:你也照照鏡子吧

女大學(xué)生吐槽“普信男”視頻火了,卻因長(zhǎng)相被嘲:你也照照鏡子吧

妍妍教育日記
2026-04-11 07:35:08
遼陽(yáng)奔馳車(chē)陪葬后續(xù):主家原因曝光,車(chē)被挖出,村民透露全村第一

遼陽(yáng)奔馳車(chē)陪葬后續(xù):主家原因曝光,車(chē)被挖出,村民透露全村第一

奇思妙想草葉君
2026-04-11 14:56:58
東契奇最新動(dòng)態(tài):在斯洛文尼亞陪女兒 下階段治療結(jié)束與湖人會(huì)合

東契奇最新動(dòng)態(tài):在斯洛文尼亞陪女兒 下階段治療結(jié)束與湖人會(huì)合

羅說(shuō)NBA
2026-04-12 06:24:57
正式達(dá)標(biāo)!你好,倫納德!戰(zhàn)神卡重現(xiàn)NBA

正式達(dá)標(biāo)!你好,倫納德!戰(zhàn)神卡重現(xiàn)NBA

籃球?qū)崙?zhàn)寶典
2026-04-11 16:54:45
伊朗代表團(tuán)離開(kāi)巴基斯坦

伊朗代表團(tuán)離開(kāi)巴基斯坦

極目新聞
2026-04-12 12:11:50
30分鐘直撲東北!美國(guó)調(diào)48架F-35兵臨城下,解放軍:敢動(dòng)就全殲!

30分鐘直撲東北!美國(guó)調(diào)48架F-35兵臨城下,解放軍:敢動(dòng)就全殲!

論事的老樞
2026-04-11 20:37:25
進(jìn)入聯(lián)盟兩年,消失的狀元里薩謝

進(jìn)入聯(lián)盟兩年,消失的狀元里薩謝

只關(guān)于籃球
2026-04-12 12:32:11
求復(fù)合?馬伊琍官宣兩大喜訊,前夫文章也傳來(lái)好消息,這是鬧哪出

求復(fù)合?馬伊琍官宣兩大喜訊,前夫文章也傳來(lái)好消息,這是鬧哪出

林雁飛
2026-04-11 19:04:39
續(xù)航100公里僅跑30公里 充電31秒電量猛漲10% 東莞網(wǎng)約車(chē)司機(jī):深藍(lán)SL03虛到不敢接單

續(xù)航100公里僅跑30公里 充電31秒電量猛漲10% 東莞網(wǎng)約車(chē)司機(jī):深藍(lán)SL03虛到不敢接單

信網(wǎng)
2026-04-11 17:05:04
瑜伽褲外穿引發(fā)爭(zhēng)議,穿著不當(dāng)或致尷尬局面

瑜伽褲外穿引發(fā)爭(zhēng)議,穿著不當(dāng)或致尷尬局面

特約前排觀眾
2026-03-24 00:15:04
廣東一公司花500萬(wàn)拍下張雪冠軍復(fù)刻賽車(chē),創(chuàng)始人:車(chē)將放商場(chǎng)供粉絲打卡,500萬(wàn)已捐嫣然醫(yī)院,和張雪一樣從湖南走出來(lái),當(dāng)年也是一窮二白

廣東一公司花500萬(wàn)拍下張雪冠軍復(fù)刻賽車(chē),創(chuàng)始人:車(chē)將放商場(chǎng)供粉絲打卡,500萬(wàn)已捐嫣然醫(yī)院,和張雪一樣從湖南走出來(lái),當(dāng)年也是一窮二白

大風(fēng)新聞
2026-04-12 11:23:03
各國(guó)不吃的食物:韓國(guó)人不吃香菜,俄羅斯人不吃海參,中國(guó)人呢?

各國(guó)不吃的食物:韓國(guó)人不吃香菜,俄羅斯人不吃海參,中國(guó)人呢?

阿纂看事
2026-04-11 19:24:41
60%民調(diào)反轉(zhuǎn)!賴清德想不到,鄭麗文大陸行,扭轉(zhuǎn)國(guó)民黨10年頹勢(shì)

60%民調(diào)反轉(zhuǎn)!賴清德想不到,鄭麗文大陸行,扭轉(zhuǎn)國(guó)民黨10年頹勢(shì)

一口娛樂(lè)
2026-04-12 10:11:28
原來(lái)他就是鄭麗文丈夫,戀愛(ài)24年才結(jié)婚,不要孩子老婆事業(yè)排第一

原來(lái)他就是鄭麗文丈夫,戀愛(ài)24年才結(jié)婚,不要孩子老婆事業(yè)排第一

往史過(guò)眼云煙
2026-04-11 19:39:59
2026-04-12 12:43:00
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11948文章數(shù) 78866關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

媒體:伊朗新領(lǐng)袖"冒死接班"1個(gè)月未露面 突然全面亮劍

頭條要聞

媒體:伊朗新領(lǐng)袖"冒死接班"1個(gè)月未露面 突然全面亮劍

體育要聞

五大聯(lián)賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂(lè)要聞

46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

財(cái)經(jīng)要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

汽車(chē)要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

數(shù)碼
家居
健康
房產(chǎn)
公開(kāi)課

數(shù)碼要聞

小米電視桌面4.0重磅升級(jí)來(lái)了!流暢度大提升 多賽事同屏播放

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘?,格局大變!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版