国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)話智象未來CTO姚霆:當(dāng)Sora退場(chǎng)后,世界模型的終局是"輪回"

0
分享至

以Sora的發(fā)布和關(guān)停為時(shí)間節(jié)點(diǎn),AI視頻生成產(chǎn)業(yè)分為兩個(gè)世界。

2024年春節(jié),OpenAI發(fā)布Sora,一石激起千層浪,當(dāng)年5月17日,智象未來旗下vivago平臺(tái)上線,這個(gè)時(shí)間點(diǎn)比快手可靈還早了兩周,這家核心班底來自微軟亞研院的多模態(tài)大模型創(chuàng)企,并不缺少對(duì)技術(shù)的敏銳嗅覺。

一年后,OpenAI驟然宣布關(guān)停了Sora的獨(dú)立服務(wù),將視頻生成功能并入ChatGPT的付費(fèi)體系,留給行業(yè)是一些未有明確答案的思考,多模態(tài)大模型的技術(shù)和商業(yè)化會(huì)走向何處,創(chuàng)業(yè)企業(yè)又該如何在窗口關(guān)閉前找到自己的空間。

在智象未來聯(lián)合創(chuàng)始人兼CTO姚霆看來,Sora的退場(chǎng)并非偶然,而是通用視頻生成這門好技術(shù)在商業(yè)化面前的必然結(jié)局,對(duì)于當(dāng)前火爆的世界模型賽道,他給出了一個(gè)頗具哲學(xué)意味的答案:輪回。

據(jù)了解,智象未來的 ARR(年度經(jīng)常性收入)達(dá)到數(shù)千萬美元量級(jí),B輪融資正在最后 Close階段,持續(xù)獲得產(chǎn)業(yè)資本加持。這家公司的路線選擇,或許代表了中國(guó) AIGC 創(chuàng)業(yè)公司在多模態(tài)賽道上的一種生存策略。


通用視頻生成是一門好技術(shù),不是Sora的好生意

對(duì)話伊始,姚霆便開門見山地給出了自己的判斷。在他看來,Sora的“失敗”可以從三個(gè)維度來理解。

"第一,Sora想做的是非常通用的視頻生成,但這與垂直領(lǐng)域的應(yīng)用需求相對(duì)脫離。"姚霆分析道,"OpenAI天然沒有視頻相關(guān)的業(yè)務(wù),也沒有那樣的生態(tài)。"

第二,成本是不可忽視的現(xiàn)實(shí)問題。"今天跟互聯(lián)網(wǎng)時(shí)代不一樣,所有的服務(wù)上線背后都在跑GPU,成本還是很昂貴的。"姚霆坦言,智象每一次模型迭代,推理成本都是首要考量因素,做模型架構(gòu)本身就要考慮成本,否則后面就沒法做大量服務(wù)。

第三,Sora缺乏商業(yè)化的土壤。對(duì)比字節(jié)跳動(dòng)的Seedance和快手的可靈,這兩家公司的視頻生成產(chǎn)品都能與主營(yíng)業(yè)務(wù)形成協(xié)同,而OpenAI并沒有這樣的業(yè)務(wù)場(chǎng)景來承接技術(shù)能力。

Sora的退場(chǎng),也折射出國(guó)內(nèi)外視頻生成路線的差異。

"國(guó)外更看重模型架構(gòu)的創(chuàng)新,國(guó)內(nèi)則傾向于做大而全的平臺(tái)鏈路。"姚霆觀察道。對(duì)于智象來說,這兩條路都不是唯一選擇。

"我們是從技術(shù)出身的,以前在微軟的時(shí)候,大家想做全世界最好的模型,對(duì)標(biāo)谷歌、Facebook、CMU、伯克利。"姚霆回憶,"做視頻理解的模型,這種基因天然就是希望模型上有架構(gòu)創(chuàng)新。"

智象也的確在踐行這一點(diǎn)。從2023年的Unet架構(gòu),到DiT,再到自回歸+DiT的融合,直到今天全新的全模態(tài)架構(gòu),智象每一次迭代都試圖在技術(shù)層面做更多的創(chuàng)新,而且每次還是精準(zhǔn)的踩住了整個(gè)技術(shù)迭代的突破口。

"但同時(shí),在中國(guó)做這件事,肯定還是要以垂直領(lǐng)域的商業(yè)化作為導(dǎo)向。"姚霆強(qiáng)調(diào),"不是為了做模型炫技,而是要有商業(yè)化落地的指標(biāo)。"

世界模型的五個(gè)等級(jí)——從靜態(tài)復(fù)刻到"輪回"

世界模型的概念在過去一年里經(jīng)歷了劇烈的收斂過程,也是當(dāng)前多數(shù)大模型相關(guān)企業(yè)想要講述的故事。

"世界模型的定義一直很廣,早期可以分成三個(gè)類別。"姚霆解釋道,"第一類是以語言模型為主,屬于高層知識(shí)的提煉和壓縮;第二類是Yann LeCun做的JEPA,偏中層的表達(dá)學(xué)習(xí);第三類是底層的像素生成,也就是視頻生成。"

但如今,世界模型的定義正在收斂。姚霆認(rèn)為,今天的世界模型可以大致分為三類:在視頻生成模型中融入因果關(guān)系和物理規(guī)律;根據(jù)用戶指令實(shí)時(shí)生成場(chǎng)景(如Genie-3);以及跟具身智能強(qiáng)相關(guān)的World Action Model。

對(duì)于智象而言,姚霆更看重兩個(gè)維度的突破。

"第一個(gè)是模型側(cè),要用一個(gè)神經(jīng)網(wǎng)絡(luò)同時(shí)理解和生成文本、圖像、視頻、3D以及動(dòng)作。"姚霆強(qiáng)調(diào),"它一定是端到端的全模態(tài)架構(gòu),各個(gè)模態(tài)之間不會(huì)單獨(dú)編碼,而是統(tǒng)一的tokenization。"

為什么要追求"全模態(tài)"而非"多模態(tài)"?姚霆的解釋很直接:"世界模型好歹要跟物理世界打通,如果不打通憑什么叫世界模型?從這個(gè)角度來說肯定要有具身的數(shù)據(jù),不然就是割裂的數(shù)字世界模型。"

在他看來,世界模型的底座是基于視頻訓(xùn)練出來的,還是基于VLA(視覺-語言-動(dòng)作)訓(xùn)練出來的,其實(shí)并不重要,最終的形態(tài)一定是任意輸入,任意輸出,想怎么輸入,想它輸出什么它就可以輸出什么。

但這還不是終局。


"從宏觀角度,我對(duì)世界模型分了幾個(gè)等級(jí)。"姚霆說,"第一級(jí)是靜態(tài)復(fù)刻,就是一幅圖;第二級(jí)是視頻,有三維有時(shí)間域;第三級(jí)是交互;第四級(jí)加入物理規(guī)律和因果關(guān)系;第五級(jí),終局是輪回。"

他進(jìn)一步解釋道,"輪回是什么?是完美的因果關(guān)系。比如蝴蝶效應(yīng),今天我在這兒扇了一下翅膀,明天那個(gè)地方就應(yīng)該出現(xiàn)海嘯。再往上一級(jí),才是真正的世界模型,才是真正的推理。"

這個(gè)說法聽起來有些哲學(xué)意味,但姚霆很快將其拉回到產(chǎn)品層面。

"第二個(gè)維度是Agent。"他說,"所有的Agentic App等于一個(gè)平臺(tái)(可能是PC或手機(jī))乘以Harness(對(duì)底層skills的管理、適配和組合),再加上底層的skills(可能是OS或OpenAI)。"

姚霆舉例說明:用戶想做一個(gè)VLOG,只需要輸入"我想賺錢"這一句話,Agent就能自動(dòng)搜索、調(diào)用、編排各種skills,完成從腳本撰寫到視頻制作的全流程。

"這需要全模態(tài)的支持。"姚霆強(qiáng)調(diào),"底層有文本、視頻、圖像、語音,全打通了,才能知道誰跟誰該怎么組合。"

大廠環(huán)伺,創(chuàng)業(yè)公司如何出牌?

快手可靈月收入突破兩千萬美元,即夢(mèng)背靠字節(jié)過億的生態(tài)日活。在這樣的雙寡頭格局下,智象這樣的創(chuàng)業(yè)公司如何找到出路?

"大廠在資本、人才、算力上都有優(yōu)勢(shì),包括入口。"姚霆坦率表示,但在某些條件下,它的束縛也會(huì)比較多,難免對(duì)主營(yíng)業(yè)務(wù)有所妥協(xié)。相比之下,創(chuàng)業(yè)公司的團(tuán)隊(duì)架構(gòu)更加靈活。

"AI時(shí)代,機(jī)會(huì)是相對(duì)平等的。"姚霆說,"但作為初創(chuàng)公司,有幾點(diǎn)還是要做好。"

第一,認(rèn)知要新。

"首先要對(duì)整個(gè)趨勢(shì)有充分的預(yù)判,不能等大廠做到什么樣我們?cè)購(gòu)?fù)制,這樣基本就沒機(jī)會(huì)。"姚霆強(qiáng)調(diào),"還要有堅(jiān)持,要做正確但很難的事情。智象的產(chǎn)品經(jīng)理現(xiàn)在必須會(huì)用vibe-coding(AI輔助編程)。"

第二,速度要快。

"AI產(chǎn)品的穩(wěn)定版本,產(chǎn)品推上線,用戶用兩次能成功得到一次想要的結(jié)果,這就是穩(wěn)定版本。"姚霆說,"讓用戶使用、反饋、迭代,這樣才能形成壁壘。"

第三,架構(gòu)要靈活。

"產(chǎn)品和技術(shù)的邊界越來越模糊,因?yàn)楫a(chǎn)品也可以通過vibe-coding寫前端。"姚霆打了個(gè)比方,"有點(diǎn)像打牌,上手一副牌很難改變,但出牌方式可以調(diào)整,有些‘王炸’是要拆掉的。"

面對(duì)大廠競(jìng)爭(zhēng),智象的應(yīng)對(duì)策略已經(jīng)明確:2026年的核心戰(zhàn)略是搭建"1+1+3"的架構(gòu)體系。

"第一個(gè)'1'是全模態(tài)底座大模型,這是最重要的。"姚霆解釋道,"第二個(gè)'1'是HiHarness平臺(tái),可以理解為中間的Harness層,負(fù)責(zé)打通各種skills。'3'是優(yōu)先級(jí)最高的三個(gè)Agent:專業(yè)創(chuàng)作者智能體、商業(yè)營(yíng)銷內(nèi)容生成智能體、AI影視智能體。未來還會(huì)拓展出更多方向,比如具身智能、游戲引擎等。"


這個(gè)架構(gòu)的核心邏輯,是從"分而治之"轉(zhuǎn)向"并而治之"。

姚霆說,"以前不同創(chuàng)作用不同方式,可能是工具可能是內(nèi)容,今天會(huì)變成一個(gè)并而治之。底座是Agent,上面根據(jù)不同場(chǎng)景去實(shí)例化。"

他把這個(gè)邏輯比作搜索引擎:"當(dāng)年做搜索引擎,下面有眾多網(wǎng)頁,今天網(wǎng)頁變成skills,如何在海量里面尋找、定位、編排,這是核心問題。"

全模態(tài)底座的價(jià)值就在于此,如果全模態(tài)模型天然把這些模態(tài)之間打通,那么只要建一套索引就可以解決所有模態(tài)的事情,不管用戶輸入什么,想要得到什么,都可以給到用戶最終結(jié)果。(本文作者 | 張帥,編輯 | 楊林)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
隨著雨果4-3 橋本帆乃香4-1乒乓球世界杯男女單1/4決賽對(duì)陣全出爐

隨著雨果4-3 橋本帆乃香4-1乒乓球世界杯男女單1/4決賽對(duì)陣全出爐

側(cè)身凌空斬
2026-04-03 22:32:41
金昊,已被執(zhí)行死刑

金昊,已被執(zhí)行死刑

中國(guó)新聞周刊
2026-04-03 23:17:17
馬興瑞被查

馬興瑞被查

觀察者網(wǎng)
2026-04-03 18:31:10
27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺(tái)直接傻眼了

27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺(tái)直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
古力娜扎:真空上陣是放飛自我還是資本博弈?

古力娜扎:真空上陣是放飛自我還是資本博弈?

娛樂領(lǐng)航家
2026-04-02 21:00:03
研究首次繪制出完整的陰蒂神經(jīng)網(wǎng)絡(luò)

研究首次繪制出完整的陰蒂神經(jīng)網(wǎng)絡(luò)

生物學(xué)霸
2026-04-03 17:24:20
否認(rèn)盧甘斯克州全部淪陷!克宮連大學(xué)生都征兵,加速出售黃金儲(chǔ)備

否認(rèn)盧甘斯克州全部淪陷!克宮連大學(xué)生都征兵,加速出售黃金儲(chǔ)備

鷹眼Defence
2026-04-03 16:06:58
伊朗宣布再次擊落F-35戰(zhàn)斗機(jī),并公布戰(zhàn)機(jī)碎片照片!“這是我們對(duì)美國(guó)總統(tǒng)特朗普胡言亂語的首次回應(yīng)”,美軍又一部“薩德”被擊中

伊朗宣布再次擊落F-35戰(zhàn)斗機(jī),并公布戰(zhàn)機(jī)碎片照片!“這是我們對(duì)美國(guó)總統(tǒng)特朗普胡言亂語的首次回應(yīng)”,美軍又一部“薩德”被擊中

每日經(jīng)濟(jì)新聞
2026-04-03 17:22:33
大瓜!麻豆傳媒突然停止運(yùn)營(yíng)

大瓜!麻豆傳媒突然停止運(yùn)營(yíng)

新浪財(cái)經(jīng)
2026-04-03 13:54:38
李亞鵬喊話張雪:“雖然我們倆不認(rèn)識(shí),但是你的話我信!”他請(qǐng)張雪拍賣冠軍車時(shí)通知一聲,“我因?yàn)閭€(gè)人的一些狀況不一定能參加,但一定號(hào)召身邊老炮兒們支持!”

李亞鵬喊話張雪:“雖然我們倆不認(rèn)識(shí),但是你的話我信!”他請(qǐng)張雪拍賣冠軍車時(shí)通知一聲,“我因?yàn)閭€(gè)人的一些狀況不一定能參加,但一定號(hào)召身邊老炮兒們支持!”

極目新聞
2026-04-03 21:28:55
3日晚間世界杯:4強(qiáng)賽出爐勒布倫淘汰,王楚欽強(qiáng)勢(shì)逆轉(zhuǎn),下輪輕松

3日晚間世界杯:4強(qiáng)賽出爐勒布倫淘汰,王楚欽強(qiáng)勢(shì)逆轉(zhuǎn),下輪輕松

羅納爾說個(gè)球
2026-04-03 21:56:52
馬興瑞被查

馬興瑞被查

南方都市報(bào)
2026-04-03 18:13:26
伊朗媒體稱美方營(yíng)救飛行員未能成功

伊朗媒體稱美方營(yíng)救飛行員未能成功

新華社
2026-04-03 21:49:02
伊朗議長(zhǎng)稱一周內(nèi)已動(dòng)員700萬人為國(guó)而戰(zhàn),哈爾克島加強(qiáng)防御應(yīng)對(duì)美軍地面戰(zhàn)

伊朗議長(zhǎng)稱一周內(nèi)已動(dòng)員700萬人為國(guó)而戰(zhàn),哈爾克島加強(qiáng)防御應(yīng)對(duì)美軍地面戰(zhàn)

紅星新聞
2026-04-03 16:36:19
絕不讓伊朗活捉飛行員?大批美軍戰(zhàn)機(jī)跨境營(yíng)救,遭到猛烈攻擊

絕不讓伊朗活捉飛行員?大批美軍戰(zhàn)機(jī)跨境營(yíng)救,遭到猛烈攻擊

兵國(guó)大事
2026-04-03 21:49:40
醫(yī)生研究:茶葉一換,每年肺病致死少一半,這5種茶葉,多嘗嘗

醫(yī)生研究:茶葉一換,每年肺病致死少一半,這5種茶葉,多嘗嘗

健康之光
2026-04-03 18:15:03
張雪機(jī)車剛奪冠就遭商標(biāo)搶注!無錫公司玩陰的,結(jié)局大快人心

張雪機(jī)車剛奪冠就遭商標(biāo)搶注!無錫公司玩陰的,結(jié)局大快人心

商悟社
2026-04-03 08:28:14
蘋果新品突然官降:4月3日,暴降3000元!

蘋果新品突然官降:4月3日,暴降3000元!

科技堡壘
2026-04-03 09:54:43
成本20元賣434元,董宇輝幫賣了一千萬,假進(jìn)口保健品如此猖狂誰應(yīng)被追責(zé)

成本20元賣434元,董宇輝幫賣了一千萬,假進(jìn)口保健品如此猖狂誰應(yīng)被追責(zé)

風(fēng)向觀察
2026-04-03 15:23:02
頭部達(dá)播集體翻車“優(yōu)思益”:保健品賣100含淚抽傭50

頭部達(dá)播集體翻車“優(yōu)思益”:保健品賣100含淚抽傭50

界面新聞
2026-04-03 17:42:07
2026-04-04 01:03:00
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
131786文章數(shù) 862052關(guān)注度
往期回顧 全部

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

頭條要聞

伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營(yíng)救未果

頭條要聞

伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營(yíng)救未果

體育要聞

被NBA選中20年后,他重新回到籃球場(chǎng)

娛樂要聞

夏克立官宣再婚當(dāng)爸?否認(rèn)婚內(nèi)出軌

財(cái)經(jīng)要聞

專家稱長(zhǎng)期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠(yuǎn)房親戚長(zhǎng)得很像嗎?

態(tài)度原創(chuàng)

時(shí)尚
家居
藝術(shù)
本地
房產(chǎn)

冬奧雙金夫妻:愛與榮耀,頂峰相見

家居要聞

溫馨多元 愛的具象化

藝術(shù)要聞

她的作品藏著絕世美女,看看你能認(rèn)出幾個(gè)!

本地新聞

跟著歌聲游安徽,聽古村回響

房產(chǎn)要聞

小陽春全面啟動(dòng)!現(xiàn)房,才是這波行情里最穩(wěn)的上車票

無障礙瀏覽 進(jìn)入關(guān)懷版