国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

字節(jié)的“羅福莉”,撐起了Seedance的半邊天

0
分享至




隨著小米新模型的推出,“天才少女”羅福莉再度成為焦點(diǎn)。其實(shí)在AI科學(xué)家圈子里,女性數(shù)量雖然相對(duì)較少,但也絕非羅福莉一顆獨(dú)苗。在字節(jié)跳動(dòng),就有一位羅福莉式的人物。

她就是Seedance 2.0視頻生成模型的預(yù)訓(xùn)練負(fù)責(zé)人,曾妍。

一般聊起Seedance 2.0,大家普遍想到的人是掌舵人吳永輝、研發(fā)負(fù)責(zé)人周暢、視頻生成技術(shù)核心負(fù)責(zé)人蔣璐。

很少有人知道,曾妍的存在,同樣無可或缺。

因?yàn)轭A(yù)訓(xùn)練是整個(gè)模型的“基石”,它決定了模型的能力上限。

大多數(shù)人把預(yù)訓(xùn)練當(dāng)成“喂數(shù)據(jù)”,但真正的高手知道,預(yù)訓(xùn)練是在“塑造模型的世界觀”。

數(shù)據(jù)怎么配比、架構(gòu)怎么設(shè)計(jì)、訓(xùn)練策略怎么調(diào)整,每一個(gè)決策都在決定模型能看到什么、理解什么、生成什么。

無論你后面怎么努力優(yōu)化,預(yù)訓(xùn)練只要沒做好,這個(gè)模型就一輩子達(dá)不到Seedance 2.0現(xiàn)如今的高度。

不僅是貢獻(xiàn)大,曾妍的晉升速度在字節(jié)也是相當(dāng)快的。

從她畢業(yè)進(jìn)入字節(jié)開始算起,到現(xiàn)在的4-2職級(jí),曾妍僅僅花了5年時(shí)間。

4-2職級(jí)對(duì)應(yīng)高級(jí)總監(jiān)/權(quán)威架構(gòu)師層級(jí),屬于公司核心戰(zhàn)略級(jí)技術(shù)骨干,年包(含基本工資、年終獎(jiǎng)、股票)普遍在500萬以上。

她到底做了什么,才有如此成就?讓我們從她的求學(xué)之路說起。

01

從西交到字節(jié)

說實(shí)話,當(dāng)我第一次看到曾妍的履歷時(shí),并沒有覺得特別驚艷。

1997年出生,西安交通大學(xué)本科,加拿大蒙特利爾大學(xué)計(jì)算機(jī)碩士。這條路徑放到現(xiàn)在的AI圈里太常見了。

但接下來發(fā)生的事,就不那么“標(biāo)準(zhǔn)”了。

2021年9月,曾妍以校招生身份加入字節(jié)跳動(dòng) AI Lab,起點(diǎn)職級(jí)是算法工程師。

入職僅兩個(gè)月,曾妍就以第一作者身份在arXiv上發(fā)表了論文《Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts》,也就是后來大家熟知的X-VLM模型。



這篇論文解決的問題,用大白話說就是:怎么讓 AI 既能看懂“大場面”,又能注意到“小細(xì)節(jié)”。

傳統(tǒng)的視覺語言模型有兩個(gè)極端。一種是“粗線條”派,只看圖像整體和文本的對(duì)應(yīng)關(guān)系,就像你給AI看一張照片,它只能說“這是海灘”,但說不出更多了。

另一種是“顯微鏡”派,依賴昂貴的目標(biāo)檢測器去摳每個(gè)物體,雖然能看到細(xì)節(jié),但計(jì)算成本高得嚇人,還得依賴大量人工標(biāo)注數(shù)據(jù)。

曾妍提出的X-VLM,就是取兩者之所長。

它能同時(shí)學(xué)習(xí)從整體到局部、從場景到物體、從粗到細(xì)的多層次視覺概念,并與文本中的不同粒度信息精準(zhǔn)對(duì)齊。

或者我用一個(gè)我最近剛學(xué)會(huì)的話來形容:既見森林,又見樹木。

這個(gè)“多粒度對(duì)齊”的思想,在當(dāng)時(shí)看起來只是個(gè)學(xué)術(shù)創(chuàng)新,但它為曾妍后來擔(dān)任Seedance 2.0預(yù)訓(xùn)練負(fù)責(zé)人埋下了伏筆。

因?yàn)橐曨l生成的預(yù)訓(xùn)練,本質(zhì)上也是個(gè)多粒度建模的問題。

你要想生成一個(gè)好看的視頻,那就既要把握整體敘事節(jié)奏,讓一段視頻有連貫的故事線;又要控制每一幀的細(xì)節(jié)質(zhì)量,確保人物面容不變形、物體運(yùn)動(dòng)符合物理規(guī)律;還要建立時(shí)序維度上的關(guān)聯(lián)關(guān)系,讓前后幀之間的過渡自然流暢。

這剛和X-VLM的底層邏輯是一致的。

接下來的兩年,曾妍就像開了掛一樣。

她以第一作者身份在TPAMI、ICML、CVPR、ACL、NAACL等國際頂會(huì)發(fā)表了八篇論文,還擔(dān)任了TPAMI、ICML、NeurIPS、ICLR、ACL、EMNLP等頂會(huì)的審稿人。

2023年,一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn)到來了。

字節(jié)跳動(dòng)成立大模型研究部門Seed,曾妍和所在團(tuán)隊(duì)一同轉(zhuǎn)入。

這個(gè)時(shí)間節(jié)點(diǎn)你得放在大背景下看,2022年底ChatGPT橫空出世,2023年初各大公司紛紛All in大模型,字節(jié)也在這波浪潮中調(diào)整了技術(shù)戰(zhàn)略。

曾妍擅長的多模態(tài)預(yù)訓(xùn)練,在視頻生成這個(gè)新戰(zhàn)場上,能發(fā)揮她的全部實(shí)力。

在Seed部門,曾妍作為第一作者主導(dǎo)了兩個(gè)重要項(xiàng)目,分別是CCLM和Lynx。

先說CCLM(Cross-View Language Modeling)。

這個(gè)項(xiàng)目讓AI模型同時(shí)學(xué)會(huì)“跨語言”和“跨模態(tài)”的理解能力。CCLM通過統(tǒng)一的預(yù)訓(xùn)練框架,讓在英文圖像-文本數(shù)據(jù)上訓(xùn)練的模型,可以零樣本遷移到中文、日文等其他語言的多模態(tài)任務(wù)上。

說白了,就是讓 AI 學(xué)會(huì)“舉一反三”——在英文視頻上學(xué)到的理解能力,能直接用到中文、日文、西班牙文的視頻上。

再說Lynx。

這是一個(gè)系統(tǒng)性研究如何訓(xùn)練GPT-4風(fēng)格多模態(tài)大語言模型的項(xiàng)目。2023年正是GPT-4剛發(fā)布的時(shí)候,大家都在摸索怎么做出“能看圖說話”的大模型。

曾妍團(tuán)隊(duì)通過一系列對(duì)比實(shí)驗(yàn),找出了模型架構(gòu)設(shè)計(jì)、訓(xùn)練數(shù)據(jù)配比、指令微調(diào)策略等關(guān)鍵因素,最終做出了 Lynx 模型,在多模態(tài)理解和指令跟隨能力上都表現(xiàn)出色。

用人話說,就是研究“怎么造出一個(gè)既能看懂圖片又能流暢對(duì)話的AI”,并且搞清楚了哪些因素真正重要。

真正讓曾妍“出圈”的,是2023年年底的PixelDance。

這個(gè)項(xiàng)目的論文題目很有意思,叫《如何讓像素跳舞》(Make Pixels Dance: High-Dynamic Video Generation)。它解決的是視頻生成領(lǐng)域一個(gè)長期存在的矛盾,如何平衡動(dòng)態(tài)性和穩(wěn)定性。

你想想,如果一個(gè)AI生成的視頻動(dòng)作幅度很大、畫面變化劇烈,看起來確實(shí)生動(dòng)有趣,但很容易出現(xiàn)畫面崩壞、角色變形、物體突然消失這些“靈異事件”。

反過來,如果你追求穩(wěn)定性,讓角色和場景保持一致,人物面容不突變,那生成的視頻就容易僵硬,像幻燈片切換而不是流暢的動(dòng)態(tài)影像。

曾妍團(tuán)隊(duì)的突破在于,他們?cè)陬A(yù)訓(xùn)練階段就建立了嚴(yán)格的時(shí)序約束。

傳統(tǒng)的視頻生成模型都是先生成視頻,然后再一幀一幀去修補(bǔ)。PixelDance則是讓模型學(xué)會(huì)了在保持一致性的前提下生成動(dòng)態(tài)內(nèi)容。

核心創(chuàng)新點(diǎn)是在擴(kuò)散模型框架中,引入首幀+末幀的雙圖像指令,配合文本指令聯(lián)合約束視頻生成,同時(shí)在網(wǎng)絡(luò)結(jié)構(gòu)中新增時(shí)序卷積與時(shí)序注意力層,從生成的源頭就錨定了視頻的起止?fàn)顟B(tài),從而保證大動(dòng)態(tài)動(dòng)作下的主體與場景一致性。

就像訓(xùn)練一個(gè)舞者,從一開始就教她在保持平衡的前提下做大幅度動(dòng)作。

PixelDance的成功,讓曾妍在字節(jié)內(nèi)部的地位迅速提升。

2024年,她從算法工程師晉升為算法研究員,成為Seed團(tuán)隊(duì)中最年輕的研究員之一。這個(gè)晉升不只是對(duì)她學(xué)術(shù)能力的認(rèn)可,更重要的是,她證明了自己能把研究成果轉(zhuǎn)化為實(shí)際產(chǎn)品。

在大廠里,這兩種能力的差別,就像會(huì)做菜和會(huì)開餐廳的差別。

02

從 PixelDance 到 Seedance 2.0

有意思的是,PixelDance就是Seedance的前身。

Seed代表字節(jié)的大模型部門,dance則保留了“讓像素起舞”的核心理念。這個(gè)改名不只是品牌策略,更標(biāo)志著模型從研究原型向商業(yè)產(chǎn)品的轉(zhuǎn)變。

2025年6月11日,字節(jié)正式發(fā)布了Seedance 1.0,曾妍是該模型的核心研發(fā)負(fù)責(zé)人。

雖然直至2026年2月,曾妍才被字節(jié)官方確認(rèn)為Seedance 2.0 視頻模型預(yù)訓(xùn)練負(fù)責(zé)人,但知情人士爆料,早2025年下半年時(shí),曾妍就已經(jīng)正式牽頭Seedance 2.0的預(yù)訓(xùn)練全流程工作,成為該項(xiàng)目的核心一號(hào)位。

她的+2 leader是周暢,+3 leader是Seed團(tuán)隊(duì)負(fù)責(zé)人吳永輝。

Seedance 2.0核心技術(shù)突破之一是雙分支擴(kuò)散變換器架構(gòu),這是曾妍團(tuán)隊(duì)在預(yù)訓(xùn)練階段就確立的基礎(chǔ)架構(gòu)。

傳統(tǒng)視頻生成模型采用“先畫后配”的模式。即先生成視頻畫面,再單獨(dú)生成或匹配音頻。

這種方式的問題在于,音畫分離導(dǎo)致同步性差,人物說話時(shí)嘴型對(duì)不上,背景音樂的節(jié)奏與畫面情緒脫節(jié),音效出現(xiàn)的時(shí)機(jī)與畫面動(dòng)作不匹配。

Seedance 2.0通過視頻與音頻并行生成的方式,共享同一個(gè)理解編碼器,從根源上實(shí)現(xiàn)了音畫原生協(xié)同。

這個(gè)架構(gòu)設(shè)計(jì)的關(guān)鍵在于,讓模型在生成每一幀畫面的同時(shí),就考慮對(duì)應(yīng)的音頻應(yīng)該是什么樣的,而不是等畫面全部生成完再去“配”音頻。

文章開頭我就講了,預(yù)訓(xùn)練是整個(gè)模型能力的基石。

曾妍在這個(gè)階段需要處理海量的視頻數(shù)據(jù),建立視覺、文本、音頻等多模態(tài)之間的對(duì)齊關(guān)系。

她通過引入“跨分支校準(zhǔn)模塊”,實(shí)時(shí)校準(zhǔn)視頻與音頻的節(jié)奏、情緒與場景匹配度,確保嘴型與臺(tái)詞同步、音效與畫面契合、背景音樂與情緒氛圍一致。

預(yù)訓(xùn)練階段把所有的多模態(tài)對(duì)齊關(guān)系、物理規(guī)律、運(yùn)動(dòng)模式都塞進(jìn)模型里,成為“默認(rèn)項(xiàng)”。后續(xù)模型只要調(diào)用到相關(guān)內(nèi)容,就會(huì)立刻給出預(yù)訓(xùn)練時(shí)的結(jié)果。



它不是簡單地讓模型記住訓(xùn)練數(shù)據(jù),而是讓模型從海量數(shù)據(jù)中提煉出普遍規(guī)律,形成對(duì)世界的基礎(chǔ)理解。

Seedance 2.0生成時(shí)長1分鐘的2K視頻僅需60秒,比上一代Seedance 1.5 Pro快了30%。

速度提升的背后,是曾妍團(tuán)隊(duì)在預(yù)訓(xùn)練階段對(duì)模型架構(gòu)、訓(xùn)練策略、數(shù)據(jù)配比的精細(xì)調(diào)優(yōu)。

她的團(tuán)隊(duì)迭代速度極快,在預(yù)訓(xùn)練階段就完成了擴(kuò)散模型的多輪優(yōu)化。

優(yōu)化注意力機(jī)制減少冗余計(jì)算,改進(jìn)噪聲調(diào)度策略加快收斂速度,精選高質(zhì)量訓(xùn)練數(shù)據(jù)提升樣本效率。

每一個(gè)優(yōu)化點(diǎn)單獨(dú)看都不起眼,但累積起來就是質(zhì)的飛躍。模型規(guī)模越大,訓(xùn)練成本越高,每一個(gè)百分點(diǎn)的效率提升都意味著數(shù)百萬元的成本節(jié)約和數(shù)周的時(shí)間縮短。

Seedance 2.0還實(shí)現(xiàn)了多鏡頭敘事能力。這意味著模型不僅能生成長視頻,還能理解“全景-中景-特寫”的專業(yè)分鏡邏輯,自動(dòng)規(guī)劃鏡頭切換,生成帶有蒙太奇效果的完整敘事序列。

曾妍團(tuán)隊(duì)通過高質(zhì)量樣本,讓模型學(xué)習(xí)到了人類導(dǎo)演的鏡頭語言和敘事節(jié)奏。這種從數(shù)據(jù)中提煉出的“導(dǎo)演直覺”。

03

曾妍與羅福莉


同為女性AI科學(xué)家,曾妍和羅福莉在模型研發(fā)中,都擅長尋找“平衡點(diǎn)”。

在DeepSeek時(shí)期,羅福莉參與的DeepSeek-V2,通過MoE架構(gòu)的稀疏激活,把推理成本降到了GPT-4 Turbo的七十分之一,但是性能卻與頂尖的閉源模型十分相近。

這就像設(shè)計(jì)一個(gè)大型圖書館,雖然藏書百萬冊(cè),但每次查詢只需要翻開其中幾本,而不是把所有書都搬出來。這種“按需激活”的機(jī)制,讓大模型的成本驟然下降,卻不怎么損失性能。

羅福莉在性能與成本之間,找到了這樣一個(gè)平衡點(diǎn)。



到了號(hào)稱“性價(jià)比之王”的小米,羅福莉把DeepSeek的精神貫徹到底。她主導(dǎo)團(tuán)隊(duì)與北京大學(xué)聯(lián)合研發(fā)資源管理系統(tǒng)ARL-Tangram,讓模型的算力成本直降71.2%。

然而成本下降并不意味著性能下降。使用了該技術(shù)的萬億參數(shù)的旗艦?zāi)P蚆iMo-V2-Pro,在Artificial Analysis全球大模型綜合智能排行榜上位列第八、國內(nèi)第二。

羅福莉證明了一件事:性價(jià)比不是某個(gè)項(xiàng)目的偶然,而是一種可以跨平臺(tái)復(fù)制的方法論。

曾妍的平衡點(diǎn)則是前文提到的動(dòng)態(tài)性和穩(wěn)定性,讓視頻生成模型又能講好故事,又有畫面張力和視覺沖擊力。

兩人不同的是職業(yè)規(guī)劃。

羅福莉從阿里跳到幻方,再到DeepSeek,這條路徑是“從大廠到創(chuàng)業(yè)公司,從工程應(yīng)用到模型研究”。

曾妍則是在字節(jié)內(nèi)部一路深耕,5年時(shí)間完成了從校招畢業(yè)生,坐到了4-2的位置。

兩條路徑?jīng)]有高下之分。

在AI大模型這個(gè)燒錢、拼資源、看長期積累的領(lǐng)域,年輕的技術(shù)人才依然可以通過對(duì)問題的深刻理解,在短時(shí)間內(nèi)做出關(guān)鍵貢獻(xiàn)。

有可能他們研究的方向,你聽都沒聽過,但就是有效。

她們的故事才剛剛開始。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全紅嬋后續(xù):香港媒體先爆料,檢察日?qǐng)?bào)喊話嚴(yán)查,隊(duì)友集體背刺!

全紅嬋后續(xù):香港媒體先爆料,檢察日?qǐng)?bào)喊話嚴(yán)查,隊(duì)友集體背刺!

眼光很亮
2026-04-09 12:34:30
“心碎!”10個(gè)月女嬰結(jié)束新西蘭旅行后“感冒”,竟查出晚期癌癥!“心臟曾停跳90秒”!

“心碎!”10個(gè)月女嬰結(jié)束新西蘭旅行后“感冒”,竟查出晚期癌癥!“心臟曾停跳90秒”!

新西蘭天維網(wǎng)
2026-04-10 13:33:02
上海應(yīng)屆生起薪水平由8000元回落至4000元左右

上海應(yīng)屆生起薪水平由8000元回落至4000元左右

凡人學(xué)電腦
2026-04-10 20:32:55
恒大集團(tuán)許家印坑的最慘的9位大佬

恒大集團(tuán)許家印坑的最慘的9位大佬

地產(chǎn)微資訊
2026-03-29 19:08:15
35歲傅彪兒子,住豪宅生活奢華,單身滿頭白發(fā),走上了“不歸路”

35歲傅彪兒子,住豪宅生活奢華,單身滿頭白發(fā),走上了“不歸路”

林輕吟
2026-04-02 19:51:37
建軍百年前動(dòng)真格!這次全軍整風(fēng),不只是聽課那么簡單

建軍百年前動(dòng)真格!這次全軍整風(fēng),不只是聽課那么簡單

Ck的蜜糖
2026-04-11 00:55:48
突發(fā)!特斯拉新款 Model Y 發(fā)布,有點(diǎn)離譜

突發(fā)!特斯拉新款 Model Y 發(fā)布,有點(diǎn)離譜

新浪財(cái)經(jīng)
2026-04-11 04:45:06
康師傅“再來一瓶”多店不兌換!消費(fèi)者跑多家門店皆失敗,怒斥:沒能力就別做活動(dòng)

康師傅“再來一瓶”多店不兌換!消費(fèi)者跑多家門店皆失敗,怒斥:沒能力就別做活動(dòng)

政法頻道
2026-04-11 19:53:45
3-0,“吊州”變“棍州” 蘇超揭幕戰(zhàn)常州爆冷擊敗南通!

3-0,“吊州”變“棍州” 蘇超揭幕戰(zhàn)常州爆冷擊敗南通!

揚(yáng)子晚報(bào)
2026-04-11 21:59:05
上海周末有雨,局部地區(qū)雨量可達(dá)中到大雨,出門記得帶好雨具

上海周末有雨,局部地區(qū)雨量可達(dá)中到大雨,出門記得帶好雨具

縱相新聞
2026-04-11 20:56:18
“漢堡饅頭減肥法”火了!張維伊4天減重2.6斤,網(wǎng)友:快樂減脂天花板?

“漢堡饅頭減肥法”火了!張維伊4天減重2.6斤,網(wǎng)友:快樂減脂天花板?

新浪財(cái)經(jīng)
2026-04-10 22:11:33
怪不得這么多男明星和她傳過緋聞,現(xiàn)實(shí)中確實(shí)驚為天人。

怪不得這么多男明星和她傳過緋聞,現(xiàn)實(shí)中確實(shí)驚為天人。

手工制作阿殲
2026-04-09 04:26:53
波音在世界最大工廠開設(shè)新的737 MAX生產(chǎn)線

波音在世界最大工廠開設(shè)新的737 MAX生產(chǎn)線

航空筆記
2026-04-10 20:04:26
眉毛冒出一根很長的毛?不要大意!俗話說“眉生長毛,必有一遭”

眉毛冒出一根很長的毛?不要大意!俗話說“眉生長毛,必有一遭”

一根香煙的少婦
2026-03-17 17:54:13
87歲老人摔倒后在地上躺了一整夜

87歲老人摔倒后在地上躺了一整夜

觀威海
2026-04-11 19:44:03
30 國齊聚東京?高市找中國要 2.6 萬億債,卻遭中方反將一軍!

30 國齊聚東京?高市找中國要 2.6 萬億債,卻遭中方反將一軍!

眼界看視野
2026-04-11 15:00:43
40余歲女子從日本“人肉”背回244本淫穢漫畫,法院:走私淫穢物品,判一年六個(gè)月

40余歲女子從日本“人肉”背回244本淫穢漫畫,法院:走私淫穢物品,判一年六個(gè)月

極目新聞
2026-04-11 12:39:46
Woc,才18歲啊,中國版“切特”橫空出世,已預(yù)定登錄NBA

Woc,才18歲啊,中國版“切特”橫空出世,已預(yù)定登錄NBA

體育新角度
2026-04-11 11:19:36
伊朗提出伊美談判前提條件

伊朗提出伊美談判前提條件

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-11 20:20:02
NASA發(fā)布“最清晰的月球照片”,地球無法觀察的月背:細(xì)節(jié)滿滿

NASA發(fā)布“最清晰的月球照片”,地球無法觀察的月背:細(xì)節(jié)滿滿

環(huán)球科學(xué)貓
2026-04-09 13:11:52
2026-04-11 22:36:49
字母榜 incentive-icons
字母榜
讓未來不止于大。
2367文章數(shù) 8057關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

特朗普:美方開始清理霍爾木茲海峽

頭條要聞

特朗普:美方開始清理霍爾木茲海峽

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂要聞

鄭鈞回應(yīng)兒子走路:會(huì)監(jiān)督他挺直腰板

財(cái)經(jīng)要聞

從日本翻身看:這次誰能扛住高油價(jià)?

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

游戲
本地
數(shù)碼
藝術(shù)
公開課

《紅色沙漠》更新神速:韓國人都不休息的嗎?

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

數(shù)碼要聞

OPPO ColorOS Watch四月推送升級(jí),這些功能上新了

藝術(shù)要聞

花6億,爛尾12年,福建一處“頂奢別墅”,野草都長到三樓了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版