国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Seedance3.0技術曝光!Helios首個單卡實時生成長視頻模型開源

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū),始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則,歡迎加入共同成長。

在人工智能領域,尤其是視頻生成方向,一個核心的“不可能三角”長期困擾著研究者:高畫質、長時長、實時生成。Seedance 2.0雖然能生成驚艷的短視頻片段,但通常每生成5-10秒的視頻就需要耗費數(shù)分鐘甚至數(shù)十分鐘的計算時間,且視頻時長難以突破訓練時的限制。據(jù)推特的有關爆料,其下個版本Seedance 3.0的目標和Helios一樣,即在超大規(guī)模參數(shù)參數(shù)模型上實現(xiàn)長視頻的實時生成。


由北京大學、字節(jié)跳動、Canva等機構聯(lián)合提出的 Helios模型,旨在打破這一僵局。Helios是一個擁有140億(14B)參數(shù)的巨大模型,卻在單張NVIDIA H100 GPU上實現(xiàn)了高達 19.5 FPS 的端到端推理速度(比1.3B還快),同時支持分鐘級別的長視頻生成,且畫質堪比當前最強的基線模型(如14B的Wan)。這一成果標志著視頻生成領域向著“實時、無限、高質量”的目標邁出了關鍵一步。Helios系列模型已經發(fā)布在wisemodel社區(qū),歡迎前往了解詳情~


模型地址

https://wisemodel.cn/models/SHYuanBest/Helios-Base

01.

核心挑戰(zhàn)與目標

論文開篇便明確指出了當前視頻生成領域的三大瓶頸:

  1. 實時性差:即使是最先進的開源模型(如Wan2.1 14B),生成一個5秒視頻在單張A100上需耗時約50分鐘。一些宣稱“實時”的方案,要么基于小模型(1.3B參數(shù)),畫質有限;要么依賴多卡并行,并非真正的單卡實時。

  2. 長視頻漂移:模型通常在短片段上訓練,在自回歸生成長視頻時,累積的誤差會導致畫面出現(xiàn)位置跳變、色彩失真、細節(jié)模糊等“漂移”現(xiàn)象,破壞視頻的連貫性。

  3. 計算成本高昂:訓練和推理一個14B參數(shù)的視頻擴散模型需要巨大的計算和內存資源,通常依賴于復雜的模型并行與分片框架,限制了其研究和應用的可及性。


Helios的目標是構建一個系統(tǒng),在不依賴諸如KV緩存、稀疏注意力、量化等常規(guī)加速技術,也不使用自強迫、錯誤庫等防漂移技巧的前提下,同步解決以上三個問題。

02.

Helios的整體方案

為了實現(xiàn)目標,Helios團隊沿著三個關鍵維度進行了系統(tǒng)性創(chuàng)新,其整體架構如圖4所示。



  1. 無限生成能力:將長視頻生成定義為“視頻續(xù)寫”,通過統(tǒng)一歷史注入框架,將一個原本只能生成固定長度的雙向預訓練模型,轉化為一個自回歸生成器,并原生支持文本生成視頻(T2V)、圖像生成視頻(I2V)和視頻生成視頻(V2V)三種任務。

  2. 高質量抗漂移:深入分析了視頻漂移的三種典型形態(tài)(位置漂移、色彩漂移、修復漂移),并提出了簡單有效的抗漂移訓練策略,在不進行昂貴的長視頻微調的情況下,實現(xiàn)了分鐘級視頻的穩(wěn)定生成。

  3. 實時生成效率:提出深度壓縮流,從令牌和采樣步數(shù)兩個視角進行深度壓縮。結合基礎設施級的優(yōu)化,使得一個14B模型的計算成本降低到與1.3B模型相當甚至更低。

接下來,我們將深入剖析這三個維度的具體技術細節(jié)。

03.

無限生成:統(tǒng)一歷史注入

3.1 表示控制:將長視頻建模為續(xù)寫任務

Helios的核心思想是將歷史幀作為明確的條件輸入。模型的輸入是歷史上下文 X_Hist 和噪聲上下文 X_Noisy 的拼接。X_Hist 包含已生成的干凈幀,X_Noisy 是待去噪生成的新幀。模型基于 X_Hist 對 X_Noisy 進行去噪,生成與歷史內容在時序上連貫的續(xù)寫片段。通過不斷迭代此過程(將新生成的幀加入歷史,生成下一片段),理論上可以實現(xiàn)無限長度的視頻生成。

這種方法巧妙地將任務統(tǒng)一了起來:當 X_Hist 全為零時,模型執(zhí)行T2V;當 X_Hist 只有最后一幀非零時,執(zhí)行I2V;當 X_Hist 包含多幀時,執(zhí)行V2V。

3.2 引導注意力:區(qū)分對待歷史與噪聲上下文

論文指出,歷史上下文(干凈、已對齊文本)與噪聲上下文(嘈雜、待生成)特性不同,應區(qū)別對待。Helios設計了引導注意力機制:

  • 在自注意力層:模型會計算歷史和噪聲上下文各自的查詢、鍵、值張量,并通過一個可學習的“放大令牌” amp 來調制歷史鍵,從而選擇性地放大或抑制歷史信息,讓模型更專注于最具判別性的歷史特征。

  • 在交叉注意力層:文本信息只注入到噪聲上下文 X_Noisy 中,因為歷史上下文 X_Hist 已經包含了之前的語義信息,避免冗余注入。

這種設計確保歷史上下文扮演“引導者”角色,而不是被修改的“參與者”,增強了生成過程的穩(wěn)定性。

04.

高質量抗漂移:簡單有效的策略

論文首次清晰地歸納了長視頻漂移的三種典型表現(xiàn)(如圖5所示),并提出了對應的解決方案。


4.1 相對旋轉位置編碼:解決位置漂移

位置漂移的主要原因是模型在推理時遇到了訓練時未見過的、超出訓練范圍的絕對時間位置索引。Helios提出了相對RoPE:無論生成多長的視頻,歷史上下文 X_Hist 的時間索引范圍始終固定(如0到 T_Hist),而噪聲上下文 X_Noisy 的索引則接續(xù)其后(如 T_Hist 到 T_Hist + T_Noisy)。這種相對索引方式使得模型能夠穩(wěn)定生成任意長度的視頻,同時也緩解了RoPE周期性與多頭注意力交互導致的重復運動問題。

4.2 首幀錨點:抑制色彩漂移

通過對正常視頻與漂移視頻的統(tǒng)計指標(飽和度、美學分數(shù)、RGB均值/方差)隨時間變化的曲線分析(如圖6所示),論文發(fā)現(xiàn)漂移視頻會在某個時刻發(fā)生統(tǒng)計特性的突然偏移。基于此,Helios在訓練和推理時,始終將視頻的第一幀保留在歷史上下文 X_Hist 中。這一“首幀錨點”作為一個全局視覺參照,有效地約束了后續(xù)生成內容的分布,防止色彩等整體風格隨時間發(fā)生劇烈漂移。


4.3 幀感知破壞:抵抗修復漂移

修復漂移指的是模型在推理時,以其自身生成的、帶有瑕疵的輸出作為歷史條件,導致誤差累積。為此,Helios在訓練階段引入了幀感知破壞,模擬推理時可能遇到的劣質歷史幀。對于每一幀歷史,隨機施加曝光調整、加噪、降采樣后上采樣等擾動,強迫模型學習對不完美歷史輸入的魯棒性,從而在推理時能更好地應對自回歸生成中的誤差累積。

05.

實時生成:深度壓縮流

實現(xiàn)實時的關鍵在于“降本增效”。Helios從兩個層面進行了深度壓縮。

(一)從令牌視角壓縮:減少計算量

5.1.1 多項記憶塊化:壓縮歷史上下文

并非所有歷史幀都對預測未來同等重要。近距離歷史幀對局部運動至關重要,而遠距離歷史幀主要提供全局上下文?;诖?,Helios采用分層窗口,將 X_Hist 分為短期、中期、長期三部分,并分別使用不同尺寸的卷積核進行塊化處理。距離越遠,壓縮比率越大。如圖7所示,這種設計在固定令牌預算下,顯著擴展了模型能“看到”的歷史范圍,大幅減少了參與注意力計算的歷史令牌數(shù)量。


5.1.2 金字塔統(tǒng)一預測校正器:壓縮噪聲上下文

受到“早期采樣步驟主導全局結構,后期步驟精修細節(jié)”的啟發(fā),Helios提出了金字塔式采樣策略。如圖8所示,去噪過程被劃分為多個階段,每個階段在不同的空間分辨率上進行:



  • 低分辨率階段:關注效率,快速確定全局布局、色彩等。

  • 中分辨率階段:平衡質量與效率。

  • 高分辨率階段:專注質量,精細雕琢細節(jié)。


模型學習跨尺度的速度場,并采用統(tǒng)一預測校正器來跨階段協(xié)調。這種多尺度處理使總計算量從 O(HW N) 降至接近 O(HW N/K),其中 K 是階段數(shù)。在實現(xiàn)相同畫質的前提下,計算量大幅降低。

(二)從步數(shù)視角壓縮:減少采樣步驟

要將一個需要50步采樣的擴散模型加速到幾步,蒸餾是關鍵。Helios提出了對抗分層蒸餾,在分布匹配蒸餾(DMD)框架上進行了多項改進(如圖9所示):


  • 純教師強迫:使用高質量的Helios-Base模型作為教師,且在蒸餾訓練時,歷史上下文完全由真實的視頻幀提供(而非像其他方法那樣使用模型自回滾生成的幀),避免了高昂的“訓練即推理”回滾計算,極大提升了訓練效率。

  • 分階段反向模擬:將反向采樣過程也分解為與金字塔采樣對應的多個階段,與分層壓縮的推理流程對齊。

  • 由粗到精的學習策略:通過OD E初始化和動態(tài)重加噪等課程學習技巧,穩(wěn)定分層蒸餾的優(yōu)化過程。

  • 對抗后訓練:在蒸餾之后,加入一個基于真實數(shù)據(jù)的GAN損失,進一步突破教師模型的性能上限,提升生成質量。

最終,Helios將采樣步驟從50步壓縮到了僅需3步,且無需分類器自由引導(CFG),進一步提速。

06.

基礎設施優(yōu)化與實驗驗證

6.1 基礎設施優(yōu)化為了在有限的內存資源(單張H100 80GB)上訓練和推理這個龐大的模型,論文還介紹了一系列底層優(yōu)化:

  • 分片EMA:將指數(shù)移動平均參數(shù)分片存儲在多卡上,節(jié)省內存。

  • 異步顯存釋放:在蒸餾訓練中,按需加載和卸載生成器、評分器等模型,通過流水線掩蓋數(shù)據(jù)傳輸開銷。

  • 緩存梯度用于GAN:針對GAN判別器的訓練,通過緩存梯度來解耦反向傳播,提前釋放中間激活值,降低峰值內存占用。

  • Flash內核優(yōu)化:實現(xiàn)了高性能的LayerNorm/RMSNorm和旋轉位置編碼的Triton內核,減少了內存訪問,提升了計算吞吐。


6.2 實驗結果論文構建了一個名為 HeliosBench 的全新基準,包含240個提示詞,覆蓋極短到長四個時長等級(81, 240, 720, 1440幀)。實驗結果表明:

  • 速度與性能:如圖1和圖2所示,在單張H100上,Helios(蒸餾版)的推理速度遠超同級別的模型(如Wan2.1 14B),甚至快于一些經過蒸餾的1.3B小模型(如某些實時生成方案)。同時,在短、長視頻生成任務上,其質量評分均顯著優(yōu)于現(xiàn)有的蒸餾模型,與強大的基礎模型性能相當。



  • 長視頻質量:如圖3的案例所示,Helios能夠生成連貫、高質量、長達1440幀(約48秒)的長視頻,細節(jié)豐富,運動自然,無明顯漂移。


  • 消融實驗:論文通過詳盡的消融研究,驗證了所提出的統(tǒng)一歷史注入、抗漂移技術、深度壓縮流等各個模塊的有效性和必要性。

07.

總結與展望

Helios的工作為視頻生成領域帶來了一個兼具實用性與研究價值的范式。它首次證明了一個140億參數(shù)的大模型,完全可以在單張GPU上實現(xiàn)實時、長時、高質量的視頻生成。其技術創(chuàng)新是系統(tǒng)性的:

  • 在架構上,提出了統(tǒng)一歷史注入框架,優(yōu)雅地統(tǒng)一了T2V/I2V/V2V任務

  • 在訓練上,揭示了漂移的本質并提供了輕量級的解決方案,避免了對長視頻數(shù)據(jù)的依賴。

  • 在效率上,通過深度壓縮流和對抗分層蒸餾,實現(xiàn)了數(shù)量級的速度提升。

  • 在工程上,通過一系列內存與計算優(yōu)化,讓大模型的訓練與部署變得可行。

Helios團隊開源代碼、基礎模型和蒸餾模型,這將極大地推動社區(qū)在實時長視頻生成方向的探索。這項工作不僅為游戲、影視、交互式內容創(chuàng)作等應用打開了新的想象空間,也為構建更高效的“世界模擬器”奠定了重要的技術基礎。

----- END -----

wisemodel相關:

系列模型:


關于wisemodel更多


1

歡迎持續(xù)關注和支持

開源社區(qū)建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質內容

歡迎投稿分享人工智能領域相關的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學會協(xié)會、聯(lián)盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
春天,這堿性菜再貴也要多吃,殺菌強免疫,補鈣補鉀兩不誤,好吃

春天,這堿性菜再貴也要多吃,殺菌強免疫,補鈣補鉀兩不誤,好吃

阿龍美食記
2026-03-25 10:38:40
江西安源路橋集團有限公司黨支部書記、董事長王東被查

江西安源路橋集團有限公司黨支部書記、董事長王東被查

瀟湘晨報
2026-03-25 16:16:44
老師穿短裙蕾絲襪上課,學生連頭都不敢抬!老師穿衣底線到底在哪

老師穿短裙蕾絲襪上課,學生連頭都不敢抬!老師穿衣底線到底在哪

小羽叨叨叨
2026-03-26 13:24:34
特變電工:公司輸變電產線基本處于滿負荷生產狀態(tài),公司變壓器、電線電纜、電抗器等輸變電產品在手訂單飽滿

特變電工:公司輸變電產線基本處于滿負荷生產狀態(tài),公司變壓器、電線電纜、電抗器等輸變電產品在手訂單飽滿

每日經濟新聞
2026-03-26 19:25:48
何超瓊沒想到,倒貼14億嫁東北小伙的何超盈,如今竟給她狠狠長臉

何超瓊沒想到,倒貼14億嫁東北小伙的何超盈,如今竟給她狠狠長臉

往史過眼云煙
2026-03-26 20:33:55
吳柳芳:我本不想跳擦邊!被管晨辰指責后失去收入 直播1年賺40萬

吳柳芳:我本不想跳擦邊!被管晨辰指責后失去收入 直播1年賺40萬

念洲
2026-03-26 13:14:22
還有誰!楊瀚森100%命中率!20+9+5打出完美一戰(zhàn)!

還有誰!楊瀚森100%命中率!20+9+5打出完美一戰(zhàn)!

柚子說球
2026-03-26 13:07:05
卡爾森:壞了!原來小丑不是特朗普,而是我自己

卡爾森:壞了!原來小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

10萬億窟窿!比恒大更坑的民企來了,曾力壓許家印,位居第一

孤單是寂寞的毒
2026-03-04 15:38:03
人社部明確:事業(yè)編制改革啟動,3100萬人的“鐵飯碗”要變了

人社部明確:事業(yè)編制改革啟動,3100萬人的“鐵飯碗”要變了

慧眼看世界哈哈
2026-03-24 06:36:05
何鴻燊是個謎!2009年,88歲何鴻燊各臟器就已衰竭

何鴻燊是個謎!2009年,88歲何鴻燊各臟器就已衰竭

果媽聊娛樂
2026-03-26 10:00:16
曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習慣糟糕,一口氣吃8根雪糕

曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習慣糟糕,一口氣吃8根雪糕

古希臘掌管松餅的神
2026-03-25 11:08:46
張雪峰女兒張姩菡發(fā)文:我不想哭,但眼淚止不住,我沒有得到父愛

張雪峰女兒張姩菡發(fā)文:我不想哭,但眼淚止不住,我沒有得到父愛

爆笑大聰明阿衿
2026-03-26 20:48:48
老人離世房產未過戶,2026年法律新規(guī):繼承權真的會作廢嗎?

老人離世房產未過戶,2026年法律新規(guī):繼承權真的會作廢嗎?

復轉這些年
2026-03-22 17:48:38
老子二千年前就說透了:上天會用各種方式,把你引到你該走的路上

老子二千年前就說透了:上天會用各種方式,把你引到你該走的路上

千秋文化
2026-03-24 21:30:09
冒充“中國船”闖過伊朗封鎖線!日本貨輪全速突圍,安全抵達澳洲

冒充“中國船”闖過伊朗封鎖線!日本貨輪全速突圍,安全抵達澳洲

澳洲紅領巾
2026-03-26 12:22:58
《浪姐2026》陣容惹爭議,32位姐姐一半不認識,范瑋琪被抵制

《浪姐2026》陣容惹爭議,32位姐姐一半不認識,范瑋琪被抵制

啊呆吃瓜
2026-03-26 19:35:03
深圳雙雄互撕!大疆一紙訴狀,影石一天沒了50億

深圳雙雄互撕!大疆一紙訴狀,影石一天沒了50億

野馬財經
2026-03-26 16:39:35
劉曉慶妹妹發(fā)聲反駁!稱姐姐受身邊人挑撥,支持她把遺產捐給國家

劉曉慶妹妹發(fā)聲反駁!稱姐姐受身邊人挑撥,支持她把遺產捐給國家

萌神木木
2026-03-26 18:26:44
日本公布中國游客免稅店2月份消費數(shù)據(jù),真的是打臉了!

日本公布中國游客免稅店2月份消費數(shù)據(jù),真的是打臉了!

消失的電波
2026-03-26 15:20:44
2026-03-27 01:52:49
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

數(shù)碼
房產
家居
公開課
軍事航空

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅動,支持B70 / B65顯卡

房產要聞

突發(fā),三亞又有大批征遷補償方案出爐!

家居要聞

傍海而居 靜觀蝴蝶海

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設施

無障礙瀏覽 進入關懷版