国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

比LoRA更快更強(qiáng),全新框架LoFA上線,秒級適配大模型

0
分享至



本文第一作者郝一鳴,香港中文大學(xué)(深圳)GAP-Lab 在讀博士生。本文共同第一作者為許牧天,于香港中文大學(xué)(深圳)取得博士學(xué)位。導(dǎo)師韓曉光教授,為本文通訊作者。

個性化視覺生成的實(shí)際應(yīng)用中,通用視覺基礎(chǔ)模型的表現(xiàn)往往難以滿足精準(zhǔn)需求。為實(shí)現(xiàn)高度定制化的生成效果,通常需對大模型進(jìn)行針對性的自適應(yīng)微調(diào),但當(dāng)前以 LoRA 為代表的主流方法,仍受限于定制化數(shù)據(jù)收集與冗長的優(yōu)化流程,耗時耗力,難以在真實(shí)場景中廣泛應(yīng)用。

為此,港中大(深圳)GAP-Lab 提出全新框架LoFA,從上重塑個性化視覺生成的技術(shù)路徑。該框架能夠在數(shù)秒內(nèi)根據(jù)用戶指令前饋式直出對應(yīng)的 LoRA 參數(shù),使大模型快速適配到個性化任務(wù)中 —— 無需漫長優(yōu)化,效果卻媲美甚至超越傳統(tǒng) LoRA,真正推動大模型適配進(jìn)入 “即時獲取” 的新時代。



  • 論文名稱:LoFA: Learning to Predict Personalized Priors for Fast Adaptation of Visual Generative Models
  • 論文鏈接:https://arxiv.org/abs/2512.08785
  • 項目主頁:https://jaeger416.github.io/lofa/
  • 開源代碼:https://github.com/GAP-LAB-CUHK-SZ/LoFA

背景與挑戰(zhàn)



圖 1. LoFA 概念圖:與傳統(tǒng) LoRA 的對比

近年來,創(chuàng)意媒體和視覺內(nèi)容的需求持續(xù)增長,這推動了功能強(qiáng)大的視覺生成基礎(chǔ)模型的發(fā)展。這類模型通過大規(guī)模圖像或視頻數(shù)據(jù)集訓(xùn)練,展現(xiàn)出豐富的能力與通用的先驗(yàn)知識。然而,面對用戶的個性化需求 —— 尤其是涉及細(xì)粒度指令時,模型往往難以生成完全符合用戶期望的結(jié)果(如圖 1 “WAN” 所示,文本到視頻基礎(chǔ)模型 WAN 在理解 “一名男子正在做功夫側(cè)踢” 這類具體動作指令時表現(xiàn)不佳)。

為解決這一問題,早期研究通常采用 parameter-efficient fine-tuning (PEFT) 技術(shù),通過融入個性化先驗(yàn)知識來調(diào)整模型。但這些方法需要為每個個性化任務(wù)單獨(dú)優(yōu)化適配器(例如 LoRA),不僅依賴特定任務(wù)數(shù)據(jù),還需大量優(yōu)化時間(見圖 1 “Classical LoRA” 示例),難以滿足實(shí)際應(yīng)用中用戶對快速響應(yīng)新需求的要求。

為實(shí)現(xiàn)快速適配,近期少量研究嘗試在測試階段直接預(yù)測 LoRA 權(quán)重。例如,HyperDreamBooth 提出了基于 hypernetwork 的方法,但仍需額外的后優(yōu)化步驟;DiffLoRA 則在此基礎(chǔ)上完全取消了后優(yōu)化過程。然而,這一研究方向面臨一個根本性挑戰(zhàn):模型必須學(xué)習(xí)從低維細(xì)粒度用戶指令到高維復(fù)雜 LoRA 參數(shù)分布的復(fù)雜映射關(guān)系。

正因如此,現(xiàn)有方法目前僅在圖像生成中針對主體身份個性化這類相對受限的場景中得到驗(yàn)證。這一局限可能源于這些方法將 LoRA 權(quán)重壓縮至低維空間作為超網(wǎng)絡(luò)輸出,不可避免地造成信息損失并限制模型表達(dá)能力。因此,如何實(shí)現(xiàn)能夠有效處理細(xì)粒度用戶指令或高維復(fù)雜 LoRA 權(quán)重的快速模型適配方法 —— 這對面向用戶的實(shí)際應(yīng)用至關(guān)重要 —— 仍然是視覺生成領(lǐng)域一個亟待探索的研究難題。

為彌補(bǔ)這一空白,本論文提出了 LoFA—— 一種通用的學(xué)習(xí)框架,能夠從多樣化或細(xì)粒度的用戶指令中直接預(yù)測個性化 LoRA 參數(shù),實(shí)現(xiàn)視覺生成模型的快速適配(見圖 1 “LoFA” 部分)。

核心方法介紹



圖 2. LoRA 響應(yīng)圖譜的可視化:獨(dú)特的結(jié)構(gòu)化分布

LoFA 的核心思路是在 hypernetwork 的設(shè)計中嵌入一種新型引導(dǎo)機(jī)制,使其能夠直接從用戶指令中預(yù)測完整且未經(jīng)壓縮的 LoRA 權(quán)重,而無需依賴有損壓縮技術(shù)。為實(shí)現(xiàn)這一目標(biāo),作者首先發(fā)現(xiàn)了 LoRA 的一個關(guān)鍵特性 —— 響應(yīng)圖譜。該圖譜呈現(xiàn)為個性化 LoRA 權(quán)重與原始模型參數(shù)間相對變化所形成的獨(dú)特結(jié)構(gòu)化模式,能夠有效捕捉用戶指令的核心影響(可視化結(jié)果見圖 2,具體分析見論文)。



圖 3. LoFA 的流程:響應(yīng)圖譜引導(dǎo)的兩階段學(xué)習(xí)框架

基于這一發(fā)現(xiàn),論文設(shè)計了一種全新架構(gòu)(如圖 3),摒棄了直接進(jìn)行 “指令 - LoRA 權(quán)重” 的暴力映射方式。該架構(gòu)以原始基礎(chǔ)模型權(quán)重作為輸入,通過交叉注意力機(jī)制融合用戶指令,從而學(xué)習(xí)相對適配關(guān)系。整個學(xué)習(xí)過程進(jìn)一步劃分為兩個階段:網(wǎng)絡(luò)首先預(yù)測響應(yīng)圖譜(其維度遠(yuǎn)低于 LoRA 權(quán)重且結(jié)構(gòu)更簡單),隨后運(yùn)用習(xí)得的響應(yīng)知識引導(dǎo)最終的 LoRA 權(quán)重預(yù)測,使其能夠識別并聚焦關(guān)鍵適配區(qū)域,從而簡化學(xué)習(xí)過程并提升穩(wěn)定性。

通過這種結(jié)構(gòu)化響應(yīng)引導(dǎo)的設(shè)計,網(wǎng)絡(luò)能夠?qū)W習(xí)基礎(chǔ)模型與目標(biāo) LoRA 之間的相對適配關(guān)系,同時預(yù)測具備完整表達(dá)能力的、未經(jīng)壓縮的 LoRA 權(quán)重。

實(shí)驗(yàn)分析

論文通過系統(tǒng)性的實(shí)驗(yàn)評估 LoFA 框架在視頻與圖像生成任務(wù)中的有效性。為全面驗(yàn)證其處理多樣化指令條件的泛化能力,論文在三個關(guān)鍵應(yīng)用場景中測試了多種輸入模態(tài):

在視頻生成任務(wù)中,以 WAN2.1-1.3B 為基礎(chǔ)模型,重點(diǎn)評估兩方面應(yīng)用:

(1)基于文本或運(yùn)動姿態(tài)的個性化人體動作視頻生成,該任務(wù)針對視頻數(shù)據(jù)的核心屬性 —— 動態(tài)運(yùn)動的個性化建模,具有顯著挑戰(zhàn)性;

(2)以風(fēng)格圖像為參考的文本到視頻風(fēng)格化,此為視頻編輯領(lǐng)域的經(jīng)典任務(wù)。

在圖像生成任務(wù)中,采用 Stable Diffusion XL 作為基礎(chǔ)模型,評估(3)ID 個性化圖像生成 —— 這也是先前相關(guān)研究唯一支持的應(yīng)用場景。

LoFA 不僅在性能上顯著超越基線方案,更達(dá)到了與獨(dú)立優(yōu)化的 LoRA 模型相媲美 —— 且在多類場景中表現(xiàn)更優(yōu)的效果,這證明了快速模型適配在實(shí)際應(yīng)用中的可行性。所有結(jié)果如下:



圖 4. 基于文本的個性化人體動作視頻生成結(jié)果對比



圖 5. 基于運(yùn)動姿態(tài)的個性化人體動作視頻生成結(jié)果對比



圖 6. 以風(fēng)格圖像為參考的文本到視頻風(fēng)格化



圖 7. ID 個性化的圖像生成

總結(jié)與展望

LoFA 突破了現(xiàn)有個性化技術(shù)的關(guān)鍵局限 —— 在保持高質(zhì)量生成結(jié)果的同時,徹底消除了冗長的優(yōu)化過程。大量實(shí)驗(yàn)表明,LoFA 取得了與逐例優(yōu)化的 LoRA 模型相當(dāng)甚至更優(yōu)的性能,同時將適配時間從數(shù)小時縮短至秒級。這一進(jìn)展為高效模型適配確立了新的范式,有望推動各類實(shí)時個性化應(yīng)用的發(fā)展。然而,當(dāng)前 LoFA 仍需要針對不同領(lǐng)域的特定指令(如人體動作指令、身份特征指令或藝術(shù)風(fēng)格指令)分別訓(xùn)練獨(dú)立網(wǎng)絡(luò)。理想的解決方案應(yīng)是構(gòu)建具備強(qiáng)大 zero-shot 能力的 unified hypernetwork。通過擴(kuò)大訓(xùn)練數(shù)據(jù)的規(guī)模與多樣性,這一目標(biāo)未來將有望實(shí)現(xiàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬文峰任廣東省外事辦公室主任

馬文峰任廣東省外事辦公室主任

中國經(jīng)濟(jì)網(wǎng)
2025-12-19 14:20:06
張震岳不慣著!一句話撕下朱孝天最后體面,李冰冰的臉被他丟盡了

張震岳不慣著!一句話撕下朱孝天最后體面,李冰冰的臉被他丟盡了

曉帝愛八卦
2025-12-20 06:34:39
國資委大消息!這些板塊迎重大利好,下周“這類股”有望騰飛大漲

國資委大消息!這些板塊迎重大利好,下周“這類股”有望騰飛大漲

虎哥閑聊
2025-12-20 08:13:29
上海著名百貨商場官宣改名、啟動不停業(yè)改造!屋頂觀景平臺目測要火

上海著名百貨商場官宣改名、啟動不停業(yè)改造!屋頂觀景平臺目測要火

新民晚報
2025-12-19 19:28:59
羅永浩又開炮!開通1000兆寬帶下載只有90多兆,上海電信壓力來了

羅永浩又開炮!開通1000兆寬帶下載只有90多兆,上海電信壓力來了

火山詩話
2025-12-19 06:40:20
新來的縣委書記是我大學(xué)時的男友,會議結(jié)束,他把我叫到了辦公室

新來的縣委書記是我大學(xué)時的男友,會議結(jié)束,他把我叫到了辦公室

五元講堂
2025-12-14 08:50:03
馬云預(yù)言或?qū)?yīng)驗(yàn)了?未來5年,比開藥店還要暴利的4個方向

馬云預(yù)言或?qū)?yīng)驗(yàn)了?未來5年,比開藥店還要暴利的4個方向

百態(tài)人間
2025-12-20 05:25:03
蔣萬安又開批了! 鈕則勛盤點(diǎn)其抗綠系列發(fā)言大贊:在野第一勇

蔣萬安又開批了! 鈕則勛盤點(diǎn)其抗綠系列發(fā)言大贊:在野第一勇

海峽導(dǎo)報社
2025-12-19 10:52:19
馬斯克贏得560億美元薪酬方案:如今價值1390億美元

馬斯克贏得560億美元薪酬方案:如今價值1390億美元

鞭牛士
2025-12-20 08:07:09
揭秘楊瀚森下放召回:兩座球館只有10分鐘車程 每天餐補(bǔ)150美元

揭秘楊瀚森下放召回:兩座球館只有10分鐘車程 每天餐補(bǔ)150美元

羅說NBA
2025-12-20 11:21:17
下周可能會漲的板塊:

下周可能會漲的板塊:

風(fēng)風(fēng)順
2025-12-20 09:37:24
汕汕高鐵汕頭至汕頭南段12月22日將建成通車

汕汕高鐵汕頭至汕頭南段12月22日將建成通車

環(huán)球網(wǎng)資訊
2025-12-20 12:30:42
大量汽車材料進(jìn)入禁限用清單 車企出口歐盟將迎全面合規(guī)挑戰(zhàn)

大量汽車材料進(jìn)入禁限用清單 車企出口歐盟將迎全面合規(guī)挑戰(zhàn)

經(jīng)濟(jì)觀察報
2025-12-19 10:14:39
凌晨4點(diǎn)皇馬年度收官戰(zhàn)!姆巴佩進(jìn)2球=超C羅紀(jì)錄 4巨頭強(qiáng)攻

凌晨4點(diǎn)皇馬年度收官戰(zhàn)!姆巴佩進(jìn)2球=超C羅紀(jì)錄 4巨頭強(qiáng)攻

葉青足球世界
2025-12-20 09:05:22
渤海完全屬于中國!因當(dāng)年毛主席的一句話,如今沒有一艘外船敢進(jìn)

渤海完全屬于中國!因當(dāng)年毛主席的一句話,如今沒有一艘外船敢進(jìn)

抽象派大師
2025-12-11 17:05:41
賀江川落馬,在北京國企圈子里,妥妥是金字塔尖的大佬。

賀江川落馬,在北京國企圈子里,妥妥是金字塔尖的大佬。

百態(tài)人間
2025-12-19 16:54:12
膜拜歐皇!綠軍一球迷參加中場抽獎活動,喜獲100萬美元獎金

膜拜歐皇!綠軍一球迷參加中場抽獎活動,喜獲100萬美元獎金

懂球帝
2025-12-20 12:37:04
破案!狀態(tài)明顯很差,杜鋒卻不敢下胡明軒原因找到,關(guān)辛說出實(shí)情

破案!狀態(tài)明顯很差,杜鋒卻不敢下胡明軒原因找到,關(guān)辛說出實(shí)情

后仰大風(fēng)車
2025-12-20 07:47:07
51歲賈靜雯與高圓圓同框,一個臉緊致一個褶多,骨相皮相區(qū)別明顯

51歲賈靜雯與高圓圓同框,一個臉緊致一個褶多,骨相皮相區(qū)別明顯

小娛樂悠悠
2025-12-20 11:44:20
她相貌平平,卻拿捏兩位千億富豪,為老頭連生兩子,現(xiàn)是豪門董事

她相貌平平,卻拿捏兩位千億富豪,為老頭連生兩子,現(xiàn)是豪門董事

說歷史的老牢
2025-12-19 10:57:14
2025-12-20 12:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

克林頓與愛潑斯坦案受害者共浴照片披露:坐在浴缸里

頭條要聞

克林頓與愛潑斯坦案受害者共浴照片披露:坐在浴缸里

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

戚薇女兒大變樣,10歲就進(jìn)入“尷尬期”

財經(jīng)要聞

日本加息落地:暴跌沒有,麻煩在后頭

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

藝術(shù)
教育
旅游
親子
家居

藝術(shù)要聞

Grigorieva Klimova:紛繁輕盈的色彩

教育要聞

男孩在“看守所備戰(zhàn)高考”,網(wǎng)友:考上了有啥用?政審也過不了

旅游要聞

中國旅游集團(tuán)20強(qiáng)出爐;亞朵3.6質(zhì)效雙升 | 一周視頻速遞

親子要聞

泰蘭尼斯千元兒童“穩(wěn)跑鞋” ,加入碳板是割韭菜還是剛需?

家居要聞

高端私宅 理想隱居圣地

無障礙瀏覽 進(jìn)入關(guān)懷版