国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

CVPR 2026 | ReFTA:打破張量化PEFT的「權重重建」瓶頸

0
分享至



隨著大模型在自然語言處理、計算機視覺以及多模態(tài)任務中的快速發(fā)展,全參數(shù)微調(diào)(Full Fine-tuning, FF)所帶來的顯存占用、訓練時間和存儲成本也越來越高。為了解決這一問題,參數(shù)高效微調(diào)(Parameter-Efficient Fine-Tuning, PEFT)逐漸成為主流路線:通過凍結(jié)大部分預訓練參數(shù),僅更新少量可訓練參數(shù),使模型能夠快速適配下游任務。

當前最常見的一類 PEFT 方法是基于矩陣低秩分解的方法,例如 LoRA 。其基本思想是將每一層的權重更新表示為一個低秩矩陣分解,從而用少量參數(shù)近似表示權重變化。這類方法結(jié)構簡單、效果穩(wěn)定,在大模型微調(diào)中得到了廣泛應用。然而,當模型規(guī)模不斷增大、層數(shù)持續(xù)增加時,這類方法仍然存在一些局限:

  • 每一層都需要獨立的低秩適配模塊,可訓練參數(shù)仍隨層數(shù)線性增長;
  • 低秩分解只利用了單層內(nèi)部的矩陣結(jié)構,難以顯式刻畫不同層之間的相關性。

為進一步提升參數(shù)效率,近期研究開始探索張量化 PEFT(Tensorized PEFT)。這類方法將同類型層(例如各注意力層的 Q/K/V 投影矩陣)沿層維度進行堆疊,從而形成一個高階張量結(jié)構。相比逐層的矩陣低秩分解,這種表示方式能夠同時建模層內(nèi)結(jié)構與跨層相關性,從而在理論上實現(xiàn)更緊湊的參數(shù)表示。



圖 1:左—DCT(離散余弦變換)域下的張量奇異值分布 ;右—基于 LSM-3(權重張量經(jīng) mode-3 展開后的左奇異矩陣)的奇異值分布??梢杂^察到,大部分能量集中在少數(shù)主成分上。

盡管張量化 PEFT 在參數(shù)效率上具有明顯優(yōu)勢,但在實際工程實現(xiàn)中仍然存在一個關鍵問題:權重張量重建(weight tensor reconstruction)

許多張量分解方法在每次前向或反向傳播時,都需要將張量因子重新組合為完整的權重張量。這一過程會帶來額外的工程開銷:

  • 額外計算開銷:重復的張量–矩陣乘法增加訓練時間
  • 顯存占用增加:顯式構造的大型權重張量會放大計算圖規(guī)模

因此,一個關鍵問題是:

能否在保持張量化 PEFT 參數(shù)高效性的同時,避免訓練過程中反復進行權重重建?

本文提出的 ReFTA(Reconstruction-Free Tensor Adaptation),正是一種針對這一問題設計的張量化 PEFT 方法。



  • 論文標題:ReFTA: Breaking the Weight Reconstruction Bottleneck in Tensorized Parameter-Efficient Fine-Tuning
  • 論文鏈接:https://zhouchenlin.github.io/Publications/2026-CVPR-ReFTA.pdf

ReFTA 的核心:互換 mode-1 與 mode-3 的乘積以避免顯式權重重建

ReFTA 的首要設計目標,是消除張量方法在訓練時反復重建權重張量所帶來的額外開銷。具體而言,ReFTA 將 mode-1 與 mode-3 的乘積順序?qū)φ{(diào),把原本「先重建權重、再與輸入相乘」的計算過程,改寫為「先生成中間特征、再進行特征融合」。由此,在前向與反向傳播中就不再需要顯式構造完整的大尺寸權重張量,也無需將其納入梯度圖。

更重要的是,這一改寫并不僅僅是實現(xiàn)層面的優(yōu)化,而是改變了訓練過程中的計算范式:模型不再圍繞大規(guī)模權重張量展開計算,而是轉(zhuǎn)向處理與 batch 規(guī)模相關的中間特征。對于張量化 PEFT 而言,這種從「權重空間」到「特征空間」的轉(zhuǎn)變,正是 ReFTA 區(qū)別于已有方法的關鍵所在。

張量化表示與主成分低秩適配

考慮將 Transformer 中同類型層的權重矩陣沿層維度堆疊:



在此基礎上,ReFTA 進一步使用張量主成分分析(Tensor PCA)得到一個主成分近似:







圖 2:NF4 量化誤差隨張量秩變化的趨勢,實證支持 ReFTA 在量化下更魯棒。

然后在變換域里,每個張量切片都可以寫成 LoRA 類似的低秩形式:



mode-1 與 mode-3 乘積交換



ReFTA 的實現(xiàn)要點在于以下兩步的順序交換:



交換后可等價地被改寫為:





整體示意如下:



圖 3:ReFTA 的結(jié)構(基于切片的低秩適配器 + 特征融合)

這一步改寫帶來兩項直接收益:







表 1:ReFTA 與其兩種權重合并變體在前向與反向計算的時間復雜度對比。



除了工程實現(xiàn)上的優(yōu)勢,ReFTA 還給出了一個針對張量化低秩 PEFT 的泛化上界。核心結(jié)論可以概括為:



其中:

  • R 是張量秩
  • K 是堆疊的層數(shù) / 注意力頭數(shù)
  • n 是輸出維度
  • m 是樣本數(shù)

這意味著:

  • 復雜度上界與張量秩 R 直接相關
  • 讓「極小參數(shù)預算下仍能保持良好的泛化能力」更有可解釋性

理論與實證的呼應



  • 在不同 backbone(ViT、RoBERTa、LLaMA-family)上,使用較小的 R 時 ReFTA 能在大幅減少可訓練參數(shù)的同時接近甚至超過主流 PEFT 的性能,從實證角度印證了低秩設置下的良好泛化能力;
  • ReFTA 避免顯式權重重建的實現(xiàn)方式直接帶來了較小的訓練顯存占用,這對應著理論中對有效參數(shù)和計算復雜度的控制。



表 2:該表展示了在常見 ViT 基線上的方法對比,ReFTA 在較低參數(shù)預算下仍能超越 LoRA / PiSSA



表 3:該表展示了基于 RoBERTa 模型在 GLUE 六個數(shù)據(jù)集上的微調(diào)結(jié)果;其中全參數(shù)微調(diào)(FF)和參數(shù)量最小的方法分別以灰色和淺藍色高亮。整體上看,ReFTA 在較低參數(shù)預算下依然能夠保持有競爭力的性能,體現(xiàn)出較好的參數(shù)效率。



圖 4:左 — Car 數(shù)據(jù)集下不同可逆變換 U_0(DCT / LSM-3 等)對張量秩下性能的影響;右 — FGVC 數(shù)據(jù)集下相同對比。兩圖表明不同可逆變換選擇會影響低秩近似的實際效用。

總結(jié)與展望

ReFTA 所針對的問題十分明確:張量化 PEFT 雖然能夠減少可訓練參數(shù),但訓練時反復進行權重重建會帶來額外的計算、顯存與實現(xiàn)成本。

ReFTA 的關鍵貢獻可以概括為四點:



從更宏觀的角度看,ReFTA 的最大貢獻不僅在于提供了一種更高效的 PEFT 方法,更在于其提出的核心思想:利用張量代數(shù)策略避免顯式張量權重重建。這一思想不僅能夠被應用于 PEFT 任務還有望應用于基于張量方法的模型壓縮與高效模型結(jié)構設計等方向,從而為構建更加輕量而高效的模型提供新的思路。總體而言,這一方向仍具有非常廣闊的拓展空間。

參考文獻:

[1] Edward Hu, Yelong Shen, and Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Weizhu Chen. LoRA: Low-rank adaptation of large language models. In ICLR, 2022.

[2] Canyi Lu, Xi Peng, Yunchao Wei. Low-Rank Tensor Completion With a New Tensor Nuclear Norm Induced by Invertible Linear Transforms. In CVPR, 2019.

[3] Hao Kong, Canyi Lu, and Zhouchen Lin. Tensor Q-rank: newdata dependent definition of tensor rank. Machine Learning, 2019.

[4] Fanxu Meng, Zhaohui Wang, Muha Zhang. PiSSA: Principal singular values and singular vectors adaptation of large language models. In NeurIPS, 2024.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一把好牌打得稀爛!四胞胎“冰清玉潔”出道失敗,淪為酒吧擦邊女

一把好牌打得稀爛!四胞胎“冰清玉潔”出道失敗,淪為酒吧擦邊女

離離言幾許
2026-03-28 14:17:07
不到24小時局勢突變!伊朗剛制定停戰(zhàn)條件,美國就空襲伊朗核設施

不到24小時局勢突變!伊朗剛制定停戰(zhàn)條件,美國就空襲伊朗核設施

軍機Talk
2026-03-28 23:03:54
張雪峰員工:他走了,留下一堆很難接手的攤子...

張雪峰員工:他走了,留下一堆很難接手的攤子...

芳華青年
2026-03-28 22:19:24
2年和領導開房410次!從臨時工“睡”成處長,南航女經(jīng)理升遷之路

2年和領導開房410次!從臨時工“睡”成處長,南航女經(jīng)理升遷之路

就一點
2026-03-28 17:42:50
伊朗突襲成功!美國被打懵,遭開戰(zhàn)最大重創(chuàng)!

伊朗突襲成功!美國被打懵,遭開戰(zhàn)最大重創(chuàng)!

大嘴說天下
2026-03-28 19:30:43
送別張雪峰!汪涵親自到場,張睿托人送花,學生拿錄取書趕赴悼念

送別張雪峰!汪涵親自到場,張睿托人送花,學生拿錄取書趕赴悼念

離離言幾許
2026-03-28 15:02:25
陽光雙冠!薩巴倫卡三盤險勝高芙,奪1000賽第11冠+生涯第24冠

陽光雙冠!薩巴倫卡三盤險勝高芙,奪1000賽第11冠+生涯第24冠

全景體育V
2026-03-29 06:07:44
高三學生因不堪鳥鳴寫信請求拆除鳥巢,校長婉拒稱“世界不會為某個人因某事而暫?!保瑢W生回應:對生命與自然有了新的思考

高三學生因不堪鳥鳴寫信請求拆除鳥巢,校長婉拒稱“世界不會為某個人因某事而暫?!保瑢W生回應:對生命與自然有了新的思考

大風新聞
2026-03-28 20:14:32
SpaceX星艦第10次試飛:飛船炸了,但發(fā)射塔接住了

SpaceX星艦第10次試飛:飛船炸了,但發(fā)射塔接住了

爬蟲飼養(yǎng)員
2026-03-29 07:16:35
詹姆斯或小卡!曝勇士預計全力追兩大巨星 為庫里時代畫圓滿句號

詹姆斯或小卡!曝勇士預計全力追兩大巨星 為庫里時代畫圓滿句號

羅說NBA
2026-03-29 05:44:18
韓國歌手暴雨中濕透仍全開麥,這照片直接封神了!

韓國歌手暴雨中濕透仍全開麥,這照片直接封神了!

東方不敗然多多
2026-03-29 01:08:36
日本1-0蘇格蘭!熱身賽4連勝 伊東純也替補絕殺 3天后過招英格蘭

日本1-0蘇格蘭!熱身賽4連勝 伊東純也替補絕殺 3天后過招英格蘭

我愛英超
2026-03-29 05:50:02
1-0爆冷澳大利亞隊!恭喜中國隊,久帥成功復仇!對手點球玩大了

1-0爆冷澳大利亞隊!恭喜中國隊,久帥成功復仇!對手點球玩大了

大秦壁虎白話體育
2026-03-28 17:32:26
人民日報也發(fā)了粉底液將軍,居然有粉絲去沖人民日報,勸都勸不住

人民日報也發(fā)了粉底液將軍,居然有粉絲去沖人民日報,勸都勸不住

芊手若
2026-03-29 04:06:34
委內(nèi)瑞拉總統(tǒng)馬杜羅社交媒體賬號發(fā)文:我們很好,內(nèi)心堅定且平靜

委內(nèi)瑞拉總統(tǒng)馬杜羅社交媒體賬號發(fā)文:我們很好,內(nèi)心堅定且平靜

新京報
2026-03-29 10:39:07
沖上熱搜!今年蚊子可能迎來史詩級加強?網(wǎng)友:遭不住了

沖上熱搜!今年蚊子可能迎來史詩級加強?網(wǎng)友:遭不住了

深圳晚報
2026-03-28 22:25:02
突然集體拉升!霍爾木茲海峽,大消息!以軍參謀長說以軍常規(guī)部隊已崩潰

突然集體拉升!霍爾木茲海峽,大消息!以軍參謀長說以軍常規(guī)部隊已崩潰

證券時報e公司
2026-03-28 22:22:58
伊朗總統(tǒng)警告:再打三周,國家經(jīng)濟就崩了

伊朗總統(tǒng)警告:再打三周,國家經(jīng)濟就崩了

桂系007
2026-03-29 04:45:50
張雪峰的靈車細節(jié)讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

張雪峰的靈車細節(jié)讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

魔都姐姐雜談
2026-03-28 18:18:48
美媒:美國全國范圍爆發(fā)反對特朗普政府集會,預計超900萬人參與,或為“美國歷史上規(guī)模最大”抗議活動

美媒:美國全國范圍爆發(fā)反對特朗普政府集會,預計超900萬人參與,或為“美國歷史上規(guī)模最大”抗議活動

環(huán)球網(wǎng)資訊
2026-03-29 09:27:36
2026-03-29 11:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142598關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

副部級高官任上落馬 十天前仍參加省政協(xié)會議

頭條要聞

副部級高官任上落馬 十天前仍參加省政協(xié)會議

體育要聞

全球第二大車企,也救不了這支德甲隊?

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

教育
房產(chǎn)
家居
時尚
軍事航空

教育要聞

“家破成這樣,還好意思拍視頻?”家長曬學霸孩子,反被嘲太邋遢

房產(chǎn)要聞

首日430組來訪,單日120組認籌!??谑讉€真四代,徹底爆了!

家居要聞

曲線華爾茲 現(xiàn)代簡約

和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

軍事要聞

美軍中東基地損失最新披露

無障礙瀏覽 進入關懷版