1100多個模型殊途同歸，指向一個通用子空間，柏拉圖又贏一回？

2025-12-15 10:26:02　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：張倩

模型架構(gòu)的重要性可能遠(yuǎn)超我們之前的認(rèn)知。

最近，約翰斯?霍普金斯大學(xué)的一項研究發(fā)現(xiàn)：1100 多個不同的神經(jīng)網(wǎng)絡(luò)，即使在完全不同的數(shù)據(jù)集上訓(xùn)練、用不同的初始化和超參數(shù)，最終學(xué)到的權(quán)重都會收斂到一個共享的低維子空間。

這似乎是說明：存在一個「先驗的」數(shù)學(xué)結(jié)構(gòu)，所有神經(jīng)網(wǎng)絡(luò)都在逼近它。訓(xùn)練不是在「創(chuàng)造」什么，而是在「發(fā)現(xiàn)」一個早已存在的幾何形式。換句話說，神經(jīng)網(wǎng)絡(luò)「想學(xué)的東西」似乎高度一致，架構(gòu)決定了它能學(xué)什么，比數(shù)據(jù)影響更大。

這一發(fā)現(xiàn)有助于解釋很多「神秘」現(xiàn)象，比如為什么過參數(shù)化的模型（參數(shù)遠(yuǎn)多于訓(xùn)練樣本）還能泛化？為什么不同初始化最終學(xué)到相似的表示？為什么 LoRA、權(quán)重共享這些技術(shù)能 work？如果神經(jīng)網(wǎng)絡(luò)確實在共享子空間內(nèi)學(xué)習(xí)，這將為隱式正則化、可遷移性以及稀疏訓(xùn)練方法的有效性提供支持性解釋，同時也為諸如高效合并、新的優(yōu)化技術(shù)、更快更高效的學(xué)習(xí)和推理等應(yīng)用開辟道路。

論文標(biāo)題：THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS
論文鏈接：https://www.arxiv.org/pdf/2512.05117

這篇論文在 Alphaxiv、X 等平臺上吸引了很多關(guān)注，一度攀升到 Alphaxiv 榜一的位置。

有人說，柏拉圖又贏了一回。（注：柏拉圖的理念論認(rèn)為：我們看到的具體事物（桌子、馬、圓形）都只是「理念」（Forms/Ideas）的不完美投影。真正的、完美的圓存在于一個抽象的理念世界，現(xiàn)實中的圓只是對它的模仿。其核心主張是：抽象結(jié)構(gòu)先于具體實例。）

也有人從中讀出了一些令人擔(dān)憂的信號：如果所有模型都收斂到同一個子空間，那意味著當(dāng)前架構(gòu)存在內(nèi)在的天花板，再多的數(shù)據(jù)和算力也只是在同一個「盆地」里打轉(zhuǎn)。

論文概覽

在具體研究中，作者首先聚焦于 LoRA 適配器，因其易于訓(xùn)練且能大量收集，在 Mistral-7B 模型的約 500 個適配器中觀察到了通用子空間的涌現(xiàn)。隨后，研究擴展到完整權(quán)重空間，從約 500 個 Vision Transformer 和 50 個 LLaMA3-8B 模型中提取出相似的低秩通用子空間，這些模型各自使用不同數(shù)據(jù)集和初始化方式訓(xùn)練。

此前已有多條線索暗示這一現(xiàn)象：神經(jīng)正切核理論表明，在無限寬度極限下，網(wǎng)絡(luò)訓(xùn)練動態(tài)由一個與具體任務(wù)基本無關(guān)的核函數(shù)主導(dǎo)；機制可解釋性研究在視覺網(wǎng)絡(luò)的特定層中發(fā)現(xiàn)了反復(fù)出現(xiàn)的電路模式；彩票假說和模式連通性也指向可復(fù)用的低維結(jié)構(gòu)；早在 2012 年就有人觀察到，卷積網(wǎng)絡(luò)第一層在各種視覺任務(wù)中都會學(xué)到類 Gabor 濾波器。但這些工作要么聚焦于表示層面，要么未涉及不同模型間參數(shù)性質(zhì)的收斂。

這項研究的獨特之處在于：首次在權(quán)重層面提供了具體證據(jù)和明確通用假設(shè)，為深度神經(jīng)網(wǎng)絡(luò)參數(shù)空間中「通用性」的存在提供了最為嚴(yán)謹(jǐn)?shù)膶嵶C證據(jù)。

盡管這種通用性的根本成因仍有待探索，但即便是初步理解也具有深遠(yuǎn)意義。共享子空間有望實現(xiàn)：大規(guī)模模型壓縮（只需存儲子空間系數(shù)而非完整權(quán)重）、在已學(xué)習(xí)子空間內(nèi)快速適應(yīng)新任務(wù)、對泛化邊界和優(yōu)化景觀的理論洞察，以及通過減少訓(xùn)練和推理計算需求帶來的環(huán)境效益。此外，這種幾何通用性也為研究泛化、頓悟（grokking）、災(zāi)難性遺忘和數(shù)據(jù)效率等基本問題提供了新視角。

作者也坦承了若干開放問題：不同架構(gòu)的通用子空間如何相互區(qū)別？能否通過顯式設(shè)計架構(gòu)來優(yōu)化子空間的幾何結(jié)構(gòu)？更根本的是，如果所有網(wǎng)絡(luò)都坍縮到同一子空間，它們就會繼承共同的偏見、能力邊界和失效模式 —— 這種多樣性的缺失本身是否構(gòu)成了一個根本瓶頸？是否應(yīng)該開發(fā)專門用于打破這種收斂的方法？

方法與結(jié)果概覽

作者證明，與架構(gòu)相關(guān)、逐層分布的通用子空間在各類神經(jīng)模型中持續(xù)涌現(xiàn)。無論模型是從頭訓(xùn)練、完全微調(diào)還是通過低秩方法適配，對通用子空間假說的遵循都表現(xiàn)穩(wěn)健，未見顯著偏離。這一現(xiàn)象在不同的初始化策略、模態(tài)、數(shù)據(jù)格式和數(shù)據(jù)集內(nèi)容之間保持不變。

值得注意的是，所提取子空間的精度與可用模型的數(shù)量和質(zhì)量相關(guān)。基于此，作者推測每種架構(gòu)內(nèi)在地存在一個「理想」通用子空間，各個模型實例都在向其收斂。作者假設(shè)，更優(yōu)的算法、更干凈的數(shù)據(jù)和更有效的優(yōu)化策略能使模型更接近這一理想狀態(tài)。盡管本文未正式驗證「理想通用子空間」假說，但作者認(rèn)為這一子空間代表了當(dāng)代反向傳播訓(xùn)練的神經(jīng)網(wǎng)絡(luò)最穩(wěn)定的配置，因此這一規(guī)則的例外情況可能為進一步的研究提供沃土。

分析方法

由于目前尚無方法能夠比較不同架構(gòu)模型的子空間，作者聚焦于在同一架構(gòu)上訓(xùn)練的大量模型，對 LoRA 適配器以及 Transformer 和 CNN 的經(jīng)典權(quán)重進行分析。除非另有說明，所有實驗僅執(zhí)行 1-2 階的高階奇異值分解（HOSVD），以確保方法在最簡單情況下也能奏效。譜分析依賴高效的譜分解庫，甚至可在 CPU 上運行，作者的所有分析和實驗均在單塊 Nvidia A5000 GPU 上完成。通過對數(shù)千個公開可用模型進行分析，作者無需任何訓(xùn)練成本即可提取通用子空間。

以下是作者所實現(xiàn)的算法：

聯(lián)合子空間分析結(jié)果

在 CNN 實驗中，作者從隨機初始化開始，在五個互不重疊的數(shù)據(jù)集（CIFAR-10、CIFAR-100、ImageNet、Oxford-IIIT Pets 和 EuroSAT）上訓(xùn)練 ResNet-50 進行圖像分類。盡管理論分析表明少量模型可能導(dǎo)致對聯(lián)合通用子空間的欠近似，但從頭訓(xùn)練 CNN 的規(guī)模限制了可納入研究的模型數(shù)量。

即便如此，對 ResNet-50 所有層的平均解釋方差（圖 2b）分析揭示了一個跨越這些不相交任務(wù)的獨特共享低秩結(jié)構(gòu)：大部分信息僅存在于 16 個（或更少）不同的子空間方向中。此外，將模型投影到這一子空間以獲得低秩 ResNet-50（從而減少參數(shù)）后，其性能相對于完全微調(diào)仍具競爭力，進一步支持了聯(lián)合子空間的存在和實用性（圖 2a）。

為進行更大規(guī)模的真實世界實驗，作者選擇對 LoRA 模型進行子空間分析，因為它們在公共領(lǐng)域大量存在。鑒于 LoRA 模型明確捕獲任務(wù)特定方向且與原始權(quán)重對齊較弱，它們是驗證假說的良好替代。

在首個實驗中，作者使用基于 Mistral-7B-Instruct-v0.2 訓(xùn)練的 500 個自然指令任務(wù)的 LoRA 模型，每個 LoRA 單獨至少為 16 秩。分析結(jié)果（圖 3）顯示，所有 500 個模型的參數(shù)都可被一個有限的低秩子空間良好近似，且這一模式在所有層中一致存在。

為測試通用子空間的表達(dá)能力，作者通過將隨機選擇的已見（IID）和未見（OOD）任務(wù)的 LoRA 參數(shù)投影到通用子空間來解析重構(gòu)它們，結(jié)果（圖 4）表明通用子空間模型在兩種情況下都表現(xiàn)穩(wěn)健。作為對照，使用譜分解剩余分量（稱為次級子空間）重做實驗時，性能大幅落后。值得一提的是，通用子空間模型的內(nèi)存效率提升了 19 倍，因為不再需要保存全部 500 個 LoRA。

接下來，作者進一步將分析擴展到使用 Stable Diffusion-XL 的文生圖任務(wù)。從 HuggingFace 上公開可用的 LoRA 中提取通用子空間后，將單個 LoRA 投影到該子空間，生成的圖像保持了視覺質(zhì)量和風(fēng)格（圖 5）。

基于 CLIP 的評估顯示，通用子空間在某些情況下甚至優(yōu)于單個 LoRA，這可能歸因于先前研究中觀察到的去噪效應(yīng)。

為測試將多個模型壓縮到單一通用子空間的能力，作者將其方法與最先進的模型合并方法進行比較，包括 RegMean、Task Arithmetic、TIES、DARE-TIES、KnOTS-TIES 和 KnOTS-DARE-TIES。這些基線方法通常需要調(diào)整縮放系數(shù)、剪枝閾值或在驗證集上進行迭代調(diào)優(yōu)。

相比之下，通用子空間方法僅基于跨模型識別的共享低秩子空間的幾何結(jié)構(gòu)來解析計算合并系數(shù)，無需迭代調(diào)優(yōu)或驗證數(shù)據(jù)。由于子空間本質(zhì)上是低秩的，合并后的模型參數(shù)顯著少于任何單個模型。實驗結(jié)果（表 2）表明，該方法在降低參數(shù)數(shù)量的同時取得了更高的平均準(zhǔn)確率，實現(xiàn)了無需啟發(fā)式剪枝或驗證開銷的可擴展、穩(wěn)健的模型合并。

總而言之，這四組實驗為通用子空間假說提供了強有力的實證支持，并展示了其在內(nèi)存效率、模型合并、模型可復(fù)用性以及跨任務(wù)跨模態(tài)可擴展部署方面的實際優(yōu)勢。

不過，也有人提醒說，這篇論文雖然有價值，但結(jié)論需要經(jīng)過更加嚴(yán)格的驗證。首先，任務(wù)多樣性不夠真實，研究沒有在真正異質(zhì)的任務(wù)（如 MIDI 生成、英語文本、MNIST 像素生成）之間尋找共享子空間，所以發(fā)現(xiàn)的可能只是「任務(wù)子宇宙特定的子空間」而非真正的通用子空間；二是沒有跨架構(gòu)比較的方法，無法聲稱 ViT 和 LLaMA3 擁有相同子空間。

為什么通用子空間會涌現(xiàn)？

在論文中，作者對于通用子空間涌現(xiàn)的原因也給出了自己的推論。他們認(rèn)為，若干理論因素可能促成了這些共享結(jié)構(gòu)的出現(xiàn)。

首先，神經(jīng)網(wǎng)絡(luò)已知表現(xiàn)出對低頻函數(shù)的譜偏好，產(chǎn)生特征值的多項式衰減，從而將學(xué)習(xí)動態(tài)集中到少數(shù)主導(dǎo)方向上。其次，現(xiàn)代架構(gòu)施加了強烈的歸納偏置，約束了解空間：卷積結(jié)構(gòu)天然偏好局部的、類 Gabor 模式，而注意力機制則優(yōu)先處理反復(fù)出現(xiàn)的關(guān)系回路。第三，基于梯度的優(yōu)化方法的普遍性 —— 在無限寬度極限下由與具體任務(wù)基本無關(guān)的核函數(shù)主導(dǎo) —— 內(nèi)在地偏好平滑解，將多樣的學(xué)習(xí)軌跡引導(dǎo)向共享的幾何流形。

如果這些假說成立，通用子空間很可能捕獲了超越特定任務(wù)的基本計算模式，這或許能解釋遷移學(xué)習(xí)的有效性，以及為何多樣化的問題往往能從相似的架構(gòu)改進中受益。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.