国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

1100多個模型殊途同歸,指向一個通用子空間,柏拉圖又贏一回?

0
分享至



機器之心報道

編輯:張倩

模型架構(gòu)的重要性可能遠(yuǎn)超我們之前的認(rèn)知。

最近,約翰斯?霍普金斯大學(xué)的一項研究發(fā)現(xiàn):1100 多個不同的神經(jīng)網(wǎng)絡(luò),即使在完全不同的數(shù)據(jù)集上訓(xùn)練、用不同的初始化和超參數(shù),最終學(xué)到的權(quán)重都會收斂到一個共享的低維子空間。

這似乎是說明:存在一個「先驗的」數(shù)學(xué)結(jié)構(gòu),所有神經(jīng)網(wǎng)絡(luò)都在逼近它。訓(xùn)練不是在「創(chuàng)造」什么,而是在「發(fā)現(xiàn)」一個早已存在的幾何形式。換句話說,神經(jīng)網(wǎng)絡(luò)「想學(xué)的東西」似乎高度一致,架構(gòu)決定了它能學(xué)什么,比數(shù)據(jù)影響更大。



這一發(fā)現(xiàn)有助于解釋很多「神秘」現(xiàn)象,比如為什么過參數(shù)化的模型(參數(shù)遠(yuǎn)多于訓(xùn)練樣本)還能泛化?為什么不同初始化最終學(xué)到相似的表示?為什么 LoRA、權(quán)重共享這些技術(shù)能 work?如果神經(jīng)網(wǎng)絡(luò)確實在共享子空間內(nèi)學(xué)習(xí),這將為隱式正則化、可遷移性以及稀疏訓(xùn)練方法的有效性提供支持性解釋,同時也為諸如高效合并、新的優(yōu)化技術(shù)、更快更高效的學(xué)習(xí)和推理等應(yīng)用開辟道路。



  • 論文標(biāo)題:THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS
  • 論文鏈接:https://www.arxiv.org/pdf/2512.05117

這篇論文在 Alphaxiv、X 等平臺上吸引了很多關(guān)注,一度攀升到 Alphaxiv 榜一的位置。



有人說,柏拉圖又贏了一回。(注:柏拉圖的理念論認(rèn)為:我們看到的具體事物(桌子、馬、圓形)都只是「理念」(Forms/Ideas)的不完美投影。真正的、完美的圓存在于一個抽象的理念世界,現(xiàn)實中的圓只是對它的模仿。其核心主張是:抽象結(jié)構(gòu)先于具體實例。)



也有人從中讀出了一些令人擔(dān)憂的信號:如果所有模型都收斂到同一個子空間,那意味著當(dāng)前架構(gòu)存在內(nèi)在的天花板,再多的數(shù)據(jù)和算力也只是在同一個「盆地」里打轉(zhuǎn)。



論文概覽

在具體研究中,作者首先聚焦于 LoRA 適配器,因其易于訓(xùn)練且能大量收集,在 Mistral-7B 模型的約 500 個適配器中觀察到了通用子空間的涌現(xiàn)。隨后,研究擴展到完整權(quán)重空間,從約 500 個 Vision Transformer 和 50 個 LLaMA3-8B 模型中提取出相似的低秩通用子空間,這些模型各自使用不同數(shù)據(jù)集和初始化方式訓(xùn)練。



此前已有多條線索暗示這一現(xiàn)象:神經(jīng)正切核理論表明,在無限寬度極限下,網(wǎng)絡(luò)訓(xùn)練動態(tài)由一個與具體任務(wù)基本無關(guān)的核函數(shù)主導(dǎo);機制可解釋性研究在視覺網(wǎng)絡(luò)的特定層中發(fā)現(xiàn)了反復(fù)出現(xiàn)的電路模式;彩票假說和模式連通性也指向可復(fù)用的低維結(jié)構(gòu);早在 2012 年就有人觀察到,卷積網(wǎng)絡(luò)第一層在各種視覺任務(wù)中都會學(xué)到類 Gabor 濾波器。但這些工作要么聚焦于表示層面,要么未涉及不同模型間參數(shù)性質(zhì)的收斂。

這項研究的獨特之處在于:首次在權(quán)重層面提供了具體證據(jù)和明確通用假設(shè),為深度神經(jīng)網(wǎng)絡(luò)參數(shù)空間中 「通用性」的存在提供了最為嚴(yán)謹(jǐn)?shù)膶嵶C證據(jù)。

盡管這種通用性的根本成因仍有待探索,但即便是初步理解也具有深遠(yuǎn)意義。共享子空間有望實現(xiàn):大規(guī)模模型壓縮(只需存儲子空間系數(shù)而非完整權(quán)重)、在已學(xué)習(xí)子空間內(nèi)快速適應(yīng)新任務(wù)、對泛化邊界和優(yōu)化景觀的理論洞察,以及通過減少訓(xùn)練和推理計算需求帶來的環(huán)境效益。此外,這種幾何通用性也為研究泛化、頓悟(grokking)、災(zāi)難性遺忘和數(shù)據(jù)效率等基本問題提供了新視角。

作者也坦承了若干開放問題:不同架構(gòu)的通用子空間如何相互區(qū)別?能否通過顯式設(shè)計架構(gòu)來優(yōu)化子空間的幾何結(jié)構(gòu)?更根本的是,如果所有網(wǎng)絡(luò)都坍縮到同一子空間,它們就會繼承共同的偏見、能力邊界和失效模式 —— 這種多樣性的缺失本身是否構(gòu)成了一個根本瓶頸?是否應(yīng)該開發(fā)專門用于打破這種收斂的方法?

方法與結(jié)果概覽

作者證明,與架構(gòu)相關(guān)、逐層分布的通用子空間在各類神經(jīng)模型中持續(xù)涌現(xiàn)。無論模型是從頭訓(xùn)練、完全微調(diào)還是通過低秩方法適配,對通用子空間假說的遵循都表現(xiàn)穩(wěn)健,未見顯著偏離。這一現(xiàn)象在不同的初始化策略、模態(tài)、數(shù)據(jù)格式和數(shù)據(jù)集內(nèi)容之間保持不變。

值得注意的是,所提取子空間的精度與可用模型的數(shù)量和質(zhì)量相關(guān)。基于此,作者推測每種架構(gòu)內(nèi)在地存在一個「理想」通用子空間,各個模型實例都在向其收斂。作者假設(shè),更優(yōu)的算法、更干凈的數(shù)據(jù)和更有效的優(yōu)化策略能使模型更接近這一理想狀態(tài)。盡管本文未正式驗證「理想通用子空間」假說,但作者認(rèn)為這一子空間代表了當(dāng)代反向傳播訓(xùn)練的神經(jīng)網(wǎng)絡(luò)最穩(wěn)定的配置,因此這一規(guī)則的例外情況可能為進一步的研究提供沃土。

分析方法

由于目前尚無方法能夠比較不同架構(gòu)模型的子空間,作者聚焦于在同一架構(gòu)上訓(xùn)練的大量模型,對 LoRA 適配器以及 Transformer 和 CNN 的經(jīng)典權(quán)重進行分析。除非另有說明,所有實驗僅執(zhí)行 1-2 階的高階奇異值分解(HOSVD),以確保方法在最簡單情況下也能奏效。譜分析依賴高效的譜分解庫,甚至可在 CPU 上運行,作者的所有分析和實驗均在單塊 Nvidia A5000 GPU 上完成。通過對數(shù)千個公開可用模型進行分析,作者無需任何訓(xùn)練成本即可提取通用子空間。

以下是作者所實現(xiàn)的算法:



聯(lián)合子空間分析結(jié)果

在 CNN 實驗中,作者從隨機初始化開始,在五個互不重疊的數(shù)據(jù)集(CIFAR-10、CIFAR-100、ImageNet、Oxford-IIIT Pets 和 EuroSAT)上訓(xùn)練 ResNet-50 進行圖像分類。盡管理論分析表明少量模型可能導(dǎo)致對聯(lián)合通用子空間的欠近似,但從頭訓(xùn)練 CNN 的規(guī)模限制了可納入研究的模型數(shù)量。

即便如此,對 ResNet-50 所有層的平均解釋方差(圖 2b)分析揭示了一個跨越這些不相交任務(wù)的獨特共享低秩結(jié)構(gòu):大部分信息僅存在于 16 個(或更少)不同的子空間方向中。此外,將模型投影到這一子空間以獲得低秩 ResNet-50(從而減少參數(shù))后,其性能相對于完全微調(diào)仍具競爭力,進一步支持了聯(lián)合子空間的存在和實用性(圖 2a)。



為進行更大規(guī)模的真實世界實驗,作者選擇對 LoRA 模型進行子空間分析,因為它們在公共領(lǐng)域大量存在。鑒于 LoRA 模型明確捕獲任務(wù)特定方向且與原始權(quán)重對齊較弱,它們是驗證假說的良好替代。

在首個實驗中,作者使用基于 Mistral-7B-Instruct-v0.2 訓(xùn)練的 500 個自然指令任務(wù)的 LoRA 模型,每個 LoRA 單獨至少為 16 秩。分析結(jié)果(圖 3)顯示,所有 500 個模型的參數(shù)都可被一個有限的低秩子空間良好近似,且這一模式在所有層中一致存在。



為測試通用子空間的表達(dá)能力,作者通過將隨機選擇的已見(IID)和未見(OOD)任務(wù)的 LoRA 參數(shù)投影到通用子空間來解析重構(gòu)它們,結(jié)果(圖 4)表明通用子空間模型在兩種情況下都表現(xiàn)穩(wěn)健。作為對照,使用譜分解剩余分量(稱為次級子空間)重做實驗時,性能大幅落后。值得一提的是,通用子空間模型的內(nèi)存效率提升了 19 倍,因為不再需要保存全部 500 個 LoRA。



接下來,作者進一步將分析擴展到使用 Stable Diffusion-XL 的文生圖任務(wù)。從 HuggingFace 上公開可用的 LoRA 中提取通用子空間后,將單個 LoRA 投影到該子空間,生成的圖像保持了視覺質(zhì)量和風(fēng)格(圖 5)。



基于 CLIP 的評估顯示,通用子空間在某些情況下甚至優(yōu)于單個 LoRA,這可能歸因于先前研究中觀察到的去噪效應(yīng)。



為測試將多個模型壓縮到單一通用子空間的能力,作者將其方法與最先進的模型合并方法進行比較,包括 RegMean、Task Arithmetic、TIES、DARE-TIES、KnOTS-TIES 和 KnOTS-DARE-TIES。這些基線方法通常需要調(diào)整縮放系數(shù)、剪枝閾值或在驗證集上進行迭代調(diào)優(yōu)。

相比之下,通用子空間方法僅基于跨模型識別的共享低秩子空間的幾何結(jié)構(gòu)來解析計算合并系數(shù),無需迭代調(diào)優(yōu)或驗證數(shù)據(jù)。由于子空間本質(zhì)上是低秩的,合并后的模型參數(shù)顯著少于任何單個模型。實驗結(jié)果(表 2)表明,該方法在降低參數(shù)數(shù)量的同時取得了更高的平均準(zhǔn)確率,實現(xiàn)了無需啟發(fā)式剪枝或驗證開銷的可擴展、穩(wěn)健的模型合并。



總而言之,這四組實驗為通用子空間假說提供了強有力的實證支持,并展示了其在內(nèi)存效率、模型合并、模型可復(fù)用性以及跨任務(wù)跨模態(tài)可擴展部署方面的實際優(yōu)勢。

不過,也有人提醒說,這篇論文雖然有價值,但結(jié)論需要經(jīng)過更加嚴(yán)格的驗證。首先,任務(wù)多樣性不夠真實,研究沒有在真正異質(zhì)的任務(wù)(如 MIDI 生成、英語文本、MNIST 像素生成)之間尋找共享子空間,所以發(fā)現(xiàn)的可能只是「任務(wù)子宇宙特定的子空間」而非真正的通用子空間;二是沒有跨架構(gòu)比較的方法,無法聲稱 ViT 和 LLaMA3 擁有相同子空間。



為什么通用子空間會涌現(xiàn)?

在論文中,作者對于通用子空間涌現(xiàn)的原因也給出了自己的推論。他們認(rèn)為,若干理論因素可能促成了這些共享結(jié)構(gòu)的出現(xiàn)。

首先,神經(jīng)網(wǎng)絡(luò)已知表現(xiàn)出對低頻函數(shù)的譜偏好,產(chǎn)生特征值的多項式衰減,從而將學(xué)習(xí)動態(tài)集中到少數(shù)主導(dǎo)方向上。其次,現(xiàn)代架構(gòu)施加了強烈的歸納偏置,約束了解空間:卷積結(jié)構(gòu)天然偏好局部的、類 Gabor 模式,而注意力機制則優(yōu)先處理反復(fù)出現(xiàn)的關(guān)系回路。第三,基于梯度的優(yōu)化方法的普遍性 —— 在無限寬度極限下由與具體任務(wù)基本無關(guān)的核函數(shù)主導(dǎo) —— 內(nèi)在地偏好平滑解,將多樣的學(xué)習(xí)軌跡引導(dǎo)向共享的幾何流形。

如果這些假說成立,通用子空間很可能捕獲了超越特定任務(wù)的基本計算模式,這或許能解釋遷移學(xué)習(xí)的有效性,以及為何多樣化的問題往往能從相似的架構(gòu)改進中受益。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
戰(zhàn)勝衛(wèi)冕冠軍!森林狼仍不滿意,3換1報價助攻王,雄鹿打錯算盤了

戰(zhàn)勝衛(wèi)冕冠軍!森林狼仍不滿意,3換1報價助攻王,雄鹿打錯算盤了

體育大朋說
2025-12-20 21:43:01
青山菜菜:被初戀臉騙了!甜妹皮下是「業(yè)界卷王」の反差核彈

青山菜菜:被初戀臉騙了!甜妹皮下是「業(yè)界卷王」の反差核彈

素然追光
2025-12-21 00:40:09
大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

大量浙江游客涌入沈陽,打著旅游幌子不去旅游不吃美食,為啥來

另子維愛讀史
2025-11-29 07:53:16
越南為何至今無力翻身?許世友撤軍前發(fā)布的3個命令,真是太高明

越南為何至今無力翻身?許世友撤軍前發(fā)布的3個命令,真是太高明

鶴羽說個事
2025-11-27 11:07:38
耗資33億,首日票房僅5000萬,卡梅隆懵了:中國觀眾憑啥不買賬?

耗資33億,首日票房僅5000萬,卡梅隆懵了:中國觀眾憑啥不買賬?

八卦南風(fēng)
2025-12-19 14:40:36
給《老舅》演技最好10位演員排個名:郭京飛僅第2,第1沒有爭議

給《老舅》演技最好10位演員排個名:郭京飛僅第2,第1沒有爭議

小丸子的娛樂圈
2025-12-20 17:25:37
遺憾啊!錯過和三個巨星合作,無奈加盟掘金,艾弗森痛失冠軍希望

遺憾啊!錯過和三個巨星合作,無奈加盟掘金,艾弗森痛失冠軍希望

大衛(wèi)的籃球故事
2025-12-21 00:05:14
A股唯一打破壟斷龍頭,三年暴跌80%,4家社?;鹬貍}被套牢

A股唯一打破壟斷龍頭,三年暴跌80%,4家社?;鹬貍}被套牢

鵬哥投研
2025-12-20 22:31:15
南京博物館事件還未結(jié)束,呂梁市博物館又發(fā)布接受社會捐贈公告

南京博物館事件還未結(jié)束,呂梁市博物館又發(fā)布接受社會捐贈公告

映射生活的身影
2025-12-20 18:01:22
一旦戰(zhàn)事大規(guī)模爆發(fā),我國必須死保8座城市,關(guān)鍵時候能抵御外敵

一旦戰(zhàn)事大規(guī)模爆發(fā),我國必須死保8座城市,關(guān)鍵時候能抵御外敵

策略述
2025-11-25 11:24:04
1-1大冷!中國隊逼平韓國隊,末輪贏球=擺脫倒數(shù)第一

1-1大冷!中國隊逼平韓國隊,末輪贏球=擺脫倒數(shù)第一

何老師呀
2025-12-20 16:36:13
你無意中發(fā)現(xiàn)過別人哪些秘密?網(wǎng)友:這不是我一個單身狗能看的

你無意中發(fā)現(xiàn)過別人哪些秘密?網(wǎng)友:這不是我一個單身狗能看的

帶你感受人間冷暖
2025-12-18 00:10:08
融入德國!樊振東開凱迪拉克豪車上班,戴白手套按工作人員指引泊車

融入德國!樊振東開凱迪拉克豪車上班,戴白手套按工作人員指引泊車

818體育
2025-12-20 16:57:47
香港再無董建華

香港再無董建華

華人星光
2025-11-25 12:01:27
鄭曉燕、李舜涉嫌嚴(yán)重違紀(jì)違法被查

鄭曉燕、李舜涉嫌嚴(yán)重違紀(jì)違法被查

彩云熱線
2025-12-20 10:42:18
陳妍希帶兒子現(xiàn)身機場被偶遇,9歲的小星星正臉曝光,帥氣十足!

陳妍希帶兒子現(xiàn)身機場被偶遇,9歲的小星星正臉曝光,帥氣十足!

負(fù)面黑洞
2025-12-20 20:20:11
肝癌是喝茶喝出來的?醫(yī)生:就算是鐵打的肝臟,也怕天天喝5種茶

肝癌是喝茶喝出來的?醫(yī)生:就算是鐵打的肝臟,也怕天天喝5種茶

健康科普365
2025-12-20 16:30:03
柴智屏評價F4變F3:朱孝天性格20年沒變!青禾扮演者被拉黑很無奈

柴智屏評價F4變F3:朱孝天性格20年沒變!青禾扮演者被拉黑很無奈

一盅情懷
2025-12-20 17:52:25
出大事了,轟炸機直逼東京,日本投票結(jié)果出來了,或迎首個核武器

出大事了,轟炸機直逼東京,日本投票結(jié)果出來了,或迎首個核武器

混沌錄
2025-12-19 23:46:12
日本可能買了認(rèn)知戰(zhàn)的通稿

日本可能買了認(rèn)知戰(zhàn)的通稿

求實處
2025-12-19 23:58:43
2025-12-21 01:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應(yīng)

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應(yīng)

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

本地
時尚
親子
數(shù)碼
軍事航空

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

最顯腿細(xì)的騎士靴,誰穿誰是腿精

親子要聞

邊牧和德牧帶娃在外面挖坑,三個小朋友加起來800個心眼子!

數(shù)碼要聞

50歲了!長虹第一臺彩電入駐中國國家博物館

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進入關(guān)懷版