国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

訓(xùn)練中壓縮模型:CompreSSM讓AI邊學(xué)邊"瘦身"

0
分享至


訓(xùn)練一個(gè)大型人工智能模型的成本極為高昂,不僅體現(xiàn)在資金上,還涵蓋時(shí)間、能耗和計(jì)算資源等多個(gè)維度。傳統(tǒng)方法若想獲得一個(gè)體積更小、運(yùn)行更快的模型,要么先訓(xùn)練一個(gè)龐大的模型再進(jìn)行裁剪,要么從頭訓(xùn)練小模型但不得不接受性能上的妥協(xié)。

來(lái)自麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)、馬克斯·普朗克智能系統(tǒng)研究所、歐洲學(xué)習(xí)與智能系統(tǒng)實(shí)驗(yàn)室、蘇黎世聯(lián)邦理工學(xué)院以及Liquid AI的研究人員,聯(lián)合開(kāi)發(fā)出一種全新方法,徹底繞開(kāi)了上述兩難困境——在訓(xùn)練過(guò)程中直接壓縮模型,而非等到訓(xùn)練完成之后。

這項(xiàng)名為CompreSSM的技術(shù),專門針對(duì)一類名為狀態(tài)空間模型的AI架構(gòu)。該類架構(gòu)廣泛應(yīng)用于語(yǔ)言處理、音頻生成和機(jī)器人控制等領(lǐng)域。研究團(tuán)隊(duì)借助控制理論中的數(shù)學(xué)工具,能夠在訓(xùn)練早期識(shí)別出模型中哪些部分真正發(fā)揮作用、哪些是冗余負(fù)擔(dān),并在此基礎(chǔ)上將不必要的組件精準(zhǔn)剔除。

"這本質(zhì)上是一種讓模型在訓(xùn)練過(guò)程中同步變得更小、更快的技術(shù),"該論文第一作者、麻省理工學(xué)院電氣工程與計(jì)算機(jī)科學(xué)系博士生、CSAIL成員Makram Chahine說(shuō),"模型在學(xué)習(xí)的同時(shí),也在不斷淘汰那些對(duì)其發(fā)展沒(méi)有價(jià)值的部分。"

該方法的核心發(fā)現(xiàn)在于:模型內(nèi)部各組件的相對(duì)重要性,在訓(xùn)練早期便會(huì)出現(xiàn)驚人的穩(wěn)定性。研究團(tuán)隊(duì)利用一種稱為Hankel奇異值的數(shù)學(xué)量——它可以衡量每個(gè)內(nèi)部狀態(tài)對(duì)模型整體行為的貢獻(xiàn)程度——證明了在訓(xùn)練完成約10%時(shí),就能可靠地對(duì)各維度的重要性進(jìn)行排序。一旦排序確定,重要性較低的組件便可安全丟棄,剩余90%的訓(xùn)練過(guò)程將以更小模型的速度高效推進(jìn)。

"這項(xiàng)工作令人興奮之處在于,它將壓縮從事后補(bǔ)救變成了學(xué)習(xí)過(guò)程本身的一部分,"資深作者、麻省理工學(xué)院教授兼CSAIL主任Daniela Rus說(shuō),"CompreSSM不是先訓(xùn)練大模型再想辦法縮小,而是讓模型在學(xué)習(xí)過(guò)程中自己發(fā)現(xiàn)高效結(jié)構(gòu)。這是構(gòu)建AI系統(tǒng)的一種根本性的不同思路。"

實(shí)驗(yàn)結(jié)果十分亮眼。在圖像分類基準(zhǔn)測(cè)試中,壓縮后的模型在保持與全尺寸模型幾乎相同精度的同時(shí),訓(xùn)練速度提升了約1.5倍。一個(gè)狀態(tài)維度被壓縮至原始大小約四分之一的模型,在CIFAR-10基準(zhǔn)上實(shí)現(xiàn)了85.7%的準(zhǔn)確率,而從頭訓(xùn)練的同等小模型僅達(dá)到81.8%。在廣泛使用的Mamba狀態(tài)空間架構(gòu)上,該方法實(shí)現(xiàn)了約4倍的訓(xùn)練加速,將128維模型壓縮至約12維,同時(shí)保持了具有競(jìng)爭(zhēng)力的性能表現(xiàn)。

"你能獲得大模型的性能,因?yàn)樵陬A(yù)熱階段就捕捉到了大部分復(fù)雜動(dòng)態(tài),之后只保留最有用的狀態(tài),"Chahine解釋道,"模型的最終表現(xiàn)仍然優(yōu)于從一開(kāi)始就訓(xùn)練小模型的方案。"

CompreSSM區(qū)別于現(xiàn)有方案的關(guān)鍵在于其堅(jiān)實(shí)的理論基礎(chǔ)。傳統(tǒng)剪枝方法需要先完整訓(xùn)練一個(gè)大模型,再事后裁剪參數(shù),意味著仍需承擔(dān)大模型訓(xùn)練的全部計(jì)算成本。知識(shí)蒸餾這一流行技術(shù)則要求先將大"教師"模型完整訓(xùn)練一遍,再在此基礎(chǔ)上訓(xùn)練第二個(gè)較小的"學(xué)生"模型,實(shí)際上讓訓(xùn)練成本翻倍。CompreSSM通過(guò)在訓(xùn)練中途做出有據(jù)可依的壓縮決策,同時(shí)避免了上述兩種開(kāi)銷。

研究團(tuán)隊(duì)將CompreSSM與上述兩種方案進(jìn)行了直接對(duì)比。與近年提出的用于鼓勵(lì)緊湊狀態(tài)空間模型的譜技術(shù)——Hankel核范數(shù)正則化相比,CompreSSM的速度快出逾40倍,且精度更高。該正則化方法因需要在每個(gè)梯度步驟都進(jìn)行高成本的特征值計(jì)算,導(dǎo)致訓(xùn)練速度降低約16倍,且最終模型性能反而更差。在CIFAR-10上與知識(shí)蒸餾的對(duì)比中,CompreSSM對(duì)于高度壓縮的模型優(yōu)勢(shì)明顯:在較小狀態(tài)維度下,蒸餾模型的準(zhǔn)確率出現(xiàn)顯著下降,而CompreSSM壓縮后的模型仍維持接近完整的性能。此外,由于蒸餾在每個(gè)訓(xùn)練步驟都需要同時(shí)對(duì)教師和學(xué)生模型進(jìn)行前向傳播,即便是其較小的學(xué)生模型,訓(xùn)練速度也慢于全尺寸基準(zhǔn)模型。

研究人員借助Weyl定理從數(shù)學(xué)上證明,模型各狀態(tài)的重要性在訓(xùn)練過(guò)程中平滑變化,并通過(guò)實(shí)驗(yàn)驗(yàn)證了這些狀態(tài)相對(duì)排名的穩(wěn)定性。這兩項(xiàng)發(fā)現(xiàn)共同為實(shí)踐者提供了保障:在早期被判定為無(wú)關(guān)緊要的維度,不會(huì)在后續(xù)訓(xùn)練中突然變得至關(guān)重要。

該方法還內(nèi)置了一個(gè)實(shí)用的安全機(jī)制。若某次壓縮步驟導(dǎo)致性能出現(xiàn)意外下降,實(shí)踐者可以回滾至此前保存的檢查點(diǎn)。"這給了用戶更直觀的控制權(quán),讓他們能自主決定愿意在性能上付出多少代價(jià),而不是被迫去定義一個(gè)不那么直觀的能量閾值,"Chahine說(shuō)。

當(dāng)然,該技術(shù)也存在一定的適用邊界。CompreSSM在內(nèi)部狀態(tài)維度與整體性能之間相關(guān)性較強(qiáng)的模型上效果最佳,而這一特性因任務(wù)和架構(gòu)的不同而有所差異。該方法在多輸入多輸出(MIMO)模型上尤為有效,因?yàn)檫@類模型中狀態(tài)大小與表達(dá)能力的關(guān)聯(lián)最為緊密。對(duì)于按通道處理的單輸入單輸出架構(gòu),收益則相對(duì)有限,原因在于這類模型本身對(duì)狀態(tài)維度變化就不那么敏感。

該理論最適用于線性時(shí)不變系統(tǒng),但研究團(tuán)隊(duì)也針對(duì)日益流行的輸入相關(guān)、時(shí)變架構(gòu)開(kāi)發(fā)了相應(yīng)擴(kuò)展。由于狀態(tài)空間模型家族還延伸至線性注意力等架構(gòu)——作為傳統(tǒng)Transformer替代方案的這一領(lǐng)域正日益受到關(guān)注——CompreSSM的潛在應(yīng)用范圍相當(dāng)廣闊。

Chahine和團(tuán)隊(duì)將這項(xiàng)工作視為一塊跳板。目前團(tuán)隊(duì)已完成向Mamba等線性時(shí)變系統(tǒng)的擴(kuò)展,未來(lái)方向包括將CompreSSM進(jìn)一步推廣至線性注意力機(jī)制中使用的矩陣值動(dòng)力系統(tǒng),從而使該技術(shù)更接近支撐當(dāng)今絕大多數(shù)大型AI系統(tǒng)的Transformer架構(gòu)。

"這必須是第一步,因?yàn)檫@里的理論最為清晰,方法也能保持嚴(yán)謹(jǐn),"Chahine說(shuō),"這是向行業(yè)中廣泛使用的其他架構(gòu)延伸的基礎(chǔ)。"

"Chahine及其同事的工作為現(xiàn)代狀態(tài)空間模型的壓縮提供了一個(gè)引人入勝、具有堅(jiān)實(shí)理論基礎(chǔ)的新視角,"未參與本研究的ELLIS圖賓根研究所首席研究員、馬克斯·普朗克智能系統(tǒng)研究所獨(dú)立團(tuán)隊(duì)負(fù)責(zé)人Antonio Orvieto評(píng)價(jià)道,"該方法提供了充分證據(jù),表明這些模型的狀態(tài)維度可以在訓(xùn)練過(guò)程中有效降低,控制理論視角能夠成功指導(dǎo)這一過(guò)程。這項(xiàng)工作為未來(lái)研究開(kāi)辟了新方向,所提出的算法有望成為預(yù)訓(xùn)練大型基于狀態(tài)空間模型時(shí)的標(biāo)準(zhǔn)方法。"

這項(xiàng)研究已被國(guó)際學(xué)習(xí)表征大會(huì)2026(ICLR 2026)接收為會(huì)議論文,將于本月晚些時(shí)候正式發(fā)表。研究工作部分得到了馬克斯·普朗克-蘇黎世聯(lián)邦理工學(xué)院學(xué)習(xí)系統(tǒng)中心、赫克托基金會(huì)、波音公司以及美國(guó)海軍研究辦公室的資助。

Q&A

Q1:CompreSSM是什么技術(shù)?它解決了什么問(wèn)題?

A:CompreSSM是一種在AI模型訓(xùn)練過(guò)程中直接壓縮模型的新技術(shù),專門針對(duì)狀態(tài)空間模型架構(gòu)。它解決的核心問(wèn)題是:傳統(tǒng)獲得小型高效模型的方式要么需要先訓(xùn)練大模型再裁剪,要么從頭訓(xùn)練小模型但性能較差。CompreSSM通過(guò)在訓(xùn)練早期識(shí)別并丟棄不重要的模型組件,讓模型邊學(xué)習(xí)邊"瘦身",同時(shí)兼顧速度與性能。

Q2:CompreSSM與知識(shí)蒸餾、傳統(tǒng)剪枝相比有什么優(yōu)勢(shì)?

A:傳統(tǒng)剪枝需要完整訓(xùn)練大模型再裁剪,計(jì)算成本高;知識(shí)蒸餾要先訓(xùn)練完整的教師模型,再訓(xùn)練學(xué)生模型,相當(dāng)于雙倍訓(xùn)練成本。CompreSSM在訓(xùn)練中途就做出壓縮決策,避免了這兩種額外開(kāi)銷。實(shí)驗(yàn)顯示,在CIFAR-10測(cè)試中,CompreSSM壓縮模型的準(zhǔn)確率明顯優(yōu)于知識(shí)蒸餾,與Hankel核范數(shù)正則化相比速度快逾40倍,且精度更高。

Q3:CompreSSM適用于哪些AI架構(gòu)?有沒(méi)有局限性?

A:CompreSSM主要針對(duì)狀態(tài)空間模型(SSM)架構(gòu),在多輸入多輸出(MIMO)模型上效果最佳,也已擴(kuò)展至Mamba等線性時(shí)變架構(gòu),未來(lái)有望延伸至線性注意力機(jī)制乃至Transformer架構(gòu)。局限性在于:該方法在狀態(tài)維度與性能相關(guān)性強(qiáng)的模型上效果更顯著;對(duì)于單輸入單輸出架構(gòu),收益相對(duì)有限;理論基礎(chǔ)最適用于線性時(shí)不變系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
勇士生死戰(zhàn)前,官方勸球迷別看了

勇士生死戰(zhàn)前,官方勸球迷別看了

時(shí)光慢郵啊
2026-04-16 08:37:29
2400多萬(wàn)伊朗人志愿為國(guó)獻(xiàn)身

2400多萬(wàn)伊朗人志愿為國(guó)獻(xiàn)身

澎湃新聞
2026-04-15 03:00:05
“格林公式”幾近閉環(huán),姆巴佩歐冠十年噩夢(mèng),仍在繼續(xù) | 足壇狠人

“格林公式”幾近閉環(huán),姆巴佩歐冠十年噩夢(mèng),仍在繼續(xù) | 足壇狠人

里芃芃體育
2026-04-16 14:00:08
“張雪機(jī)車給你打雞血了?”交警勸阻想違規(guī)上高速的摩友被網(wǎng)暴,視頻系片段截取,此前進(jìn)行了長(zhǎng)時(shí)間勸解

“張雪機(jī)車給你打雞血了?”交警勸阻想違規(guī)上高速的摩友被網(wǎng)暴,視頻系片段截取,此前進(jìn)行了長(zhǎng)時(shí)間勸解

極目新聞
2026-04-15 21:17:08
12生肖最能吃苦耐勞,也是最有后福與財(cái)力的生肖前三,財(cái)神爺青睞

12生肖最能吃苦耐勞,也是最有后福與財(cái)力的生肖前三,財(cái)神爺青睞

毅談生肖
2026-04-16 11:45:36
離開(kāi)癱瘓前夫后,她嫁大8歲富豪,如今女兒13歲,和前夫處成親人

離開(kāi)癱瘓前夫后,她嫁大8歲富豪,如今女兒13歲,和前夫處成親人

素衣讀史
2026-04-15 21:17:53
美女校長(zhǎng)變階下囚:受賄近400萬(wàn),沉迷整容,58歲看起來(lái)像18歲

美女校長(zhǎng)變階下囚:受賄近400萬(wàn),沉迷整容,58歲看起來(lái)像18歲

就一點(diǎn)
2026-04-14 16:31:37
何潤(rùn)東被考古,曾參加《非誠(chéng)勿擾》被嫌嘴唇厚,介紹完滅了7盞燈

何潤(rùn)東被考古,曾參加《非誠(chéng)勿擾》被嫌嘴唇厚,介紹完滅了7盞燈

非常先生看娛樂(lè)
2026-04-04 16:57:06
換帥在即!皇馬出局后動(dòng)作迅速,三大目標(biāo)被排除,波切蒂諾將至

換帥在即!皇馬出局后動(dòng)作迅速,三大目標(biāo)被排除,波切蒂諾將至

祥談體育
2026-04-16 12:25:56
失敗了!梅根王妃亮相澳大利亞,顯性的非裔基因,中年危機(jī)來(lái)了

失敗了!梅根王妃亮相澳大利亞,顯性的非裔基因,中年危機(jī)來(lái)了

墨印齋
2026-04-15 18:34:24
王曉晨,不想談就直說(shuō):五年了,甘蔗哪有兩頭甜的?

王曉晨,不想談就直說(shuō):五年了,甘蔗哪有兩頭甜的?

小貓娛樂(lè)叭叭
2026-04-15 10:30:17
女人愛(ài)到極致是脫光,男人愛(ài)到極致是窩囊:這才是人生最狠的真相

女人愛(ài)到極致是脫光,男人愛(ài)到極致是窩囊:這才是人生最狠的真相

青蘋果sht
2026-04-07 05:45:55
小鵬與華為智駕的差距:雷達(dá)算法是其次,15萬(wàn)人大賽才難以復(fù)制!

小鵬與華為智駕的差距:雷達(dá)算法是其次,15萬(wàn)人大賽才難以復(fù)制!

沙雕小琳琳
2026-04-15 14:09:50
解放臺(tái)灣:上午發(fā)動(dòng)統(tǒng)一之戰(zhàn),下午就發(fā)身份證?第一步登陸就很難

解放臺(tái)灣:上午發(fā)動(dòng)統(tǒng)一之戰(zhàn),下午就發(fā)身份證?第一步登陸就很難

人類的關(guān)注
2026-04-06 15:36:26
炸裂!王曼昱空降上海!5萬(wàn)薪酬引爆爭(zhēng)議,馬琳力挺藏多大局?

炸裂!王曼昱空降上海!5萬(wàn)薪酬引爆爭(zhēng)議,馬琳力挺藏多大局?

好乒乓
2026-04-16 12:15:25
詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個(gè)舉動(dòng)

詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個(gè)舉動(dòng)

游古史
2026-04-07 17:52:48
一覺(jué)醒來(lái),特朗普宣布收手,以色列再攪局后,伊朗甩出“B計(jì)劃”

一覺(jué)醒來(lái),特朗普宣布收手,以色列再攪局后,伊朗甩出“B計(jì)劃”

小小科普員
2026-04-16 14:30:37
卡馬文加,“制造”歐冠名局,葬送皇馬好局

卡馬文加,“制造”歐冠名局,葬送皇馬好局

足球報(bào)
2026-04-16 12:14:18
廈門地鐵通報(bào)一乘客手機(jī)冒煙:現(xiàn)場(chǎng)無(wú)人員受傷,運(yùn)營(yíng)秩序未受影響

廈門地鐵通報(bào)一乘客手機(jī)冒煙:現(xiàn)場(chǎng)無(wú)人員受傷,運(yùn)營(yíng)秩序未受影響

界面新聞
2026-04-16 14:59:16
納達(dá)爾紀(jì)錄片定檔,一句話讓全網(wǎng)破防:我不是贏家,我只是競(jìng)爭(zhēng)者

納達(dá)爾紀(jì)錄片定檔,一句話讓全網(wǎng)破防:我不是贏家,我只是競(jìng)爭(zhēng)者

網(wǎng)球之家
2026-04-15 13:49:36
2026-04-16 15:16:49
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
3259文章數(shù) 169關(guān)注度
往期回顧 全部

科技要聞

39.98萬(wàn)!小鵬GX預(yù)售“純電增程同價(jià)”

頭條要聞

杭州女子買5份海鮮3份僅退款 商家氣憤跨省趕來(lái)質(zhì)問(wèn)

頭條要聞

杭州女子買5份海鮮3份僅退款 商家氣憤跨省趕來(lái)質(zhì)問(wèn)

體育要聞

很快,亞洲籃球要有自己的NCAA了?

娛樂(lè)要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

一季度GDP,5.0%!

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

數(shù)碼
手機(jī)
家居
本地
公開(kāi)課

數(shù)碼要聞

海信RGB-Mini LED技術(shù)官宣用于2026世界杯VAR視頻助理裁判

手機(jī)要聞

昔日巨頭金立還在賣手機(jī):最便宜手機(jī)僅90多元

家居要聞

智能舒適 簡(jiǎn)約風(fēng)尚

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版