網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

謝菲爾德大學(xué)發(fā)現(xiàn)極限壓縮AI模型時(shí)，初始化才是真正的攔路虎

2026-04-20 21:29:05　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由英國(guó)謝菲爾德大學(xué)計(jì)算機(jī)科學(xué)系主導(dǎo)的研究，以預(yù)印本形式于2026年4月9日發(fā)布在arXiv上，編號(hào)為arXiv:2604.08118v1，目前正在同行評(píng)審中。感興趣的讀者可通過該編號(hào)檢索完整論文。

你的手機(jī)里裝著一個(gè)能對(duì)話、能寫作、能回答問題的AI助手——但它消耗的存儲(chǔ)空間可能超出你的想象。那些強(qiáng)大的大型語言模型，動(dòng)輒幾十個(gè)GB，根本塞不進(jìn)普通手機(jī)或者平價(jià)筆記本電腦。為了讓AI能住進(jìn)這些"小房子"里，工程師們發(fā)展出了一種叫做"量化"的技術(shù)，本質(zhì)上就是把AI的記憶壓縮再壓縮，就像把一張高清照片壓縮成更小的文件一樣。

問題是，壓縮得越狠，AI就越容易變傻。4位精度的壓縮幾乎無感，但當(dāng)壓縮到2位精度——也就是每個(gè)參數(shù)只剩下4種可能取值——AI的表現(xiàn)可能會(huì)從流暢對(duì)話直接崩潰到胡言亂語。研究人員已經(jīng)嘗試了很多補(bǔ)救方案：更寬的搜索范圍、更多的訓(xùn)練輪次、更大的校準(zhǔn)數(shù)據(jù)集。但謝菲爾德大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)，這些努力都打錯(cuò)了靶子。

真正的問題出在更早的地方——出在"初始化"這個(gè)步驟上。就像蓋房子時(shí)地基打歪了，后來再怎么精裝修都無法讓房子變正。這篇論文的核心發(fā)現(xiàn)正是：在極度壓縮的情況下，最初如何設(shè)定模型的"記憶編碼方式"，幾乎決定了最終模型能達(dá)到的上限，而不是后來的搜索和微調(diào)。

研究團(tuán)隊(duì)為此專門設(shè)計(jì)了一種新的初始化方法，叫做OA-EM（輸出感知期望最大化），并在三種不同架構(gòu)的模型上進(jìn)行了系統(tǒng)測(cè)試，結(jié)果表明這個(gè)方法不僅能讓壓縮后的AI更聰明，還能讓整個(gè)壓縮過程更省時(shí)間。

一、壓縮AI的基本邏輯：把記憶裝進(jìn)"碼本"

要理解這項(xiàng)研究，先得理解AI的記憶是怎么被壓縮的。大型語言模型的核心是一張巨大的數(shù)字表格，里面存著模型學(xué)到的所有"知識(shí)"——準(zhǔn)確說是數(shù)以億計(jì)的權(quán)重參數(shù)。每個(gè)參數(shù)原本用32位或16位浮點(diǎn)數(shù)表示，非常精細(xì)。壓縮的目標(biāo)就是用更少的位數(shù)來表示這些參數(shù)。

"加法量化"（Additive Quantization）是其中一種頗有創(chuàng)意的方案。它的思路是：與其直接把每個(gè)數(shù)字變粗糙，不如把一組數(shù)字（比如8個(gè)參數(shù)構(gòu)成一組）表示成若干個(gè)"代表詞"之和。這些代表詞來自事先準(zhǔn)備好的"碼本"，每本碼本里有256個(gè)條目。當(dāng)你要還原原始參數(shù)時(shí)，只需要查表做加法，速度極快，幾乎不需要任何計(jì)算——就像查字典一樣，找到編號(hào)對(duì)應(yīng)的詞條，直接讀出來就行。

這種方式在手機(jī)CPU、嵌入式芯片這類沒有專用AI加速器的設(shè)備上格外重要，因?yàn)椴楸聿僮鞅瘸朔ㄟ\(yùn)算要便宜得多。AQLM（大型語言模型加法量化）正是這類方案的代表性實(shí)現(xiàn)：2位精度下，每組8個(gè)權(quán)重用兩本碼本的兩個(gè)編號(hào)來表示，每本碼本256個(gè)條目，兩個(gè)8位索引加起來剛好2比特/參數(shù)。

整個(gè)壓縮過程分兩步走：先用某種方法初始化碼本，確定每個(gè)"代表詞"長(zhǎng)什么樣；再通過搜索，找出每組參數(shù)最匹配哪兩個(gè)代表詞的組合。AQLM的傳統(tǒng)做法是用"殘差K均值"來初始化——先把所有權(quán)重分成若干簇，找出每簇的中心作為第一本碼本的代表詞；然后用每組參數(shù)減去最近的代表詞，把剩余的"誤差"再做一次聚類，得到第二本碼本。這個(gè)過程是貪心的、順序進(jìn)行的，先定第一本再定第二本，沒有回頭路。

二、地基歪了，裝修救不了：初始化為何決定命運(yùn)

這里出現(xiàn)了一個(gè)微妙卻致命的問題。當(dāng)你貪心地先確定第一本碼本，再去確定第二本時(shí)，你其實(shí)是在做一個(gè)錯(cuò)誤的假設(shè)：第一本碼本獨(dú)立來看最好，整體就最好。但現(xiàn)實(shí)并非如此，最好的第一本碼本取決于第二本能補(bǔ)償什么，而第二本是在第一本已經(jīng)定好之后才設(shè)計(jì)的——兩本碼本之間存在相互依賴，順序貪心的方式忽視了這種耦合關(guān)系。

研究團(tuán)隊(duì)用一個(gè)數(shù)學(xué)命題（論文中的Proposition 1）把這個(gè)問題精確刻畫出來，分解了貪心初始化的誤差來源。誤差由三部分組成：第一部分是第一本碼本選錯(cuò)了代表詞產(chǎn)生的直接誤差；第二部分是這個(gè)"選錯(cuò)"對(duì)第二本碼本補(bǔ)償能力的干擾——如果第一步走偏了，第二步能不能拉回來取決于第二本碼本里有沒有合適的條目；第三部分是因?yàn)榈诙敬a本是在錯(cuò)誤的殘差上訓(xùn)練的，所以它學(xué)到的也不是最理想的東西，這個(gè)"錯(cuò)配"導(dǎo)致的額外損失永遠(yuǎn)不會(huì)是負(fù)的，只會(huì)讓問題更糟。

關(guān)鍵在于第二部分能否化解第一部分的錯(cuò)誤。這取決于壓縮率，也就是研究團(tuán)隊(duì)引入的一個(gè)核心概念——"表示比率"ρ（rho）。

表示比率的定義很直覺：用層內(nèi)權(quán)重組的數(shù)量，除以碼本能表示的組合總數(shù)。對(duì)于2位精度（M=2本碼本，每本K=256個(gè)條目），碼本組合總數(shù)是256?=65536。對(duì)于3位精度（M=3本），組合總數(shù)是256?約等于1680萬。權(quán)重組的數(shù)量則取決于模型大小，以Llama 3.2 3B為例大約是120萬組。

于是，3位精度下ρ約等于0.07，意思是碼本能表示的組合數(shù)遠(yuǎn)多于實(shí)際需要處理的權(quán)重組，空間綽綽有余，初始化走偏了也有大量"備用組合"能兜底；2位精度下ρ約等于18，情況完全翻轉(zhuǎn)，每個(gè)碼本組合平均要"照顧"18組權(quán)重，競(jìng)爭(zhēng)激烈，初始化一旦走偏，補(bǔ)救的余地極為有限。

這個(gè)256倍的容量驟降不是量變而是質(zhì)變。3位精度下貪心初始化只會(huì)讓困惑度（衡量AI語言流暢程度的指標(biāo)，數(shù)值越低越好）差0.65分，而在2位精度下，貪心初始化會(huì)讓Llama 3.2 3B的WikiText-2困惑度飆升到352.39——而正常的16位精度模型困惑度只有7.28。用人話說，就是模型基本不會(huì)說人話了。

三、加寬搜索范圍救不了場(chǎng)：為何標(biāo)準(zhǔn)補(bǔ)救方案失靈

面對(duì)這種崩潰，AQLM的傳統(tǒng)對(duì)策是加寬"束搜索"（Beam Search）的寬度。束搜索是一種在搜索時(shí)同時(shí)保持多個(gè)候選方案的策略，類似于下圍棋時(shí)不只計(jì)算一條路線而是同時(shí)考慮幾條最有希望的路線，最后選出最好的一條。搜索寬度越大，搜到的方案越接近最優(yōu)，但計(jì)算時(shí)間也越長(zhǎng)。

按照直覺，既然搜索寬度越大越好，那只要把寬度拉足夠大，初始化差一點(diǎn)應(yīng)該也能補(bǔ)救——畢竟搜索會(huì)找到最好的分配方案。然而實(shí)驗(yàn)數(shù)據(jù)告訴我們，這個(gè)直覺在2位精度下完全失效。

當(dāng)使用貪心初始化時(shí)，將搜索寬度從4提升到8，WikiText-2困惑度從352.39降至60.61，看起來有明顯改善；再?gòu)?提升到16，降至46.01。但無論搜索寬度怎么加，結(jié)果始終距離健康值（約7-8）相差甚遠(yuǎn)。更奇怪的是，C4數(shù)據(jù)集上的困惑度隨搜索寬度加大反而從18.64略升至19.00，說明更寬的搜索在另一個(gè)維度上其實(shí)還變差了——這暗示著模型在過度適應(yīng)校準(zhǔn)數(shù)據(jù)。

反觀OA-EM初始化后的結(jié)果，搜索寬度4就能達(dá)到16.82，寬度8是17.39，寬度16是16.53，基本維持在一個(gè)穩(wěn)定的范圍內(nèi)。

這個(gè)對(duì)比揭示了束搜索的本質(zhì)局限：它優(yōu)化的是給定碼本下的"分配方案"，而不能改變碼本本身的幾何形狀。如果碼本的代表詞本來就擺在錯(cuò)誤的位置，束搜索再寬也只是在錯(cuò)誤的框架里找最好的路，而無法重塑框架本身。就好比一場(chǎng)考試題目出錯(cuò)了，不管你怎么認(rèn)真答題，對(duì)照錯(cuò)誤答案還是得不了高分——關(guān)鍵在于題目，不在于你的作答策略。

研究團(tuán)隊(duì)還注意到一個(gè)有趣的"時(shí)間賬"：在Llama 3.2 3B上，把搜索寬度從4提升到16會(huì)讓量化時(shí)間從6.1小時(shí)增加到16.9小時(shí)，多花了10.8小時(shí)；但這段額外時(shí)間換來的WikiText-2困惑度改善，從352.39到46.01，依然是災(zāi)難性的結(jié)果，而不是接近健康水平。

四、OA-EM：換一種視角來擺放"代表詞"

既然問題出在碼本的初始代表詞擺錯(cuò)了位置，那解決方案就是在初始化階段就把代表詞擺對(duì)。OA-EM的核心思路可以用一個(gè)建筑比喻來理解：貪心初始化相當(dāng)于按照"哪里人最多就在哪里蓋樓"的策略，結(jié)果大量資源浪費(fèi)在偏遠(yuǎn)地區(qū)的人口密集處，而城市核心區(qū)域的需求卻沒被充分滿足；OA-EM則相當(dāng)于先調(diào)查清楚哪些區(qū)域?qū)φ麄€(gè)城市的經(jīng)濟(jì)貢獻(xiàn)最大，優(yōu)先在那些地方配置資源。

技術(shù)上，OA-EM在標(biāo)準(zhǔn)K均值初始化的基礎(chǔ)上引入了兩個(gè)改變。第一個(gè)改變是把度量距離的方式從"歐氏距離"換成"海森矩陣加權(quán)的馬氏距離"。歐氏距離就是普通的直線距離，不考慮每個(gè)方向的重要程度；馬氏距離則會(huì)根據(jù)各個(gè)方向的重要性做拉伸或壓縮。海森矩陣（來自模型在校準(zhǔn)數(shù)據(jù)上的二階導(dǎo)數(shù)信息）告訴我們，哪些權(quán)重方向的變化對(duì)模型輸出影響最大——也就是哪些方向"最敏感"。用這個(gè)矩陣來加權(quán)距離，意味著OA-EM在分配代表詞時(shí)會(huì)優(yōu)先照顧對(duì)模型輸出影響大的權(quán)重方向，而不是簡(jiǎn)單地追求空間上的均勻分布。

第二個(gè)改變是把"最小化權(quán)重空間里的重構(gòu)誤差"改為"最小化輸出空間里的重構(gòu)誤差"。聽起來像繞口令，但區(qū)別很重要：前者只關(guān)心每組權(quán)重被代表詞近似得有多好；后者直接關(guān)心"用這套碼本重建出來的權(quán)重，讓模型產(chǎn)生的輸出和原始權(quán)重的輸出差多少"。后者才是真正影響模型質(zhì)量的指標(biāo)，這也是"輸出感知"（Output-Aware）這個(gè)名字的由來。

OA-EM的工作流程是在K均值初始化的基礎(chǔ)上迭代改進(jìn)：固定當(dāng)前每組權(quán)重的分配，更新代表詞使得輸出重構(gòu)誤差最?。∕步，用Adam優(yōu)化器跑100步，帶余弦退火學(xué)習(xí)率）；再固定代表詞，把每組權(quán)重重新分配給馬氏距離最近的代表詞（E步）。這兩步交替進(jìn)行3輪，總共約300步Adam更新，作為一個(gè)預(yù)處理階段，在正式的束搜索開始之前完成。

OA-EM并沒有打破AQLM的順序框架——第一本碼本還是先于第二本確定。但它通過更好的幾何定位，讓第一本碼本的代表詞更精準(zhǔn)地覆蓋了對(duì)模型輸出最重要的權(quán)重方向，從而給第二本碼本留下了更規(guī)整、更易處理的殘差，從根源上縮小了貪心誤差中的"直接誤差"和"殘差錯(cuò)配"兩項(xiàng)。

五、實(shí)驗(yàn)驗(yàn)證：數(shù)字背后的故事

研究團(tuán)隊(duì)在三個(gè)模型上進(jìn)行了系統(tǒng)測(cè)試：Llama 3.2 3B、Llama 3.1 8B，以及來自不同架構(gòu)家族的Qwen 2.5 3B。所有模型都在C4數(shù)據(jù)集的128條序列上進(jìn)行校準(zhǔn)，評(píng)估則覆蓋了WikiText-2和C4兩個(gè)困惑度基準(zhǔn)，以及ARC-Easy、ARC-Challenge、HellaSwag、PIQA、WinoGrande、LAMBADA六個(gè)零樣本推理任務(wù)。

在OA-EM初始化之后，量化還會(huì)經(jīng)歷兩個(gè)階段：束搜索（找到每組權(quán)重的最佳碼本分配）和PV-tuning（端到端微調(diào)，同時(shí)更新碼本和分配索引）。研究的核心問題是：OA-EM帶來的初始化優(yōu)勢(shì)，在經(jīng)過這兩輪后續(xù)優(yōu)化之后，還能保留下來嗎？

結(jié)果是明確的。在Llama 3.2 3B上，經(jīng)過PV-tuning之后，OA-EM在所有搜索寬度配置下的WikiText-2困惑度都優(yōu)于貪心初始化：搜索寬度4下，OA-EM得到11.53而貪心初始化得到12.66；寬度8下分別是11.53對(duì)11.76；寬度16下是11.49對(duì)12.01。差距從PV-tuning前的幾十分壓縮到了0.23分，但始終存在，方向始終一致。

更能說明問題的是搜索寬度的影響方式不同。貪心初始化下，寬度從4增加到8是有幫助的（12.66→11.76），但再?gòu)?增加到16反而變差了（11.76→12.01），呈現(xiàn)出非單調(diào)的不穩(wěn)定行為。而OA-EM初始化下，寬度增加帶來的效果是穩(wěn)定且單調(diào)的：4和8都是11.53，16微降至11.49。如果兩種方案真的收斂到了相同的優(yōu)化終點(diǎn)，那搜索寬度對(duì)兩者的影響理應(yīng)是一致的——恰恰相反的行為模式說明它們處于不同的優(yōu)化盆地，PV-tuning只是在各自的盆地里爬坡，而沒有跳到另一個(gè)盆地。

在效率上，OA-EM也展現(xiàn)出明顯的帕累托優(yōu)勢(shì)。OA-EM在搜索寬度4下只需6.1小時(shí)量化，就能得到11.53的最終困惑度；而貪心初始化在搜索寬度8下需要9.9小時(shí)，最終只能得到11.76。前者不僅結(jié)果更好，時(shí)間還節(jié)省了38%。用最省力的OA-EM配置對(duì)比最費(fèi)力的貪心配置——OA-EM寬度4（6.1小時(shí)，11.53）vs 貪心寬度16（16.9小時(shí)，12.01）——OA-EM節(jié)省了63%的時(shí)間，還得到了更好的結(jié)果。

在Llama 3.1 8B上，規(guī)律同樣存在，只是幅度較小：PV-tuning后WikiText-2困惑度從9.39降至9.25，C4從12.02降至11.89。8B模型之所以對(duì)初始化不那么敏感，研究團(tuán)隊(duì)認(rèn)為是因?yàn)樗诟鄶?shù)據(jù)（15萬億token，而3B模型只有3萬億）上訓(xùn)練，權(quán)重分布更平滑，極端的高量級(jí)權(quán)重組更少，貪心初始化的"浪費(fèi)"問題相對(duì)較輕。這說明表示比率ρ是預(yù)測(cè)初始化瓶頸的必要條件，但不是充分條件——權(quán)重本身的分布形態(tài)也會(huì)影響脆弱程度。

Qwen 2.5 3B上的結(jié)果則揭示了一個(gè)更細(xì)膩的面向：OA-EM在困惑度上依然贏（WikiText-2從10.93降至10.73，C4從14.57降至14.49），但在下游任務(wù)平均準(zhǔn)確率上貪心初始化微弱領(lǐng)先（0.606 vs 0.603）。研究團(tuán)隊(duì)指出，在3B規(guī)模下零樣本任務(wù)的評(píng)估本身方差較大，且Qwen架構(gòu)的權(quán)重統(tǒng)計(jì)特性比Llama系列更平滑，初始化瓶頸本就較弱；而困惑度作為更穩(wěn)定、更直接的質(zhì)量信號(hào)，始終指向OA-EM更優(yōu)。

六、3位精度的情況：瓶頸縮小但不消失

研究團(tuán)隊(duì)還專門測(cè)試了3位精度（ρ≈0.07，過完備區(qū)間）的情況，以驗(yàn)證"表示比率預(yù)測(cè)初始化重要性"的框架。結(jié)果顯示，3位精度下初始化的影響確實(shí)小得多：貪心初始化的WikiText-2困惑度是9.52，OA-EM是8.87，差距0.65分；PV-tuning后分別是8.66和8.54，差距壓縮到0.12分，約5.4倍的壓縮比。

相比之下，2位精度下貪心初始化差了約43分，PV-tuning后差距壓縮到0.23分，約188倍的壓縮比——數(shù)值上的壓縮比更大，但絕對(duì)差距依然存在，方向依然一致，說明PV-tuning在兩種情況下都是"在盆地內(nèi)改善"而非"在盆地間跳躍"。

3位精度的下游任務(wù)表現(xiàn)同樣支持OA-EM：在6個(gè)任務(wù)中贏了4個(gè)，ARC-Easy提升了3.5個(gè)百分點(diǎn)，LAMBADA準(zhǔn)確率提升了1.6個(gè)百分點(diǎn)，平均準(zhǔn)確率從0.647提升至0.654。這意味著即使在過完備區(qū)間，初始化的好壞依然能留下可見的痕跡，PV-tuning無法完全抹平。

七、領(lǐng)域偏移：初始化差的模型更脆弱

研究還觀察到一個(gè)頗有洞察力的現(xiàn)象：貪心初始化的模型在PV-tuning前，其表現(xiàn)失靈程度與評(píng)估數(shù)據(jù)集和校準(zhǔn)數(shù)據(jù)集（C4）的距離成正比。

在C4本身（域內(nèi)數(shù)據(jù)）上，貪心初始化的困惑度是18.64，OA-EM是18.00，差距僅1.04倍；在LAMBADA（近域外數(shù)據(jù)）上，兩者分別是12.28和8.85，差距擴(kuò)大到1.39倍；在WikiText-2（遠(yuǎn)域外數(shù)據(jù)）上，兩者是60.61和17.39，差距達(dá)到3.49倍。這個(gè)梯度說明貪心初始化的碼本在容量受限時(shí)，會(huì)把有限的表示能力過度集中在校準(zhǔn)數(shù)據(jù)最關(guān)心的權(quán)重組上，導(dǎo)致對(duì)其他場(chǎng)景的泛化能力急劇下降。OA-EM通過海森矩陣加權(quán)，把碼本容量分配給對(duì)模型輸出真正重要的權(quán)重方向，而不僅僅是校準(zhǔn)數(shù)據(jù)頻繁激活的方向，因而在跨域評(píng)估下展現(xiàn)出更好的魯棒性。

這個(gè)發(fā)現(xiàn)的實(shí)際意義在于：如果你打算在一個(gè)領(lǐng)域校準(zhǔn)模型，然后用到另一個(gè)領(lǐng)域，初始化質(zhì)量的重要性會(huì)被進(jìn)一步放大；而OA-EM恰恰在這種場(chǎng)景下提供了更穩(wěn)健的保護(hù)。

歸根結(jié)底，這篇論文講了一個(gè)關(guān)于"起點(diǎn)決定終點(diǎn)"的故事。在AI模型壓縮這件事上，工程師們長(zhǎng)期習(xí)慣于在出問題之后加大修復(fù)力度，卻沒有意識(shí)到問題根源在更早的地方。就像一道數(shù)學(xué)題，如果你第一步就理解錯(cuò)了題目，后續(xù)的計(jì)算再仔細(xì)也是枉然；但如果第一步就把方向弄對(duì)，后續(xù)哪怕粗糙一點(diǎn)也能得到接近滿分的答案。OA-EM做的事情，本質(zhì)上就是花一點(diǎn)點(diǎn)額外的精力把第一步做對(duì)——讓碼本的代表詞從一開始就站在它們應(yīng)該站的位置。

這對(duì)普通用戶的影響是相當(dāng)直接的。如果你希望在手機(jī)、樹莓派或者沒有高端GPU的筆記本上運(yùn)行一個(gè)還算聰明的語言模型，研究證明了2位精度的加法量化是可行路線，而不是"壓縮太狠必然崩潰"的死路。OA-EM讓這條路從充滿坑洞變得更加平坦可行，而且不需要任何額外的推理代價(jià)——模型部署時(shí)依然是最快的查表操作，只是在量化階段多做了一些更聰明的前期準(zhǔn)備工作。

一個(gè)值得繼續(xù)思考的問題是：這個(gè)"初始化決定盆地"的規(guī)律，究竟在多大程度上是加法量化特有的，還是在任何需要學(xué)習(xí)離散表示的系統(tǒng)中都會(huì)出現(xiàn)？未來的研究或許會(huì)把這個(gè)框架擴(kuò)展到更廣泛的壓縮和表示學(xué)習(xí)場(chǎng)景中，讓"聰明地開始"成為一個(gè)更普遍的原則。有興趣深入探討的讀者，可以通過arXiv編號(hào)2604.08118檢索完整論文，代碼也已在GitHub上公開（kenno94-IK/aqlm-oaem）。

Q&A

Q1：2位量化為什么比3位量化崩潰得更厲害？

A：2位量化時(shí)，每組權(quán)重只能從65536種碼本組合中選一個(gè)，而模型層內(nèi)約有120萬組權(quán)重，平均每個(gè)組合要"照顧"18組權(quán)重，競(jìng)爭(zhēng)激烈。3位量化時(shí)可選組合超過1680萬，遠(yuǎn)多于權(quán)重組數(shù)量，初始化走偏了還有大量備用組合兜底。這種容量差距是256倍，是質(zhì)變而非量變，導(dǎo)致貪心初始化在2位精度下幾乎必然陷入糟糕的優(yōu)化盆地。

Q2：OA-EM會(huì)讓量化過程變慢很多嗎？

A：總體上不會(huì)，甚至往往更快。OA-EM只是在束搜索前額外做3輪約300步的Adam更新，新增時(shí)間有限。更重要的是，OA-EM改善了初始化質(zhì)量，使得束搜索每層需要的迭代輪次更少，反而節(jié)省了整體時(shí)間。例如在3位精度測(cè)試中，OA-EM將量化總時(shí)間從13小時(shí)25分縮短至12小時(shí)39分，節(jié)省了約5.7%。在2位精度下，OA-EM在搜索寬度4的情況下就能達(dá)到貪心初始化搜索寬度16才能接近的質(zhì)量，節(jié)省63%的量化時(shí)間。

Q3：OA-EM適用于所有類型的模型壓縮方法嗎？

A：不是所有類型都適用。OA-EM專門針對(duì)"自由形式加法量化"這一類方法，即通過學(xué)習(xí)非結(jié)構(gòu)化碼本來壓縮權(quán)重的方案，代表性實(shí)現(xiàn)是AQLM。對(duì)于使用固定數(shù)學(xué)結(jié)構(gòu)碼本的方法（如QuIP#使用E8格碼本，QTIP使用網(wǎng)格碼），這類方法從根本上繞過了離散分配問題，本身不存在OA-EM所解決的初始化瓶頸。不過研究團(tuán)隊(duì)認(rèn)為，"表示比率"這個(gè)分析框架和"盆地持久性"這個(gè)現(xiàn)象，對(duì)任何依賴貪心順序初始化的學(xué)習(xí)碼本方法都有參考價(jià)值。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.