国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

謝菲爾德大學(xué)發(fā)現(xiàn)極限壓縮AI模型時(shí),初始化才是真正的攔路虎

0
分享至


這項(xiàng)由英國(guó)謝菲爾德大學(xué)計(jì)算機(jī)科學(xué)系主導(dǎo)的研究,以預(yù)印本形式于2026年4月9日發(fā)布在arXiv上,編號(hào)為arXiv:2604.08118v1,目前正在同行評(píng)審中。感興趣的讀者可通過該編號(hào)檢索完整論文。

你的手機(jī)里裝著一個(gè)能對(duì)話、能寫作、能回答問題的AI助手——但它消耗的存儲(chǔ)空間可能超出你的想象。那些強(qiáng)大的大型語言模型,動(dòng)輒幾十個(gè)GB,根本塞不進(jìn)普通手機(jī)或者平價(jià)筆記本電腦。為了讓AI能住進(jìn)這些"小房子"里,工程師們發(fā)展出了一種叫做"量化"的技術(shù),本質(zhì)上就是把AI的記憶壓縮再壓縮,就像把一張高清照片壓縮成更小的文件一樣。

問題是,壓縮得越狠,AI就越容易變傻。4位精度的壓縮幾乎無感,但當(dāng)壓縮到2位精度——也就是每個(gè)參數(shù)只剩下4種可能取值——AI的表現(xiàn)可能會(huì)從流暢對(duì)話直接崩潰到胡言亂語。研究人員已經(jīng)嘗試了很多補(bǔ)救方案:更寬的搜索范圍、更多的訓(xùn)練輪次、更大的校準(zhǔn)數(shù)據(jù)集。但謝菲爾德大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn),這些努力都打錯(cuò)了靶子。

真正的問題出在更早的地方——出在"初始化"這個(gè)步驟上。就像蓋房子時(shí)地基打歪了,后來再怎么精裝修都無法讓房子變正。這篇論文的核心發(fā)現(xiàn)正是:在極度壓縮的情況下,最初如何設(shè)定模型的"記憶編碼方式",幾乎決定了最終模型能達(dá)到的上限,而不是后來的搜索和微調(diào)。

研究團(tuán)隊(duì)為此專門設(shè)計(jì)了一種新的初始化方法,叫做OA-EM(輸出感知期望最大化),并在三種不同架構(gòu)的模型上進(jìn)行了系統(tǒng)測(cè)試,結(jié)果表明這個(gè)方法不僅能讓壓縮后的AI更聰明,還能讓整個(gè)壓縮過程更省時(shí)間。

一、壓縮AI的基本邏輯:把記憶裝進(jìn)"碼本"

要理解這項(xiàng)研究,先得理解AI的記憶是怎么被壓縮的。大型語言模型的核心是一張巨大的數(shù)字表格,里面存著模型學(xué)到的所有"知識(shí)"——準(zhǔn)確說是數(shù)以億計(jì)的權(quán)重參數(shù)。每個(gè)參數(shù)原本用32位或16位浮點(diǎn)數(shù)表示,非常精細(xì)。壓縮的目標(biāo)就是用更少的位數(shù)來表示這些參數(shù)。

"加法量化"(Additive Quantization)是其中一種頗有創(chuàng)意的方案。它的思路是:與其直接把每個(gè)數(shù)字變粗糙,不如把一組數(shù)字(比如8個(gè)參數(shù)構(gòu)成一組)表示成若干個(gè)"代表詞"之和。這些代表詞來自事先準(zhǔn)備好的"碼本",每本碼本里有256個(gè)條目。當(dāng)你要還原原始參數(shù)時(shí),只需要查表做加法,速度極快,幾乎不需要任何計(jì)算——就像查字典一樣,找到編號(hào)對(duì)應(yīng)的詞條,直接讀出來就行。

這種方式在手機(jī)CPU、嵌入式芯片這類沒有專用AI加速器的設(shè)備上格外重要,因?yàn)椴楸聿僮鞅瘸朔ㄟ\(yùn)算要便宜得多。AQLM(大型語言模型加法量化)正是這類方案的代表性實(shí)現(xiàn):2位精度下,每組8個(gè)權(quán)重用兩本碼本的兩個(gè)編號(hào)來表示,每本碼本256個(gè)條目,兩個(gè)8位索引加起來剛好2比特/參數(shù)。

整個(gè)壓縮過程分兩步走:先用某種方法初始化碼本,確定每個(gè)"代表詞"長(zhǎng)什么樣;再通過搜索,找出每組參數(shù)最匹配哪兩個(gè)代表詞的組合。AQLM的傳統(tǒng)做法是用"殘差K均值"來初始化——先把所有權(quán)重分成若干簇,找出每簇的中心作為第一本碼本的代表詞;然后用每組參數(shù)減去最近的代表詞,把剩余的"誤差"再做一次聚類,得到第二本碼本。這個(gè)過程是貪心的、順序進(jìn)行的,先定第一本再定第二本,沒有回頭路。

二、地基歪了,裝修救不了:初始化為何決定命運(yùn)

這里出現(xiàn)了一個(gè)微妙卻致命的問題。當(dāng)你貪心地先確定第一本碼本,再去確定第二本時(shí),你其實(shí)是在做一個(gè)錯(cuò)誤的假設(shè):第一本碼本獨(dú)立來看最好,整體就最好。但現(xiàn)實(shí)并非如此,最好的第一本碼本取決于第二本能補(bǔ)償什么,而第二本是在第一本已經(jīng)定好之后才設(shè)計(jì)的——兩本碼本之間存在相互依賴,順序貪心的方式忽視了這種耦合關(guān)系。

研究團(tuán)隊(duì)用一個(gè)數(shù)學(xué)命題(論文中的Proposition 1)把這個(gè)問題精確刻畫出來,分解了貪心初始化的誤差來源。誤差由三部分組成:第一部分是第一本碼本選錯(cuò)了代表詞產(chǎn)生的直接誤差;第二部分是這個(gè)"選錯(cuò)"對(duì)第二本碼本補(bǔ)償能力的干擾——如果第一步走偏了,第二步能不能拉回來取決于第二本碼本里有沒有合適的條目;第三部分是因?yàn)榈诙敬a本是在錯(cuò)誤的殘差上訓(xùn)練的,所以它學(xué)到的也不是最理想的東西,這個(gè)"錯(cuò)配"導(dǎo)致的額外損失永遠(yuǎn)不會(huì)是負(fù)的,只會(huì)讓問題更糟。

關(guān)鍵在于第二部分能否化解第一部分的錯(cuò)誤。這取決于壓縮率,也就是研究團(tuán)隊(duì)引入的一個(gè)核心概念——"表示比率"ρ(rho)。

表示比率的定義很直覺:用層內(nèi)權(quán)重組的數(shù)量,除以碼本能表示的組合總數(shù)。對(duì)于2位精度(M=2本碼本,每本K=256個(gè)條目),碼本組合總數(shù)是256?=65536。對(duì)于3位精度(M=3本),組合總數(shù)是256?約等于1680萬。權(quán)重組的數(shù)量則取決于模型大小,以Llama 3.2 3B為例大約是120萬組。

于是,3位精度下ρ約等于0.07,意思是碼本能表示的組合數(shù)遠(yuǎn)多于實(shí)際需要處理的權(quán)重組,空間綽綽有余,初始化走偏了也有大量"備用組合"能兜底;2位精度下ρ約等于18,情況完全翻轉(zhuǎn),每個(gè)碼本組合平均要"照顧"18組權(quán)重,競(jìng)爭(zhēng)激烈,初始化一旦走偏,補(bǔ)救的余地極為有限。

這個(gè)256倍的容量驟降不是量變而是質(zhì)變。3位精度下貪心初始化只會(huì)讓困惑度(衡量AI語言流暢程度的指標(biāo),數(shù)值越低越好)差0.65分,而在2位精度下,貪心初始化會(huì)讓Llama 3.2 3B的WikiText-2困惑度飆升到352.39——而正常的16位精度模型困惑度只有7.28。用人話說,就是模型基本不會(huì)說人話了。

三、加寬搜索范圍救不了場(chǎng):為何標(biāo)準(zhǔn)補(bǔ)救方案失靈

面對(duì)這種崩潰,AQLM的傳統(tǒng)對(duì)策是加寬"束搜索"(Beam Search)的寬度。束搜索是一種在搜索時(shí)同時(shí)保持多個(gè)候選方案的策略,類似于下圍棋時(shí)不只計(jì)算一條路線而是同時(shí)考慮幾條最有希望的路線,最后選出最好的一條。搜索寬度越大,搜到的方案越接近最優(yōu),但計(jì)算時(shí)間也越長(zhǎng)。

按照直覺,既然搜索寬度越大越好,那只要把寬度拉足夠大,初始化差一點(diǎn)應(yīng)該也能補(bǔ)救——畢竟搜索會(huì)找到最好的分配方案。然而實(shí)驗(yàn)數(shù)據(jù)告訴我們,這個(gè)直覺在2位精度下完全失效。

當(dāng)使用貪心初始化時(shí),將搜索寬度從4提升到8,WikiText-2困惑度從352.39降至60.61,看起來有明顯改善;再?gòu)?提升到16,降至46.01。但無論搜索寬度怎么加,結(jié)果始終距離健康值(約7-8)相差甚遠(yuǎn)。更奇怪的是,C4數(shù)據(jù)集上的困惑度隨搜索寬度加大反而從18.64略升至19.00,說明更寬的搜索在另一個(gè)維度上其實(shí)還變差了——這暗示著模型在過度適應(yīng)校準(zhǔn)數(shù)據(jù)。

反觀OA-EM初始化后的結(jié)果,搜索寬度4就能達(dá)到16.82,寬度8是17.39,寬度16是16.53,基本維持在一個(gè)穩(wěn)定的范圍內(nèi)。

這個(gè)對(duì)比揭示了束搜索的本質(zhì)局限:它優(yōu)化的是給定碼本下的"分配方案",而不能改變碼本本身的幾何形狀。如果碼本的代表詞本來就擺在錯(cuò)誤的位置,束搜索再寬也只是在錯(cuò)誤的框架里找最好的路,而無法重塑框架本身。就好比一場(chǎng)考試題目出錯(cuò)了,不管你怎么認(rèn)真答題,對(duì)照錯(cuò)誤答案還是得不了高分——關(guān)鍵在于題目,不在于你的作答策略。

研究團(tuán)隊(duì)還注意到一個(gè)有趣的"時(shí)間賬":在Llama 3.2 3B上,把搜索寬度從4提升到16會(huì)讓量化時(shí)間從6.1小時(shí)增加到16.9小時(shí),多花了10.8小時(shí);但這段額外時(shí)間換來的WikiText-2困惑度改善,從352.39到46.01,依然是災(zāi)難性的結(jié)果,而不是接近健康水平。

四、OA-EM:換一種視角來擺放"代表詞"

既然問題出在碼本的初始代表詞擺錯(cuò)了位置,那解決方案就是在初始化階段就把代表詞擺對(duì)。OA-EM的核心思路可以用一個(gè)建筑比喻來理解:貪心初始化相當(dāng)于按照"哪里人最多就在哪里蓋樓"的策略,結(jié)果大量資源浪費(fèi)在偏遠(yuǎn)地區(qū)的人口密集處,而城市核心區(qū)域的需求卻沒被充分滿足;OA-EM則相當(dāng)于先調(diào)查清楚哪些區(qū)域?qū)φ麄€(gè)城市的經(jīng)濟(jì)貢獻(xiàn)最大,優(yōu)先在那些地方配置資源。

技術(shù)上,OA-EM在標(biāo)準(zhǔn)K均值初始化的基礎(chǔ)上引入了兩個(gè)改變。第一個(gè)改變是把度量距離的方式從"歐氏距離"換成"海森矩陣加權(quán)的馬氏距離"。歐氏距離就是普通的直線距離,不考慮每個(gè)方向的重要程度;馬氏距離則會(huì)根據(jù)各個(gè)方向的重要性做拉伸或壓縮。海森矩陣(來自模型在校準(zhǔn)數(shù)據(jù)上的二階導(dǎo)數(shù)信息)告訴我們,哪些權(quán)重方向的變化對(duì)模型輸出影響最大——也就是哪些方向"最敏感"。用這個(gè)矩陣來加權(quán)距離,意味著OA-EM在分配代表詞時(shí)會(huì)優(yōu)先照顧對(duì)模型輸出影響大的權(quán)重方向,而不是簡(jiǎn)單地追求空間上的均勻分布。

第二個(gè)改變是把"最小化權(quán)重空間里的重構(gòu)誤差"改為"最小化輸出空間里的重構(gòu)誤差"。聽起來像繞口令,但區(qū)別很重要:前者只關(guān)心每組權(quán)重被代表詞近似得有多好;后者直接關(guān)心"用這套碼本重建出來的權(quán)重,讓模型產(chǎn)生的輸出和原始權(quán)重的輸出差多少"。后者才是真正影響模型質(zhì)量的指標(biāo),這也是"輸出感知"(Output-Aware)這個(gè)名字的由來。

OA-EM的工作流程是在K均值初始化的基礎(chǔ)上迭代改進(jìn):固定當(dāng)前每組權(quán)重的分配,更新代表詞使得輸出重構(gòu)誤差最?。∕步,用Adam優(yōu)化器跑100步,帶余弦退火學(xué)習(xí)率);再固定代表詞,把每組權(quán)重重新分配給馬氏距離最近的代表詞(E步)。這兩步交替進(jìn)行3輪,總共約300步Adam更新,作為一個(gè)預(yù)處理階段,在正式的束搜索開始之前完成。

OA-EM并沒有打破AQLM的順序框架——第一本碼本還是先于第二本確定。但它通過更好的幾何定位,讓第一本碼本的代表詞更精準(zhǔn)地覆蓋了對(duì)模型輸出最重要的權(quán)重方向,從而給第二本碼本留下了更規(guī)整、更易處理的殘差,從根源上縮小了貪心誤差中的"直接誤差"和"殘差錯(cuò)配"兩項(xiàng)。

五、實(shí)驗(yàn)驗(yàn)證:數(shù)字背后的故事

研究團(tuán)隊(duì)在三個(gè)模型上進(jìn)行了系統(tǒng)測(cè)試:Llama 3.2 3B、Llama 3.1 8B,以及來自不同架構(gòu)家族的Qwen 2.5 3B。所有模型都在C4數(shù)據(jù)集的128條序列上進(jìn)行校準(zhǔn),評(píng)估則覆蓋了WikiText-2和C4兩個(gè)困惑度基準(zhǔn),以及ARC-Easy、ARC-Challenge、HellaSwag、PIQA、WinoGrande、LAMBADA六個(gè)零樣本推理任務(wù)。

在OA-EM初始化之后,量化還會(huì)經(jīng)歷兩個(gè)階段:束搜索(找到每組權(quán)重的最佳碼本分配)和PV-tuning(端到端微調(diào),同時(shí)更新碼本和分配索引)。研究的核心問題是:OA-EM帶來的初始化優(yōu)勢(shì),在經(jīng)過這兩輪后續(xù)優(yōu)化之后,還能保留下來嗎?

結(jié)果是明確的。在Llama 3.2 3B上,經(jīng)過PV-tuning之后,OA-EM在所有搜索寬度配置下的WikiText-2困惑度都優(yōu)于貪心初始化:搜索寬度4下,OA-EM得到11.53而貪心初始化得到12.66;寬度8下分別是11.53對(duì)11.76;寬度16下是11.49對(duì)12.01。差距從PV-tuning前的幾十分壓縮到了0.23分,但始終存在,方向始終一致。

更能說明問題的是搜索寬度的影響方式不同。貪心初始化下,寬度從4增加到8是有幫助的(12.66→11.76),但再?gòu)?增加到16反而變差了(11.76→12.01),呈現(xiàn)出非單調(diào)的不穩(wěn)定行為。而OA-EM初始化下,寬度增加帶來的效果是穩(wěn)定且單調(diào)的:4和8都是11.53,16微降至11.49。如果兩種方案真的收斂到了相同的優(yōu)化終點(diǎn),那搜索寬度對(duì)兩者的影響理應(yīng)是一致的——恰恰相反的行為模式說明它們處于不同的優(yōu)化盆地,PV-tuning只是在各自的盆地里爬坡,而沒有跳到另一個(gè)盆地。

在效率上,OA-EM也展現(xiàn)出明顯的帕累托優(yōu)勢(shì)。OA-EM在搜索寬度4下只需6.1小時(shí)量化,就能得到11.53的最終困惑度;而貪心初始化在搜索寬度8下需要9.9小時(shí),最終只能得到11.76。前者不僅結(jié)果更好,時(shí)間還節(jié)省了38%。用最省力的OA-EM配置對(duì)比最費(fèi)力的貪心配置——OA-EM寬度4(6.1小時(shí),11.53)vs 貪心寬度16(16.9小時(shí),12.01)——OA-EM節(jié)省了63%的時(shí)間,還得到了更好的結(jié)果。

在Llama 3.1 8B上,規(guī)律同樣存在,只是幅度較小:PV-tuning后WikiText-2困惑度從9.39降至9.25,C4從12.02降至11.89。8B模型之所以對(duì)初始化不那么敏感,研究團(tuán)隊(duì)認(rèn)為是因?yàn)樗诟鄶?shù)據(jù)(15萬億token,而3B模型只有3萬億)上訓(xùn)練,權(quán)重分布更平滑,極端的高量級(jí)權(quán)重組更少,貪心初始化的"浪費(fèi)"問題相對(duì)較輕。這說明表示比率ρ是預(yù)測(cè)初始化瓶頸的必要條件,但不是充分條件——權(quán)重本身的分布形態(tài)也會(huì)影響脆弱程度。

Qwen 2.5 3B上的結(jié)果則揭示了一個(gè)更細(xì)膩的面向:OA-EM在困惑度上依然贏(WikiText-2從10.93降至10.73,C4從14.57降至14.49),但在下游任務(wù)平均準(zhǔn)確率上貪心初始化微弱領(lǐng)先(0.606 vs 0.603)。研究團(tuán)隊(duì)指出,在3B規(guī)模下零樣本任務(wù)的評(píng)估本身方差較大,且Qwen架構(gòu)的權(quán)重統(tǒng)計(jì)特性比Llama系列更平滑,初始化瓶頸本就較弱;而困惑度作為更穩(wěn)定、更直接的質(zhì)量信號(hào),始終指向OA-EM更優(yōu)。

六、3位精度的情況:瓶頸縮小但不消失

研究團(tuán)隊(duì)還專門測(cè)試了3位精度(ρ≈0.07,過完備區(qū)間)的情況,以驗(yàn)證"表示比率預(yù)測(cè)初始化重要性"的框架。結(jié)果顯示,3位精度下初始化的影響確實(shí)小得多:貪心初始化的WikiText-2困惑度是9.52,OA-EM是8.87,差距0.65分;PV-tuning后分別是8.66和8.54,差距壓縮到0.12分,約5.4倍的壓縮比。

相比之下,2位精度下貪心初始化差了約43分,PV-tuning后差距壓縮到0.23分,約188倍的壓縮比——數(shù)值上的壓縮比更大,但絕對(duì)差距依然存在,方向依然一致,說明PV-tuning在兩種情況下都是"在盆地內(nèi)改善"而非"在盆地間跳躍"。

3位精度的下游任務(wù)表現(xiàn)同樣支持OA-EM:在6個(gè)任務(wù)中贏了4個(gè),ARC-Easy提升了3.5個(gè)百分點(diǎn),LAMBADA準(zhǔn)確率提升了1.6個(gè)百分點(diǎn),平均準(zhǔn)確率從0.647提升至0.654。這意味著即使在過完備區(qū)間,初始化的好壞依然能留下可見的痕跡,PV-tuning無法完全抹平。

七、領(lǐng)域偏移:初始化差的模型更脆弱

研究還觀察到一個(gè)頗有洞察力的現(xiàn)象:貪心初始化的模型在PV-tuning前,其表現(xiàn)失靈程度與評(píng)估數(shù)據(jù)集和校準(zhǔn)數(shù)據(jù)集(C4)的距離成正比。

在C4本身(域內(nèi)數(shù)據(jù))上,貪心初始化的困惑度是18.64,OA-EM是18.00,差距僅1.04倍;在LAMBADA(近域外數(shù)據(jù))上,兩者分別是12.28和8.85,差距擴(kuò)大到1.39倍;在WikiText-2(遠(yuǎn)域外數(shù)據(jù))上,兩者是60.61和17.39,差距達(dá)到3.49倍。這個(gè)梯度說明貪心初始化的碼本在容量受限時(shí),會(huì)把有限的表示能力過度集中在校準(zhǔn)數(shù)據(jù)最關(guān)心的權(quán)重組上,導(dǎo)致對(duì)其他場(chǎng)景的泛化能力急劇下降。OA-EM通過海森矩陣加權(quán),把碼本容量分配給對(duì)模型輸出真正重要的權(quán)重方向,而不僅僅是校準(zhǔn)數(shù)據(jù)頻繁激活的方向,因而在跨域評(píng)估下展現(xiàn)出更好的魯棒性。

這個(gè)發(fā)現(xiàn)的實(shí)際意義在于:如果你打算在一個(gè)領(lǐng)域校準(zhǔn)模型,然后用到另一個(gè)領(lǐng)域,初始化質(zhì)量的重要性會(huì)被進(jìn)一步放大;而OA-EM恰恰在這種場(chǎng)景下提供了更穩(wěn)健的保護(hù)。

歸根結(jié)底,這篇論文講了一個(gè)關(guān)于"起點(diǎn)決定終點(diǎn)"的故事。在AI模型壓縮這件事上,工程師們長(zhǎng)期習(xí)慣于在出問題之后加大修復(fù)力度,卻沒有意識(shí)到問題根源在更早的地方。就像一道數(shù)學(xué)題,如果你第一步就理解錯(cuò)了題目,后續(xù)的計(jì)算再仔細(xì)也是枉然;但如果第一步就把方向弄對(duì),后續(xù)哪怕粗糙一點(diǎn)也能得到接近滿分的答案。OA-EM做的事情,本質(zhì)上就是花一點(diǎn)點(diǎn)額外的精力把第一步做對(duì)——讓碼本的代表詞從一開始就站在它們應(yīng)該站的位置。

這對(duì)普通用戶的影響是相當(dāng)直接的。如果你希望在手機(jī)、樹莓派或者沒有高端GPU的筆記本上運(yùn)行一個(gè)還算聰明的語言模型,研究證明了2位精度的加法量化是可行路線,而不是"壓縮太狠必然崩潰"的死路。OA-EM讓這條路從充滿坑洞變得更加平坦可行,而且不需要任何額外的推理代價(jià)——模型部署時(shí)依然是最快的查表操作,只是在量化階段多做了一些更聰明的前期準(zhǔn)備工作。

一個(gè)值得繼續(xù)思考的問題是:這個(gè)"初始化決定盆地"的規(guī)律,究竟在多大程度上是加法量化特有的,還是在任何需要學(xué)習(xí)離散表示的系統(tǒng)中都會(huì)出現(xiàn)?未來的研究或許會(huì)把這個(gè)框架擴(kuò)展到更廣泛的壓縮和表示學(xué)習(xí)場(chǎng)景中,讓"聰明地開始"成為一個(gè)更普遍的原則。有興趣深入探討的讀者,可以通過arXiv編號(hào)2604.08118檢索完整論文,代碼也已在GitHub上公開(kenno94-IK/aqlm-oaem)。

Q&A

Q1:2位量化為什么比3位量化崩潰得更厲害?

A:2位量化時(shí),每組權(quán)重只能從65536種碼本組合中選一個(gè),而模型層內(nèi)約有120萬組權(quán)重,平均每個(gè)組合要"照顧"18組權(quán)重,競(jìng)爭(zhēng)激烈。3位量化時(shí)可選組合超過1680萬,遠(yuǎn)多于權(quán)重組數(shù)量,初始化走偏了還有大量備用組合兜底。這種容量差距是256倍,是質(zhì)變而非量變,導(dǎo)致貪心初始化在2位精度下幾乎必然陷入糟糕的優(yōu)化盆地。

Q2:OA-EM會(huì)讓量化過程變慢很多嗎?

A:總體上不會(huì),甚至往往更快。OA-EM只是在束搜索前額外做3輪約300步的Adam更新,新增時(shí)間有限。更重要的是,OA-EM改善了初始化質(zhì)量,使得束搜索每層需要的迭代輪次更少,反而節(jié)省了整體時(shí)間。例如在3位精度測(cè)試中,OA-EM將量化總時(shí)間從13小時(shí)25分縮短至12小時(shí)39分,節(jié)省了約5.7%。在2位精度下,OA-EM在搜索寬度4的情況下就能達(dá)到貪心初始化搜索寬度16才能接近的質(zhì)量,節(jié)省63%的量化時(shí)間。

Q3:OA-EM適用于所有類型的模型壓縮方法嗎?

A:不是所有類型都適用。OA-EM專門針對(duì)"自由形式加法量化"這一類方法,即通過學(xué)習(xí)非結(jié)構(gòu)化碼本來壓縮權(quán)重的方案,代表性實(shí)現(xiàn)是AQLM。對(duì)于使用固定數(shù)學(xué)結(jié)構(gòu)碼本的方法(如QuIP#使用E8格碼本,QTIP使用網(wǎng)格碼),這類方法從根本上繞過了離散分配問題,本身不存在OA-EM所解決的初始化瓶頸。不過研究團(tuán)隊(duì)認(rèn)為,"表示比率"這個(gè)分析框架和"盆地持久性"這個(gè)現(xiàn)象,對(duì)任何依賴貪心順序初始化的學(xué)習(xí)碼本方法都有參考價(jià)值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
24小時(shí)之內(nèi),美國(guó)迎來3個(gè)噩耗,特朗普或?qū)⑾屡_(tái),伊最高領(lǐng)袖下場(chǎng)

24小時(shí)之內(nèi),美國(guó)迎來3個(gè)噩耗,特朗普或?qū)⑾屡_(tái),伊最高領(lǐng)袖下場(chǎng)

混沌錄
2026-04-22 13:48:17
中國(guó)人在哈薩克斯坦生活實(shí)錄:飯?zhí)唷⑴颂S、聊天太上頭了!

中國(guó)人在哈薩克斯坦生活實(shí)錄:飯?zhí)?、女人太颯、聊天太上頭了!

老特有話說
2026-04-19 15:29:16
4月22日俄烏:兩個(gè)意義非凡的軍事行動(dòng)

4月22日俄烏:兩個(gè)意義非凡的軍事行動(dòng)

山河路口
2026-04-22 18:15:08
浪胃仙整容失敗!在昆明被網(wǎng)友偶遇,真人又壯又老,差點(diǎn)認(rèn)出是他

浪胃仙整容失??!在昆明被網(wǎng)友偶遇,真人又壯又老,差點(diǎn)認(rèn)出是他

離離言幾許
2026-04-22 07:06:44
最后時(shí)刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準(zhǔn)時(shí)出海

最后時(shí)刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準(zhǔn)時(shí)出海

鐵錘簡(jiǎn)科
2026-04-22 14:07:01
從中國(guó)駛向伊朗的貨船,遭美軍開火截停,不到24小時(shí),中方表態(tài)

從中國(guó)駛向伊朗的貨船,遭美軍開火截停,不到24小時(shí),中方表態(tài)

三石記
2026-04-21 16:15:23
原來他是陳麗華前夫,自己姓王仨孩子卻都姓趙,到底隨了誰的姓?

原來他是陳麗華前夫,自己姓王仨孩子卻都姓趙,到底隨了誰的姓?

白面書誏
2026-04-20 15:26:37
陳妍希申請(qǐng)強(qiáng)制執(zhí)行

陳妍希申請(qǐng)強(qiáng)制執(zhí)行

魯中晨報(bào)
2026-04-22 16:24:02
毛主席警衛(wèi)員講述:想進(jìn)中南海見毛主席,只有3個(gè)人可以自由通行

毛主席警衛(wèi)員講述:想進(jìn)中南海見毛主席,只有3個(gè)人可以自由通行

老范談史
2026-04-20 23:46:03
4500萬人恐?jǐn)嗉Z!美國(guó)深夜求援中俄:糧食紅線被踩化肥緊缺超黃金

4500萬人恐?jǐn)嗉Z!美國(guó)深夜求援中俄:糧食紅線被踩化肥緊缺超黃金

聞識(shí)
2026-04-22 01:12:59
博主:國(guó)安隊(duì)將于今晚抵京,恩科洛洛和鄭圖羅今天在基地康復(fù)

博主:國(guó)安隊(duì)將于今晚抵京,恩科洛洛和鄭圖羅今天在基地康復(fù)

懂球帝
2026-04-22 16:47:02
一個(gè)收入不高的人,可以偽精致到什么程度?網(wǎng)友:天天為賬單發(fā)愁

一個(gè)收入不高的人,可以偽精致到什么程度?網(wǎng)友:天天為賬單發(fā)愁

另子維愛讀史
2026-04-20 09:36:56
普京赴華前,烏軍先送了一記耳光

普京赴華前,烏軍先送了一記耳光

李榮茂
2026-04-22 18:41:11
痛心!湖南澧縣發(fā)生悲劇:夫妻在魚塘消毒時(shí),丈夫不慎落水,妻子施救,雙雙溺亡留下兩孩子

痛心!湖南澧縣發(fā)生悲劇:夫妻在魚塘消毒時(shí),丈夫不慎落水,妻子施救,雙雙溺亡留下兩孩子

大風(fēng)新聞
2026-04-22 15:33:09
鄭州街頭車輛發(fā)生自燃!車主慌神挪車遭 "二次暴擊"

鄭州街頭車輛發(fā)生自燃!車主慌神挪車遭 "二次暴擊"

新動(dòng)察
2026-04-22 09:03:10
巴鐵1.3萬中械師進(jìn)沙特,阿聯(lián)酋提1500億進(jìn)京,中東變天了

巴鐵1.3萬中械師進(jìn)沙特,阿聯(lián)酋提1500億進(jìn)京,中東變天了

戰(zhàn)爭(zhēng)史
2026-04-20 11:04:19
姚晨發(fā)文怒斥深圳違規(guī)私轉(zhuǎn)患者救護(hù)車:如此草菅人命的急救車,肯定是極少數(shù),家中至親曾突發(fā)急癥叫過急救車,為家人搶回黃金急救時(shí)間

姚晨發(fā)文怒斥深圳違規(guī)私轉(zhuǎn)患者救護(hù)車:如此草菅人命的急救車,肯定是極少數(shù),家中至親曾突發(fā)急癥叫過急救車,為家人搶回黃金急救時(shí)間

大風(fēng)新聞
2026-04-21 18:33:25
越住越旺的房子,往往都有這5個(gè)特點(diǎn)!看看你家中了幾條

越住越旺的房子,往往都有這5個(gè)特點(diǎn)!看看你家中了幾條

Home范
2026-04-22 12:56:22
對(duì)腿腳很友好的食物!黑豆第三,第一名不起眼,走路有勁不打顫

對(duì)腿腳很友好的食物!黑豆第三,第一名不起眼,走路有勁不打顫

江江食研社
2026-04-20 21:42:55
1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因?yàn)楹危?>
    </a>
        <h3>
      <a href=莫地方
2026-04-20 09:30:18
2026-04-22 19:36:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

三甲醫(yī)院科主任被舉報(bào)"巨額財(cái)產(chǎn)來源不明" 舉報(bào)人發(fā)聲

頭條要聞

三甲醫(yī)院科主任被舉報(bào)"巨額財(cái)產(chǎn)來源不明" 舉報(bào)人發(fā)聲

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

藝術(shù)
本地
旅游
手機(jī)
公開課

藝術(shù)要聞

無花不風(fēng)景

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

旅游要聞

跟著天氣游山東|淄博·風(fēng)止雨霽 邂逅一場(chǎng)煙火與詩

手機(jī)要聞

小米澎湃OS 3 Beta版推送“龍蝦”智能體Xiaomi miclaw

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版