網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

邊緣計(jì)算時(shí)代的智能省電革命（來(lái)自某研究團(tuán)隊(duì)的QEIL v2突破）

2026-04-20 21:54:26　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由匿名研究團(tuán)隊(duì)完成的論文發(fā)表于2026年4月，以arXiv預(yù)印本形式公開，編號(hào)為arXiv:2602.06057v3，屬于分布式計(jì)算領(lǐng)域（cs.DC）。有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整論文。

**每一瓦特都在燃燒金錢與時(shí)間**

手機(jī)、筆記本電腦、智能音箱——這些裝在我們口袋里或擺在桌上的設(shè)備，正在被越來(lái)越多的人要求"本地運(yùn)行AI"。所謂本地運(yùn)行，就是不依賴遠(yuǎn)在數(shù)據(jù)中心的服務(wù)器，直接在你手邊的硬件上跑出答案。這聽起來(lái)很棒：隱私更好、延遲更低、斷網(wǎng)也能用。但現(xiàn)實(shí)很骨感——這些設(shè)備的電池容量有限，散熱條件糟糕，處理器性能也遠(yuǎn)不如機(jī)房里那些耗電幾百瓦的巨型顯卡。

現(xiàn)在把時(shí)鐘撥快一點(diǎn)，AI模型的體積正在急劇膨脹。幾年前的聊天機(jī)器人可能只有幾億個(gè)參數(shù)，而今天的主流大語(yǔ)言模型動(dòng)輒幾十億、幾百億參數(shù)。要把這樣的龐然大物塞進(jìn)一臺(tái)邊緣設(shè)備，同時(shí)還要保證它回答得又快又準(zhǔn)、耗電又少，這件事的難度，大概相當(dāng)于讓一輛重型卡車在山地賽道上既跑得過(guò)跑車，又不燒油。

這篇論文就在嘗試解決這個(gè)問(wèn)題。研究團(tuán)隊(duì)提出了一個(gè)名為QEIL v2（可以理解為"邊緣智能量化框架第二版"）的系統(tǒng)，核心思路是：與其盲目地把所有計(jì)算任務(wù)都堆給性能最強(qiáng)的那塊芯片，不如根據(jù)每個(gè)任務(wù)的實(shí)際特性，精準(zhǔn)地把它分配給最適合它的硬件單元，從而在保證質(zhì)量的前提下大幅降低能耗。

這個(gè)框架的實(shí)驗(yàn)結(jié)果相當(dāng)驚人：在標(biāo)準(zhǔn)測(cè)試中，系統(tǒng)功耗從181.5瓦降到了63.8瓦，降幅超過(guò)64%；同時(shí)答題準(zhǔn)確率從59.8%提升到75.7%；一個(gè)叫做"每瓦特智能量"的綜合指標(biāo)（簡(jiǎn)稱IPW，即用準(zhǔn)確率除以功耗，反映每消耗一瓦特能獲得多少智能輸出）提升了2.86倍。更值得一提的是，當(dāng)系統(tǒng)被應(yīng)用于一個(gè)經(jīng)過(guò)壓縮的更大模型時(shí)，IPW首次突破了1.0這個(gè)行業(yè)參考基準(zhǔn)線——這是邊緣推理領(lǐng)域此前從未達(dá)到過(guò)的里程碑。

**一、從"一視同仁"到"因材施教"：舊系統(tǒng)的三個(gè)致命缺陷**

要理解QEIL v2為什么能做到這些，先要弄清楚它的前身QEIL v1哪里出了問(wèn)題。研究團(tuán)隊(duì)在論文中坦誠(chéng)地剖析了v1的三個(gè)根本性缺陷，這種自我批評(píng)的誠(chéng)意本身就值得關(guān)注。

QEIL v1的第一個(gè)問(wèn)題，用一個(gè)廚房比喻來(lái)說(shuō)，就像是一個(gè)餐廳的調(diào)度員，把所有的菜肴不分難易地分配給廚師時(shí)，只記住了每個(gè)廚師的"總體效率系數(shù)"——A廚師打0.5分，B廚師打0.7分——卻完全不考慮"這道菜適不適合這個(gè)廚師做"。具體到AI計(jì)算，v1對(duì)每種硬件只有一個(gè)固定的效率數(shù)字：NPU（神經(jīng)網(wǎng)絡(luò)處理單元）是0.3，英偉達(dá)GPU是0.5，英特爾集成顯卡是0.7，CPU是1.0。這個(gè)數(shù)字完全不隨任務(wù)類型變化。但實(shí)際上，同樣一塊GPU，在處理"預(yù)填充"階段（類似于廚師一次性備好所有食材）時(shí)效率極高，而在處理"逐字生成"階段（類似于廚師一個(gè)一個(gè)地?cái)[盤）時(shí)，99.5%的計(jì)算單元其實(shí)是閑置的、白白耗電的。這種忽視任務(wù)特性的靜態(tài)評(píng)分，會(huì)導(dǎo)致能耗估算誤差高達(dá)15%到40%。

第二個(gè)問(wèn)題是優(yōu)化策略的短視。v1使用的是一種"貪心算法"——每次都把當(dāng)前這層任務(wù)分配給當(dāng)下看起來(lái)成本最低的設(shè)備。這就好比一個(gè)登山者每一步都只選擇腳下最平坦的那條路，結(jié)果走進(jìn)了一條最終無(wú)路可走的山谷。在多臺(tái)設(shè)備協(xié)同工作的系統(tǒng)里，早期的分配決策會(huì)限制后續(xù)的選擇空間，把整個(gè)系統(tǒng)鎖死在一個(gè)局部最優(yōu)解里。更麻煩的是，當(dāng)不同設(shè)備之間存在不連續(xù)的性能跳變時(shí)，那種把多個(gè)目標(biāo)（節(jié)能和低延遲）硬壓縮成一個(gè)加權(quán)分?jǐn)?shù)的做法，在數(shù)學(xué)上被證明是找不到最優(yōu)解的。

第三個(gè)問(wèn)題是"候選答案選不好"。v1會(huì)讓模型反復(fù)生成多個(gè)答案，然后用很粗糙的標(biāo)準(zhǔn)來(lái)挑——比如看哪個(gè)答案最長(zhǎng)，或者哪個(gè)答案里字母和數(shù)字占比最高。這就像在一堆應(yīng)聘簡(jiǎn)歷里，專門挑字?jǐn)?shù)最多的，而不是看內(nèi)容質(zhì)量。大量潛在的高質(zhì)量答案就這樣被扔掉了。

**二、三把"物理學(xué)尺子"：用半導(dǎo)體原理給每塊芯片量體裁衣**

QEIL v2的第一個(gè)核心創(chuàng)新是用三個(gè)來(lái)自物理學(xué)和工程學(xué)基本原理的指標(biāo)，徹底替換掉那些靜態(tài)的效率系數(shù)。這三把尺子，每一把都有實(shí)實(shí)在在的物理依據(jù)，沒(méi)有任何憑感覺(jué)拍出來(lái)的魔法數(shù)字。

第一把尺子叫DASI，全名是"動(dòng)態(tài)算術(shù)飽和度指數(shù)"，它回答的問(wèn)題是：對(duì)于某個(gè)具體任務(wù)，這塊芯片的計(jì)算單元有多少比例真正在干活？理解這個(gè)概念需要先明白一個(gè)叫"屋頂線模型"的基本框架。任何計(jì)算任務(wù)都有兩個(gè)關(guān)鍵數(shù)字：它需要做多少次數(shù)學(xué)運(yùn)算（計(jì)算量），以及它需要從內(nèi)存里讀取多少數(shù)據(jù)（數(shù)據(jù)量）。兩者之比叫做"算術(shù)強(qiáng)度"。每塊芯片也有兩個(gè)上限：最快能做多少計(jì)算，以及最快能搬多少數(shù)據(jù)。當(dāng)一個(gè)任務(wù)的算術(shù)強(qiáng)度很高（每搬一字節(jié)數(shù)據(jù)就要做很多運(yùn)算），芯片的計(jì)算能力是瓶頸，芯片處于"計(jì)算受限"狀態(tài)，效率很高。當(dāng)算術(shù)強(qiáng)度很低（搬了很多數(shù)據(jù)但運(yùn)算很少），數(shù)據(jù)搬運(yùn)是瓶頸，大量計(jì)算單元就只能干坐著等數(shù)據(jù)，白白消耗電力。

把這個(gè)道理應(yīng)用到大語(yǔ)言模型，結(jié)論非常震撼。在"預(yù)填充"階段（模型一次性處理你輸入的全部提示詞），算術(shù)強(qiáng)度大約是每字節(jié)1024次運(yùn)算——遠(yuǎn)高于任何芯片的瓶頸點(diǎn)，GPU滿負(fù)荷運(yùn)轉(zhuǎn)，DASI=1.0。但到了"逐字生成"階段（模型每次只生成下一個(gè)詞），算術(shù)強(qiáng)度驟降到每字節(jié)約1次運(yùn)算，而英偉達(dá)高端GPU的瓶頸點(diǎn)是218，這意味著GPU在生成階段的DASI值只有0.005——99.5%的算力在空轉(zhuǎn)。相比之下，CPU的瓶頸點(diǎn)只有8，它的DASI在生成階段是0.125，雖然CPU的絕對(duì)性能遠(yuǎn)不如GPU，但它浪費(fèi)的比例小得多，每瓦特的實(shí)際產(chǎn)出反而更高。這正是為什么把生成任務(wù)交給低功耗設(shè)備往往比堆在高性能GPU上更合算。

第二把尺子叫CPQ，即"容量壓力商"，它衡量的是一臺(tái)設(shè)備的內(nèi)存被塞得多滿，以及內(nèi)存壓力如何推高能耗。從內(nèi)存分配理論出發(fā)，當(dāng)設(shè)備內(nèi)存使用率超過(guò)70%時(shí)，系統(tǒng)開始出現(xiàn)內(nèi)存碎片（就像行李箱里零散地塞滿了小物件，再也放不進(jìn)一個(gè)整齊的大箱子）、頻繁的垃圾回收（系統(tǒng)不斷整理內(nèi)存，消耗額外能量）和頁(yè)面置換（把內(nèi)存里的數(shù)據(jù)臨時(shí)挪到更慢的存儲(chǔ)里，然后再讀回來(lái)）。這些現(xiàn)象會(huì)造成額外的能耗。研究團(tuán)隊(duì)用一個(gè)三次方程來(lái)描述這個(gè)懲罰：當(dāng)內(nèi)存使用率在70%以下時(shí)幾乎沒(méi)有額外開銷；超過(guò)70%之后懲罰開始快速累積；到達(dá)95%時(shí)大約增加9.4%的額外能耗；逼近滿載時(shí)懲罰更是急劇飆升。選用三次方程而非線性或二次方程，是因?yàn)槿畏侥茏顪?zhǔn)確地描述這種"前期平緩、后期陡增"的物理現(xiàn)象。

第三把尺子叫Φ，即"熱感知能量產(chǎn)出率"，來(lái)自CMOS晶體管的漏電流物理學(xué)。芯片越熱，晶體管的漏電流越大，每完成同樣多的有用計(jì)算就要消耗更多的總能量。漏電流大約每升溫10攝氏度就翻一倍，這是基本的半導(dǎo)體物理規(guī)律。Φ的值在芯片溫度較低時(shí)為1.0（完全高效），隨著溫度升高逐漸下降。當(dāng)芯片處于65%的額定最高溫度時(shí)，Φ還是1.0；到達(dá)80%時(shí)Φ降到0.714，意味著每完成一單位有效工作需要消耗40%的額外能量；到達(dá)最高結(jié)溫時(shí)Φ跌到0.159，額外能量開銷高達(dá)529%。這個(gè)公式并非人為調(diào)出來(lái)的，它的每個(gè)系數(shù)都直接追溯到半導(dǎo)體物理中的指數(shù)漏電方程和熱電壓公式。

把這三把尺子整合成一個(gè)統(tǒng)一的能耗方程，就得到了QEIL v2評(píng)估每一個(gè)"把哪層模型放到哪臺(tái)設(shè)備上"方案的核心工具。方程的形式是：把設(shè)備的額定熱設(shè)計(jì)功耗乘以一個(gè)隨計(jì)算利用率（DASI）線性變化的系數(shù)，再除以熱效率（Φ），再乘以內(nèi)存壓力懲罰（CPQ）。這個(gè)方程里的每一項(xiàng)都有具體的物理含義，沒(méi)有任何憑空捏造的參數(shù)。研究團(tuán)隊(duì)還專門做了敏感性測(cè)試：把每個(gè)參數(shù)在默認(rèn)值的±50%范圍內(nèi)變化，最終的IPW指標(biāo)變化幅度不超過(guò)2.1%。這說(shuō)明驅(qū)動(dòng)系統(tǒng)效果的是這些物理公式的結(jié)構(gòu)形態(tài)，而不是某幾個(gè)精確數(shù)字，系統(tǒng)的魯棒性很強(qiáng)。

**三、帕累托引導(dǎo)的模擬退火：讓AI調(diào)度員學(xué)會(huì)下圍棋而非下象棋**

有了精準(zhǔn)的能耗評(píng)估工具，下一步是怎樣把數(shù)百層模型分配給幾臺(tái)設(shè)備，讓總體效果最優(yōu)。這就是QEIL v2第二個(gè)核心創(chuàng)新登場(chǎng)的地方——一個(gè)叫做PGSAM的優(yōu)化算法，全名是"帶動(dòng)量的帕累托引導(dǎo)模擬退火"。

先解釋什么是"多目標(biāo)優(yōu)化"。如果你只想省電，答案很簡(jiǎn)單：全部扔給功耗最低的設(shè)備。但你同時(shí)還想快（延遲低），還想不讓某臺(tái)設(shè)備閑置太多（避免浪費(fèi)）。這三個(gè)目標(biāo)有時(shí)會(huì)相互矛盾。貪心算法的問(wèn)題在于，它每次只盯著當(dāng)前這一步的最優(yōu)解，就像下象棋只看一步棋，結(jié)果常常走進(jìn)死局。真正高明的下法更像圍棋，每一步都要考慮全局布局。

PGSAM的核心概念是"帕累托支配"。如果方案A在能耗、延遲、設(shè)備利用率這三個(gè)維度上，至少有一個(gè)比方案B好，其余不差，那么A"帕累托支配"B，意味著沒(méi)有理由選B而不選A。通過(guò)不斷迭代，算法會(huì)積累出一個(gè)"帕累托檔案"——一組互不支配的方案，每個(gè)方案都在不同維度上有各自的優(yōu)勢(shì)，構(gòu)成一條"權(quán)衡曲線"。這條曲線就是數(shù)學(xué)意義上的最優(yōu)解集合前沿。

模擬退火是一種來(lái)自冶金學(xué)的優(yōu)化思路：鋼鐵在高溫下原子可以自由流動(dòng)找到低能態(tài)，而在低溫下就固化成型。算法在"溫度"高的早期階段，允許接受一些看起來(lái)變差的方案（以便跳出局部最優(yōu)），隨著"溫度"逐漸降低，接受劣解的概率也降低，最終收斂到好的解。

PGSAM在這個(gè)基礎(chǔ)上加入了"動(dòng)量"機(jī)制，靈感來(lái)自梯度下降優(yōu)化器中的動(dòng)量概念。當(dāng)算法連續(xù)找到更好的方案時(shí)，動(dòng)量變量v就積累起來(lái)，使有效溫度升高，讓算法能更大膽地探索能量山脊另一側(cè)的新區(qū)域——因?yàn)橐呀?jīng)在穩(wěn)定前進(jìn)，值得冒險(xiǎn)跨越一個(gè)暫時(shí)更差的狀態(tài)去尋找更好的彼岸。當(dāng)進(jìn)展停滯時(shí)，動(dòng)量歸零，算法變得保守。這種設(shè)計(jì)讓優(yōu)化器在路途順暢時(shí)勇敢探索，在迷失時(shí)謹(jǐn)慎收斂。

實(shí)際操作中，算法把模型層的分配方式表示為幾個(gè)"分界點(diǎn)"——比如前12層給設(shè)備A，13到24層給設(shè)備B，剩余給設(shè)備C。這樣的連續(xù)分配方式自動(dòng)避免了層與層之間在不同設(shè)備上來(lái)回跳的情況，從而減少了數(shù)據(jù)在設(shè)備間傳輸?shù)拈_銷。算法定義了三種鄰域變換：小幅移動(dòng)一個(gè)分界點(diǎn)（精細(xì)調(diào)整）、移動(dòng)兩層（中等擾動(dòng)）和重置到中間點(diǎn)（大跳躍逃出深谷）。經(jīng)過(guò)500次迭代后，算法從帕累托檔案中用加權(quán)切比雪夫公式選出最終方案，默認(rèn)權(quán)重是能耗50%、延遲30%、設(shè)備利用率20%，用戶也可以根據(jù)自己的需求調(diào)整這個(gè)比例。

對(duì)比實(shí)驗(yàn)顯示：PGSAM比簡(jiǎn)單貪心算法準(zhǔn)確率高5.2個(gè)百分點(diǎn)、能耗低7.2%；與同樣使用多目標(biāo)遺傳算法的NSGA-II相比，解的質(zhì)量相當(dāng)，但運(yùn)行速度快3倍，完成一次優(yōu)化只需42毫秒——這對(duì)于需要在設(shè)備過(guò)熱時(shí)快速重新調(diào)度的邊緣系統(tǒng)來(lái)說(shuō)非常關(guān)鍵。

**四、三段式"答案質(zhì)檢流水線"：讓重復(fù)抽樣真正物有所值**

QEIL v2的第三個(gè)主要?jiǎng)?chuàng)新是推理時(shí)的候選答案選取機(jī)制，叫做EAC/ARDE級(jí)聯(lián)，配合CSVET早停策略。

這里先解釋一個(gè)背景概念：重復(fù)采樣。大語(yǔ)言模型生成答案時(shí)有一定隨機(jī)性，就像同一個(gè)問(wèn)題問(wèn)十次，可能得到十種表達(dá)不同但意思相近（或部分正確）的答案。如果能從這十個(gè)答案里挑出最好的那個(gè)，整體準(zhǔn)確率就會(huì)比只生成一次高很多。研究表明，隨著采樣次數(shù)增加，"至少有一個(gè)正確答案"的概率按照對(duì)數(shù)線性規(guī)律上升，樣本量翻倍大約能帶來(lái)固定比例的準(zhǔn)確率提升。QEIL v2在這個(gè)基礎(chǔ)上加了精挑細(xì)選的機(jī)制，讓每一次額外采樣的邊際收益最大化。

候選答案首先經(jīng)過(guò)結(jié)構(gòu)預(yù)篩選：長(zhǎng)度要超過(guò)20個(gè)字符，空格要超過(guò)3個(gè)，字母數(shù)字占比要超過(guò)50%。這一步排除掉明顯的廢答案（空白、亂碼、無(wú)限重復(fù)的詞）。通過(guò)預(yù)篩選后，答案進(jìn)入三階段漸進(jìn)式驗(yàn)證級(jí)聯(lián)。

第一階段叫熵過(guò)濾。這里的"熵"來(lái)自信息論，衡量的是模型生成每個(gè)詞時(shí)有多不確定。熵低說(shuō)明模型非常確信自己在說(shuō)什么，像一個(gè)胸有成竹的專家；熵高說(shuō)明模型在亂猜，像一個(gè)隨便蒙答案的學(xué)生。系統(tǒng)保留熵值最低的70%候選者，淘汰那些模型自己都不確信的答案。70%這個(gè)閾值不是隨意定的，而是通過(guò)分析500個(gè)提示詞的候選池，找到保留與淘汰兩組之間熵差最大的切分點(diǎn)來(lái)確定的。

第二階段叫自我驗(yàn)證。系統(tǒng)讓模型再過(guò)一遍每個(gè)候選答案，計(jì)算模型"讀自己寫的內(nèi)容時(shí)"的平均下一詞預(yù)測(cè)概率。這個(gè)數(shù)值高，說(shuō)明模型覺(jué)得這段話是連貫自洽的；數(shù)值低，說(shuō)明這段話在模型看來(lái)有些奇怪。保留這一指標(biāo)最高的60%。這個(gè)機(jī)制不需要外部評(píng)判者，只靠模型自身作為質(zhì)量裁判。

第三階段叫跨樣本共識(shí)。把通過(guò)前兩關(guān)的候選答案兩兩比較詞匯重疊度（用Jaccard相似度衡量），一個(gè)答案與其他高質(zhì)量答案越像，說(shuō)明它代表的是"多數(shù)觀點(diǎn)"而非偶然異常值，給予更高評(píng)分。最終，ARDE（準(zhǔn)確率排名決策引擎）在高置信度的候選答案中，優(yōu)先按質(zhì)量排名，次按置信度，最后才考慮能耗作為平局決勝條件。這樣的設(shè)計(jì)把基礎(chǔ)設(shè)施的優(yōu)化和輸出質(zhì)量的選取解耦開來(lái)——一個(gè)生成時(shí)消耗了更多計(jì)算的答案，不會(huì)因?yàn)?貴"而被降低優(yōu)先級(jí)。

CSVET早停機(jī)制則是整個(gè)流程的節(jié)能閥門。每次生成最少若干個(gè)候選（至少6個(gè)或總樣本量的35%）之后，系統(tǒng)開始檢查：當(dāng)前最好的候選答案置信度是否已經(jīng)超過(guò)了一個(gè)自適應(yīng)閾值？這個(gè)閾值會(huì)隨著已消耗的能量預(yù)算比例而微調(diào)——能量用得越多，閾值稍微放寬，避免在邊際收益極低的情況下繼續(xù)采樣。在實(shí)驗(yàn)中，CSVET平均只生成了25個(gè)計(jì)劃樣本中的10到15個(gè)就停止了，為簡(jiǎn)單問(wèn)題節(jié)省了40%到60%的能量，同時(shí)對(duì)難問(wèn)題保持完整的采樣深度。

**五、安全是效率的盟友，而非對(duì)手**

QEIL v2的另一個(gè)值得關(guān)注的設(shè)計(jì)哲學(xué)是：安全保障和效率優(yōu)化不是相互對(duì)立的，而是同一枚硬幣的兩面。這體現(xiàn)在熱保護(hù)機(jī)制的設(shè)計(jì)上。

v1的熱保護(hù)是一個(gè)硬閾值：溫度超過(guò)85%的額定最高溫，觸發(fā)警報(bào)，強(qiáng)制限頻。這就像一輛汽車只有在發(fā)動(dòng)機(jī)快爆炸時(shí)才亮紅燈，而在那之前完全沒(méi)有預(yù)警。v2把熱效率指標(biāo)Φ直接嵌入能耗方程，形成了一個(gè)連續(xù)的溫度敏感信號(hào)：芯片越熱，PGSAM在計(jì)算各種分配方案的能耗時(shí)就越傾向于避開這臺(tái)設(shè)備，自然而然地把負(fù)載引導(dǎo)到更涼快的設(shè)備上，而不是等到臨界點(diǎn)才緊急處理。

實(shí)驗(yàn)數(shù)據(jù)佐證了這一設(shè)計(jì)的價(jià)值。在30分鐘持續(xù)推理測(cè)試中，沒(méi)有Φ保護(hù)時(shí)，英偉達(dá)GPU溫度爬到89攝氏度，超過(guò)85攝氏度的節(jié)流閾值，觸發(fā)47次降頻事件，平均每次推理延遲從正常水平飆升，標(biāo)準(zhǔn)差高達(dá)0.84毫秒——意味著響應(yīng)時(shí)間極不穩(wěn)定。啟用Φ之后，GPU峰值溫度保持在68攝氏度，零節(jié)流事件，平均延遲降低同時(shí)標(biāo)準(zhǔn)差只有0.06毫秒，總吞吐量反而提升了14.9%。一個(gè)"安全保護(hù)"機(jī)制，反而讓系統(tǒng)跑得更快、更穩(wěn)——這正是因?yàn)楣?jié)流事件本身就是一種劇烈的性能擾動(dòng)，提前預(yù)防比事后救火代價(jià)小得多。

故障容錯(cuò)方面，實(shí)驗(yàn)?zāi)M了四種設(shè)備失效場(chǎng)景：NPU單獨(dú)失效、GPU單獨(dú)失效、兩塊GPU都失效、NPU加一塊GPU同時(shí)失效。所有場(chǎng)景下，系統(tǒng)都在200毫秒內(nèi)完成重新調(diào)度，零查詢丟失?；謴?fù)時(shí)間隨故障嚴(yán)重程度可預(yù)測(cè)地增加：NPU失效78毫秒，單GPU失效124毫秒，最嚴(yán)重的同時(shí)失效也只需156毫秒。吞吐量因設(shè)備減少而下降，但沒(méi)有任何請(qǐng)求中斷。

**六、跨七個(gè)模型、三個(gè)基準(zhǔn)的全面驗(yàn)證**

研究團(tuán)隊(duì)在一臺(tái)配置了英特爾酷睿Ultra 9 285HX處理器（含英特爾AI Boost NPU和英特爾集成顯卡）與英偉達(dá)RTX PRO 5000 Blackwell獨(dú)立顯卡的異構(gòu)邊緣平臺(tái)上，測(cè)試了七個(gè)不同規(guī)模的語(yǔ)言模型，橫跨三個(gè)標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集。

在WikiText-103（文本續(xù)寫任務(wù)）上，七個(gè)模型在v2下的IPW均達(dá)到0.891以上，而標(biāo)準(zhǔn)推理的IPW普遍低于0.45。小模型GPT-2（1.25億參數(shù)）在v2下的準(zhǔn)確率從59.8%提升到75.7%，功耗從181.5瓦降至63.8瓦，IPW達(dá)到0.975。Granite-350M的功耗降幅最大，從460.4瓦降至71.8瓦，因?yàn)樗臉?biāo)準(zhǔn)配置需要把整個(gè)模型塞進(jìn)高功耗GPU，而DASI分析正確識(shí)別出這對(duì)內(nèi)存密集的生成階段來(lái)說(shuō)極度浪費(fèi)。

在GSM8K（小學(xué)數(shù)學(xué)推理題）上，這個(gè)基準(zhǔn)對(duì)能效系統(tǒng)更具挑戰(zhàn)性，因?yàn)檎_答案需要多步驟推理，生成的詞數(shù)是文本續(xù)寫的3到5倍，能耗放大效應(yīng)更顯著。v2在七個(gè)模型上平均比標(biāo)準(zhǔn)推理高出12.2個(gè)百分點(diǎn)的準(zhǔn)確率，平均節(jié)能51.7%。LFM2-2.6B和Llama-3.1-8B這兩個(gè)大模型在v2下分別達(dá)到了71.6%和67.2%的準(zhǔn)確率——這意味著QEIL v2可以讓原本因功耗限制只能在邊緣設(shè)備上運(yùn)行小模型的用戶，實(shí)際上用上了更大、更強(qiáng)的模型。

在ARC-Challenge（高中科學(xué)多項(xiàng)選擇題）上，輸出序列很短，v2的節(jié)能效果沒(méi)有因此減弱——平均節(jié)能52.8%，甚至略高于WikiText的52.2%。這證明DASI引導(dǎo)的路由不是只在長(zhǎng)序列生成時(shí)才有效，而是一個(gè)對(duì)任務(wù)類型普遍有效的基礎(chǔ)性優(yōu)化。

最引人注目的是第七個(gè)模型：Llama3-8B-RAMP-4bit。這是一個(gè)由外部工具（RAMP框架）對(duì)Llama-3.1-8B進(jìn)行4位量化壓縮得到的模型，每個(gè)參數(shù)平均只占3.65位，比標(biāo)準(zhǔn)16位浮點(diǎn)數(shù)小了4倍多。研究團(tuán)隊(duì)明確說(shuō)明，RAMP量化不是他們的工作，這個(gè)模型被當(dāng)成一個(gè)"現(xiàn)成的外部模型"來(lái)測(cè)試QEIL v2是否能適應(yīng)不同的模型特性。結(jié)果是：由于每個(gè)參數(shù)占用字節(jié)數(shù)減少，生成階段的算術(shù)強(qiáng)度相對(duì)提高，DASI值上升，PGSAM能夠找到功耗更低的分配方案，最終在WikiText-103上實(shí)現(xiàn)IPW=1.024、功耗54.8瓦——這是邊緣推理系統(tǒng)首次在報(bào)告的基準(zhǔn)上突破IPW=1.0這一行業(yè)參考基準(zhǔn)線。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)，IPW=1.0并非理論上界，它只是一個(gè)"此前所有邊緣系統(tǒng)都沒(méi)能達(dá)到的經(jīng)驗(yàn)基準(zhǔn)點(diǎn)"，具體含義是每消耗一瓦特電力產(chǎn)生1%的基準(zhǔn)準(zhǔn)確率。從數(shù)學(xué)上講，IPW是無(wú)上界的，只要準(zhǔn)確率足夠高或功耗足夠低都可以無(wú)限接近100。團(tuán)隊(duì)選擇用它作為對(duì)比標(biāo)桿，是因?yàn)樗庇^、可復(fù)現(xiàn)，而且提供了跨硬件代際的可比參照。

三個(gè)基準(zhǔn)上的能耗降幅標(biāo)準(zhǔn)差只有0.55%，準(zhǔn)確率改善的標(biāo)準(zhǔn)差只有0.45個(gè)百分點(diǎn)——這種高度一致性說(shuō)明QEIL v2的物理能耗模型捕捉到的是硬件的基本行為規(guī)律，而不是某個(gè)特定任務(wù)或數(shù)據(jù)集的偶發(fā)特性。

**七、消融實(shí)驗(yàn)：每個(gè)設(shè)計(jì)決策都經(jīng)得起推敲**

研究團(tuán)隊(duì)進(jìn)行了大量消融實(shí)驗(yàn)，對(duì)每一個(gè)設(shè)計(jì)選擇都做了拆解驗(yàn)證，這是本文在方法論嚴(yán)謹(jǐn)性上的重要體現(xiàn)。

在組件貢獻(xiàn)分析中，從純GPU基線（59.8%準(zhǔn)確率，181.5瓦）開始，每次只加一個(gè)新特性。加入DASI能耗模型后，功耗從181.5瓦驟降到112.3瓦，這是單項(xiàng)貢獻(xiàn)中最大的能耗削減，降幅達(dá)38.1%。再加CPQ內(nèi)存壓力后降到104.8瓦，加Φ熱效率后降到98.2瓦。這三個(gè)物理模型合力把功耗從GPU基線壓低了約46%，但準(zhǔn)確率只從59.8%小幅提升到64.0%——說(shuō)明這部分增益主要來(lái)自路由改善，而非答案質(zhì)量提升。加入PGSAM替代貪心算法后，功耗進(jìn)一步大跳至72.1瓦，而準(zhǔn)確率也同步提升到66.8%——這兩個(gè)方向的同步改善說(shuō)明多目標(biāo)優(yōu)化確實(shí)找到了帕累托前沿上的更好點(diǎn)。之后加輔助層低功耗路由、EAC/ARDE級(jí)聯(lián)和CSVET早停，功耗繼續(xù)小幅下降，準(zhǔn)確率大幅提升到75.7%。

在PGSAM動(dòng)量系數(shù)的消融中，μ=0（無(wú)動(dòng)量，退化為標(biāo)準(zhǔn)模擬退火）時(shí)，帕累托檔案只有182個(gè)解，IPW為0.938；μ=0.3時(shí)檔案最大（218個(gè)解），IPW最高（0.975）；μ增大到0.5以上時(shí)檔案開始收縮，IPW下降——過(guò)大的動(dòng)量導(dǎo)致過(guò)度探索，接受了太多劣解。這驗(yàn)證了0.3作為默認(rèn)值的合理性。

在EAC/ARDE閾值敏感性測(cè)試中，把三個(gè)關(guān)鍵過(guò)濾比例（熵過(guò)濾70%、自驗(yàn)證60%、置信度邊界1.2奈特）在±10到20%范圍內(nèi)上下調(diào)整，IPW的變化幅度不超過(guò)2.6%。這說(shuō)明級(jí)聯(lián)架構(gòu)本身而非某幾個(gè)精確閾值是質(zhì)量提升的來(lái)源，系統(tǒng)有很好的穩(wěn)健性。

關(guān)于覆蓋率隨采樣數(shù)的變化，在采樣數(shù)少于10個(gè)時(shí)，v2的準(zhǔn)確率就已經(jīng)超過(guò)了v1在使用全部樣本時(shí)的準(zhǔn)確率（70.5%）。到采樣數(shù)20個(gè)時(shí)，v2達(dá)到75.7%。這條更陡的曲線反映了EAC/ARDE級(jí)聯(lián)的作用：每一個(gè)新樣本帶來(lái)的邊際準(zhǔn)確率提升，在有質(zhì)量篩選機(jī)制時(shí)明顯高于無(wú)篩選時(shí)。

在與其他優(yōu)化器的對(duì)比中，PGSAM（42毫秒，IPW=0.975）優(yōu)于隨機(jī)搜索（42毫秒，IPW=0.851）、加權(quán)和模擬退火（45毫秒，IPW=0.892）和NSGA-II（128毫秒，IPW=0.921）。NSGA-II的解質(zhì)量接近PGSAM但慢了3倍，在需要快速響應(yīng)熱事件重新調(diào)度的邊緣場(chǎng)景里是不可接受的。

**八、實(shí)驗(yàn)平臺(tái)的真實(shí)硬件截圖：理論與現(xiàn)實(shí)的吻合**

論文中有一處細(xì)節(jié)特別有說(shuō)服力——一張?jiān)趯?shí)際運(yùn)行QEIL v2時(shí)截取的Windows任務(wù)管理器截圖。截圖顯示：CPU使用率7%（負(fù)責(zé)協(xié)調(diào)調(diào)度），英特爾AI Boost NPU使用率41%（承擔(dān)內(nèi)存密集的生成任務(wù)），英特爾集成顯卡使用率97%（處理計(jì)算密集的預(yù)填充），英偉達(dá)RTX PRO 5000使用率僅7%，溫度62攝氏度（遠(yuǎn)低于85攝氏度的節(jié)流閾值）。內(nèi)存占用30/128GB，使用率23%，遠(yuǎn)低于CPQ警戒線。

這張截圖讓所有的公式和指標(biāo)從抽象變得具體。高性能顯卡只負(fù)責(zé)"溢出"處理，保持低溫待命；集成顯卡和NPU各司其職；CPU只做輕量級(jí)的調(diào)度工作。DASI模型的預(yù)測(cè)與實(shí)際運(yùn)行狀態(tài)完全吻合：計(jì)算密集的預(yù)填充分給了計(jì)算能力強(qiáng)的設(shè)備，內(nèi)存密集的生成分給了能效更高的低功耗設(shè)備。

說(shuō)到底，QEIL v2這項(xiàng)研究揭示的核心洞見其實(shí)非常直覺(jué)：不是每塊芯片都適合每種任務(wù)，就像不是每個(gè)工人都適合每道工序。長(zhǎng)期以來(lái)，邊緣AI部署的通用做法是把能用的性能最強(qiáng)的硬件全力驅(qū)動(dòng)，但這對(duì)于大量?jī)?nèi)存密集型操作來(lái)說(shuō)是一種巨大的浪費(fèi)——高性能芯片的大部分計(jì)算單元就那么坐著等數(shù)據(jù)。QEIL v2通過(guò)三個(gè)來(lái)自物理第一性原理的實(shí)時(shí)指標(biāo)，精準(zhǔn)地感知每一個(gè)計(jì)算任務(wù)的真實(shí)特性，再用多目標(biāo)帕累托優(yōu)化找到在節(jié)能、速度和均衡利用三者之間的最優(yōu)權(quán)衡，最后用信息論驅(qū)動(dòng)的候選篩選把重復(fù)采樣的紅利最大化。

這對(duì)普通人的潛在影響并不遙遠(yuǎn)。隨著越來(lái)越多的AI應(yīng)用走向邊緣設(shè)備——包括手機(jī)上的語(yǔ)音助手、工廠里的質(zhì)檢攝像頭、醫(yī)療設(shè)備里的輔助診斷系統(tǒng)——如何在有限的電力和散熱條件下榨出最多的智能輸出，將直接決定這些應(yīng)用的實(shí)用性。一個(gè)能把功耗壓低64%同時(shí)準(zhǔn)確率還能提升的框架，意味著同樣一塊電池可以支撐更長(zhǎng)的工作時(shí)間，同樣一個(gè)不帶風(fēng)扇的封閉外殼不會(huì)因?yàn)檫^(guò)熱而頻繁死機(jī)。

當(dāng)然，這項(xiàng)研究目前只在一臺(tái)特定的異構(gòu)平臺(tái)上驗(yàn)證過(guò)，論文作者也在展望未來(lái)工作時(shí)提到需要在高通驍龍NPU、英偉達(dá)Jetson Orin等其他平臺(tái)上進(jìn)行驗(yàn)證，以確認(rèn)框架的跨平臺(tái)普適性。此外，如何把這套優(yōu)化器從離線編譯時(shí)運(yùn)行擴(kuò)展到實(shí)時(shí)動(dòng)態(tài)重調(diào)度，如何與量化感知訓(xùn)練和結(jié)構(gòu)化剪枝更深度地結(jié)合，如何推廣到非Transformer架構(gòu)的擴(kuò)散模型或圖神經(jīng)網(wǎng)絡(luò)，都是后續(xù)值得探索的方向。有興趣深入了解的讀者可以通過(guò)arXiv編號(hào)2602.06057v3查閱完整論文。

Q&A

Q1：QEIL v2中的"每瓦特智能量"（IPW）是怎么計(jì)算的，它為什么重要？

A：IPW的計(jì)算方法是把模型在基準(zhǔn)測(cè)試上的通過(guò)率（pass@k，百分比數(shù)值）除以平均功耗（瓦特）。例如，75.7%的準(zhǔn)確率除以63.8瓦得到IPW=0.975。這個(gè)指標(biāo)的意義在于它同時(shí)衡量了"做得多好"和"花了多少電"，避免了單純比準(zhǔn)確率時(shí)忽視能耗，或單純比省電時(shí)忽視質(zhì)量的片面性。IPW=1.0被作為行業(yè)經(jīng)驗(yàn)參考基準(zhǔn)線，因?yàn)榇饲皼](méi)有邊緣推理系統(tǒng)在報(bào)告的基準(zhǔn)上達(dá)到過(guò)這個(gè)值，QEIL v2在量化模型上首次突破了這個(gè)基準(zhǔn)。

Q2：DASI指標(biāo)和普通的GPU利用率顯示有什么區(qū)別？

A：操作系統(tǒng)顯示的GPU利用率只告訴你GPU在某個(gè)時(shí)間段內(nèi)"有沒(méi)有在工作"，但不告訴你它工作得有沒(méi)有意義。DASI通過(guò)計(jì)算某個(gè)具體任務(wù)的算術(shù)強(qiáng)度（運(yùn)算量除以數(shù)據(jù)量）與設(shè)備瓶頸點(diǎn)之比，直接反映計(jì)算單元中有多少比例在做實(shí)際有用的運(yùn)算。大語(yǔ)言模型在逐詞生成階段的算術(shù)強(qiáng)度約為每字節(jié)1次運(yùn)算，而高端GPU的瓶頸點(diǎn)是218，所以DASI只有0.005——任務(wù)管理器可能顯示GPU"在工作"，但QEIL v2的物理模型知道99.5%的算力在空轉(zhuǎn)，應(yīng)該把這類任務(wù)轉(zhuǎn)移到瓶頸點(diǎn)更低的NPU或CPU上。

Q3：QEIL v2的PGSAM優(yōu)化需要多長(zhǎng)時(shí)間完成，會(huì)影響推理速度嗎？

A：PGSAM的完整500次迭代在任意一臺(tái)CPU上平均只需要42毫秒，整個(gè)過(guò)程不需要運(yùn)行模型本身，只是在做數(shù)學(xué)計(jì)算。這個(gè)時(shí)間在模型整體編譯和加載時(shí)間面前可以忽略不計(jì)，屬于一次性的部署前優(yōu)化開銷。在邊緣設(shè)備遭遇過(guò)熱需要緊急重新調(diào)度時(shí)，42毫秒也足夠快，不會(huì)造成推理中斷。相比之下，性能相近的NSGA-II算法需要128毫秒，在對(duì)響應(yīng)速度敏感的場(chǎng)景里差距明顯。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.