国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

邊緣計(jì)算時(shí)代的智能省電革命(來(lái)自某研究團(tuán)隊(duì)的QEIL v2突破)

0
分享至


這項(xiàng)由匿名研究團(tuán)隊(duì)完成的論文發(fā)表于2026年4月,以arXiv預(yù)印本形式公開,編號(hào)為arXiv:2602.06057v3,屬于分布式計(jì)算領(lǐng)域(cs.DC)。有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整論文。

**每一瓦特都在燃燒金錢與時(shí)間**

手機(jī)、筆記本電腦、智能音箱——這些裝在我們口袋里或擺在桌上的設(shè)備,正在被越來(lái)越多的人要求"本地運(yùn)行AI"。所謂本地運(yùn)行,就是不依賴遠(yuǎn)在數(shù)據(jù)中心的服務(wù)器,直接在你手邊的硬件上跑出答案。這聽起來(lái)很棒:隱私更好、延遲更低、斷網(wǎng)也能用。但現(xiàn)實(shí)很骨感——這些設(shè)備的電池容量有限,散熱條件糟糕,處理器性能也遠(yuǎn)不如機(jī)房里那些耗電幾百瓦的巨型顯卡。

現(xiàn)在把時(shí)鐘撥快一點(diǎn),AI模型的體積正在急劇膨脹。幾年前的聊天機(jī)器人可能只有幾億個(gè)參數(shù),而今天的主流大語(yǔ)言模型動(dòng)輒幾十億、幾百億參數(shù)。要把這樣的龐然大物塞進(jìn)一臺(tái)邊緣設(shè)備,同時(shí)還要保證它回答得又快又準(zhǔn)、耗電又少,這件事的難度,大概相當(dāng)于讓一輛重型卡車在山地賽道上既跑得過(guò)跑車,又不燒油。

這篇論文就在嘗試解決這個(gè)問(wèn)題。研究團(tuán)隊(duì)提出了一個(gè)名為QEIL v2(可以理解為"邊緣智能量化框架第二版")的系統(tǒng),核心思路是:與其盲目地把所有計(jì)算任務(wù)都堆給性能最強(qiáng)的那塊芯片,不如根據(jù)每個(gè)任務(wù)的實(shí)際特性,精準(zhǔn)地把它分配給最適合它的硬件單元,從而在保證質(zhì)量的前提下大幅降低能耗。

這個(gè)框架的實(shí)驗(yàn)結(jié)果相當(dāng)驚人:在標(biāo)準(zhǔn)測(cè)試中,系統(tǒng)功耗從181.5瓦降到了63.8瓦,降幅超過(guò)64%;同時(shí)答題準(zhǔn)確率從59.8%提升到75.7%;一個(gè)叫做"每瓦特智能量"的綜合指標(biāo)(簡(jiǎn)稱IPW,即用準(zhǔn)確率除以功耗,反映每消耗一瓦特能獲得多少智能輸出)提升了2.86倍。更值得一提的是,當(dāng)系統(tǒng)被應(yīng)用于一個(gè)經(jīng)過(guò)壓縮的更大模型時(shí),IPW首次突破了1.0這個(gè)行業(yè)參考基準(zhǔn)線——這是邊緣推理領(lǐng)域此前從未達(dá)到過(guò)的里程碑。

**一、從"一視同仁"到"因材施教":舊系統(tǒng)的三個(gè)致命缺陷**

要理解QEIL v2為什么能做到這些,先要弄清楚它的前身QEIL v1哪里出了問(wèn)題。研究團(tuán)隊(duì)在論文中坦誠(chéng)地剖析了v1的三個(gè)根本性缺陷,這種自我批評(píng)的誠(chéng)意本身就值得關(guān)注。

QEIL v1的第一個(gè)問(wèn)題,用一個(gè)廚房比喻來(lái)說(shuō),就像是一個(gè)餐廳的調(diào)度員,把所有的菜肴不分難易地分配給廚師時(shí),只記住了每個(gè)廚師的"總體效率系數(shù)"——A廚師打0.5分,B廚師打0.7分——卻完全不考慮"這道菜適不適合這個(gè)廚師做"。具體到AI計(jì)算,v1對(duì)每種硬件只有一個(gè)固定的效率數(shù)字:NPU(神經(jīng)網(wǎng)絡(luò)處理單元)是0.3,英偉達(dá)GPU是0.5,英特爾集成顯卡是0.7,CPU是1.0。這個(gè)數(shù)字完全不隨任務(wù)類型變化。但實(shí)際上,同樣一塊GPU,在處理"預(yù)填充"階段(類似于廚師一次性備好所有食材)時(shí)效率極高,而在處理"逐字生成"階段(類似于廚師一個(gè)一個(gè)地?cái)[盤)時(shí),99.5%的計(jì)算單元其實(shí)是閑置的、白白耗電的。這種忽視任務(wù)特性的靜態(tài)評(píng)分,會(huì)導(dǎo)致能耗估算誤差高達(dá)15%到40%。

第二個(gè)問(wèn)題是優(yōu)化策略的短視。v1使用的是一種"貪心算法"——每次都把當(dāng)前這層任務(wù)分配給當(dāng)下看起來(lái)成本最低的設(shè)備。這就好比一個(gè)登山者每一步都只選擇腳下最平坦的那條路,結(jié)果走進(jìn)了一條最終無(wú)路可走的山谷。在多臺(tái)設(shè)備協(xié)同工作的系統(tǒng)里,早期的分配決策會(huì)限制后續(xù)的選擇空間,把整個(gè)系統(tǒng)鎖死在一個(gè)局部最優(yōu)解里。更麻煩的是,當(dāng)不同設(shè)備之間存在不連續(xù)的性能跳變時(shí),那種把多個(gè)目標(biāo)(節(jié)能和低延遲)硬壓縮成一個(gè)加權(quán)分?jǐn)?shù)的做法,在數(shù)學(xué)上被證明是找不到最優(yōu)解的。

第三個(gè)問(wèn)題是"候選答案選不好"。v1會(huì)讓模型反復(fù)生成多個(gè)答案,然后用很粗糙的標(biāo)準(zhǔn)來(lái)挑——比如看哪個(gè)答案最長(zhǎng),或者哪個(gè)答案里字母和數(shù)字占比最高。這就像在一堆應(yīng)聘簡(jiǎn)歷里,專門挑字?jǐn)?shù)最多的,而不是看內(nèi)容質(zhì)量。大量潛在的高質(zhì)量答案就這樣被扔掉了。

**二、三把"物理學(xué)尺子":用半導(dǎo)體原理給每塊芯片量體裁衣**

QEIL v2的第一個(gè)核心創(chuàng)新是用三個(gè)來(lái)自物理學(xué)和工程學(xué)基本原理的指標(biāo),徹底替換掉那些靜態(tài)的效率系數(shù)。這三把尺子,每一把都有實(shí)實(shí)在在的物理依據(jù),沒(méi)有任何憑感覺(jué)拍出來(lái)的魔法數(shù)字。

第一把尺子叫DASI,全名是"動(dòng)態(tài)算術(shù)飽和度指數(shù)",它回答的問(wèn)題是:對(duì)于某個(gè)具體任務(wù),這塊芯片的計(jì)算單元有多少比例真正在干活?理解這個(gè)概念需要先明白一個(gè)叫"屋頂線模型"的基本框架。任何計(jì)算任務(wù)都有兩個(gè)關(guān)鍵數(shù)字:它需要做多少次數(shù)學(xué)運(yùn)算(計(jì)算量),以及它需要從內(nèi)存里讀取多少數(shù)據(jù)(數(shù)據(jù)量)。兩者之比叫做"算術(shù)強(qiáng)度"。每塊芯片也有兩個(gè)上限:最快能做多少計(jì)算,以及最快能搬多少數(shù)據(jù)。當(dāng)一個(gè)任務(wù)的算術(shù)強(qiáng)度很高(每搬一字節(jié)數(shù)據(jù)就要做很多運(yùn)算),芯片的計(jì)算能力是瓶頸,芯片處于"計(jì)算受限"狀態(tài),效率很高。當(dāng)算術(shù)強(qiáng)度很低(搬了很多數(shù)據(jù)但運(yùn)算很少),數(shù)據(jù)搬運(yùn)是瓶頸,大量計(jì)算單元就只能干坐著等數(shù)據(jù),白白消耗電力。

把這個(gè)道理應(yīng)用到大語(yǔ)言模型,結(jié)論非常震撼。在"預(yù)填充"階段(模型一次性處理你輸入的全部提示詞),算術(shù)強(qiáng)度大約是每字節(jié)1024次運(yùn)算——遠(yuǎn)高于任何芯片的瓶頸點(diǎn),GPU滿負(fù)荷運(yùn)轉(zhuǎn),DASI=1.0。但到了"逐字生成"階段(模型每次只生成下一個(gè)詞),算術(shù)強(qiáng)度驟降到每字節(jié)約1次運(yùn)算,而英偉達(dá)高端GPU的瓶頸點(diǎn)是218,這意味著GPU在生成階段的DASI值只有0.005——99.5%的算力在空轉(zhuǎn)。相比之下,CPU的瓶頸點(diǎn)只有8,它的DASI在生成階段是0.125,雖然CPU的絕對(duì)性能遠(yuǎn)不如GPU,但它浪費(fèi)的比例小得多,每瓦特的實(shí)際產(chǎn)出反而更高。這正是為什么把生成任務(wù)交給低功耗設(shè)備往往比堆在高性能GPU上更合算。

第二把尺子叫CPQ,即"容量壓力商",它衡量的是一臺(tái)設(shè)備的內(nèi)存被塞得多滿,以及內(nèi)存壓力如何推高能耗。從內(nèi)存分配理論出發(fā),當(dāng)設(shè)備內(nèi)存使用率超過(guò)70%時(shí),系統(tǒng)開始出現(xiàn)內(nèi)存碎片(就像行李箱里零散地塞滿了小物件,再也放不進(jìn)一個(gè)整齊的大箱子)、頻繁的垃圾回收(系統(tǒng)不斷整理內(nèi)存,消耗額外能量)和頁(yè)面置換(把內(nèi)存里的數(shù)據(jù)臨時(shí)挪到更慢的存儲(chǔ)里,然后再讀回來(lái))。這些現(xiàn)象會(huì)造成額外的能耗。研究團(tuán)隊(duì)用一個(gè)三次方程來(lái)描述這個(gè)懲罰:當(dāng)內(nèi)存使用率在70%以下時(shí)幾乎沒(méi)有額外開銷;超過(guò)70%之后懲罰開始快速累積;到達(dá)95%時(shí)大約增加9.4%的額外能耗;逼近滿載時(shí)懲罰更是急劇飆升。選用三次方程而非線性或二次方程,是因?yàn)槿畏侥茏顪?zhǔn)確地描述這種"前期平緩、后期陡增"的物理現(xiàn)象。

第三把尺子叫Φ,即"熱感知能量產(chǎn)出率",來(lái)自CMOS晶體管的漏電流物理學(xué)。芯片越熱,晶體管的漏電流越大,每完成同樣多的有用計(jì)算就要消耗更多的總能量。漏電流大約每升溫10攝氏度就翻一倍,這是基本的半導(dǎo)體物理規(guī)律。Φ的值在芯片溫度較低時(shí)為1.0(完全高效),隨著溫度升高逐漸下降。當(dāng)芯片處于65%的額定最高溫度時(shí),Φ還是1.0;到達(dá)80%時(shí)Φ降到0.714,意味著每完成一單位有效工作需要消耗40%的額外能量;到達(dá)最高結(jié)溫時(shí)Φ跌到0.159,額外能量開銷高達(dá)529%。這個(gè)公式并非人為調(diào)出來(lái)的,它的每個(gè)系數(shù)都直接追溯到半導(dǎo)體物理中的指數(shù)漏電方程和熱電壓公式。

把這三把尺子整合成一個(gè)統(tǒng)一的能耗方程,就得到了QEIL v2評(píng)估每一個(gè)"把哪層模型放到哪臺(tái)設(shè)備上"方案的核心工具。方程的形式是:把設(shè)備的額定熱設(shè)計(jì)功耗乘以一個(gè)隨計(jì)算利用率(DASI)線性變化的系數(shù),再除以熱效率(Φ),再乘以內(nèi)存壓力懲罰(CPQ)。這個(gè)方程里的每一項(xiàng)都有具體的物理含義,沒(méi)有任何憑空捏造的參數(shù)。研究團(tuán)隊(duì)還專門做了敏感性測(cè)試:把每個(gè)參數(shù)在默認(rèn)值的±50%范圍內(nèi)變化,最終的IPW指標(biāo)變化幅度不超過(guò)2.1%。這說(shuō)明驅(qū)動(dòng)系統(tǒng)效果的是這些物理公式的結(jié)構(gòu)形態(tài),而不是某幾個(gè)精確數(shù)字,系統(tǒng)的魯棒性很強(qiáng)。

**三、帕累托引導(dǎo)的模擬退火:讓AI調(diào)度員學(xué)會(huì)下圍棋而非下象棋**

有了精準(zhǔn)的能耗評(píng)估工具,下一步是怎樣把數(shù)百層模型分配給幾臺(tái)設(shè)備,讓總體效果最優(yōu)。這就是QEIL v2第二個(gè)核心創(chuàng)新登場(chǎng)的地方——一個(gè)叫做PGSAM的優(yōu)化算法,全名是"帶動(dòng)量的帕累托引導(dǎo)模擬退火"。

先解釋什么是"多目標(biāo)優(yōu)化"。如果你只想省電,答案很簡(jiǎn)單:全部扔給功耗最低的設(shè)備。但你同時(shí)還想快(延遲低),還想不讓某臺(tái)設(shè)備閑置太多(避免浪費(fèi))。這三個(gè)目標(biāo)有時(shí)會(huì)相互矛盾。貪心算法的問(wèn)題在于,它每次只盯著當(dāng)前這一步的最優(yōu)解,就像下象棋只看一步棋,結(jié)果常常走進(jìn)死局。真正高明的下法更像圍棋,每一步都要考慮全局布局。

PGSAM的核心概念是"帕累托支配"。如果方案A在能耗、延遲、設(shè)備利用率這三個(gè)維度上,至少有一個(gè)比方案B好,其余不差,那么A"帕累托支配"B,意味著沒(méi)有理由選B而不選A。通過(guò)不斷迭代,算法會(huì)積累出一個(gè)"帕累托檔案"——一組互不支配的方案,每個(gè)方案都在不同維度上有各自的優(yōu)勢(shì),構(gòu)成一條"權(quán)衡曲線"。這條曲線就是數(shù)學(xué)意義上的最優(yōu)解集合前沿。

模擬退火是一種來(lái)自冶金學(xué)的優(yōu)化思路:鋼鐵在高溫下原子可以自由流動(dòng)找到低能態(tài),而在低溫下就固化成型。算法在"溫度"高的早期階段,允許接受一些看起來(lái)變差的方案(以便跳出局部最優(yōu)),隨著"溫度"逐漸降低,接受劣解的概率也降低,最終收斂到好的解。

PGSAM在這個(gè)基礎(chǔ)上加入了"動(dòng)量"機(jī)制,靈感來(lái)自梯度下降優(yōu)化器中的動(dòng)量概念。當(dāng)算法連續(xù)找到更好的方案時(shí),動(dòng)量變量v就積累起來(lái),使有效溫度升高,讓算法能更大膽地探索能量山脊另一側(cè)的新區(qū)域——因?yàn)橐呀?jīng)在穩(wěn)定前進(jìn),值得冒險(xiǎn)跨越一個(gè)暫時(shí)更差的狀態(tài)去尋找更好的彼岸。當(dāng)進(jìn)展停滯時(shí),動(dòng)量歸零,算法變得保守。這種設(shè)計(jì)讓優(yōu)化器在路途順暢時(shí)勇敢探索,在迷失時(shí)謹(jǐn)慎收斂。

實(shí)際操作中,算法把模型層的分配方式表示為幾個(gè)"分界點(diǎn)"——比如前12層給設(shè)備A,13到24層給設(shè)備B,剩余給設(shè)備C。這樣的連續(xù)分配方式自動(dòng)避免了層與層之間在不同設(shè)備上來(lái)回跳的情況,從而減少了數(shù)據(jù)在設(shè)備間傳輸?shù)拈_銷。算法定義了三種鄰域變換:小幅移動(dòng)一個(gè)分界點(diǎn)(精細(xì)調(diào)整)、移動(dòng)兩層(中等擾動(dòng))和重置到中間點(diǎn)(大跳躍逃出深谷)。經(jīng)過(guò)500次迭代后,算法從帕累托檔案中用加權(quán)切比雪夫公式選出最終方案,默認(rèn)權(quán)重是能耗50%、延遲30%、設(shè)備利用率20%,用戶也可以根據(jù)自己的需求調(diào)整這個(gè)比例。

對(duì)比實(shí)驗(yàn)顯示:PGSAM比簡(jiǎn)單貪心算法準(zhǔn)確率高5.2個(gè)百分點(diǎn)、能耗低7.2%;與同樣使用多目標(biāo)遺傳算法的NSGA-II相比,解的質(zhì)量相當(dāng),但運(yùn)行速度快3倍,完成一次優(yōu)化只需42毫秒——這對(duì)于需要在設(shè)備過(guò)熱時(shí)快速重新調(diào)度的邊緣系統(tǒng)來(lái)說(shuō)非常關(guān)鍵。

**四、三段式"答案質(zhì)檢流水線":讓重復(fù)抽樣真正物有所值**

QEIL v2的第三個(gè)主要?jiǎng)?chuàng)新是推理時(shí)的候選答案選取機(jī)制,叫做EAC/ARDE級(jí)聯(lián),配合CSVET早停策略。

這里先解釋一個(gè)背景概念:重復(fù)采樣。大語(yǔ)言模型生成答案時(shí)有一定隨機(jī)性,就像同一個(gè)問(wèn)題問(wèn)十次,可能得到十種表達(dá)不同但意思相近(或部分正確)的答案。如果能從這十個(gè)答案里挑出最好的那個(gè),整體準(zhǔn)確率就會(huì)比只生成一次高很多。研究表明,隨著采樣次數(shù)增加,"至少有一個(gè)正確答案"的概率按照對(duì)數(shù)線性規(guī)律上升,樣本量翻倍大約能帶來(lái)固定比例的準(zhǔn)確率提升。QEIL v2在這個(gè)基礎(chǔ)上加了精挑細(xì)選的機(jī)制,讓每一次額外采樣的邊際收益最大化。

候選答案首先經(jīng)過(guò)結(jié)構(gòu)預(yù)篩選:長(zhǎng)度要超過(guò)20個(gè)字符,空格要超過(guò)3個(gè),字母數(shù)字占比要超過(guò)50%。這一步排除掉明顯的廢答案(空白、亂碼、無(wú)限重復(fù)的詞)。通過(guò)預(yù)篩選后,答案進(jìn)入三階段漸進(jìn)式驗(yàn)證級(jí)聯(lián)。

第一階段叫熵過(guò)濾。這里的"熵"來(lái)自信息論,衡量的是模型生成每個(gè)詞時(shí)有多不確定。熵低說(shuō)明模型非常確信自己在說(shuō)什么,像一個(gè)胸有成竹的專家;熵高說(shuō)明模型在亂猜,像一個(gè)隨便蒙答案的學(xué)生。系統(tǒng)保留熵值最低的70%候選者,淘汰那些模型自己都不確信的答案。70%這個(gè)閾值不是隨意定的,而是通過(guò)分析500個(gè)提示詞的候選池,找到保留與淘汰兩組之間熵差最大的切分點(diǎn)來(lái)確定的。

第二階段叫自我驗(yàn)證。系統(tǒng)讓模型再過(guò)一遍每個(gè)候選答案,計(jì)算模型"讀自己寫的內(nèi)容時(shí)"的平均下一詞預(yù)測(cè)概率。這個(gè)數(shù)值高,說(shuō)明模型覺(jué)得這段話是連貫自洽的;數(shù)值低,說(shuō)明這段話在模型看來(lái)有些奇怪。保留這一指標(biāo)最高的60%。這個(gè)機(jī)制不需要外部評(píng)判者,只靠模型自身作為質(zhì)量裁判。

第三階段叫跨樣本共識(shí)。把通過(guò)前兩關(guān)的候選答案兩兩比較詞匯重疊度(用Jaccard相似度衡量),一個(gè)答案與其他高質(zhì)量答案越像,說(shuō)明它代表的是"多數(shù)觀點(diǎn)"而非偶然異常值,給予更高評(píng)分。最終,ARDE(準(zhǔn)確率排名決策引擎)在高置信度的候選答案中,優(yōu)先按質(zhì)量排名,次按置信度,最后才考慮能耗作為平局決勝條件。這樣的設(shè)計(jì)把基礎(chǔ)設(shè)施的優(yōu)化和輸出質(zhì)量的選取解耦開來(lái)——一個(gè)生成時(shí)消耗了更多計(jì)算的答案,不會(huì)因?yàn)?貴"而被降低優(yōu)先級(jí)。

CSVET早停機(jī)制則是整個(gè)流程的節(jié)能閥門。每次生成最少若干個(gè)候選(至少6個(gè)或總樣本量的35%)之后,系統(tǒng)開始檢查:當(dāng)前最好的候選答案置信度是否已經(jīng)超過(guò)了一個(gè)自適應(yīng)閾值?這個(gè)閾值會(huì)隨著已消耗的能量預(yù)算比例而微調(diào)——能量用得越多,閾值稍微放寬,避免在邊際收益極低的情況下繼續(xù)采樣。在實(shí)驗(yàn)中,CSVET平均只生成了25個(gè)計(jì)劃樣本中的10到15個(gè)就停止了,為簡(jiǎn)單問(wèn)題節(jié)省了40%到60%的能量,同時(shí)對(duì)難問(wèn)題保持完整的采樣深度。

**五、安全是效率的盟友,而非對(duì)手**

QEIL v2的另一個(gè)值得關(guān)注的設(shè)計(jì)哲學(xué)是:安全保障和效率優(yōu)化不是相互對(duì)立的,而是同一枚硬幣的兩面。這體現(xiàn)在熱保護(hù)機(jī)制的設(shè)計(jì)上。

v1的熱保護(hù)是一個(gè)硬閾值:溫度超過(guò)85%的額定最高溫,觸發(fā)警報(bào),強(qiáng)制限頻。這就像一輛汽車只有在發(fā)動(dòng)機(jī)快爆炸時(shí)才亮紅燈,而在那之前完全沒(méi)有預(yù)警。v2把熱效率指標(biāo)Φ直接嵌入能耗方程,形成了一個(gè)連續(xù)的溫度敏感信號(hào):芯片越熱,PGSAM在計(jì)算各種分配方案的能耗時(shí)就越傾向于避開這臺(tái)設(shè)備,自然而然地把負(fù)載引導(dǎo)到更涼快的設(shè)備上,而不是等到臨界點(diǎn)才緊急處理。

實(shí)驗(yàn)數(shù)據(jù)佐證了這一設(shè)計(jì)的價(jià)值。在30分鐘持續(xù)推理測(cè)試中,沒(méi)有Φ保護(hù)時(shí),英偉達(dá)GPU溫度爬到89攝氏度,超過(guò)85攝氏度的節(jié)流閾值,觸發(fā)47次降頻事件,平均每次推理延遲從正常水平飆升,標(biāo)準(zhǔn)差高達(dá)0.84毫秒——意味著響應(yīng)時(shí)間極不穩(wěn)定。啟用Φ之后,GPU峰值溫度保持在68攝氏度,零節(jié)流事件,平均延遲降低同時(shí)標(biāo)準(zhǔn)差只有0.06毫秒,總吞吐量反而提升了14.9%。一個(gè)"安全保護(hù)"機(jī)制,反而讓系統(tǒng)跑得更快、更穩(wěn)——這正是因?yàn)楣?jié)流事件本身就是一種劇烈的性能擾動(dòng),提前預(yù)防比事后救火代價(jià)小得多。

故障容錯(cuò)方面,實(shí)驗(yàn)?zāi)M了四種設(shè)備失效場(chǎng)景:NPU單獨(dú)失效、GPU單獨(dú)失效、兩塊GPU都失效、NPU加一塊GPU同時(shí)失效。所有場(chǎng)景下,系統(tǒng)都在200毫秒內(nèi)完成重新調(diào)度,零查詢丟失?;謴?fù)時(shí)間隨故障嚴(yán)重程度可預(yù)測(cè)地增加:NPU失效78毫秒,單GPU失效124毫秒,最嚴(yán)重的同時(shí)失效也只需156毫秒。吞吐量因設(shè)備減少而下降,但沒(méi)有任何請(qǐng)求中斷。

**六、跨七個(gè)模型、三個(gè)基準(zhǔn)的全面驗(yàn)證**

研究團(tuán)隊(duì)在一臺(tái)配置了英特爾酷睿Ultra 9 285HX處理器(含英特爾AI Boost NPU和英特爾集成顯卡)與英偉達(dá)RTX PRO 5000 Blackwell獨(dú)立顯卡的異構(gòu)邊緣平臺(tái)上,測(cè)試了七個(gè)不同規(guī)模的語(yǔ)言模型,橫跨三個(gè)標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集。

在WikiText-103(文本續(xù)寫任務(wù))上,七個(gè)模型在v2下的IPW均達(dá)到0.891以上,而標(biāo)準(zhǔn)推理的IPW普遍低于0.45。小模型GPT-2(1.25億參數(shù))在v2下的準(zhǔn)確率從59.8%提升到75.7%,功耗從181.5瓦降至63.8瓦,IPW達(dá)到0.975。Granite-350M的功耗降幅最大,從460.4瓦降至71.8瓦,因?yàn)樗臉?biāo)準(zhǔn)配置需要把整個(gè)模型塞進(jìn)高功耗GPU,而DASI分析正確識(shí)別出這對(duì)內(nèi)存密集的生成階段來(lái)說(shuō)極度浪費(fèi)。

在GSM8K(小學(xué)數(shù)學(xué)推理題)上,這個(gè)基準(zhǔn)對(duì)能效系統(tǒng)更具挑戰(zhàn)性,因?yàn)檎_答案需要多步驟推理,生成的詞數(shù)是文本續(xù)寫的3到5倍,能耗放大效應(yīng)更顯著。v2在七個(gè)模型上平均比標(biāo)準(zhǔn)推理高出12.2個(gè)百分點(diǎn)的準(zhǔn)確率,平均節(jié)能51.7%。LFM2-2.6B和Llama-3.1-8B這兩個(gè)大模型在v2下分別達(dá)到了71.6%和67.2%的準(zhǔn)確率——這意味著QEIL v2可以讓原本因功耗限制只能在邊緣設(shè)備上運(yùn)行小模型的用戶,實(shí)際上用上了更大、更強(qiáng)的模型。

在ARC-Challenge(高中科學(xué)多項(xiàng)選擇題)上,輸出序列很短,v2的節(jié)能效果沒(méi)有因此減弱——平均節(jié)能52.8%,甚至略高于WikiText的52.2%。這證明DASI引導(dǎo)的路由不是只在長(zhǎng)序列生成時(shí)才有效,而是一個(gè)對(duì)任務(wù)類型普遍有效的基礎(chǔ)性優(yōu)化。

最引人注目的是第七個(gè)模型:Llama3-8B-RAMP-4bit。這是一個(gè)由外部工具(RAMP框架)對(duì)Llama-3.1-8B進(jìn)行4位量化壓縮得到的模型,每個(gè)參數(shù)平均只占3.65位,比標(biāo)準(zhǔn)16位浮點(diǎn)數(shù)小了4倍多。研究團(tuán)隊(duì)明確說(shuō)明,RAMP量化不是他們的工作,這個(gè)模型被當(dāng)成一個(gè)"現(xiàn)成的外部模型"來(lái)測(cè)試QEIL v2是否能適應(yīng)不同的模型特性。結(jié)果是:由于每個(gè)參數(shù)占用字節(jié)數(shù)減少,生成階段的算術(shù)強(qiáng)度相對(duì)提高,DASI值上升,PGSAM能夠找到功耗更低的分配方案,最終在WikiText-103上實(shí)現(xiàn)IPW=1.024、功耗54.8瓦——這是邊緣推理系統(tǒng)首次在報(bào)告的基準(zhǔn)上突破IPW=1.0這一行業(yè)參考基準(zhǔn)線。

研究團(tuán)隊(duì)特別強(qiáng)調(diào),IPW=1.0并非理論上界,它只是一個(gè)"此前所有邊緣系統(tǒng)都沒(méi)能達(dá)到的經(jīng)驗(yàn)基準(zhǔn)點(diǎn)",具體含義是每消耗一瓦特電力產(chǎn)生1%的基準(zhǔn)準(zhǔn)確率。從數(shù)學(xué)上講,IPW是無(wú)上界的,只要準(zhǔn)確率足夠高或功耗足夠低都可以無(wú)限接近100。團(tuán)隊(duì)選擇用它作為對(duì)比標(biāo)桿,是因?yàn)樗庇^、可復(fù)現(xiàn),而且提供了跨硬件代際的可比參照。

三個(gè)基準(zhǔn)上的能耗降幅標(biāo)準(zhǔn)差只有0.55%,準(zhǔn)確率改善的標(biāo)準(zhǔn)差只有0.45個(gè)百分點(diǎn)——這種高度一致性說(shuō)明QEIL v2的物理能耗模型捕捉到的是硬件的基本行為規(guī)律,而不是某個(gè)特定任務(wù)或數(shù)據(jù)集的偶發(fā)特性。

**七、消融實(shí)驗(yàn):每個(gè)設(shè)計(jì)決策都經(jīng)得起推敲**

研究團(tuán)隊(duì)進(jìn)行了大量消融實(shí)驗(yàn),對(duì)每一個(gè)設(shè)計(jì)選擇都做了拆解驗(yàn)證,這是本文在方法論嚴(yán)謹(jǐn)性上的重要體現(xiàn)。

在組件貢獻(xiàn)分析中,從純GPU基線(59.8%準(zhǔn)確率,181.5瓦)開始,每次只加一個(gè)新特性。加入DASI能耗模型后,功耗從181.5瓦驟降到112.3瓦,這是單項(xiàng)貢獻(xiàn)中最大的能耗削減,降幅達(dá)38.1%。再加CPQ內(nèi)存壓力后降到104.8瓦,加Φ熱效率后降到98.2瓦。這三個(gè)物理模型合力把功耗從GPU基線壓低了約46%,但準(zhǔn)確率只從59.8%小幅提升到64.0%——說(shuō)明這部分增益主要來(lái)自路由改善,而非答案質(zhì)量提升。加入PGSAM替代貪心算法后,功耗進(jìn)一步大跳至72.1瓦,而準(zhǔn)確率也同步提升到66.8%——這兩個(gè)方向的同步改善說(shuō)明多目標(biāo)優(yōu)化確實(shí)找到了帕累托前沿上的更好點(diǎn)。之后加輔助層低功耗路由、EAC/ARDE級(jí)聯(lián)和CSVET早停,功耗繼續(xù)小幅下降,準(zhǔn)確率大幅提升到75.7%。

在PGSAM動(dòng)量系數(shù)的消融中,μ=0(無(wú)動(dòng)量,退化為標(biāo)準(zhǔn)模擬退火)時(shí),帕累托檔案只有182個(gè)解,IPW為0.938;μ=0.3時(shí)檔案最大(218個(gè)解),IPW最高(0.975);μ增大到0.5以上時(shí)檔案開始收縮,IPW下降——過(guò)大的動(dòng)量導(dǎo)致過(guò)度探索,接受了太多劣解。這驗(yàn)證了0.3作為默認(rèn)值的合理性。

在EAC/ARDE閾值敏感性測(cè)試中,把三個(gè)關(guān)鍵過(guò)濾比例(熵過(guò)濾70%、自驗(yàn)證60%、置信度邊界1.2奈特)在±10到20%范圍內(nèi)上下調(diào)整,IPW的變化幅度不超過(guò)2.6%。這說(shuō)明級(jí)聯(lián)架構(gòu)本身而非某幾個(gè)精確閾值是質(zhì)量提升的來(lái)源,系統(tǒng)有很好的穩(wěn)健性。

關(guān)于覆蓋率隨采樣數(shù)的變化,在采樣數(shù)少于10個(gè)時(shí),v2的準(zhǔn)確率就已經(jīng)超過(guò)了v1在使用全部樣本時(shí)的準(zhǔn)確率(70.5%)。到采樣數(shù)20個(gè)時(shí),v2達(dá)到75.7%。這條更陡的曲線反映了EAC/ARDE級(jí)聯(lián)的作用:每一個(gè)新樣本帶來(lái)的邊際準(zhǔn)確率提升,在有質(zhì)量篩選機(jī)制時(shí)明顯高于無(wú)篩選時(shí)。

在與其他優(yōu)化器的對(duì)比中,PGSAM(42毫秒,IPW=0.975)優(yōu)于隨機(jī)搜索(42毫秒,IPW=0.851)、加權(quán)和模擬退火(45毫秒,IPW=0.892)和NSGA-II(128毫秒,IPW=0.921)。NSGA-II的解質(zhì)量接近PGSAM但慢了3倍,在需要快速響應(yīng)熱事件重新調(diào)度的邊緣場(chǎng)景里是不可接受的。

**八、實(shí)驗(yàn)平臺(tái)的真實(shí)硬件截圖:理論與現(xiàn)實(shí)的吻合**

論文中有一處細(xì)節(jié)特別有說(shuō)服力——一張?jiān)趯?shí)際運(yùn)行QEIL v2時(shí)截取的Windows任務(wù)管理器截圖。截圖顯示:CPU使用率7%(負(fù)責(zé)協(xié)調(diào)調(diào)度),英特爾AI Boost NPU使用率41%(承擔(dān)內(nèi)存密集的生成任務(wù)),英特爾集成顯卡使用率97%(處理計(jì)算密集的預(yù)填充),英偉達(dá)RTX PRO 5000使用率僅7%,溫度62攝氏度(遠(yuǎn)低于85攝氏度的節(jié)流閾值)。內(nèi)存占用30/128GB,使用率23%,遠(yuǎn)低于CPQ警戒線。

這張截圖讓所有的公式和指標(biāo)從抽象變得具體。高性能顯卡只負(fù)責(zé)"溢出"處理,保持低溫待命;集成顯卡和NPU各司其職;CPU只做輕量級(jí)的調(diào)度工作。DASI模型的預(yù)測(cè)與實(shí)際運(yùn)行狀態(tài)完全吻合:計(jì)算密集的預(yù)填充分給了計(jì)算能力強(qiáng)的設(shè)備,內(nèi)存密集的生成分給了能效更高的低功耗設(shè)備。

說(shuō)到底,QEIL v2這項(xiàng)研究揭示的核心洞見其實(shí)非常直覺(jué):不是每塊芯片都適合每種任務(wù),就像不是每個(gè)工人都適合每道工序。長(zhǎng)期以來(lái),邊緣AI部署的通用做法是把能用的性能最強(qiáng)的硬件全力驅(qū)動(dòng),但這對(duì)于大量?jī)?nèi)存密集型操作來(lái)說(shuō)是一種巨大的浪費(fèi)——高性能芯片的大部分計(jì)算單元就那么坐著等數(shù)據(jù)。QEIL v2通過(guò)三個(gè)來(lái)自物理第一性原理的實(shí)時(shí)指標(biāo),精準(zhǔn)地感知每一個(gè)計(jì)算任務(wù)的真實(shí)特性,再用多目標(biāo)帕累托優(yōu)化找到在節(jié)能、速度和均衡利用三者之間的最優(yōu)權(quán)衡,最后用信息論驅(qū)動(dòng)的候選篩選把重復(fù)采樣的紅利最大化。

這對(duì)普通人的潛在影響并不遙遠(yuǎn)。隨著越來(lái)越多的AI應(yīng)用走向邊緣設(shè)備——包括手機(jī)上的語(yǔ)音助手、工廠里的質(zhì)檢攝像頭、醫(yī)療設(shè)備里的輔助診斷系統(tǒng)——如何在有限的電力和散熱條件下榨出最多的智能輸出,將直接決定這些應(yīng)用的實(shí)用性。一個(gè)能把功耗壓低64%同時(shí)準(zhǔn)確率還能提升的框架,意味著同樣一塊電池可以支撐更長(zhǎng)的工作時(shí)間,同樣一個(gè)不帶風(fēng)扇的封閉外殼不會(huì)因?yàn)檫^(guò)熱而頻繁死機(jī)。

當(dāng)然,這項(xiàng)研究目前只在一臺(tái)特定的異構(gòu)平臺(tái)上驗(yàn)證過(guò),論文作者也在展望未來(lái)工作時(shí)提到需要在高通驍龍NPU、英偉達(dá)Jetson Orin等其他平臺(tái)上進(jìn)行驗(yàn)證,以確認(rèn)框架的跨平臺(tái)普適性。此外,如何把這套優(yōu)化器從離線編譯時(shí)運(yùn)行擴(kuò)展到實(shí)時(shí)動(dòng)態(tài)重調(diào)度,如何與量化感知訓(xùn)練和結(jié)構(gòu)化剪枝更深度地結(jié)合,如何推廣到非Transformer架構(gòu)的擴(kuò)散模型或圖神經(jīng)網(wǎng)絡(luò),都是后續(xù)值得探索的方向。有興趣深入了解的讀者可以通過(guò)arXiv編號(hào)2602.06057v3查閱完整論文。

Q&A

Q1:QEIL v2中的"每瓦特智能量"(IPW)是怎么計(jì)算的,它為什么重要?

A:IPW的計(jì)算方法是把模型在基準(zhǔn)測(cè)試上的通過(guò)率(pass@k,百分比數(shù)值)除以平均功耗(瓦特)。例如,75.7%的準(zhǔn)確率除以63.8瓦得到IPW=0.975。這個(gè)指標(biāo)的意義在于它同時(shí)衡量了"做得多好"和"花了多少電",避免了單純比準(zhǔn)確率時(shí)忽視能耗,或單純比省電時(shí)忽視質(zhì)量的片面性。IPW=1.0被作為行業(yè)經(jīng)驗(yàn)參考基準(zhǔn)線,因?yàn)榇饲皼](méi)有邊緣推理系統(tǒng)在報(bào)告的基準(zhǔn)上達(dá)到過(guò)這個(gè)值,QEIL v2在量化模型上首次突破了這個(gè)基準(zhǔn)。

Q2:DASI指標(biāo)和普通的GPU利用率顯示有什么區(qū)別?

A:操作系統(tǒng)顯示的GPU利用率只告訴你GPU在某個(gè)時(shí)間段內(nèi)"有沒(méi)有在工作",但不告訴你它工作得有沒(méi)有意義。DASI通過(guò)計(jì)算某個(gè)具體任務(wù)的算術(shù)強(qiáng)度(運(yùn)算量除以數(shù)據(jù)量)與設(shè)備瓶頸點(diǎn)之比,直接反映計(jì)算單元中有多少比例在做實(shí)際有用的運(yùn)算。大語(yǔ)言模型在逐詞生成階段的算術(shù)強(qiáng)度約為每字節(jié)1次運(yùn)算,而高端GPU的瓶頸點(diǎn)是218,所以DASI只有0.005——任務(wù)管理器可能顯示GPU"在工作",但QEIL v2的物理模型知道99.5%的算力在空轉(zhuǎn),應(yīng)該把這類任務(wù)轉(zhuǎn)移到瓶頸點(diǎn)更低的NPU或CPU上。

Q3:QEIL v2的PGSAM優(yōu)化需要多長(zhǎng)時(shí)間完成,會(huì)影響推理速度嗎?

A:PGSAM的完整500次迭代在任意一臺(tái)CPU上平均只需要42毫秒,整個(gè)過(guò)程不需要運(yùn)行模型本身,只是在做數(shù)學(xué)計(jì)算。這個(gè)時(shí)間在模型整體編譯和加載時(shí)間面前可以忽略不計(jì),屬于一次性的部署前優(yōu)化開銷。在邊緣設(shè)備遭遇過(guò)熱需要緊急重新調(diào)度時(shí),42毫秒也足夠快,不會(huì)造成推理中斷。相比之下,性能相近的NSGA-II算法需要128毫秒,在對(duì)響應(yīng)速度敏感的場(chǎng)景里差距明顯。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
雷神山院長(zhǎng)落馬,最揪心的是無(wú)數(shù)女醫(yī)護(hù)背后的家庭

雷神山院長(zhǎng)落馬,最揪心的是無(wú)數(shù)女醫(yī)護(hù)背后的家庭

社會(huì)日日鮮
2026-04-21 08:34:40
"下單時(shí)2200,現(xiàn)在漲到3700",在淘寶買15張顯卡,5店鋪均拒發(fā)貨;淘寶:無(wú)法強(qiáng)制,望買家理解

"下單時(shí)2200,現(xiàn)在漲到3700",在淘寶買15張顯卡,5店鋪均拒發(fā)貨;淘寶:無(wú)法強(qiáng)制,望買家理解

大風(fēng)新聞
2026-04-22 15:44:05
楊瀚森NBA生涯季后賽首勝:全場(chǎng)遭棄用躺贏 回主場(chǎng)后能否登場(chǎng)?

楊瀚森NBA生涯季后賽首勝:全場(chǎng)遭棄用躺贏 回主場(chǎng)后能否登場(chǎng)?

醉臥浮生
2026-04-22 10:47:21
功莫大于斬首,計(jì)莫毒于絕糧——特朗普雙向封鎖,欲困死伊朗?

功莫大于斬首,計(jì)莫毒于絕糧——特朗普雙向封鎖,欲困死伊朗?

高博新視野
2026-04-21 08:00:23
賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺(tái)獨(dú)”

賴清德竄訪斯威士蘭受阻,鄭麗文:全世界都不支持“臺(tái)獨(dú)”

海峽導(dǎo)報(bào)社
2026-04-22 15:32:03
十五部門:加強(qiáng)青年婚戀觀引導(dǎo),探索住房、出行、消費(fèi)等多領(lǐng)域聯(lián)動(dòng)的生育支持政策

十五部門:加強(qiáng)青年婚戀觀引導(dǎo),探索住房、出行、消費(fèi)等多領(lǐng)域聯(lián)動(dòng)的生育支持政策

界面新聞
2026-04-22 11:51:12
卡戴珊和漢密爾頓海邊熱吻被拍 兩人是相隔8000公里的40歲+異地戀

卡戴珊和漢密爾頓海邊熱吻被拍 兩人是相隔8000公里的40歲+異地戀

勁爆體壇
2026-04-22 07:28:05
G2湖人101-94戰(zhàn)勝火箭 球員評(píng)價(jià):4人優(yōu)秀,3人及格,2人低迷

G2湖人101-94戰(zhàn)勝火箭 球員評(píng)價(jià):4人優(yōu)秀,3人及格,2人低迷

籃球資訊達(dá)人
2026-04-22 13:27:16
山西忻州市公務(wù)員局發(fā)布情況說(shuō)明:楊某媛(女)與自媒體貼文中所分析的楊某媛并非同一人

山西忻州市公務(wù)員局發(fā)布情況說(shuō)明:楊某媛(女)與自媒體貼文中所分析的楊某媛并非同一人

環(huán)球網(wǎng)資訊
2026-04-22 16:51:03
史上最全“屬相婚配表”,建議收藏!

史上最全“屬相婚配表”,建議收藏!

詩(shī)詞天地
2026-04-21 14:08:25
誰(shuí)在反對(duì)普及邏輯課

誰(shuí)在反對(duì)普及邏輯課

律法刑道
2026-04-22 12:43:49
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
四十年來(lái)最大的謎:包產(chǎn)到戶后農(nóng)民馬上就吃上了飽飯,是真的嗎?

四十年來(lái)最大的謎:包產(chǎn)到戶后農(nóng)民馬上就吃上了飽飯,是真的嗎?

興趣知識(shí)
2026-04-22 03:35:27
女子腳踹保安后被反手扇一耳光,力道非常大,這能算正當(dāng)防衛(wèi)嗎?

女子腳踹保安后被反手扇一耳光,力道非常大,這能算正當(dāng)防衛(wèi)嗎?

十九妹
2026-04-22 13:37:52
張雪機(jī)車發(fā)布召回通告

張雪機(jī)車發(fā)布召回通告

界面新聞
2026-04-22 15:28:06
馬刺官宣:文班亞馬臉部重摔地板 觸發(fā)腦震蕩保護(hù)協(xié)議提前退賽

馬刺官宣:文班亞馬臉部重摔地板 觸發(fā)腦震蕩保護(hù)協(xié)議提前退賽

醉臥浮生
2026-04-22 09:17:19
港媒曝張曼玉“五官?gòu)氐追蛛x”,61歲生圖惹爭(zhēng)議,倆部位面目全非

港媒曝張曼玉“五官?gòu)氐追蛛x”,61歲生圖惹爭(zhēng)議,倆部位面目全非

冷紫葉
2026-04-20 17:12:17
“硬是撐了下來(lái)…”40歲男子心臟停跳2天后奇跡生還

“硬是撐了下來(lái)…”40歲男子心臟停跳2天后奇跡生還

黃河新聞網(wǎng)呂梁
2026-04-22 09:08:42
最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
三甲醫(yī)院科主任葉某萍被舉報(bào)“巨額財(cái)產(chǎn)來(lái)源不明”,1年前停職調(diào)查,舉報(bào)人:內(nèi)部通知顯示其被查實(shí)“違紀(jì)違法”

三甲醫(yī)院科主任葉某萍被舉報(bào)“巨額財(cái)產(chǎn)來(lái)源不明”,1年前停職調(diào)查,舉報(bào)人:內(nèi)部通知顯示其被查實(shí)“違紀(jì)違法”

極目新聞
2026-04-22 17:33:51
2026-04-22 18:03:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

特朗普180°轉(zhuǎn)彎延長(zhǎng)?;?伊朗硬剛首次直接回絕談判

頭條要聞

特朗普180°轉(zhuǎn)彎延長(zhǎng)?;?伊朗硬剛首次直接回絕談判

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

時(shí)尚
教育
本地
藝術(shù)
房產(chǎn)

初夏穿赫本的白褲子,清新又高級(jí)!

教育要聞

慣子如殺子!孩子這4種表現(xiàn)說(shuō)明已經(jīng)被慣壞了,再不改就來(lái)不及了

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

藝術(shù)要聞

無(wú)花不風(fēng)景

房產(chǎn)要聞

狂搶284輪!中海??谠倌弥匕跽?!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版