網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

拒絕「降智、減配、亂收費(fèi)」：面向LLM API的可信驗(yàn)證框架

2026-03-23 18:07:00　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本文作者分別來(lái)自新加坡國(guó)立大學(xué)和加州大學(xué)伯克利分校。第一作者郭衍培來(lái)自新加坡國(guó)立大學(xué)，長(zhǎng)期關(guān)注大語(yǔ)言模型基礎(chǔ)設(shè)施中的可信性與安全性問題，特別是云端 LLM 服務(wù)的可驗(yàn)證性與經(jīng)濟(jì)激勵(lì)風(fēng)險(xiǎn)。指導(dǎo)教師為新加坡國(guó)立大學(xué)校長(zhǎng)青年教授張嘉恒和加州大學(xué)伯克利分校 Dawn Song 教授。

大語(yǔ)言模型（LLM）已經(jīng)成為各類 AI 應(yīng)用的基礎(chǔ)設(shè)施，然而，在通過(guò)云端 API 便捷接入這些強(qiáng)大模型的同時(shí)，此類黑盒服務(wù)模式也引發(fā)了一個(gè)現(xiàn)實(shí)的信任危機(jī)：如何確保大模型服務(wù)提供商真的運(yùn)行了所承諾的模型，并如實(shí)報(bào)告實(shí)際使用了 Token 數(shù)量，以防止?jié)撛诘?LLM 服務(wù) “降智、減配、亂收費(fèi)”？

事實(shí)上，圍繞 LLM 服務(wù) “降智” 的討論，已經(jīng)在國(guó)內(nèi)外多個(gè)開發(fā)者社區(qū)中反復(fù)出現(xiàn)，不少用戶都報(bào)告過(guò)模型在使用一段時(shí)間后表現(xiàn)明顯下滑的現(xiàn)象 [1,2]。與此同時(shí)，若服務(wù)商出于競(jìng)爭(zhēng)或策略原因，對(duì)特定用戶群體提供差異化甚至低質(zhì)量服務(wù) [3]，則會(huì)進(jìn)一步加劇黑盒 AI 服務(wù)的信任危機(jī)。

針對(duì)這一系列問題，研究者們最近提出了一種新的利用可驗(yàn)證計(jì)算（Verifiable Computation）來(lái)證明推理過(guò)程正確性的 LLM 服務(wù)審計(jì)框架 ——IMMACULATE。借助該框架，用戶能夠在完全不暴露模型內(nèi)部信息的情況下，僅需 1% 的額外開銷，就能輕松驗(yàn)證黑盒 LLM API 的執(zhí)行完整性，以有效檢測(cè)模型替換、過(guò)度量化以及 Token 虛報(bào)計(jì)費(fèi)等 LLM 服務(wù)違規(guī)行為。相關(guān)論文與代碼已公開。

論文題目：IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation
論文鏈接：https://arxiv.org/pdf/2602.22700
代碼鏈接：https://github.com/guo-yanpei/Immaculate

本研究提出了一種面向黑盒 LLM API 的全新審計(jì)框架 IMMACULATE。該框架無(wú)需訪問模型內(nèi)部結(jié)構(gòu)，也不依賴專用可信硬件，即可檢測(cè)云服務(wù)商是否真實(shí)執(zhí)行了其聲稱的模型推理過(guò)程，并是否如實(shí)報(bào)告 token 使用量。通過(guò)引入 Logit Distance Distribution (LDD) 這一新的統(tǒng)計(jì)度量，并結(jié)合隨機(jī)化審計(jì)與可驗(yàn)證計(jì)算技術(shù)，IMMACULATE 在真實(shí)模型上實(shí)現(xiàn)了低于 1% 的系統(tǒng)開銷，同時(shí)能夠可靠檢測(cè)模型替換、過(guò)度量化以及 token 過(guò)度計(jì)費(fèi)等經(jīng)濟(jì)動(dòng)機(jī)型違規(guī)行為。

00 背景：當(dāng) LLM 成為 API 服務(wù)

近年來(lái)，大語(yǔ)言模型（LLMs）逐漸成為 AI 應(yīng)用的重要基礎(chǔ)設(shè)施。絕大多數(shù)用戶并不會(huì)直接運(yùn)行模型，而是通過(guò)云端 API 服務(wù)調(diào)用模型能力。例如 OpenAI、Anthropic 和 Google 等公司提供的模型服務(wù)，都采用這種模式。

然而，這種黑盒服務(wù)模式帶來(lái)了一個(gè)根本性的信任問題：用戶無(wú)法驗(yàn)證服務(wù)提供商是否真正執(zhí)行了其聲稱的模型。

從經(jīng)濟(jì)角度看，服務(wù)商存在動(dòng)機(jī)通過(guò)各種方式降低計(jì)算成本或增加收費(fèi)，例如：

模型替換（Model Substitution）

使用更小、更便宜的模型替代宣稱的模型

過(guò)度量化（Aggressive Quantization）

使用低精度計(jì)算降低成本

Token 過(guò)度計(jì)費(fèi)（Token Overreporting）

報(bào)告比實(shí)際更多的 token 使用量

這些行為往往仍會(huì)產(chǎn)生語(yǔ)義上正確但整體質(zhì)量較低的結(jié)果，因此用戶很難通過(guò)輸出直接檢測(cè)到異常。事實(shí)上，在國(guó)內(nèi)外多個(gè)開發(fā)者社區(qū)中，已有大量用戶分享關(guān)于 LLM 服務(wù)“降智”的經(jīng)驗(yàn) [1, 2]：即在訂閱服務(wù)一段時(shí)間后，模型表現(xiàn)明顯不如初期。這類現(xiàn)象在技術(shù)社區(qū)中引發(fā)了廣泛討論。

此外，出于競(jìng)爭(zhēng)或策略性考慮，一些服務(wù)提供商還可能對(duì)特定用戶群體（例如被識(shí)別為潛在競(jìng)爭(zhēng)對(duì)手的調(diào)用者）提供差異化或低質(zhì)量服務(wù) [3]。這一行為嚴(yán)重破壞了模型服務(wù)的公平性與可信度，并進(jìn)一步加劇了黑盒 AI 服務(wù)的信任問題。

因此，一個(gè)關(guān)鍵問題出現(xiàn)了：

如何在不訪問模型內(nèi)部的情況下，驗(yàn)證 LLM API 是否被誠(chéng)實(shí)執(zhí)行？

01 方法概覽：IMMACULATE 審計(jì)框架

IMMACULATE 的核心技術(shù)基礎(chǔ)之一是可驗(yàn)證計(jì)算（Verifiable Computation）。可驗(yàn)證計(jì)算是一類密碼學(xué)技術(shù)，使服務(wù)器能夠在不泄露內(nèi)部計(jì)算過(guò)程或模型參數(shù)的情況下證明計(jì)算結(jié)果的正確性，從而讓用戶無(wú)需重新執(zhí)行計(jì)算即可驗(yàn)證遠(yuǎn)程計(jì)算。然而，對(duì)每一次請(qǐng)求都生成證明的開銷非常高。為此，研究團(tuán)隊(duì)提出了 IMMACULATE 審計(jì)框架，其核心思想是：

無(wú)需驗(yàn)證所有請(qǐng)求，只需隨機(jī)審計(jì)少量請(qǐng)求即可檢測(cè)系統(tǒng)是否存在大規(guī)模違規(guī)行為。

圖 1 IMMACULATE 工作流程：審計(jì)單位偽裝成普通用戶發(fā)送隨機(jī)的請(qǐng)求，并在收到回復(fù)后要求提供證明

具體而言，IMMACULATE 的工作流程包括以下步驟：

用戶正常向 LLM API 發(fā)送請(qǐng)求
服務(wù)端返回回答與 token 使用量
審計(jì)者隨機(jī)選擇部分請(qǐng)求進(jìn)行審計(jì)
服務(wù)端提供可驗(yàn)證計(jì)算證明
審計(jì)者根據(jù)統(tǒng)計(jì)指標(biāo)判斷執(zhí)行是否可信

這種設(shè)計(jì)利用了一個(gè)簡(jiǎn)單但關(guān)鍵的經(jīng)濟(jì)事實(shí)：

如果服務(wù)商希望通過(guò)違規(guī)行為獲取經(jīng)濟(jì)收益，就必須在相當(dāng)比例的請(qǐng)求上進(jìn)行違規(guī)執(zhí)行。因此，通過(guò)隨機(jī)審計(jì)少量請(qǐng)求即可檢測(cè)系統(tǒng)是否存在違規(guī)行為。

02 關(guān)鍵技術(shù)：Logit Distance Distribution (LDD)

圖 2 在固定所有離散步驟的結(jié)果后，整個(gè)推理過(guò)程完全是連續(xù)函數(shù)。輸出的距離可以衡量模型的準(zhǔn)確度

在實(shí)際系統(tǒng)中，驗(yàn)證 LLM 推理過(guò)程面臨一個(gè)重要挑戰(zhàn)：GPU 推理存在數(shù)值非確定性。即使在完全相同的模型和輸入下，不同運(yùn)行之間的浮點(diǎn)誤差也可能導(dǎo)致輸出略有不同。因此，傳統(tǒng)的 “逐位驗(yàn)證計(jì)算” 的方法難以直接應(yīng)用。

更進(jìn)一步地，大語(yǔ)言模型的推理過(guò)程本身包含兩類不同的計(jì)算步驟：一類是連續(xù)計(jì)算（continuous computation），例如注意力計(jì)算、MLP 和歸一化等神經(jīng)網(wǎng)絡(luò)算子；另一類是離散決策（discrete decision），例如 token 選擇或?qū)＜衣酚伞?/p>

連續(xù)計(jì)算在 GPU 上執(zhí)行時(shí)會(huì)受到浮點(diǎn)誤差與并行調(diào)度的影響，因此具有一定的數(shù)值非確定性；而離散決策一旦輸入確定，其輸出是完全確定的。由于生成過(guò)程是自回歸的，即使連續(xù)計(jì)算中極小的數(shù)值偏差，也可能導(dǎo)致后續(xù)離散決策發(fā)生變化，從而使整個(gè)推理路徑發(fā)生分叉。這使得傳統(tǒng)需要逐步復(fù)現(xiàn)完整推理過(guò)程的驗(yàn)證方法難以直接應(yīng)用。

為此，IMMACULATE 利用了這一結(jié)構(gòu)特性：固定離散決策路徑，僅比較連續(xù)計(jì)算的偏差。具體而言，在給定相同離散決策序列的情況下，我們比較部署模型與參考模型在每一步產(chǎn)生的logits 向量之間的距離分布。這一分布被稱為L(zhǎng)ogit Distance Distribution (LDD)。

其核心思想是：不直接驗(yàn)證每一步推理是否完全一致，而是衡量實(shí)際執(zhí)行模型與參考模型之間的 logit 偏差分布。

如果系統(tǒng)正常運(yùn)行：

logit 偏差只來(lái)自數(shù)值誤差
偏差分布穩(wěn)定且集中

如果系統(tǒng)存在違規(guī)行為，偏差分布會(huì)明顯擴(kuò)大或偏移。因此，通過(guò)統(tǒng)計(jì)LDD 的尾部概率，系統(tǒng)即可識(shí)別異常執(zhí)行行為。

03 實(shí)驗(yàn)結(jié)果：低成本檢測(cè)違規(guī)行為

圖 3 LLaMA3-70B 模型的 TV 距離分布?？梢钥闯?，不同推理方式在尾部有十分明顯的概率差異

研究團(tuán)隊(duì)在多個(gè)模型和數(shù)據(jù)集上評(píng)估了 IMMACULATE 的效果。實(shí)驗(yàn)結(jié)果表明，對(duì)單個(gè)請(qǐng)求：

模型替換攻擊檢測(cè)率最高超過(guò) 90%
量化攻擊檢測(cè)率可達(dá) 1%–10%

在隨機(jī)審計(jì)機(jī)制下：僅需約3000 次審計(jì)請(qǐng)求，即可在高概率下檢測(cè)到違規(guī)行為。

同時(shí)，IMMACULATE 的系統(tǒng)開銷極低：

在 vLLM 推理引擎下，吞吐影響 < 1%
計(jì)算證明僅在極少請(qǐng)求上觸發(fā)

這表明該框架具備現(xiàn)實(shí)部署可行性。

04 總結(jié)

IMMACULATE 提出了一種面向黑盒 LLM API 的可驗(yàn)證審計(jì)框架。通過(guò)結(jié)合隨機(jī)化審計(jì)、可驗(yàn)證計(jì)算以及新的 Logit Distance Distribution 指標(biāo)，該方法能夠在不訪問模型內(nèi)部、無(wú)需可信硬件的情況下檢測(cè)云端 LLM 服務(wù)的執(zhí)行完整性。

該研究表明，大規(guī)模 LLM 服務(wù)的透明性與可信度可以通過(guò)輕量級(jí)審計(jì)機(jī)制得到顯著提升，為未來(lái) AI 基礎(chǔ)設(shè)施的可信運(yùn)行提供了一條可行路徑。

參考資料：

[1] https://mp.weixin.qq.com/s/cHhdltxUJ3fDka7oR8I06Q

[2] https://mp.weixin.qq.com/s/6JZrbE16k4qmF0pK-kpGRA

[3] https://www.zhihu.com/question/2009482926241382805/answer/2009814668114428352

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.