北卡羅來納大學揭秘：讓AI推理更高效的智能預算分配新方法

2026-02-28 16:43:58　來源: 科技行者

北京舉報

分享至

這項由北卡羅來納大學教堂山分校、紐約大學、耶魯大學等多所知名學府聯(lián)合開展的研究發(fā)表于2026年，論文標題為"PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency"，arXiv編號為2602.16745。感興趣的讀者可以通過這個編號查詢完整論文內(nèi)容。

當我們使用大型語言模型解決復雜問題時，經(jīng)常需要讓AI多次嘗試同一個問題，然后通過投票的方式選擇最可能正確的答案。這就像考試時遇到難題，你會在草稿紙上多試幾種解法，最后選擇最有把握的答案一樣。但問題是，每次讓AI"思考"都需要消耗計算資源，就像每次計算都要花費時間和精力。

研究團隊發(fā)現(xiàn)了一個關鍵問題：不同難度的問題其實需要不同數(shù)量的"思考次數(shù)"。簡單的問題可能只需要AI試一兩次就能得到正確答案，而復雜問題可能需要十幾次甚至幾十次嘗試。但目前大多數(shù)系統(tǒng)都采用"一刀切"的方式，給每個問題分配相同的計算資源，這就像用同樣的時間復習簡單的加法和復雜的微積分題，顯然不夠高效。

為了解決這個問題，研究團隊開發(fā)了一個名為PETS的智能系統(tǒng)，它能夠根據(jù)問題的難易程度來動態(tài)分配計算資源。這個系統(tǒng)的核心理念很簡單：把有限的計算預算花在最需要的地方，讓簡單問題快速通過，復雜問題獲得足夠的"思考時間"。

一、智能預算分配的核心思想

要理解PETS系統(tǒng)的工作原理，可以把它比作一個聰明的家庭理財顧問。假設你有一筆固定的月收入需要分配給各種開支，一個好的理財顧問不會建議你把每筆錢都平均分配，而是會根據(jù)不同支出的重要性和緊迫性來制定分配方案。房租和水電費是必需的基礎開支，而娛樂和購物則可以根據(jù)剩余預算靈活調(diào)整。

PETS系統(tǒng)的工作方式與此類似。它面對的是一系列需要AI解決的問題，而"預算"就是可用的計算資源。系統(tǒng)會評估每個問題的難度，然后決定給每個問題分配多少"思考次數(shù)"。對于那些AI很容易答對的簡單問題，系統(tǒng)只會分配少量資源，而對于那些需要復雜推理的難題，系統(tǒng)會慷慨地分配更多計算時間。

這種智能分配的關鍵在于準確評估問題難度。研究團隊引入了一個叫做"自一致性率"的概念，簡單來說就是測量AI在有限次嘗試后得出的答案與"標準答案"的一致程度。這個標準答案不是人工標注的，而是假設AI有無限次嘗試機會時最終會收斂到的答案。這就像問一個數(shù)學天才一道題，如果給他無限的時間思考，他最終會得出什么答案。

通過這種方式，PETS系統(tǒng)能夠在不知道正確答案的情況下，評估自己在每個問題上的表現(xiàn)，并據(jù)此調(diào)整資源分配策略。這是一個非常聰明的自適應機制，讓系統(tǒng)能夠在實際應用中不斷優(yōu)化自己的決策。

二、離線場景下的最優(yōu)策略

PETS系統(tǒng)針對兩種不同的應用場景設計了相應的策略。第一種是離線場景，就像學生在家做作業(yè)一樣，可以看到所有題目，有充分的時間規(guī)劃如何分配精力。

在這種情況下，系統(tǒng)采用了一種基于眾包理論的創(chuàng)新方法。研究團隊巧妙地發(fā)現(xiàn)，AI多次嘗試同一個問題的過程，實際上很像眾包平臺上多個工人完成同一個任務的情況。每次AI的嘗試就像一個工人提交的答案，而系統(tǒng)需要決定雇傭多少個"工人"來完成每個任務。

這個類比非常有啟發(fā)性。在眾包領域，研究者們已經(jīng)開發(fā)出了很多成熟的理論來解決最優(yōu)預算分配問題。PETS系統(tǒng)借鑒了這些理論，特別是貝葉斯自適應分配算法，來解決AI推理中的資源分配問題。

具體來說，系統(tǒng)會維護一個關于每個問題難度的概率估計，這個估計會隨著獲得更多AI嘗試結果而不斷更新。當系統(tǒng)發(fā)現(xiàn)某個問題的答案比較分散，不同嘗試給出了很不一樣的結果時，它會判斷這個問題比較困難，需要更多嘗試。相反，如果AI幾次嘗試都給出了相似的答案，系統(tǒng)就會認為這個問題相對簡單，可以把資源轉(zhuǎn)移到其他更需要的問題上。

這種方法的優(yōu)雅之處在于它是完全自適應的。系統(tǒng)不需要預先知道哪些問題困難哪些問題簡單，而是通過逐步嘗試和學習來發(fā)現(xiàn)這些信息。這就像一個經(jīng)驗豐富的老師在批改作業(yè)時，會根據(jù)學生的答案情況來判斷題目的難度，并相應調(diào)整后續(xù)的教學重點。

三、在線場景下的即時決策

第二種應用場景是在線場景，就像學生在考試中遇到題目需要立即決定花多少時間一樣。在這種情況下，問題是逐個出現(xiàn)的，系統(tǒng)必須在看到每個問題的瞬間就決定分配多少計算資源，不能回頭修改決策。

這種場景的挑戰(zhàn)在于系統(tǒng)無法看到后續(xù)的問題，因此需要基于對問題難度分布的先驗知識來做決策。研究團隊設計了一個聰明的解決方案：首先用少量樣本問題來估計整個問題集合的難度分布，然后基于這個分布來預先計算最優(yōu)的分配策略。

系統(tǒng)的工作流程是這樣的：當一個新問題到來時，系統(tǒng)首先用很少的嘗試次數(shù)快速評估這個問題的大致難度。這就像快速瀏覽一道考試題目，判斷它大概屬于哪個難度級別。然后，系統(tǒng)根據(jù)預先計算好的分配方案，給這個問題分配相應數(shù)量的計算資源。

為了快速準確地評估問題難度，研究團隊開發(fā)了一個基于高斯近似的方法。他們將復雜的多維難度參數(shù)簡化為二維的代理參數(shù)，并將整個難度空間離散化為幾個網(wǎng)格。每個網(wǎng)格都有一個代表性的難度參數(shù)和對應的最優(yōu)預算分配。這樣，系統(tǒng)只需要判斷新問題屬于哪個網(wǎng)格，就能立即知道應該分配多少資源。

這種方法的精妙之處在于它在準確性和效率之間找到了很好的平衡。雖然簡化了問題的復雜性，但通過精心設計的近似方法，系統(tǒng)仍然能夠做出高質(zhì)量的分配決策。實驗結果表明，這種在線方法的性能非常接近擁有完整信息的離線方法，證明了其實用價值。

四、算法創(chuàng)新的技術突破

PETS系統(tǒng)在技術層面有幾個重要的創(chuàng)新點。首先是貪心算法的最優(yōu)性證明。在二分類問題中，研究團隊證明了一個簡單的貪心策略實際上就是最優(yōu)策略。這個發(fā)現(xiàn)很重要，因為貪心算法不僅容易實現(xiàn)，計算效率也很高。

算法的核心思想是始終優(yōu)先給那些"邊際收益"最大的問題分配更多資源。邊際收益指的是多分配一次嘗試能夠帶來的自一致性提升。這就像投資時優(yōu)先選擇回報率最高的項目一樣，每次都選擇能帶來最大改善的分配方案。

研究團隊還發(fā)現(xiàn)了一個有趣的數(shù)學性質(zhì)：對于給定的問題難度，增加嘗試次數(shù)帶來的收益是遞減的。換句話說，第一次嘗試的價值最大，第二次嘗試的價值稍小，依此類推。這個性質(zhì)為貪心算法的最優(yōu)性提供了理論基礎。

在多分類問題中，情況變得更加復雜，因為難度參數(shù)變成了高維向量。為了處理這種復雜性，研究團隊采用了高斯-probit近似方法，將復雜的多項式分布近似為更易處理的高斯分布。這種近似方法在保持足夠精度的同時，大大簡化了計算復雜度。

另一個技術創(chuàng)新是隨機舍入方法。由于實際的預算分配必須是整數(shù)，而理論最優(yōu)解可能是分數(shù)，系統(tǒng)需要一種方法來處理這種離散化。研究團隊設計了一個巧妙的隨機舍入規(guī)則，能夠保證期望意義下的預算約束得到滿足，同時最小化離散化帶來的性能損失。

五、實驗驗證展現(xiàn)卓越性能

研究團隊在多個具有挑戰(zhàn)性的數(shù)據(jù)集上驗證了PETS系統(tǒng)的有效性，包括GPQA-Diamond、AIME 24和25、HMMT Feb 25、以及BRUMO 25等。這些數(shù)據(jù)集涵蓋了從科學問答到數(shù)學競賽的各種復雜推理任務，為系統(tǒng)性能評估提供了全面的測試環(huán)境。

實驗使用了多個主流的大型語言模型，包括Qwen3系列（4B和30B參數(shù)版本）、GPT-OSS系列（20B和120B參數(shù)）以及QwenLong等。這種多樣化的模型選擇確保了實驗結果的普適性和可靠性。

實驗結果令人印象深刻。在GPQA數(shù)據(jù)集上，PETS系統(tǒng)在離線場景下相比均勻分配策略減少了高達75%的計算資源消耗，而在在線場景下也實現(xiàn)了55%的資源節(jié)省。這種顯著的效率提升在其他數(shù)據(jù)集上也得到了一致的驗證。

更重要的是，PETS系統(tǒng)不僅節(jié)省了計算資源，還提高了最終的答題準確率。這說明智能的資源分配不僅僅是一個工程優(yōu)化問題，更是一個能夠提升AI系統(tǒng)整體性能的關鍵技術。當系統(tǒng)能夠給困難問題分配足夠的計算資源時，AI就能夠進行更深入的推理，從而得出更準確的答案。

實驗還驗證了置信度加權投票策略的有效性。通過給每次AI嘗試的結果分配不同的權重（基于輸出的置信度分數(shù)），系統(tǒng)能夠進一步提升性能。這種方法考慮了AI輸出質(zhì)量的差異，讓那些更有把握的答案在最終決策中發(fā)揮更大作用。

六、理論分析揭示深層規(guī)律

除了實驗驗證，研究團隊還進行了深入的理論分析，揭示了PETS系統(tǒng)工作原理的數(shù)學基礎。他們證明了在預算趨向無限大時，離線和在線兩種分配策略會收斂到相似的預算比例，這為兩種方法的一致性提供了理論保證。

這個收斂性結果很重要，因為它表明雖然離線和在線場景采用了不同的算法策略，但它們在本質(zhì)上是在解決同一個優(yōu)化問題。隨著預算增加，兩種方法給不同難度問題分配的資源比例會趨于一致，這增強了我們對算法理論正確性的信心。

研究團隊還建立了與經(jīng)典概率論的聯(lián)系。他們發(fā)現(xiàn)，AI多次嘗試的過程可以用Beta分布來建模，而最優(yōu)預算分配與信息論中的KL散度有著密切關系。具體來說，每個問題獲得的預算與其難度參數(shù)到均勻分布的KL散度成反比。這個理論結果非常優(yōu)雅，它將直觀的"困難問題需要更多資源"這一思想用嚴格的數(shù)學語言表達出來。

另一個重要的理論發(fā)現(xiàn)是邊際收益遞減規(guī)律的數(shù)學表征。研究團隊證明了對于二分類問題，增加預算帶來的自一致性提升確實是嚴格遞減的。這個性質(zhì)不僅為貪心算法的最優(yōu)性提供了理論基礎，也解釋了為什么均勻分配策略是低效的：它沒有利用這種邊際效用的差異。

七、廣泛應用前景與未來發(fā)展

PETS系統(tǒng)的應用前景非常廣闊。在當前AI系統(tǒng)越來越多地被部署到實際應用中的背景下，計算資源的高效利用變得至關重要。無論是企業(yè)級的AI助手、教育輔導系統(tǒng)，還是科學研究中的自動化推理工具，都可以從PETS的智能資源分配中受益。

在教育領域，PETS系統(tǒng)可以幫助AI輔導系統(tǒng)更好地分配注意力。對于學生提出的簡單問題，系統(tǒng)可以快速給出答案，而對于復雜的概念理解或解題過程，系統(tǒng)會投入更多計算資源來生成詳細的解釋和多角度的分析。這種差異化的服務策略不僅提高了效率，也改善了用戶體驗。

在科學研究中，PETS系統(tǒng)可以應用于自動化的文獻分析、假設生成和實驗設計等任務。不同的研究問題具有不同的復雜度，智能的資源分配可以讓AI系統(tǒng)在處理大規(guī)?？茖W數(shù)據(jù)時更加高效。

企業(yè)級應用也是一個重要的方向。許多公司正在部署AI客服、智能問答和決策支持系統(tǒng)，這些系統(tǒng)每天需要處理大量不同復雜度的查詢。PETS系統(tǒng)可以幫助這些應用在保證服務質(zhì)量的同時顯著降低運營成本。

研究團隊在論文中也指出了一些未來的研究方向。其中一個重要方向是如何訓練模型直接從問題文本預測難度參數(shù)，而不需要通過少量嘗試來估計。這將進一步提高在線場景下的效率。

另一個有趣的研究方向是將PETS的思想擴展到其他類型的AI任務，比如圖像生成、代碼編寫或創(chuàng)意內(nèi)容創(chuàng)作。不同的任務可能需要不同的難度評估方法和分配策略，但核心的智能資源分配思想是通用的。

研究團隊還討論了系統(tǒng)的局限性。當問題的"標準答案"本身就是錯誤的時候，增加更多的計算資源并不能改善結果，反而可能加強錯誤答案的置信度。這提醒我們，智能資源分配只是提升AI系統(tǒng)性能的一個方面，確保訓練數(shù)據(jù)質(zhì)量和模型推理能力同樣重要。

從更廣的視角來看，PETS系統(tǒng)代表了AI系統(tǒng)設計中的一個重要趨勢：從粗放式的資源使用轉(zhuǎn)向精細化的智能管理。隨著AI模型變得越來越大、越來越強大，如何高效地利用這些強大的能力變得越來越重要。PETS系統(tǒng)提供了一個很好的范例，展示了如何通過算法創(chuàng)新來實現(xiàn)這種高效利用。

總的來說，這項研究不僅解決了一個重要的技術問題，也為我們思考AI系統(tǒng)的資源管理提供了新的視角。隨著AI技術的不斷發(fā)展和應用場景的不斷擴展，像PETS這樣的智能資源管理技術將變得越來越重要。它們不僅能夠幫助我們更好地利用現(xiàn)有的計算資源，也為構建更智能、更高效的AI系統(tǒng)奠定了基礎。

對于普通用戶來說，PETS系統(tǒng)帶來的最直接好處就是更快的響應速度和更準確的答案。當你向AI助手詢問問題時，系統(tǒng)能夠快速判斷問題的復雜程度，并給予相應的關注度。簡單問題得到快速回答，復雜問題得到深入分析，這種差異化的服務正是我們期望從智能系統(tǒng)中獲得的體驗。

這項研究的成功也展示了跨學科合作的價值。通過將眾包理論應用到AI推理問題中，研究團隊找到了一個既優(yōu)雅又實用的解決方案。這種跨領域的思維方式為我們解決復雜技術問題提供了啟發(fā)，也預示著未來AI研究中會有更多這樣的創(chuàng)新融合。

Q&A

Q1：PETS系統(tǒng)的核心原理是什么？

A：PETS系統(tǒng)就像一個聰明的資源分配管家，它會根據(jù)問題的難易程度來決定給每個問題分配多少"思考時間"。簡單問題只需要AI試幾次就夠了，而復雜問題需要更多次嘗試才能得到準確答案。系統(tǒng)通過測量"自一致性率"來判斷問題難度，然后智能地分配計算資源，避免了傳統(tǒng)方法中所有問題都獲得相同資源的低效做法。

Q2：PETS系統(tǒng)能節(jié)省多少計算資源？

A：實驗結果顯示，PETS系統(tǒng)的資源節(jié)省效果非常顯著。在離線場景下，相比傳統(tǒng)的均勻分配方法，PETS最多能節(jié)省75%的計算資源；在在線場景下也能節(jié)省55%的資源。更重要的是，這種節(jié)省并沒有犧牲準確性，反而在某些情況下還提高了答題的準確率。

Q3：普通用戶什么時候能用上PETS技術？

A：雖然PETS目前還是一個研究階段的技術，但它的應用前景很廣泛。預計在不久的將來，各種AI助手、教育輔導系統(tǒng)和企業(yè)智能問答工具都可能采用類似的智能資源分配技術。用戶最直接的感受將是AI回答問題時速度更快、準確性更高，簡單問題秒答，復雜問題得到更深入的分析。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.