国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北卡羅來納大學揭秘:讓AI推理更高效的智能預算分配新方法

0
分享至


這項由北卡羅來納大學教堂山分校、紐約大學、耶魯大學等多所知名學府聯(lián)合開展的研究發(fā)表于2026年,論文標題為"PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency",arXiv編號為2602.16745。感興趣的讀者可以通過這個編號查詢完整論文內(nèi)容。

當我們使用大型語言模型解決復雜問題時,經(jīng)常需要讓AI多次嘗試同一個問題,然后通過投票的方式選擇最可能正確的答案。這就像考試時遇到難題,你會在草稿紙上多試幾種解法,最后選擇最有把握的答案一樣。但問題是,每次讓AI"思考"都需要消耗計算資源,就像每次計算都要花費時間和精力。

研究團隊發(fā)現(xiàn)了一個關鍵問題:不同難度的問題其實需要不同數(shù)量的"思考次數(shù)"。簡單的問題可能只需要AI試一兩次就能得到正確答案,而復雜問題可能需要十幾次甚至幾十次嘗試。但目前大多數(shù)系統(tǒng)都采用"一刀切"的方式,給每個問題分配相同的計算資源,這就像用同樣的時間復習簡單的加法和復雜的微積分題,顯然不夠高效。

為了解決這個問題,研究團隊開發(fā)了一個名為PETS的智能系統(tǒng),它能夠根據(jù)問題的難易程度來動態(tài)分配計算資源。這個系統(tǒng)的核心理念很簡單:把有限的計算預算花在最需要的地方,讓簡單問題快速通過,復雜問題獲得足夠的"思考時間"。

一、智能預算分配的核心思想

要理解PETS系統(tǒng)的工作原理,可以把它比作一個聰明的家庭理財顧問。假設你有一筆固定的月收入需要分配給各種開支,一個好的理財顧問不會建議你把每筆錢都平均分配,而是會根據(jù)不同支出的重要性和緊迫性來制定分配方案。房租和水電費是必需的基礎開支,而娛樂和購物則可以根據(jù)剩余預算靈活調(diào)整。

PETS系統(tǒng)的工作方式與此類似。它面對的是一系列需要AI解決的問題,而"預算"就是可用的計算資源。系統(tǒng)會評估每個問題的難度,然后決定給每個問題分配多少"思考次數(shù)"。對于那些AI很容易答對的簡單問題,系統(tǒng)只會分配少量資源,而對于那些需要復雜推理的難題,系統(tǒng)會慷慨地分配更多計算時間。

這種智能分配的關鍵在于準確評估問題難度。研究團隊引入了一個叫做"自一致性率"的概念,簡單來說就是測量AI在有限次嘗試后得出的答案與"標準答案"的一致程度。這個標準答案不是人工標注的,而是假設AI有無限次嘗試機會時最終會收斂到的答案。這就像問一個數(shù)學天才一道題,如果給他無限的時間思考,他最終會得出什么答案。

通過這種方式,PETS系統(tǒng)能夠在不知道正確答案的情況下,評估自己在每個問題上的表現(xiàn),并據(jù)此調(diào)整資源分配策略。這是一個非常聰明的自適應機制,讓系統(tǒng)能夠在實際應用中不斷優(yōu)化自己的決策。

二、離線場景下的最優(yōu)策略

PETS系統(tǒng)針對兩種不同的應用場景設計了相應的策略。第一種是離線場景,就像學生在家做作業(yè)一樣,可以看到所有題目,有充分的時間規(guī)劃如何分配精力。

在這種情況下,系統(tǒng)采用了一種基于眾包理論的創(chuàng)新方法。研究團隊巧妙地發(fā)現(xiàn),AI多次嘗試同一個問題的過程,實際上很像眾包平臺上多個工人完成同一個任務的情況。每次AI的嘗試就像一個工人提交的答案,而系統(tǒng)需要決定雇傭多少個"工人"來完成每個任務。

這個類比非常有啟發(fā)性。在眾包領域,研究者們已經(jīng)開發(fā)出了很多成熟的理論來解決最優(yōu)預算分配問題。PETS系統(tǒng)借鑒了這些理論,特別是貝葉斯自適應分配算法,來解決AI推理中的資源分配問題。

具體來說,系統(tǒng)會維護一個關于每個問題難度的概率估計,這個估計會隨著獲得更多AI嘗試結果而不斷更新。當系統(tǒng)發(fā)現(xiàn)某個問題的答案比較分散,不同嘗試給出了很不一樣的結果時,它會判斷這個問題比較困難,需要更多嘗試。相反,如果AI幾次嘗試都給出了相似的答案,系統(tǒng)就會認為這個問題相對簡單,可以把資源轉(zhuǎn)移到其他更需要的問題上。

這種方法的優(yōu)雅之處在于它是完全自適應的。系統(tǒng)不需要預先知道哪些問題困難哪些問題簡單,而是通過逐步嘗試和學習來發(fā)現(xiàn)這些信息。這就像一個經(jīng)驗豐富的老師在批改作業(yè)時,會根據(jù)學生的答案情況來判斷題目的難度,并相應調(diào)整后續(xù)的教學重點。

三、在線場景下的即時決策

第二種應用場景是在線場景,就像學生在考試中遇到題目需要立即決定花多少時間一樣。在這種情況下,問題是逐個出現(xiàn)的,系統(tǒng)必須在看到每個問題的瞬間就決定分配多少計算資源,不能回頭修改決策。

這種場景的挑戰(zhàn)在于系統(tǒng)無法看到后續(xù)的問題,因此需要基于對問題難度分布的先驗知識來做決策。研究團隊設計了一個聰明的解決方案:首先用少量樣本問題來估計整個問題集合的難度分布,然后基于這個分布來預先計算最優(yōu)的分配策略。

系統(tǒng)的工作流程是這樣的:當一個新問題到來時,系統(tǒng)首先用很少的嘗試次數(shù)快速評估這個問題的大致難度。這就像快速瀏覽一道考試題目,判斷它大概屬于哪個難度級別。然后,系統(tǒng)根據(jù)預先計算好的分配方案,給這個問題分配相應數(shù)量的計算資源。

為了快速準確地評估問題難度,研究團隊開發(fā)了一個基于高斯近似的方法。他們將復雜的多維難度參數(shù)簡化為二維的代理參數(shù),并將整個難度空間離散化為幾個網(wǎng)格。每個網(wǎng)格都有一個代表性的難度參數(shù)和對應的最優(yōu)預算分配。這樣,系統(tǒng)只需要判斷新問題屬于哪個網(wǎng)格,就能立即知道應該分配多少資源。

這種方法的精妙之處在于它在準確性和效率之間找到了很好的平衡。雖然簡化了問題的復雜性,但通過精心設計的近似方法,系統(tǒng)仍然能夠做出高質(zhì)量的分配決策。實驗結果表明,這種在線方法的性能非常接近擁有完整信息的離線方法,證明了其實用價值。

四、算法創(chuàng)新的技術突破

PETS系統(tǒng)在技術層面有幾個重要的創(chuàng)新點。首先是貪心算法的最優(yōu)性證明。在二分類問題中,研究團隊證明了一個簡單的貪心策略實際上就是最優(yōu)策略。這個發(fā)現(xiàn)很重要,因為貪心算法不僅容易實現(xiàn),計算效率也很高。

算法的核心思想是始終優(yōu)先給那些"邊際收益"最大的問題分配更多資源。邊際收益指的是多分配一次嘗試能夠帶來的自一致性提升。這就像投資時優(yōu)先選擇回報率最高的項目一樣,每次都選擇能帶來最大改善的分配方案。

研究團隊還發(fā)現(xiàn)了一個有趣的數(shù)學性質(zhì):對于給定的問題難度,增加嘗試次數(shù)帶來的收益是遞減的。換句話說,第一次嘗試的價值最大,第二次嘗試的價值稍小,依此類推。這個性質(zhì)為貪心算法的最優(yōu)性提供了理論基礎。

在多分類問題中,情況變得更加復雜,因為難度參數(shù)變成了高維向量。為了處理這種復雜性,研究團隊采用了高斯-probit近似方法,將復雜的多項式分布近似為更易處理的高斯分布。這種近似方法在保持足夠精度的同時,大大簡化了計算復雜度。

另一個技術創(chuàng)新是隨機舍入方法。由于實際的預算分配必須是整數(shù),而理論最優(yōu)解可能是分數(shù),系統(tǒng)需要一種方法來處理這種離散化。研究團隊設計了一個巧妙的隨機舍入規(guī)則,能夠保證期望意義下的預算約束得到滿足,同時最小化離散化帶來的性能損失。

五、實驗驗證展現(xiàn)卓越性能

研究團隊在多個具有挑戰(zhàn)性的數(shù)據(jù)集上驗證了PETS系統(tǒng)的有效性,包括GPQA-Diamond、AIME 24和25、HMMT Feb 25、以及BRUMO 25等。這些數(shù)據(jù)集涵蓋了從科學問答到數(shù)學競賽的各種復雜推理任務,為系統(tǒng)性能評估提供了全面的測試環(huán)境。

實驗使用了多個主流的大型語言模型,包括Qwen3系列(4B和30B參數(shù)版本)、GPT-OSS系列(20B和120B參數(shù))以及QwenLong等。這種多樣化的模型選擇確保了實驗結果的普適性和可靠性。

實驗結果令人印象深刻。在GPQA數(shù)據(jù)集上,PETS系統(tǒng)在離線場景下相比均勻分配策略減少了高達75%的計算資源消耗,而在在線場景下也實現(xiàn)了55%的資源節(jié)省。這種顯著的效率提升在其他數(shù)據(jù)集上也得到了一致的驗證。

更重要的是,PETS系統(tǒng)不僅節(jié)省了計算資源,還提高了最終的答題準確率。這說明智能的資源分配不僅僅是一個工程優(yōu)化問題,更是一個能夠提升AI系統(tǒng)整體性能的關鍵技術。當系統(tǒng)能夠給困難問題分配足夠的計算資源時,AI就能夠進行更深入的推理,從而得出更準確的答案。

實驗還驗證了置信度加權投票策略的有效性。通過給每次AI嘗試的結果分配不同的權重(基于輸出的置信度分數(shù)),系統(tǒng)能夠進一步提升性能。這種方法考慮了AI輸出質(zhì)量的差異,讓那些更有把握的答案在最終決策中發(fā)揮更大作用。

六、理論分析揭示深層規(guī)律

除了實驗驗證,研究團隊還進行了深入的理論分析,揭示了PETS系統(tǒng)工作原理的數(shù)學基礎。他們證明了在預算趨向無限大時,離線和在線兩種分配策略會收斂到相似的預算比例,這為兩種方法的一致性提供了理論保證。

這個收斂性結果很重要,因為它表明雖然離線和在線場景采用了不同的算法策略,但它們在本質(zhì)上是在解決同一個優(yōu)化問題。隨著預算增加,兩種方法給不同難度問題分配的資源比例會趨于一致,這增強了我們對算法理論正確性的信心。

研究團隊還建立了與經(jīng)典概率論的聯(lián)系。他們發(fā)現(xiàn),AI多次嘗試的過程可以用Beta分布來建模,而最優(yōu)預算分配與信息論中的KL散度有著密切關系。具體來說,每個問題獲得的預算與其難度參數(shù)到均勻分布的KL散度成反比。這個理論結果非常優(yōu)雅,它將直觀的"困難問題需要更多資源"這一思想用嚴格的數(shù)學語言表達出來。

另一個重要的理論發(fā)現(xiàn)是邊際收益遞減規(guī)律的數(shù)學表征。研究團隊證明了對于二分類問題,增加預算帶來的自一致性提升確實是嚴格遞減的。這個性質(zhì)不僅為貪心算法的最優(yōu)性提供了理論基礎,也解釋了為什么均勻分配策略是低效的:它沒有利用這種邊際效用的差異。

七、廣泛應用前景與未來發(fā)展

PETS系統(tǒng)的應用前景非常廣闊。在當前AI系統(tǒng)越來越多地被部署到實際應用中的背景下,計算資源的高效利用變得至關重要。無論是企業(yè)級的AI助手、教育輔導系統(tǒng),還是科學研究中的自動化推理工具,都可以從PETS的智能資源分配中受益。

在教育領域,PETS系統(tǒng)可以幫助AI輔導系統(tǒng)更好地分配注意力。對于學生提出的簡單問題,系統(tǒng)可以快速給出答案,而對于復雜的概念理解或解題過程,系統(tǒng)會投入更多計算資源來生成詳細的解釋和多角度的分析。這種差異化的服務策略不僅提高了效率,也改善了用戶體驗。

在科學研究中,PETS系統(tǒng)可以應用于自動化的文獻分析、假設生成和實驗設計等任務。不同的研究問題具有不同的復雜度,智能的資源分配可以讓AI系統(tǒng)在處理大規(guī)??茖W數(shù)據(jù)時更加高效。

企業(yè)級應用也是一個重要的方向。許多公司正在部署AI客服、智能問答和決策支持系統(tǒng),這些系統(tǒng)每天需要處理大量不同復雜度的查詢。PETS系統(tǒng)可以幫助這些應用在保證服務質(zhì)量的同時顯著降低運營成本。

研究團隊在論文中也指出了一些未來的研究方向。其中一個重要方向是如何訓練模型直接從問題文本預測難度參數(shù),而不需要通過少量嘗試來估計。這將進一步提高在線場景下的效率。

另一個有趣的研究方向是將PETS的思想擴展到其他類型的AI任務,比如圖像生成、代碼編寫或創(chuàng)意內(nèi)容創(chuàng)作。不同的任務可能需要不同的難度評估方法和分配策略,但核心的智能資源分配思想是通用的。

研究團隊還討論了系統(tǒng)的局限性。當問題的"標準答案"本身就是錯誤的時候,增加更多的計算資源并不能改善結果,反而可能加強錯誤答案的置信度。這提醒我們,智能資源分配只是提升AI系統(tǒng)性能的一個方面,確保訓練數(shù)據(jù)質(zhì)量和模型推理能力同樣重要。

從更廣的視角來看,PETS系統(tǒng)代表了AI系統(tǒng)設計中的一個重要趨勢:從粗放式的資源使用轉(zhuǎn)向精細化的智能管理。隨著AI模型變得越來越大、越來越強大,如何高效地利用這些強大的能力變得越來越重要。PETS系統(tǒng)提供了一個很好的范例,展示了如何通過算法創(chuàng)新來實現(xiàn)這種高效利用。

總的來說,這項研究不僅解決了一個重要的技術問題,也為我們思考AI系統(tǒng)的資源管理提供了新的視角。隨著AI技術的不斷發(fā)展和應用場景的不斷擴展,像PETS這樣的智能資源管理技術將變得越來越重要。它們不僅能夠幫助我們更好地利用現(xiàn)有的計算資源,也為構建更智能、更高效的AI系統(tǒng)奠定了基礎。

對于普通用戶來說,PETS系統(tǒng)帶來的最直接好處就是更快的響應速度和更準確的答案。當你向AI助手詢問問題時,系統(tǒng)能夠快速判斷問題的復雜程度,并給予相應的關注度。簡單問題得到快速回答,復雜問題得到深入分析,這種差異化的服務正是我們期望從智能系統(tǒng)中獲得的體驗。

這項研究的成功也展示了跨學科合作的價值。通過將眾包理論應用到AI推理問題中,研究團隊找到了一個既優(yōu)雅又實用的解決方案。這種跨領域的思維方式為我們解決復雜技術問題提供了啟發(fā),也預示著未來AI研究中會有更多這樣的創(chuàng)新融合。

Q&A

Q1:PETS系統(tǒng)的核心原理是什么?

A:PETS系統(tǒng)就像一個聰明的資源分配管家,它會根據(jù)問題的難易程度來決定給每個問題分配多少"思考時間"。簡單問題只需要AI試幾次就夠了,而復雜問題需要更多次嘗試才能得到準確答案。系統(tǒng)通過測量"自一致性率"來判斷問題難度,然后智能地分配計算資源,避免了傳統(tǒng)方法中所有問題都獲得相同資源的低效做法。

Q2:PETS系統(tǒng)能節(jié)省多少計算資源?

A:實驗結果顯示,PETS系統(tǒng)的資源節(jié)省效果非常顯著。在離線場景下,相比傳統(tǒng)的均勻分配方法,PETS最多能節(jié)省75%的計算資源;在在線場景下也能節(jié)省55%的資源。更重要的是,這種節(jié)省并沒有犧牲準確性,反而在某些情況下還提高了答題的準確率。

Q3:普通用戶什么時候能用上PETS技術?

A:雖然PETS目前還是一個研究階段的技術,但它的應用前景很廣泛。預計在不久的將來,各種AI助手、教育輔導系統(tǒng)和企業(yè)智能問答工具都可能采用類似的智能資源分配技術。用戶最直接的感受將是AI回答問題時速度更快、準確性更高,簡單問題秒答,復雜問題得到更深入的分析。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴鐵:多虧了中國制造!一天報銷115輛坦克!塔利班舉白旗求饒

巴鐵:多虧了中國制造!一天報銷115輛坦克!塔利班舉白旗求饒

他是她的島熊
2026-03-01 11:56:55
日本有一個奇怪的姓氏,不管你怎么取名,譯成中文后都像在罵自己

日本有一個奇怪的姓氏,不管你怎么取名,譯成中文后都像在罵自己

珺瑤婉史
2026-03-01 20:35:03
杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬不要亂拜

杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬不要亂拜

收藏大視界
2026-02-28 23:03:27
你啥時候意識到錢的重要性?網(wǎng)友:錢能解決85%以上的雞毛蒜皮事

你啥時候意識到錢的重要性?網(wǎng)友:錢能解決85%以上的雞毛蒜皮事

帶你感受人間冷暖
2026-02-23 01:22:30
內(nèi)塔尼亞胡:諸多跡象顯示哈梅內(nèi)伊已“不在人世”

內(nèi)塔尼亞胡:諸多跡象顯示哈梅內(nèi)伊已“不在人世”

財聯(lián)社
2026-03-01 03:39:04
哈梅內(nèi)伊被精準斬首!當86歲強人走出地堡:他誤判了什么?

哈梅內(nèi)伊被精準斬首!當86歲強人走出地堡:他誤判了什么?

大江看潮
2026-03-02 07:49:45
婆家吃飯從不等我,一次我特意提前回家,門縫里聽到全家瞞我半年

婆家吃飯從不等我,一次我特意提前回家,門縫里聽到全家瞞我半年

奶茶麥子
2026-03-02 16:00:16
亞馬遜AWS阿聯(lián)酋數(shù)據(jù)中心發(fā)生火災,據(jù)稱是“物體撞擊”所致

亞馬遜AWS阿聯(lián)酋數(shù)據(jù)中心發(fā)生火災,據(jù)稱是“物體撞擊”所致

界面新聞
2026-03-02 09:01:25
早已走投無路!向太揭露曲婉婷真實境遇,這下牢a的話不得不信

早已走投無路!向太揭露曲婉婷真實境遇,這下牢a的話不得不信

一盅情懷
2026-03-02 13:59:03
油價大漲運營受限,航空股集體下跌

油價大漲運營受限,航空股集體下跌

第一財經(jīng)資訊
2026-03-02 13:57:22
男籃世預賽陣容面臨大調(diào)整!3大球星或攜手回歸,郭士強沖擊4連勝

男籃世預賽陣容面臨大調(diào)整!3大球星或攜手回歸,郭士強沖擊4連勝

老葉評球
2026-03-02 20:18:58
伊朗足協(xié)主席悲觀表態(tài):世界杯在美國舉辦,我們已不抱希望

伊朗足協(xié)主席悲觀表態(tài):世界杯在美國舉辦,我們已不抱希望

夜白侃球
2026-03-02 16:10:13
不到48小時,3大名人禁言被封,160萬粉賬號涼涼,不值得同情

不到48小時,3大名人禁言被封,160萬粉賬號涼涼,不值得同情

青橘罐頭
2026-03-02 17:26:53
我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

阿訊說天下
2026-02-21 12:35:11
中國古代單日陣亡最高的戰(zhàn)役:香積寺互砍,4個時辰11萬人陣亡!

中國古代單日陣亡最高的戰(zhàn)役:香積寺互砍,4個時辰11萬人陣亡!

談史論天地
2026-03-01 06:15:00
還要什么歸化,這才是男籃2028奧運周期最強陣容

還要什么歸化,這才是男籃2028奧運周期最強陣容

男足的小球童
2026-02-28 18:17:21
地球表面大部分都被水覆蓋,那么多水到底來自哪里?

地球表面大部分都被水覆蓋,那么多水到底來自哪里?

宇宙時空
2026-03-01 19:40:06
2026比亞迪技術大年:DM?i 6.0登場,新一代刀片電池全面上車

2026比亞迪技術大年:DM?i 6.0登場,新一代刀片電池全面上車

趣味萌寵的日常
2026-03-02 16:28:34
3月2日消息!大滿貫落幕 國乒275萬獎金分配:王楚欽68萬,鰻魚34萬

3月2日消息!大滿貫落幕 國乒275萬獎金分配:王楚欽68萬,鰻魚34萬

皮皮觀天下
2026-03-02 03:45:55
冰火兩重天!孫穎莎4-2奪冠,與頒獎嘉賓熱聊,王曼昱神情落寞

冰火兩重天!孫穎莎4-2奪冠,與頒獎嘉賓熱聊,王曼昱神情落寞

TVB的四小花
2026-03-02 12:39:30
2026-03-02 22:00:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

伊朗公布最新戰(zhàn)況 通報還披露內(nèi)塔尼亞胡行蹤

頭條要聞

伊朗公布最新戰(zhàn)況 通報還披露內(nèi)塔尼亞胡行蹤

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

游戲
數(shù)碼
健康
房產(chǎn)
軍事航空

《GTA6》可能一開始是在PS4平臺開發(fā)

數(shù)碼要聞

小米Tag中國上市 UWB適配小米17系列 最低69元起

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進入關懷版