国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

微軟發(fā)布首個(gè)測試時(shí)擴(kuò)展大規(guī)模研究,還給出了終極指南

0
分享至



機(jī)器之心報(bào)道

編輯:Panda

如果說大模型的預(yù)訓(xùn)練(Pre-training)是一場拼算力、拼數(shù)據(jù)的「軍備競賽」,那么測試時(shí)擴(kuò)展(Test-time scaling, TTS)更像是一場在推理階段進(jìn)行的「即時(shí)戰(zhàn)略游戲」。

現(xiàn)在的共識是:讓模型在回答問題前「多想一會兒」,往往能得到更好的結(jié)果。這聽起來像是一個(gè)完美的免費(fèi)午餐:只要能在推理時(shí)動態(tài)分配更多計(jì)算資源,就能讓模型的智商原地起飛。

但問題來了:我們該怎么讓 LLM「多想」?

好比讓一群學(xué)生做題:是讓一個(gè)學(xué)生反復(fù)修改答案(序列策略)?還是讓一百個(gè)學(xué)生同時(shí)做題然后投票(并行策略)?亦或是讓他們開個(gè)會討論一下(混合策略)?

更重要的是,有些「學(xué)生」(模型)雖然聰明,但想得越多反而越容易鉆牛角尖;而另一些則必須深思熟慮才能解出難題。

究竟哪個(gè) TTS 策略才是那個(gè)「天選之子」?

為了結(jié)束這場盲人摸象般的爭論,微軟終于出手了。

他們進(jìn)行了一項(xiàng)針對 TTS 的系統(tǒng)性研究:涵蓋了從 7B 到 235B 參數(shù)量的 8 個(gè)開源 LLM,在 4 個(gè)推理數(shù)據(jù)集上瘋狂生成了超過 300 億 個(gè) token。



  • 論文標(biāo)題:The Art of Scaling Test-Time Compute for Large Language Models
  • 論文地址:https://arxiv.org/abs/2512.02008

這項(xiàng)研究不僅打破了「一種策略通吃」的幻想,還發(fā)現(xiàn)了一個(gè)顛覆認(rèn)知的現(xiàn)象:模型之間存在著明顯的性格差異,分化為「短視界」和「長視界」兩大陣營。

基于這些洞見,微軟團(tuán)隊(duì)更是直接甩出了一套綜合了問題難度、模型類型和計(jì)算預(yù)算的「實(shí)用配方」。下面,讓我們一起走進(jìn)這項(xiàng)揭示了 LLM 推理本質(zhì)的重磅研究。

測試時(shí)擴(kuò)展方法簡介

LLM 的測試時(shí)擴(kuò)展策略多種多樣,通常分為并行、序列、混合 / 元方法(meta)以及內(nèi)部計(jì)算機(jī)制(圖 2)。雖然每類方法在特定設(shè)置下都顯示出潛力,但沒有單一策略是普遍最佳的



并行擴(kuò)展策略

通過聚合多個(gè)獨(dú)立采樣的推理路徑的答案來提升性能。Self-consistency 對多樣的推理路徑進(jìn)行采樣并選擇出現(xiàn)頻率最高的最終答案,顯著提升了算術(shù)和符號任務(wù)的性能。Best-of-n 采樣作為一種簡單的并行方法被廣泛使用,不過最近也有人提出了更具原則性的投票策略,如加權(quán)多數(shù)投票和多智能體驗(yàn)證(MAV)。Short-m@k 利用了早停機(jī)制:它并行運(yùn)行 k 條推理鏈,并根據(jù)完成路徑的比例提前終止。

序列擴(kuò)展策略

通過迭代式的修正、重啟或回溯來擴(kuò)展推理深度。思維鏈(CoT)提示是一個(gè)基礎(chǔ)理念,隨后的工作如 STaR 和 Reflexion 探索了通過試錯(cuò)或語言自我反思進(jìn)行修正。思維樹(ToT)和思維圖(GoT)通過結(jié)構(gòu)化的廣度優(yōu)先或 DAG 風(fēng)格搜索進(jìn)一步擴(kuò)展了這一點(diǎn)。AlphaGeometry 將符號證明搜索與 LLM 結(jié)合,以實(shí)現(xiàn)步驟級的序列控制。S1 微調(diào)模型以教授自我修正策略,利用了更高的測試時(shí)計(jì)算量。

混合擴(kuò)展策略

該策略融合了以上兩個(gè)維度。Meta-Reasoner 使用上下文多臂老虎機(jī)根據(jù)感知的任務(wù)難度動態(tài)選擇 TTS 策略。AgentTTS 和 START 部署智能體(具有工具調(diào)用能力的 LLM)在直接生成或更復(fù)雜的推理之間進(jìn)行切換。PEARL 交替進(jìn)行草稿生成與修正,模擬自我改進(jìn)循環(huán)。這些元調(diào)度器(meta-schedulers)認(rèn)識到僅靠深度或并行擴(kuò)展是不夠的,旨在根據(jù)模型行為和提示動態(tài)調(diào)整策略。相比之下,內(nèi)部擴(kuò)展策略修改模型在推理過程中的內(nèi)部計(jì)算量,而不顯式調(diào)整外部樣本數(shù)或推理步驟數(shù)。HALT-CoT 和 SoftCoT++ 的方法是估計(jì)答案的不確定性,如果置信度高則提前終止。

沒有哪種策略是普遍最佳的。多項(xiàng)實(shí)證研究加強(qiáng)了這一觀點(diǎn),即沒有 TTS 策略能持續(xù)占據(jù)主導(dǎo)地位。

微軟這項(xiàng)研究分析的算法包括最先完成搜索(First Finish Search, FFS,算法 1)、最后完成搜索(Last Finish Search, LFS,算法 2)和束搜索(Beam Search),前兩者由變量 k 和 N 參數(shù)化,而后者僅由 N 參數(shù)化。





FFS-k@N 意味著采樣 N 個(gè)輸出并在最短的 k 個(gè)樣本中執(zhí)行多數(shù)投票(MV)以確定結(jié)果;而 LFS-k@N 僅僅涉及選擇最長的 k 個(gè)樣本而非最短的,隨后對這些樣本進(jìn)行多數(shù)投票。

束搜索涉及維護(hù)一組高概率的部分假設(shè)(partial hypotheses),并在解碼過程中不斷更新這些前綴。

研究結(jié)果

束搜索顯示出逆擴(kuò)展或無擴(kuò)展

研究的第一個(gè)爆點(diǎn)來自于對經(jīng)典算法束搜索(Beam Search)的宣判。

在實(shí)驗(yàn)中,研究人員觀察到了一個(gè)極其反直覺的現(xiàn)象:在「短視界」和「非推理」這兩個(gè)模型家族中,束搜索表現(xiàn)出了一致的逆擴(kuò)展(inverse-scaling) 模式:隨著束大小 N 的增加,性能單調(diào)下降(圖 1)。



看圖便知,對于像 R1 和 QwQ-32B 這樣的模型,一旦束大小(Beam Size, N)超過 2,準(zhǔn)確率不僅沒有提升,反而像坐過山車一樣急劇下降。

即便是 GPT-OSS-120B 和 Qwen3-32B 這樣的「長視界」模型,增加 N 也未能帶來收益,準(zhǔn)確率曲線要么躺平,要么緩慢下滑。

這意味著什么?意味著在束搜索上投入更多的計(jì)算量(增加 N 會消耗更多 token),不僅是浪費(fèi),甚至是有害的。簡直是花錢買罪受。

推理路徑長度與質(zhì)量的相關(guān)性

這項(xiàng)研究最核心的貢獻(xiàn),在于揭示了推理路徑長度與質(zhì)量之間復(fù)雜的相關(guān)性。這對于深入理解像 FFS 和 LFS 這樣基于長度的過濾策略至關(guān)重要。

FFS 和 LFS 基于兩個(gè)截然相反的觀點(diǎn):越短越好和越長越好。

為了調(diào)查哪種假設(shè)(或哪些假設(shè))適用于特定模型,該團(tuán)隊(duì)報(bào)告了給定推理路徑長度區(qū)間和問題難度下的準(zhǔn)確率(表 1)。



請注意,問題難度是通過所有模型和路徑的平均準(zhǔn)確率來衡量的,而報(bào)告的準(zhǔn)確率是通過特定模型的所有輸出來衡量的。一個(gè)關(guān)鍵的考量是,問題難度與推理路徑長度存在混淆(confounded,圖 3):短路徑通常源于較容易的問題,而長路徑往往對應(yīng)較難的問題。



為緩解這種混淆效應(yīng),他們將分析限制在同時(shí)具有短路徑和長路徑的任務(wù)上。對于每個(gè)此類數(shù)據(jù)集,他們分別計(jì)算短路徑和長路徑的單一準(zhǔn)確率值,然后在數(shù)據(jù)集之間平均這些值,從而防止數(shù)據(jù)集大小的差異不成比例地影響聚合結(jié)果。

結(jié)果,他們將六個(gè)推理模型清晰地劃分為兩大陣營:

1. 短視界模型

  • 代表成員:R1, QwQ-32B, DAPO-32B
  • 行為特征:對于給定的問題難度,更短的推理路徑比更長的路徑更可能是正確的。

這意味著這些模型在推理時(shí)往往「直擊要害」,如果它們開始長篇大論,很可能是在「胡言亂語」或者陷入了無效循環(huán)。

有趣的是,DAPO-32B 盡管使用了 GRPO 等技術(shù),依然表現(xiàn)出與 R1 相似的長度偏置,說明目前的后訓(xùn)練技術(shù)在緩解長度偏置方面可能還很有限。

2. 長視界模型

  • 代表成員:Qwen3-32B, GPT-OSS-120B
  • 行為特征:它們的表現(xiàn)更為復(fù)雜且「世故」。

在簡單問題上,它們傾向于較短的路徑。但在困難問題上,它們則偏好較長的路徑。

這類模型展現(xiàn)出了更強(qiáng)的適應(yīng)性:遇到難題時(shí),它們確實(shí)在利用額外的計(jì)算步驟進(jìn)行有效推理,而非無效空轉(zhuǎn)。

深度分析:預(yù)算與策略的博弈

既然模型性格迥異,那么在給定的計(jì)算預(yù)算(Token 消耗量)下,我們該如何選擇最佳的 k 和 N?



研究團(tuán)隊(duì)通過分析 FFS-k@N 和 LFS-k@N 的性能曲線,發(fā)現(xiàn)了幾個(gè)關(guān)鍵趨勢:

LFS 的奧義在于「全員投票」

對于 LFS 系列方法,給定總計(jì)算量下的最大性能總是當(dāng) k 很大時(shí)(即 k=N)實(shí)現(xiàn)。注意,當(dāng) k=N 時(shí),LFS 實(shí)際上就退化成了 多數(shù)投票(MV-N)。

結(jié)論非常簡單粗暴:在消耗相同 token 的情況下,直接做多數(shù)投票(MV@N)總是優(yōu)于刻意篩選最長路徑的 LFS-k@N。

FFS 的微妙權(quán)衡

對于短視界模型: 較大的 N 值總是最好的。這意味著你應(yīng)該采樣很多樣本,然后從中選出最短的那一批進(jìn)行投票。

對于長視界模型:存在權(quán)衡。如果你想用高計(jì)算量換取高性能,你必須選擇較小的 N(本質(zhì)上是執(zhí)行簡單解碼);而在非推理模型上則相反。

這一分析告訴我們,最佳 TTS 策略是隨著預(yù)算的增加而動態(tài)擴(kuò)展的

終極配方:如何為你的模型選擇 TTS 策略?

基于上述海量實(shí)驗(yàn)數(shù)據(jù),微軟團(tuán)隊(duì)總結(jié)出了一套極具操作性的「決策矩陣」。這不僅是理論分析,更是給算法工程師們的實(shí)戰(zhàn)手冊。



讓我們來拆解這個(gè)配方的內(nèi)在邏輯:

場景一:如果你使用的是「短視界模型」(如 R1, QwQ)

這類模型有個(gè)特點(diǎn):無論題目難易,它們總是覺得「長話短說」的答案更靠譜。

低計(jì)算預(yù)算時(shí):使用 FFS,且設(shè)定 k=1。即:采樣 N 個(gè)答案,直接挑最短的那個(gè)作為最終答案。簡單、快速、有效。

高計(jì)算預(yù)算時(shí): 使用 FFS,且設(shè)定 k=N(等同于 MV@N)。即:采樣 N 個(gè)答案,因?yàn)?N 個(gè)最短路徑就是所有路徑,所以這實(shí)際上就是標(biāo)準(zhǔn)的多數(shù)投票。

核心邏輯:對于短視界模型,性能隨 N 的增大而提升。因此,只要預(yù)算允許,把 N 拉滿,做多數(shù)投票即可。

場景二:如果你使用的是「長視界模型」(如 Qwen3)

這類模型比較「糾結(jié)」,策略選擇稍微復(fù)雜一些。

面對高難度問題(High Difficulty):模型傾向于長路徑。由于 LFS@N 隨 N 增加而提升:

  • 高計(jì)算預(yù)算: 使用大 N 的 MV@N。
  • 低計(jì)算預(yù)算: 使用小 N(理想情況下 N=1)的簡單解碼(SD)。

這里有一個(gè)有趣的結(jié)論:在保持 k=N 的情況下(即 MV),性能隨 k 增大而提升。

面對低難度問題(Low Difficulty):此時(shí)模型偏好短路徑(殺雞焉用牛刀)。

  • 高計(jì)算預(yù)算: 使用大 k 的 FFS。
  • 低計(jì)算預(yù)算: 使用小 k 的 FFS。

在這種設(shè)置下,設(shè)定 N=k(即 MV@N)依然是穩(wěn)健的選擇。

總結(jié)來看,盡管模型類型和任務(wù)難度千差萬別,但最終的「配方」卻表現(xiàn)出了驚人的殊途同歸:對于絕大多數(shù)情況,多數(shù)投票(MV@N) 或者是其變體(如 FFS 中的 k=N)往往是性價(jià)比最高的選擇。特別是對于「短視界」模型,不要試圖通過讓它「多想」來強(qiáng)行提升效果,更多時(shí)候,從大量的快速回答中通過投票篩選出共識,才是正確的打開方式。

微軟的這項(xiàng)研究,實(shí)際上是在為 LLM 的推理能力「祛魅」。它告訴我們,測試時(shí)擴(kuò)展并不是簡單地堆砌算力,更不是盲目地追求更長的思維鏈。

理解模型的「視界」屬性是設(shè)計(jì)高效推理系統(tǒng)的第一步。而在算力昂貴的今天,這份基于 300 億 token 實(shí)測得出的決策配方,無疑為我們節(jié)省了大量的試錯(cuò)成本。

下一次,當(dāng)你準(zhǔn)備讓你的模型「再想一下」時(shí),不妨先查查這份配方,看看你是否正在為一個(gè)「短視界」的模型,強(qiáng)加它并不擅長的長考重?fù)?dān)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大雪暴雪!斷崖式降溫15℃!新一股冷空氣即將來襲,周末出行請注意

大雪暴雪!斷崖式降溫15℃!新一股冷空氣即將來襲,周末出行請注意

環(huán)球網(wǎng)資訊
2025-12-19 14:16:06
鄭麗文宣戰(zhàn)賴清德,蔣萬安果斷站隊(duì),朱立倫回應(yīng),藍(lán)營一人跳反

鄭麗文宣戰(zhàn)賴清德,蔣萬安果斷站隊(duì),朱立倫回應(yīng),藍(lán)營一人跳反

博覽歷史
2025-12-18 18:21:05
TA:告別或許臨近,瓜迪奧拉為英超留下了獨(dú)一無二的時(shí)代

TA:告別或許臨近,瓜迪奧拉為英超留下了獨(dú)一無二的時(shí)代

懂球帝
2025-12-19 14:05:11
方永飛公開怒懟小米雷軍:還要不要一點(diǎn)臉,吹牛界祖師爺!

方永飛公開怒懟小米雷軍:還要不要一點(diǎn)臉,吹牛界祖師爺!

熱點(diǎn)科技
2025-12-19 15:01:57
5天已過,七國集團(tuán)要救黎智英,中方強(qiáng)敵全上場,蔡正元一語道破

5天已過,七國集團(tuán)要救黎智英,中方強(qiáng)敵全上場,蔡正元一語道破

策略述
2025-12-19 14:17:49
突發(fā)重磅:歐盟達(dá)成協(xié)議,為烏克蘭提供900億歐元援助!

突發(fā)重磅:歐盟達(dá)成協(xié)議,為烏克蘭提供900億歐元援助!

近距離
2025-12-19 12:53:57
絲芭傳媒稱鞠婧祎“涉嫌嚴(yán)重經(jīng)濟(jì)犯罪”,擇日將全網(wǎng)公開實(shí)名舉報(bào),鞠婧祎方暫無回應(yīng);此前被曝收入:稅前已支付超1.39億元

絲芭傳媒稱鞠婧祎“涉嫌嚴(yán)重經(jīng)濟(jì)犯罪”,擇日將全網(wǎng)公開實(shí)名舉報(bào),鞠婧祎方暫無回應(yīng);此前被曝收入:稅前已支付超1.39億元

揚(yáng)子晚報(bào)
2025-12-18 12:26:39
SU7交付中心撞死人后續(xù):車主剛拿駕照,符合小米用戶畫象

SU7交付中心撞死人后續(xù):車主剛拿駕照,符合小米用戶畫象

胡嚴(yán)亂語
2025-12-19 15:45:33
4300萬粉絲網(wǎng)紅劉二狗賬號被封

4300萬粉絲網(wǎng)紅劉二狗賬號被封

三言科技
2025-12-18 08:48:13
中學(xué)生務(wù)工時(shí)在公司宿舍被打致死,施暴者無刑責(zé)能力 父母起訴多方索賠144萬,一審判了

中學(xué)生務(wù)工時(shí)在公司宿舍被打致死,施暴者無刑責(zé)能力 父母起訴多方索賠144萬,一審判了

紅星新聞
2025-12-19 17:06:17
黑色幽默!電詐園區(qū)辦公室中文標(biāo)語,簡直是天大的諷刺

黑色幽默!電詐園區(qū)辦公室中文標(biāo)語,簡直是天大的諷刺

詩意世界
2025-12-19 09:00:03
馬未都為龐家后人發(fā)聲,犀利點(diǎn)出關(guān)鍵,揭開南京博物院“遮羞布”

馬未都為龐家后人發(fā)聲,犀利點(diǎn)出關(guān)鍵,揭開南京博物院“遮羞布”

好賢觀史記
2025-12-19 16:40:00
男子被下病危通知書后,最后一次幫孩子剪指甲,妻子問丈夫是否舍不得孩子:“癌痛那么久,他第一次哭”

男子被下病危通知書后,最后一次幫孩子剪指甲,妻子問丈夫是否舍不得孩子:“癌痛那么久,他第一次哭”

環(huán)球網(wǎng)資訊
2025-12-19 09:51:03
新起點(diǎn) 新機(jī)遇——海南自貿(mào)港啟動全島封關(guān)首日見聞

新起點(diǎn) 新機(jī)遇——海南自貿(mào)港啟動全島封關(guān)首日見聞

新華社
2025-12-18 21:42:38
啥也管!網(wǎng)傳河南一幼兒園發(fā)通知禁開燃油車接送孩子,教體局回應(yīng)

啥也管!網(wǎng)傳河南一幼兒園發(fā)通知禁開燃油車接送孩子,教體局回應(yīng)

戶外釣魚哥阿勇
2025-12-19 02:24:35
突發(fā)!又一保險(xiǎn)公司“人去樓空”,CEO被帶走調(diào)查?

突發(fā)!又一保險(xiǎn)公司“人去樓空”,CEO被帶走調(diào)查?

毒sir財(cái)經(jīng)
2025-12-18 23:25:25
15歲女孩遭同班14歲男生殺害,案發(fā)后還淡定跟隨家人外出采蘑菇

15歲女孩遭同班14歲男生殺害,案發(fā)后還淡定跟隨家人外出采蘑菇

半島晨報(bào)
2025-12-19 09:48:45
炸裂!26歲女子猥褻12歲侄子,丈夫披露事發(fā)細(xì)節(jié),鑒定結(jié)果引質(zhì)疑

炸裂!26歲女子猥褻12歲侄子,丈夫披露事發(fā)細(xì)節(jié),鑒定結(jié)果引質(zhì)疑

派大星紀(jì)錄片
2025-12-19 11:47:05
深圳最新通報(bào):禁言

深圳最新通報(bào):禁言

中國日報(bào)網(wǎng)
2025-12-19 18:33:04
山東省紀(jì)委監(jiān)委通報(bào),1人主動投案,1人被查

山東省紀(jì)委監(jiān)委通報(bào),1人主動投案,1人被查

齊魯壹點(diǎn)
2025-12-19 17:28:52
2025-12-19 19:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

普京:俄羅斯目前沒有看到烏克蘭討論領(lǐng)土問題的意愿

頭條要聞

普京:俄羅斯目前沒有看到烏克蘭討論領(lǐng)土問題的意愿

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

親子
數(shù)碼
健康
手機(jī)
公開課

親子要聞

寶藍(lán)和姐姐蜘蛛俠一起去游樂園拍照吃零食,玩的太開心了!

數(shù)碼要聞

DDR5暴漲:玩家呼吁AMD銳龍7 5800X3D回歸!你同意嗎

這些新療法,讓化療不再那么痛苦

手機(jī)要聞

榮耀WIN官宣搭載第五代驍龍8至尊版:跑分破440萬屠榜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版