国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Squeeze Evolve:無需驗(yàn)證器實(shí)現(xiàn)推理新SOTA

0
分享至



本文由加州大學(xué)伯克利分校、德克薩斯大學(xué)奧斯汀分校、斯坦福大學(xué)、普林斯頓大學(xué)與 Together AI 的研究團(tuán)隊(duì)共同完成。研究團(tuán)隊(duì)致力于探索大語言模型推理優(yōu)化、多模型協(xié)同與高效計(jì)算等前沿方向。

本文作者Monishwaran 和 Leon Lakhani 來自 UC Berkeley,研究方向?yàn)榇笳Z言模型。指導(dǎo)教師是UT Austin 助理教授徐晨豐(研究方向?yàn)楦咝C(jī)器學(xué)習(xí))和Stanford 教授 James Zou(研究方向?yàn)闄C(jī)器學(xué)習(xí)、計(jì)算生物學(xué)等)。



  • 論文鏈接:https://arxiv.org/abs/2604.07725
  • 項(xiàng)目主頁:https://squeeze-evolve.github.io
  • 代碼倉(cāng)庫(kù):https://github.com/squeeze-evolve/squeeze-evolve



每個(gè)大語言模型都有其能力天花板。增加推理預(yù)算、生成更多候選、運(yùn)行更多優(yōu)化循環(huán) —— 單個(gè)模型只是在重復(fù)同樣的先驗(yàn)知識(shí)、同樣的失敗模式、同樣的盲點(diǎn)。其生成的答案種群會(huì)逐漸收斂并停滯不前。

如果突破天花板的方法不是更大的模型,而是一套協(xié)同進(jìn)化的模型系統(tǒng)呢?

這就是 Squeeze Evolve 的核心理念:一個(gè)多模型進(jìn)化框架,通過編排具有不同優(yōu)勢(shì)、失敗模式和推理風(fēng)格的模型,在無需任何外部驗(yàn)證器的情況下,產(chǎn)生任何單一模型都無法單獨(dú)實(shí)現(xiàn)的能力。

研究背景

測(cè)試時(shí)擴(kuò)展(Test-time Scaling)通過生成多個(gè)候選答案并通過選擇和重組進(jìn)行迭代優(yōu)化,使模型能夠「更深入地思考」。當(dāng)與外部驗(yàn)證器配合使用時(shí),這種進(jìn)化方法已在代碼生成和科學(xué)發(fā)現(xiàn)領(lǐng)域取得突破。

然而,在許多重要領(lǐng)域(例如等離子體模擬、濕實(shí)驗(yàn)室實(shí)驗(yàn)、開放式數(shù)學(xué)推理等),驗(yàn)證要么成本過高、速度過慢,要么根本不可用。進(jìn)化必須在沒有真實(shí)反饋的情況下進(jìn)行。

這就是無驗(yàn)證器進(jìn)化,它面臨一個(gè)根本性問題:單模型種群會(huì)崩潰。

沒有外部校正時(shí),模型會(huì)放大它已經(jīng)知道如何識(shí)別和重現(xiàn)的軌跡。丟棄數(shù)量極少但正確的方案。因此,多樣性在進(jìn)化中至關(guān)重要。一旦多樣性喪失,就無法恢復(fù),后續(xù)循環(huán)只能重組幸存軌跡的后代,陷入狹窄的解空間模式。

這就是為什么單純擴(kuò)大單個(gè)模型的推理預(yù)算會(huì)遇到收益遞減。瓶頸不是算力,而是多樣性。



方法概述

不同模型具有不同的先驗(yàn)知識(shí)、不同的訓(xùn)練數(shù)據(jù)分布、不同的失敗模式。當(dāng)它們參與同一個(gè)進(jìn)化過程時(shí),能夠維持單一模型無法獨(dú)立保持的互補(bǔ)譜系。

一個(gè)推理模型可能擅長(zhǎng)多步邏輯推理,但在空間推理上表現(xiàn)不佳。一個(gè)指令微調(diào)模型可能整體較弱,但帶來不同的歸納偏置,保留了推理模型會(huì)剪枝的解決路徑。即使是一個(gè)小得多的模型也能做出有意義的貢獻(xiàn) —— 不是因?yàn)樗?individually 更強(qiáng),而是因?yàn)樗?strong>以不同的方式犯錯(cuò)。

這就是 Squeeze Evolve 能夠超越任何單一模型能力的機(jī)制。多模型編排不僅僅是成本工程 —— 它是能力放大器。

研究團(tuán)隊(duì)發(fā)現(xiàn)了三個(gè)關(guān)鍵實(shí)證結(jié)果:

  1. 初始化主導(dǎo)最終準(zhǔn)確性:Loop 0(初始種群)的質(zhì)量是最終性能的最強(qiáng)預(yù)測(cè)因子。在 AIME 2025 上,反轉(zhuǎn)初始化模型和重組模型的角色會(huì)導(dǎo)致準(zhǔn)確率下降高達(dá) 23 個(gè)百分點(diǎn)。最強(qiáng)模型必須錨定起始種群。
  2. 當(dāng)候選集足夠強(qiáng)時(shí),弱模型是強(qiáng)大的聚合器:當(dāng)一個(gè)組已經(jīng)包含正確軌跡時(shí),即使小得多的模型也能有效聚合它們 —— 接近 100% 的準(zhǔn)確率。昂貴模型的優(yōu)勢(shì)集中在最難、最不確定的組上。在其他地方,便宜模型不僅足夠,而且充分。
  3. 模型置信度預(yù)測(cè)哪里需要能力:從 token 對(duì)數(shù)概率導(dǎo)出的組置信度(Group Confidence, GC)能夠清晰地區(qū)分包含正確軌跡的組和不包含的組。這個(gè)信號(hào)是沒有任何成本的(在推理過程中產(chǎn)生),適用于不同模型家族,并直接告訴我們哪些組需要昂貴模型,哪些可以安全地交給便宜模型處理。



實(shí)驗(yàn)評(píng)估

研究團(tuán)隊(duì)在數(shù)學(xué)推理、視覺理解、科學(xué)發(fā)現(xiàn)等多個(gè)領(lǐng)域進(jìn)行了系統(tǒng)驗(yàn)證。相比單模型 RSA 基線:

  • AIME 2025:GPT-OSS-20B 與 GPT-5 mini 組合后以 55% 成本超越 GPT-5 mini(95.4% vs 94.2%)



  • MMMU-Pro:使用 Qwen3.5-35B-A3B 和 Kimi-2.5-Thingking 的組合以 43% 的成本超越 Kimi-2.5-Thingking 單模型(79.1% vs 78.6%)



  • ARC-AGI-V2:使用 Gemini3 3.1 Pro 大幅超越此前的 RSA 方法 (3.7x 成本節(jié)約,93.3?97.5% 準(zhǔn)確率提升)



  • 圓堆積問題:無需驗(yàn)證器的情況下使用開源模型(GPT-OSS 120B + 20B)效果匹配基于驗(yàn)證器的閉源 AlphaEvolve 基線方法(使用 Gemini-2.0 Pro + Flash)



  • 在所有 8 個(gè)基準(zhǔn)測(cè)試上成本降低 1.4–3.3x,吞吐量提升 4–10x



總結(jié)與展望

Squeeze Evolve 的核心洞見是:單個(gè)模型的天花板不是模型系統(tǒng)的天花板。

通過將現(xiàn)有的測(cè)試時(shí)擴(kuò)展方法統(tǒng)一到共同的進(jìn)化框架中,研究團(tuán)隊(duì)揭示了一個(gè)設(shè)計(jì)空間,在這個(gè)空間中,模型根據(jù)它們的能力在何處具有最高邊際效用被分配到進(jìn)化角色。結(jié)果不僅僅是更便宜的推理 —— 而是真正更強(qiáng)的推理。協(xié)同進(jìn)化的模型產(chǎn)生它們單獨(dú)無法產(chǎn)生的解決方案。

這將測(cè)試時(shí)擴(kuò)展從「在更大的模型上花更多錢」重新定義為多模型系統(tǒng)優(yōu)化問題。前沿不是僅由單個(gè)模型能力推動(dòng)的 —— 而是由你如何智能地編排已有模型推動(dòng)的。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46
吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國(guó)買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請(qǐng)賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請(qǐng)賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個(gè)隱私,是性感嗎?

女性跑步:暴露這個(gè)隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場(chǎng)

在中國(guó)人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場(chǎng)

侃故事的阿慶
2026-05-06 09:21:32
被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國(guó)工廠說關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

8.84億的美國(guó)工廠說關(guān)就關(guān)?曹德旺:美國(guó)不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無前例

中美同時(shí)向全球下達(dá)禁令,各國(guó)都傻眼了!美媒:中國(guó)此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購(gòu)百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購(gòu)百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

房產(chǎn)
親子
健康
家居
手機(jī)

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉(cāng)凱旋新世界

親子要聞

52歲王小騫做夢(mèng)也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

干細(xì)胞治燒燙傷面臨這些“瓶頸”

家居要聞

大膽前衛(wèi) 時(shí)尚大宅

手機(jī)要聞

谷歌推送5月Pixel手機(jī)更新,修復(fù)無線充電慢、相機(jī)卡死等問題

無障礙瀏覽 進(jìn)入關(guān)懷版