網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

開源模型橫掃21個科學任務(wù)!寬德Will聯(lián)手斯坦福清北,試錯變武器

2026-04-26 13:19:19　來源: 機器之心Pro

河北舉報

分享至

編輯｜Sia

不是讓模型更聰明，而是讓試錯本身變得更高效。有了這套框架「傍身」，普通開源模型也能「逆襲」做出驚人科學發(fā)現(xiàn)。

假設(shè)你手里只有一筆有限預(yù)算，要去搏一項未知的科學發(fā)現(xiàn)。你會怎么選？

把錢全砸給一個頂級模型（比如 OpenAI o1、DeepSeek），讓它長時間深思熟慮，試圖一擊即中？

還是反過來，搭一個「想法實驗室」——同時跑幾十、上百個實驗假設(shè)，讓它們彼此競爭、快速淘汰，最后篩出最有潛力的解？

前者，是我們熟悉的大模型敘事：相信「更聰明的大腦 + 更深的推理」，就能逼近真理。

最近，寬德智能學習實驗室（ Will ）聯(lián)合斯坦福、清華、北大等頂尖高校發(fā)布的一項新研究卻表明，科學發(fā)現(xiàn)的上限，不只是模型有多聰明，而是如何組織試錯與評估

Will 是頂級量化私募寬德投資獨立孵化的研究機構(gòu)，秉持「AI for Good 」與長期主義，致力于構(gòu)建服務(wù)科學與技術(shù)的通用人工智能（ ASI ）基礎(chǔ)平臺，賦能人類實現(xiàn)科學發(fā)現(xiàn)與技術(shù)創(chuàng)新。實驗室還作為贊助商參與了今年 ICLR 。

不同于側(cè)重論文產(chǎn)出的實驗室，Will 是一個深度融合研究與工業(yè)落地的全棧式「創(chuàng)新中樞」，在北京、上海、紐約均設(shè)有辦公室，依托頂級算力與數(shù)據(jù)資源，利用全鏈路工程實踐解決真實挑戰(zhàn)，用極致工程水準定義未來的科學發(fā)現(xiàn)。

論文地址：
https://www.wizardquant.com/will/simpletes

這篇名為Evaluation-driven Scaling for Scientiffc Discovery的研究，提出了一項足以讓開源模型「暴力逆襲」的通用框架 SimpleTES。

它將試錯拆解為三個可調(diào)度的維度，并在此基礎(chǔ)上實現(xiàn)「測試時擴展」（ test-time scaling ），讓開源模型在 21 項前沿科學任務(wù)中集體「封神」。

不僅刷新了多項 SOTA，甚至在數(shù)學構(gòu)造、代碼優(yōu)化等領(lǐng)域，反超人類專家和那些頂級閉源模型。

在尋找使自卷積比 R 最大化的非負函數(shù) f 這一任務(wù)上的擴展范式對比。以推理為中心（reasoning-centric）和以評估為中心（evaluation-centric）的方法都只專注于單一軸線的擴展，并最終陷入平臺期（增長停滯）。SimpleTES通過四項獨立的學術(shù)突破，實現(xiàn)了雙軸協(xié)同擴展，并達到了新的行業(yè)領(lǐng)先水平（SOTA）。

實驗表明，針對不同類型的科學任務(wù)，動態(tài)平衡這三個軸的算力分配，是超越現(xiàn)有 SOTA解的關(guān)鍵。

這，還只是 Will 野心版圖中的第一塊拼圖。

在評估驅(qū)動的科學發(fā)現(xiàn)引擎之外，Will 同時還在推進另外兩條關(guān)鍵路徑：自研基座大模型，以及面向科學研究的方法論探索。

三條線并行推進，在當前 AI 研究機構(gòu)中并不多見。但他們的目標并不局限于單點突破，而是從零構(gòu)建一整套面向科學發(fā)現(xiàn)的 AI 基礎(chǔ)設(shè)施

在這套體系中，AI 不再只是「回答問題的系統(tǒng)」，而是逐步演化為能夠參與完整科研閉環(huán)的主體。

換句話說，他們最終想實現(xiàn)的，是讓 AI 學會做科研。

被忽略的「第三極」：生成-評估的閉環(huán)

其實，在 AI4S 這件事上，大家已經(jīng)卷過一輪了。

一派思路很直接，繼續(xù)往「更聰明的模型」上加碼——更長的推理鏈、更復雜的 Agent 流程、更強的閉源模型，認為只要多想一會兒、多對話幾輪，總能逼近新發(fā)現(xiàn)。

也有人把目光轉(zhuǎn)向「試錯循環(huán)」：生成 → 評估 → 改進，跑上幾輪，拿到一個還不錯的結(jié)果就收手（典型如 AlphaEvolve 一路）。

但問題在于，大家?guī)缀醵荚诜糯蟆干蓚?cè)的算力」，卻很少真正放大「評估反饋」本身。于是，一些老問題反復上演。

比如，經(jīng)典的順序改進（ Sequential Refinement ），本質(zhì)是單路徑搜索，一旦早期方向選錯，后面只會越修越偏。

科學問題往往是多目標、強約束的復雜空間，哪怕模型再強，也很難「一路推理」跨過去。

即使引入評估，反饋也不過是搜索流程的一個組件。更別提，這類系統(tǒng)高度依賴人工設(shè)計，工程復雜度極高，可歸因和可遷移性都很差。

卡爾·波普爾說過，科學知識的增長，來自一輪輪基于「猜想—反駁」的證偽。如果把「試錯 + 評估」本身，做成一個可以規(guī)�；⒖梢宰詣诱{(diào)度資源、可以持續(xù)放大有效信號的系統(tǒng)，會發(fā)生什么？

SimpleTES ：

把試錯變成一臺可以擴展的流水線

這篇工作的關(guān)鍵突破在于，把試錯、探索拆成一套可以被調(diào)度、可以被擴展、甚至可以被優(yōu)化的計算流程。

核心是三個維度，非常極簡：

C（ Concurrency ）：并行多少條軌跡
L（ Length ）：每條軌跡走多深
K（ K-candidates ）：每一步生成多少候選

這三件事拼在一起，本質(zhì)上是在做一件此前很少被正視的事情：把算力，從「堆模型能力」，轉(zhuǎn)移到「精細分配搜索成本」�？茖W發(fā)現(xiàn)，從「靈光一現(xiàn)」，變成了一種可以被系統(tǒng)性放大的過程。

測試時評估驅(qū)動的循環(huán)縮放架構(gòu)及其三維縮放維度。左側(cè)展示了基于策略網(wǎng)絡(luò)、生成器與評估器的閉環(huán)迭代過程，通過 L次循環(huán)實現(xiàn)軌跡優(yōu)化。右側(cè)定義了縮放的三維空間：全局寬度 C、細化深度 L和局部樣本量 K。

1、看得更廣：C（并行探索）

不再「一條路走到黑」，同時啟動 C 條獨立軌跡，各自探索不同方向。避免開局選錯方向，后面全盤皆輸」。在復雜科學問題里，「想得更深」之前，必須先「看得更廣」。

2、走得更深：L（迭代改進）

每一條軌跡，都不是一次性生成，而是在 evaluator（驗證器、打分函數(shù)、模擬器等）的驅(qū)動下持續(xù)迭代。關(guān)鍵點在于評估，不再只是「打分器」，而是「方向控制器」。每一次反饋，都會微調(diào)搜索路徑，把模型一點點推向更優(yōu)解。

3、選得更準：K（局部篩選）

每一步不是生成一個解，而是生成 K 個，再只保留最優(yōu)的那個。這一步相當于在局部做了一次「小進化」，把噪聲遺忘，避免劣質(zhì)解污染后續(xù)軌跡。

三維框架一旦確定，一個現(xiàn)實問題撲面而來：歷史軌跡越來越多，但上下文裝不下。

SimpleTES 的做法是，不把歷史當「記錄」，而是當「資源池」。哪些經(jīng)驗?zāi)苓M prompt，被視為一個調(diào)度問題。他們引入 RPUCG（類似 UCB 的策略）：一邊優(yōu)先高分或「曾經(jīng)啟發(fā)出好結(jié)果」的節(jié)點，一邊給低頻節(jié)點加探索補償。

這其實是在 prompt 層做了一次「探索-利用權(quán)衡」，既不放過熱門路徑，也不忽視冷門潛力，避免搜索早早收斂到局部最優(yōu)。

除了三維框架這一結(jié)構(gòu)性的核心創(chuàng)新，SimpleTES 也從根本上解決了 AI 在科研決策中的短視挑戰(zhàn)。

傳統(tǒng)方法會優(yōu)化每一步的 reward，但這樣會讓模型越來越保守。而科學發(fā)現(xiàn)恰恰需要允許早期「走彎路」。因此，在 Trajectory-Level Post-training 中，SimpleTES 直接換了訓練目標，不看每一步，只看整條軌跡的最終最好結(jié)果。具體做法很利落：

一條完整探索軌跡等于一個 rollout ，忽略中間所有 step reward ；

用「最高分」作為唯一監(jiān)督信號，反向賦給整條路徑；

再配上簡單但有效的策略：只保留 top R% 的軌跡（我要精英），截斷無效后綴，用 replay buffer 持續(xù)累積經(jīng)驗

結(jié)果，模型學到的不是「下一步怎么更對」，而是「怎樣的一整條探索路徑更可能成功」。

這套 Trajectory-Level Post-training 如同煉金術(shù)，把「搜索能力」蒸餾進模型本身，使其逐漸形成一種接近「科研直覺」的能力。

基礎(chǔ)模型與后訓練模型在多維度科學任務(wù)下的表現(xiàn)對比。重點展示了模型在域內(nèi)（ID）與域外（OOD）環(huán)境下的適應(yīng)性差異，加粗項反映了后訓練技術(shù)對模型邏輯推理和泛化能力的提升。

21個結(jié)果，21次振奮

結(jié)果顯示（設(shè)定 C=32, L=100, K=16），在六大領(lǐng)域、21 個科學問題上跑通一整套「試錯流水線」，只用 gpt-oss 這樣的開源模型，就能不斷刷出新的最優(yōu)解，甚至把不少前沿閉源模型和精心調(diào)整過的優(yōu)化流程都壓了過去。

在許多硬核的領(lǐng)域也突破了人類最佳紀錄。

該方法涵蓋的量子電路編譯、GPU 核函數(shù)優(yōu)化等六大科學應(yīng)用領(lǐng)域。

在 SimpleTES 框架的加持下，開源模型不僅超越了眾多閉源模型，在許多硬核的領(lǐng)域也突破了人類最佳紀錄。

以下是三個特別有沖擊力的發(fā)現(xiàn)。

1、LASSO 路徑求解（算法工程）

LASSO 是統(tǒng)計學、生物信息學和金融建模中極其基礎(chǔ)且廣泛使用的算法。像 glmnet 這種標準解法，本質(zhì)是幾十年工程經(jīng)驗的結(jié)晶。

SimpleTES 做的不是微調(diào)，而是直接改寫解法。在保證精度（誤差 ≤1e-6）完全一致的前提下，平均比 glmnet 快2.17 倍，比 sklearn 快14 倍以上

關(guān)鍵是它怎么做到的。傳統(tǒng)方法基本是固定策略，而 SimpleTES 最終演化出來一套按問題結(jié)構(gòu)動態(tài)切換的混合解法。

當問題處在某個幾何區(qū)間（比如中等維度、樣本不太少）時，它直接放棄 coordinate descent，切換到 LARS homotopy 路徑算法，沿著正則路徑解析式推進；在高維稀疏或更復雜結(jié)構(gòu)下，保留 coordinate descent，再配合更激進的篩選機制。

這也是最有意思的地方，算法設(shè)計本身，開始變成可以被大規(guī)模試錯搜出來的東西。

再看 AtCoder 這種比賽就更直觀了。這類題本質(zhì)上沒有標準解，拼的是「解題套路」和「搜索策略」。SimpleTES 從零開始，獨立發(fā)現(xiàn)了如「多起點模擬退火」等極具競爭力的程序，得分以絕對優(yōu)勢全面超越所有人類玩家記錄與現(xiàn)有的 AI 解決方案。

2、量子比特路由（量子電路編譯）

這個任務(wù)更有硬件味：量子門只能在相鄰比特上執(zhí)行，不相鄰就必須插入 SWAP，把量子態(tài)搬過去。問題在于，每多一個 SWAP，電路就更慢、更不穩(wěn)定。

所以，需要在保證所有操作可執(zhí)行的前提下，把 SWAP 數(shù)量壓到最低。但難點在于，這也是個典型的長程組合優(yōu)化問題——你現(xiàn)在做的一個交換，會影響后面所有步驟。

目前，主要由頂尖的量子物理學家和計算機科學家設(shè)計的啟發(fā)式算法來處理。

結(jié)果，SimpleTES 在不同量子計算機平臺架構(gòu)上均展現(xiàn)了強大的編譯優(yōu)化能力，有效降低了滿足硬件約束的執(zhí)行開銷。

在超導架構(gòu)上，SimpleTES 在整體上比經(jīng)典算法 SABRE 提升 21.7%，比改進版 LightSABRE 提升 14.9%。在 IBM Q20 實例上更是將 SWAP 門開銷降低了 24.5%。

在分區(qū)中性原子架構(gòu)上，其發(fā)現(xiàn)的編譯策略在 36 個多樣化電路中將平均執(zhí)行時間縮短了 33.2%，穩(wěn)定提升了絕大多數(shù)測試用例的表現(xiàn)。

可見，當評估循環(huán)縮放到足夠大時，AI 能夠通過寬度探索出人類直覺無法觸及的怪異但高效的路徑。在嚴謹?shù)奈锢砑s束下，AI 也可以成為真正的發(fā)現(xiàn)者。

3、Erd?s 最小重疊問題（數(shù)學極值分析）

這是一個典型的極值構(gòu)造難題：搜索空間巨大且極其崎嶇，只要某個位置稍微偏一點，整體重疊就會瞬間放大，幾乎就是在針尖上跳舞。

結(jié)果也很有意思——人類和現(xiàn)有 AI 基本都卡在 0.38087 附近，已經(jīng)接近公認極限。但 SimpleTES 還是硬生生往下?lián)噶艘稽c：做到 0.380868，甚至在額外搜索中達到 0.380856。表面看只是小數(shù)點后幾位，在這種問題里卻是實打?qū)嵉摹笜O限推進」。

更關(guān)鍵的是，這個提升幾乎和模型大小無關(guān)，而是來自搜索過程本身：既沒錯過正確方向，也有足夠耐心往下?lián)讣毠?jié)，同時還把隨機性壓到最低。

這已經(jīng)不是「更聰明的模型」，而是更高效的試錯機制在發(fā)揮作用。

AI4S 新范式：

把「試錯閉環(huán)」當成一等公民

如果說以 OpenAI o1 為代表的推理模型，開啟了「深度思考」的縮放時代，那么 SimpleTES 做的，是把另一件長期被低估的能力，推上主舞臺——嘗試與驗證，本身也可以被縮放。

但這套方法，也不是沒有邊界。

SimpleTES 的能力，本質(zhì)上被一個東西「鎖死」：評估器（evaluator）。它之所以有效，是因為每一步試錯都能被快速、明確地打分。一旦進入那些評估昂貴、主觀、或者必須依賴真實世界反饋的領(lǐng)域，這套機制就會變得吃力，因為你已經(jīng)沒法再高頻地「試—評—改」。

另一個限制在于算力怎么分。三個維度現(xiàn)在還是手動調(diào)的，而不同任務(wù)、不同階段，其實最優(yōu)分配完全不一樣。真正理想的狀態(tài)，是系統(tǒng)能根據(jù)搜索進展動態(tài)調(diào)整，而不是一開始就把資源「寫死」。

還有，這套方法天然適合「有連續(xù)分數(shù)」的世界。但在一些更離散的場景（比如定理證明），對錯之間沒有細粒度反饋，很多「差一點」的嘗試看起來是一樣的失敗，這會讓搜索信號變得模糊，甚至誤導方向。

因此，Will 下一步，不只是把試錯做大，還要讓它更聰明，從一個高頻運轉(zhuǎn)的計算閉環(huán)，進化為一個真正具備理解、判斷與探索能力的系統(tǒng)。

當「試錯」不再只是蠻力搜索，而開始具備結(jié)構(gòu)感和方向感時，AI4S 的上限，才會真正被打開。

目前，基于 SimpleTES 方法構(gòu)建的試用平臺已經(jīng)在 Will 官網(wǎng)上線，歡迎大家前往申請加入 Waitlist，率先體驗這一全新的科研范式。

https://www.wizardquant.com/will/simpletes

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.