国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開源模型橫掃21個科學任務(wù)!寬德Will聯(lián)手斯坦福清北,試錯變武器

0
分享至



編輯|Sia

不是讓模型更聰明,而是讓試錯本身變得更高效。有了這套框架「傍身」,普通開源模型也能「逆襲」做出驚人科學發(fā)現(xiàn)。

假設(shè)你手里只有一筆有限預(yù)算,要去搏一項未知的科學發(fā)現(xiàn)。你會怎么選?

把錢全砸給一個頂級模型(比如 OpenAI o1、DeepSeek),讓它長時間深思熟慮,試圖一擊即中?

還是反過來,搭一個「想法實驗室」——同時跑幾十、上百個實驗假設(shè),讓它們彼此競爭、快速淘汰,最后篩出最有潛力的解?

前者,是我們熟悉的大模型敘事:相信「更聰明的大腦 + 更深的推理」,就能逼近真理。

最近,寬德智能學習實驗室( Will )聯(lián)合斯坦福、清華、北大等頂尖高校發(fā)布的一項新研究卻表明,科學發(fā)現(xiàn)的上限,不只是模型有多聰明,而是如何組織試錯與評估

Will 是頂級量化私募寬德投資獨立孵化的研究機構(gòu),秉持 「AI for Good 」與長期主義,致力于構(gòu)建服務(wù)科學與技術(shù)的通用人工智能( ASI )基礎(chǔ)平臺,賦能人類實現(xiàn)科學發(fā)現(xiàn)與技術(shù)創(chuàng)新。實驗室還作為贊助商參與了今年 ICLR 。

不同于側(cè)重論文產(chǎn)出的實驗室,Will 是一個深度融合研究與工業(yè)落地的全棧式「創(chuàng)新中樞」,在北京、上海、紐約均設(shè)有辦公室,依托頂級算力與數(shù)據(jù)資源,利用全鏈路工程實踐解決真實挑戰(zhàn),用極致工程水準定義未來的科學發(fā)現(xiàn)。



  • 論文地址:
  • https://www.wizardquant.com/will/simpletes

這篇名為Evaluation-driven Scaling for Scientiffc Discovery的研究,提出了一項足以讓開源模型「暴力逆襲」的通用框架 SimpleTES。

它將試錯拆解為三個可調(diào)度的維度,并在此基礎(chǔ)上實現(xiàn)「測試時擴展」( test-time scaling ),讓開源模型在 21 項前沿科學任務(wù)中集體「封神」。

不僅刷新了多項 SOTA,甚至在數(shù)學構(gòu)造、代碼優(yōu)化等領(lǐng)域,反超人類專家和那些頂級閉源模型。



在尋找使自卷積比 R 最大化的非負函數(shù) f 這一任務(wù)上的擴展范式對比。以推理為中心(reasoning-centric)和以評估為中心(evaluation-centric)的方法都只專注于單一軸線的擴展,并最終陷入平臺期(增長停滯)。SimpleTES通過四項獨立的學術(shù)突破,實現(xiàn)了雙軸協(xié)同擴展,并達到了新的行業(yè)領(lǐng)先水平(SOTA)。



實驗表明,針對不同類型的科學任務(wù),動態(tài)平衡這三個軸的算力分配,是超越現(xiàn)有 SOTA解的關(guān)鍵。

這,還只是 Will 野心版圖中的第一塊拼圖。

在評估驅(qū)動的科學發(fā)現(xiàn)引擎之外,Will 同時還在推進另外兩條關(guān)鍵路徑:自研基座大模型,以及面向科學研究的方法論探索。

三條線并行推進,在當前 AI 研究機構(gòu)中并不多見。但他們的目標并不局限于單點突破,而是從零構(gòu)建一整套面向科學發(fā)現(xiàn)的 AI 基礎(chǔ)設(shè)施

在這套體系中,AI 不再只是「回答問題的系統(tǒng)」,而是逐步演化為能夠參與完整科研閉環(huán)的主體。

換句話說,他們最終想實現(xiàn)的,是讓 AI 學會做科研。

被忽略的「第三極」:生成-評估的閉環(huán)

其實,在 AI4S 這件事上,大家已經(jīng)卷過一輪了。

一派思路很直接,繼續(xù)往「更聰明的模型」上加碼——更長的推理鏈、更復雜的 Agent 流程、更強的閉源模型,認為只要多想一會兒、多對話幾輪,總能逼近新發(fā)現(xiàn)。

也有人把目光轉(zhuǎn)向「試錯循環(huán)」:生成 → 評估 → 改進,跑上幾輪,拿到一個還不錯的結(jié)果就收手(典型如 AlphaEvolve 一路)。

但問題在于,大家?guī)缀醵荚诜糯蟆干蓚?cè)的算力」,卻很少真正放大「評估反饋」本身。于是,一些老問題反復上演。

比如,經(jīng)典的順序改進( Sequential Refinement ),本質(zhì)是單路徑搜索,一旦早期方向選錯,后面只會越修越偏。

科學問題往往是多目標、強約束的復雜空間,哪怕模型再強,也很難「一路推理」跨過去。

即使引入評估,反饋也不過是搜索流程的一個組件。更別提,這類系統(tǒng)高度依賴人工設(shè)計,工程復雜度極高,可歸因和可遷移性都很差。

卡爾·波普爾說過,科學知識的增長,來自一輪輪基于「猜想—反駁」的證偽。如果把「試錯 + 評估」本身,做成一個可以規(guī);⒖梢宰詣诱{(diào)度資源、可以持續(xù)放大有效信號的系統(tǒng),會發(fā)生什么?

SimpleTES :

把試錯變成一臺可以擴展的流水線

這篇工作的關(guān)鍵突破在于,把試錯、探索拆成一套可以被調(diào)度、可以被擴展、甚至可以被優(yōu)化的計算流程。

核心是三個維度,非常極簡:

  • C( Concurrency ):并行多少條軌跡
  • L( Length ):每條軌跡走多深
  • K( K-candidates ):每一步生成多少候選

這三件事拼在一起,本質(zhì)上是在做一件此前很少被正視的事情:把算力,從「堆模型能力」,轉(zhuǎn)移到「精細分配搜索成本」?茖W發(fā)現(xiàn),從「靈光一現(xiàn)」,變成了一種可以被系統(tǒng)性放大的過程。



測試時評估驅(qū)動的循環(huán)縮放架構(gòu)及其三維縮放維度。 左側(cè)展示了基于策略網(wǎng)絡(luò)、生成器與評估器的閉環(huán)迭代過程,通過 L次循環(huán)實現(xiàn)軌跡優(yōu)化。右側(cè)定義了縮放的三維空間:全局寬度 C、細化深度 L和局部樣本量 K。

1、看得更廣:C(并行探索)

不再「一條路走到黑」,同時啟動 C 條獨立軌跡,各自探索不同方向。避免開局選錯方向,后面全盤皆輸」。在復雜科學問題里,「想得更深」之前,必須先「看得更廣」。

2、走得更深:L(迭代改進)

每一條軌跡,都不是一次性生成,而是在 evaluator(驗證器、打分函數(shù)、模擬器等)的驅(qū)動下持續(xù)迭代。關(guān)鍵點在于評估,不再只是「打分器」,而是「方向控制器」。每一次反饋,都會微調(diào)搜索路徑,把模型一點點推向更優(yōu)解。

3、選得更準:K(局部篩選)

每一步不是生成一個解,而是生成 K 個,再只保留最優(yōu)的那個。這一步相當于在局部做了一次「小進化」,把噪聲遺忘,避免劣質(zhì)解污染后續(xù)軌跡。

三維框架一旦確定,一個現(xiàn)實問題撲面而來:歷史軌跡越來越多,但上下文裝不下。

SimpleTES 的做法是,不把歷史當「記錄」,而是當「資源池」。哪些經(jīng)驗?zāi)苓M prompt,被視為一個調(diào)度問題。他們引入 RPUCG(類似 UCB 的策略):一邊優(yōu)先高分或「曾經(jīng)啟發(fā)出好結(jié)果」的節(jié)點,一邊給低頻節(jié)點加探索補償。

這其實是在 prompt 層做了一次「探索-利用權(quán)衡」,既不放過熱門路徑,也不忽視冷門潛力,避免搜索早早收斂到局部最優(yōu)。

除了三維框架這一結(jié)構(gòu)性的核心創(chuàng)新,SimpleTES 也從根本上解決了 AI 在科研決策中的短視挑戰(zhàn)。

傳統(tǒng)方法會優(yōu)化每一步的 reward,但這樣會讓模型越來越保守。而科學發(fā)現(xiàn)恰恰需要允許早期「走彎路」。因此,在 Trajectory-Level Post-training 中,SimpleTES 直接換了訓練目標,不看每一步,只看整條軌跡的最終最好結(jié)果。具體做法很利落:

一條完整探索軌跡等于一個 rollout ,忽略中間所有 step reward ;

用「最高分」作為唯一監(jiān)督信號,反向賦給整條路徑;

再配上簡單但有效的策略:只保留 top R% 的軌跡(我要精英) ,截斷無效后綴 ,用 replay buffer 持續(xù)累積經(jīng)驗

結(jié)果,模型學到的不是「下一步怎么更對」,而是「怎樣的一整條探索路徑更可能成功」。

這套 Trajectory-Level Post-training 如同煉金術(shù),把「搜索能力」蒸餾進模型本身,使其逐漸形成一種接近「科研直覺」的能力。



基礎(chǔ)模型與后訓練模型在多維度科學任務(wù)下的表現(xiàn)對比。 重點展示了模型在域內(nèi)(ID)與域外(OOD)環(huán)境下的適應(yīng)性差異,加粗項反映了后訓練技術(shù)對模型邏輯推理和泛化能力的提升。

21個結(jié)果,21次振奮

結(jié)果顯示(設(shè)定 C=32, L=100, K=16),在六大領(lǐng)域、21 個科學問題上跑通一整套「試錯流水線」,只用 gpt-oss 這樣的開源模型,就能不斷刷出新的最優(yōu)解,甚至把不少前沿閉源模型和精心調(diào)整過的優(yōu)化流程都壓了過去。

在許多硬核的領(lǐng)域也突破了人類最佳紀錄。



該方法涵蓋的量子電路編譯、GPU 核函數(shù)優(yōu)化等六大科學應(yīng)用領(lǐng)域。



在 SimpleTES 框架的加持下,開源模型不僅超越了眾多閉源模型,在許多硬核的領(lǐng)域也突破了人類最佳紀錄。

以下是三個特別有沖擊力的發(fā)現(xiàn)。

1、LASSO 路徑求解(算法工程)

LASSO 是統(tǒng)計學、生物信息學和金融建模中極其基礎(chǔ)且廣泛使用的算法。像 glmnet 這種標準解法,本質(zhì)是幾十年工程經(jīng)驗的結(jié)晶。

SimpleTES 做的不是微調(diào),而是直接改寫解法。在保證精度(誤差 ≤1e-6)完全一致的前提下,平均比 glmnet 快2.17 倍,比 sklearn 快14 倍以上



關(guān)鍵是它怎么做到的。傳統(tǒng)方法基本是固定策略,而 SimpleTES 最終演化出來一套按問題結(jié)構(gòu)動態(tài)切換的混合解法。

當問題處在某個幾何區(qū)間(比如中等維度、樣本不太少)時,它直接放棄 coordinate descent,切換到 LARS homotopy 路徑算法,沿著正則路徑解析式推進;在高維稀疏或更復雜結(jié)構(gòu)下,保留 coordinate descent,再配合更激進的篩選機制。

這也是最有意思的地方,算法設(shè)計本身,開始變成可以被大規(guī)模試錯搜出來的東西。

再看 AtCoder 這種比賽就更直觀了。這類題本質(zhì)上沒有標準解,拼的是「解題套路」和「搜索策略」。SimpleTES 從零開始,獨立發(fā)現(xiàn)了如「多起點模擬退火」等極具競爭力的程序,得分以絕對優(yōu)勢全面超越所有人類玩家記錄與現(xiàn)有的 AI 解決方案。



2、量子比特路由(量子電路編譯)

這個任務(wù)更有硬件味:量子門只能在相鄰比特上執(zhí)行,不相鄰就必須插入 SWAP,把量子態(tài)搬過去。問題在于,每多一個 SWAP,電路就更慢、更不穩(wěn)定。

所以,需要在保證所有操作可執(zhí)行的前提下,把 SWAP 數(shù)量壓到最低。但難點在于,這也是個典型的長程組合優(yōu)化問題——你現(xiàn)在做的一個交換,會影響后面所有步驟。

目前,主要由頂尖的量子物理學家和計算機科學家設(shè)計的啟發(fā)式算法來處理。

結(jié)果,SimpleTES 在不同量子計算機平臺架構(gòu)上均展現(xiàn)了強大的編譯優(yōu)化能力,有效降低了滿足硬件約束的執(zhí)行開銷。

在超導架構(gòu)上,SimpleTES 在整體上比經(jīng)典算法 SABRE 提升 21.7%,比改進版 LightSABRE 提升 14.9%。在 IBM Q20 實例上更是將 SWAP 門開銷降低了 24.5%。

在分區(qū)中性原子架構(gòu)上,其發(fā)現(xiàn)的編譯策略在 36 個多樣化電路中將平均執(zhí)行時間縮短了 33.2%,穩(wěn)定提升了絕大多數(shù)測試用例的表現(xiàn)。

可見,當評估循環(huán)縮放到足夠大時,AI 能夠通過寬度探索出人類直覺無法觸及的怪異但高效的路徑。在嚴謹?shù)奈锢砑s束下,AI 也可以成為真正的發(fā)現(xiàn)者。



3、Erd?s 最小重疊問題 (數(shù)學極值分析)

這是一個典型的極值構(gòu)造難題:搜索空間巨大且極其崎嶇,只要某個位置稍微偏一點,整體重疊就會瞬間放大,幾乎就是在針尖上跳舞。

結(jié)果也很有意思——人類和現(xiàn)有 AI 基本都卡在 0.38087 附近,已經(jīng)接近公認極限。但 SimpleTES 還是硬生生往下?lián)噶艘稽c:做到 0.380868,甚至在額外搜索中達到 0.380856。表面看只是小數(shù)點后幾位,在這種問題里卻是實打?qū)嵉摹笜O限推進」。



更關(guān)鍵的是,這個提升幾乎和模型大小無關(guān),而是來自搜索過程本身:既沒錯過正確方向,也有足夠耐心往下?lián)讣毠?jié),同時還把隨機性壓到最低。

這已經(jīng)不是「更聰明的模型」,而是更高效的試錯機制在發(fā)揮作用。



AI4S 新范式:

把「試錯閉環(huán)」當成一等公民

如果說以 OpenAI o1 為代表的推理模型,開啟了「深度思考」的縮放時代,那么 SimpleTES 做的,是把另一件長期被低估的能力,推上主舞臺——嘗試與驗證,本身也可以被縮放。

但這套方法,也不是沒有邊界。

SimpleTES 的能力,本質(zhì)上被一個東西「鎖死」:評估器(evaluator)。它之所以有效,是因為每一步試錯都能被快速、明確地打分。一旦進入那些評估昂貴、主觀、或者必須依賴真實世界反饋的領(lǐng)域,這套機制就會變得吃力,因為你已經(jīng)沒法再高頻地「試—評—改」。

另一個限制在于算力怎么分。三個維度現(xiàn)在還是手動調(diào)的,而不同任務(wù)、不同階段,其實最優(yōu)分配完全不一樣。真正理想的狀態(tài),是系統(tǒng)能根據(jù)搜索進展動態(tài)調(diào)整,而不是一開始就把資源「寫死」。

還有,這套方法天然適合「有連續(xù)分數(shù)」的世界。但在一些更離散的場景(比如定理證明),對錯之間沒有細粒度反饋,很多「差一點」的嘗試看起來是一樣的失敗,這會讓搜索信號變得模糊,甚至誤導方向。

因此,Will 下一步,不只是把試錯做大,還要讓它更聰明,從一個高頻運轉(zhuǎn)的計算閉環(huán),進化為一個真正具備理解、判斷與探索能力的系統(tǒng)。

當「試錯」不再只是蠻力搜索,而開始具備結(jié)構(gòu)感和方向感時,AI4S 的上限,才會真正被打開。

目前,基于 SimpleTES 方法構(gòu)建的試用平臺已經(jīng)在 Will 官網(wǎng)上線,歡迎大家前往申請加入 Waitlist,率先體驗這一全新的科研范式。

  • https://www.wizardquant.com/will/simpletes

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
蔡琳帶兒子搬離住了4年的別墅,哭著與鄰居告別,光化妝品就裝3車

蔡琳帶兒子搬離住了4年的別墅,哭著與鄰居告別,光化妝品就裝3車

八怪娛
2026-04-24 15:18:26
比導彈便宜萬倍!中國 LW30 一出場,無人機當場變廢鐵

比導彈便宜萬倍!中國 LW30 一出場,無人機當場變廢鐵

小蘭聊歷史
2026-04-18 14:25:14
往事悠悠:七十年代隨父母下放到農(nóng)村,那段經(jīng)歷我記憶深刻

往事悠悠:七十年代隨父母下放到農(nóng)村,那段經(jīng)歷我記憶深刻

草根情感故事茶社
2026-04-25 13:22:28
伊朗用血淚換來的教訓:萬一中美開戰(zhàn),中國必須首先鎖定這一點

伊朗用血淚換來的教訓:萬一中美開戰(zhàn),中國必須首先鎖定這一點

姑娘視角
2026-04-26 11:27:03
特斯拉為什么不參加北京車展?

特斯拉為什么不參加北京車展?

華庭講美食
2026-04-25 20:47:07
悲催!畢業(yè)后拼到的浙江體制工作,被媽媽毀了,孩子現(xiàn)去新疆發(fā)展

悲催!畢業(yè)后拼到的浙江體制工作,被媽媽毀了,孩子現(xiàn)去新疆發(fā)展

火山詩話
2026-04-25 09:47:37
陳首富終究吞不下云南白藥 | 棱鏡

陳首富終究吞不下云南白藥 | 棱鏡

新浪財經(jīng)
2026-04-24 17:04:15
旺運登門,聰慧又有耐力的3大生肖,好事要來了,5月事業(yè)紅火

旺運登門,聰慧又有耐力的3大生肖,好事要來了,5月事業(yè)紅火

人閒情事
2026-04-26 14:23:43
狄龍談SGA獨砍42分:他確實很高效 但G4我會防住他

狄龍談SGA獨砍42分:他確實很高效 但G4我會防住他

北青網(wǎng)-北京青年報
2026-04-26 14:33:03
成龍不再拍那部電影了。

成龍不再拍那部電影了。

可樂談情感
2026-04-26 14:19:56
一場比賽出現(xiàn)4名35歲+老將 北京國安主帥蒙哥馬利蜜月期要結(jié)束了

一場比賽出現(xiàn)4名35歲+老將 北京國安主帥蒙哥馬利蜜月期要結(jié)束了

80后體育大蜀黍
2026-04-26 12:22:08
內(nèi)斗升級,石破茂怒斥高市:繼續(xù)死磕中國,日本必成下一個戰(zhàn)場!

內(nèi)斗升級,石破茂怒斥高市:繼續(xù)死磕中國,日本必成下一個戰(zhàn)場!

我一直在終點等你
2026-04-26 13:34:34
白宮記協(xié)晚宴安全事件細節(jié)披露:嫌疑人持霰彈槍試圖突破安保

白宮記協(xié)晚宴安全事件細節(jié)披露:嫌疑人持霰彈槍試圖突破安保

環(huán)球網(wǎng)資訊
2026-04-26 10:27:18
87年,我?guī)е赣H當兵的照片入伍,誰知女首長看到照片后差點暈過去

87年,我?guī)е赣H當兵的照片入伍,誰知女首長看到照片后差點暈過去

紅豆講堂
2025-03-23 10:39:32
快了!中國第四艘航母呼之欲出,將會是十萬噸核動力

快了!中國第四艘航母呼之欲出,將會是十萬噸核動力

知兵堂軍事
2026-04-26 10:43:13
“深圳公交站臺吸煙”涉事男子被罰50元,當場執(zhí)行,警方執(zhí)法過程合法合規(guī)

“深圳公交站臺吸煙”涉事男子被罰50元,當場執(zhí)行,警方執(zhí)法過程合法合規(guī)

上觀新聞
2026-04-26 06:53:02
如果四大名著要刪掉一本,你會選擇哪一本?網(wǎng)友的答案出奇一致

如果四大名著要刪掉一本,你會選擇哪一本?網(wǎng)友的答案出奇一致

孤城落日
2026-04-26 10:43:07
1995年,在香港高檔餐廳里,34歲的洪晃與63歲的父親洪君彥的合影

1995年,在香港高檔餐廳里,34歲的洪晃與63歲的父親洪君彥的合影

娛樂洞察點點
2026-04-25 21:55:38
調(diào)查發(fā)現(xiàn):每天吃一根香蕉,就等于給血脂添負擔?真相來了

調(diào)查發(fā)現(xiàn):每天吃一根香蕉,就等于給血脂添負擔?真相來了

今日養(yǎng)生之道
2026-04-17 12:48:36
A股:周末利空,剛剛,突發(fā)兩件大事!對下周市場有何影響?

A股:周末利空,剛剛,突發(fā)兩件大事!對下周市場有何影響?

虎哥閑聊
2026-04-26 10:46:43
2026-04-26 15:12:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12855文章數(shù) 142636關(guān)注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

頭條要聞

特朗普2年內(nèi)遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

頭條要聞

特朗普2年內(nèi)遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結(jié)局意難平

財經(jīng)要聞

DeepSeek V4背后,梁文鋒的轉(zhuǎn)身

汽車要聞

預(yù)售19.38萬元起 哈弗猛龍PLUS七座版亮相

態(tài)度原創(chuàng)

游戲
藝術(shù)
親子
本地
公開課

Pearl Abyss 正式發(fā)布《紅色沙漠》首張官方原聲音樂專輯

藝術(shù)要聞

鄭麗文訪問清華附中引發(fā)熱議,蔣中正信札字跡真實性遭質(zhì)疑

親子要聞

孩子會旺媽媽的6個特點

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統(tǒng)文化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版