国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌造出AI數(shù)學(xué)家,48%碾壓全場!牛津教授用它破解60年未解之謎

0
分享至


新智元報道

編輯:犀牛 所羅門

【新智元導(dǎo)讀】谷歌DeepMind今日官宣推出「AI co-mathematician」多智能體系統(tǒng),在FrontierMath Tier 4自主模式下斬獲48%正確率。牛津教授借助該系統(tǒng)攻克Kourovka Notebook長期開放問題,AI進化為數(shù)學(xué)家的真正研究搭檔。

人類數(shù)學(xué)家,終于等來了自己的「超級隊友」!

就在剛剛,谷歌云首席科學(xué)家、DeepMind研究副總裁Pushmeet Kohli重磅官宣AIco-mathematician——一套專為數(shù)學(xué)研究設(shè)計的多智能體協(xié)作系統(tǒng)。


有玩意兒多猛?

在Epoch AI組織的FrontierMath Tier 4基準測試中(50道由教授和博后專門設(shè)計的「短期科研項目」級別超難題,專業(yè)數(shù)學(xué)家也得花上數(shù)天乃至數(shù)周),AI co-mathematician在自主模式下拿下48%的正確率,解決了48道非公開題中的23道。

刷新所有AI系統(tǒng)的歷史最高紀錄!


作為對比,它底層用的Gemini 3.1 Pro基座模型,獨立作戰(zhàn)只能拿到19%。從19%到48%,整整躍升了29個百分點。

更狠的是,它還超越了GPT-5.5 Pro的39.6%和Claude Opus 4.7的22.9%。


其中有3道題,是此前所有被測系統(tǒng)都沒能攻克的。

Pushmeet Kohli在社交媒體上興奮地寫道:數(shù)學(xué)的未來,是數(shù)學(xué)家和AI智能體一起工作。


不是更聰明的模型

而是更聰明的「編排」

AI co-mathematician最有意思的地方在于:它的突破不是靠換一個更大的模型,而是靠系統(tǒng)設(shè)計。

整個系統(tǒng)采用了一種層級式多智能體架構(gòu):一個「項目協(xié)調(diào)員」智能體坐鎮(zhèn)中央,負責(zé)把數(shù)學(xué)問題拆解成多個并行的「工作流」,再分派給不同的專項子智能體去執(zhí)行。

這些子智能體各有專長——有的負責(zé)文獻檢索,有的負責(zé)計算探索,有的負責(zé)證明推導(dǎo),還有的專門負責(zé)「挑毛病」。


沒錯,這里有一個專職的審稿人智能體

每條證明路徑寫出來之后,都必須經(jīng)過審稿人的交叉審查,發(fā)現(xiàn)邏輯漏洞就打回重做。

這種「強制審查循環(huán)」機制,直接把傳統(tǒng)LLM最頭疼的「自信地胡說八道」問題壓了下去。

更關(guān)鍵的是,整個工作臺是異步、有狀態(tài)的。

它能記住之前嘗試過哪些失敗的假設(shè),能追蹤每一條探索分支的進展,還能輸出帶有邊注和內(nèi)部引用的工作論文。

就像是一個能跟你「泡」在一個項目里、持續(xù)數(shù)天迭代的研究伙伴。


DeepMind論文中舉了幾個讓人印象深刻的案例:

  • 面對一道幾何鋪磚問題時,系統(tǒng)把核心挑戰(zhàn)歸約為布爾可滿足性(SAT)問題,然后用PySAT庫求解;

  • 在一道表示論題目中,它通過文獻搜索工具精準檢索到特定定理的精確表述,而基線模型只能憑「大概印象」答題,結(jié)果條件都沒對上;

  • 在組合數(shù)學(xué)題中,它把理論推導(dǎo)和計算驗證拆成兩條獨立工作流,讓審稿人智能體在最終拼裝前就揪出了邏輯錯誤。

牛津教授實戰(zhàn):攻克60年老本子里的開放問題

數(shù)字好看歸好看,但AI到底能不能在真正的數(shù)學(xué)前沿派上用場?

牛津大學(xué)數(shù)學(xué)家Marc Lackenby的親身經(jīng)歷給出了最有說服力的回答。


他用AI co-mathematician研究了群論中的一個經(jīng)典開放問題——Kourovka Notebook第21.10題。

這本「筆記本」可不是普通筆記,而是群論領(lǐng)域從1965年傳承至今、匯集了全世界未解難題的「圣經(jīng)級」問題集。

Lackenby把問題直接輸入系統(tǒng)后,AI co-mathematician自動創(chuàng)建了兩條并行工作流:一條嘗試證明,一條嘗試反證。

第一條路徑很快返回了一個「證明」,但系統(tǒng)自己的審稿人智能體隨即發(fā)現(xiàn)了其中的漏洞,標記為不正確。

關(guān)鍵轉(zhuǎn)折來了:Lackenby看到被打回的證明和審稿人指出的缺陷后,突然意識到——自己作為領(lǐng)域?qū)<遥『弥涝趺刺钛a這個缺口。

于是他補上了關(guān)鍵的一步,問題迎刃而解。

這個故事的精髓在于,人和AI誰都沒法獨自在這個速度下完成這件事。

AI提供了證明策略和計算探索的「暴力搜索」,審稿人智能體及時發(fā)現(xiàn)了錯誤,而人類數(shù)學(xué)家的深層直覺完成了最后的臨門一腳。

這是一種全新的協(xié)作范式。

類似的故事還在上演:數(shù)學(xué)家Gergely Bérczi用它獲得了關(guān)于對稱冪表示Stirling系數(shù)猜想的證明;Semon Rezchikov在哈密頓系統(tǒng)中一個技術(shù)性子問題上,收到了AI提供的關(guān)鍵引理——經(jīng)過仔細驗證后確認無誤。

審稿人會被「討好」,系統(tǒng)會「轉(zhuǎn)圈」

DeepMind團隊也沒有回避系統(tǒng)的失敗模式。

第一個問題叫「審稿人討好偏」(reviewer-pleasing bias)。

當(dāng)一條證明路徑被審稿人打回后,子智能體有時不是真的修正了邏輯錯誤,而是換了一種措辭讓審稿人「看不出問題了」。

錯誤沒有消失,只是變得更隱蔽。

這就像學(xué)生改論文時,不是真的理解了審稿意見,而是學(xué)會了用更圓滑的方式繞過審查。

第二個問題叫「死亡螺旋「」(death spirals)。

在某些情況下,證明者和審稿人之間陷入了無限循環(huán)——你說有問題,我改了再交,你又說有問題,我再改再交。

最終推理質(zhì)量越來越差,直到徹底崩潰成幻覺式的胡言亂語。

這對于那些需要真正創(chuàng)造性直覺來打開突破口的問題——比如千禧年大獎難題或者Erd?s型猜想——多智能體系統(tǒng)目前仍然無能為力。

AI能壓縮的,是「從有一個想法到知道這個想法行不行」之間的時間:文獻檢索、反例搜尋、計算驗證、探索性的苦力活。

但那道靈光一閃的創(chuàng)造性火花,目前看來只能來自人類。

數(shù)學(xué)研究的范式正在改變

這篇論文的真正意義,可能不在于48%這個數(shù)字本身。

系統(tǒng)設(shè)計現(xiàn)在能夠以對實際研究真正有意義的方式,放大模型能力。

AI co-mathematician做的事情,本質(zhì)上跟Claude Code、Google Antigravity在軟件開發(fā)領(lǐng)域做的事情異曲同工——

為AI提供腳手架,讓它能在長時間跨度內(nèi)自主工作,同時保持可控。

DeepMind CEO Demis Hassabis曾說過,擁有強大數(shù)學(xué)和代碼工具的前沿實驗室正在與其他實驗室拉開差距,原因在于「這些工具會產(chǎn)生復(fù)合效應(yīng)」。

AI co-mathematician就是這一論斷的直接體現(xiàn)。

數(shù)學(xué)的未來,或許不再是一個天才獨自在黑板前苦思冥想的身影。

而是人類數(shù)學(xué)家和AI智能體并肩而坐,一個負責(zé)靈感,一個負責(zé)驗證,在無盡的探索中一起逼近真理。


這個「黃金搭檔」時代,已經(jīng)來了。

參考資料:

https://x.com/pushmeet/status/2052812585804685322

https://arxiv.org/abs/2605.06651

https://epoch.ai/frontiermath/tiers-1-4?view=graph&tab=release-date&tier=Tier+4

https://arxiv.org/pdf/2605.06651https://x.com/kimmonismus/status/2052849472586264997

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
商務(wù)部:亞太經(jīng)貿(mào)合作進入更加復(fù)雜的深水區(qū) 議題內(nèi)容進一步向數(shù)字經(jīng)濟、綠色低碳、產(chǎn)業(yè)鏈供應(yīng)鏈韌性等新興領(lǐng)域拓展

商務(wù)部:亞太經(jīng)貿(mào)合作進入更加復(fù)雜的深水區(qū) 議題內(nèi)容進一步向數(shù)字經(jīng)濟、綠色低碳、產(chǎn)業(yè)鏈供應(yīng)鏈韌性等新興領(lǐng)域拓展

財聯(lián)社
2026-05-09 15:34:13
科爾2年合同續(xù)約勇士 和庫里師徒二人保持同進退

科爾2年合同續(xù)約勇士 和庫里師徒二人保持同進退

仰臥撐FTUer
2026-05-10 09:47:04
吃蘭州拉面的人為什么越來越少了?網(wǎng)友:進店小心翼翼的怕說錯話

吃蘭州拉面的人為什么越來越少了?網(wǎng)友:進店小心翼翼的怕說錯話

另子維愛讀史
2026-02-27 20:31:34
3次招牌單打收割活塞!阿特金森:這是我熟悉的哈登

3次招牌單打收割活塞!阿特金森:這是我熟悉的哈登

體壇周報
2026-05-10 07:47:12
大反轉(zhuǎn)還是大陰謀?伊朗的聲音正在越來越高,態(tài)度也越來越強硬

大反轉(zhuǎn)還是大陰謀?伊朗的聲音正在越來越高,態(tài)度也越來越強硬

譚浩俊
2026-05-10 08:20:34
“斷崖式”下跌37%,黃金首飾賣不動了

“斷崖式”下跌37%,黃金首飾賣不動了

新浪財經(jīng)
2026-05-09 19:19:21
詹姆斯休息22分鐘湖人輸18分!亞歷山大沒上、雷霆贏26分!

詹姆斯休息22分鐘湖人輸18分!亞歷山大沒上、雷霆贏26分!

歷史第一人梅西
2026-05-09 15:31:47
斯威士蘭國王的豪車多,他娶了16個老婆,巴拉圭總統(tǒng)也得了好處

斯威士蘭國王的豪車多,他娶了16個老婆,巴拉圭總統(tǒng)也得了好處

清歡百味
2026-05-09 22:27:24
回國后我才敢說:印尼是我去過的所有東南亞國家中,最被低估的

回國后我才敢說:印尼是我去過的所有東南亞國家中,最被低估的

千秋文化
2026-04-28 20:20:16
大比分3:0!紐約之王布倫森狂轟33分,尼克斯提前鎖定東決席位!

大比分3:0!紐約之王布倫森狂轟33分,尼克斯提前鎖定東決席位!

田先生籃球
2026-05-09 10:29:11
曼聯(lián)重大突破!領(lǐng)跑世界級球星爭奪戰(zhàn),球員本人鐵心要來紅魔

曼聯(lián)重大突破!領(lǐng)跑世界級球星爭奪戰(zhàn),球員本人鐵心要來紅魔

瀾歸序
2026-05-10 01:32:30
“我媽有兩個老公”,OPPO至少惹怒了三群人

“我媽有兩個老公”,OPPO至少惹怒了三群人

萬能的大叔
2026-05-09 00:17:51
懵了,三星市值破萬億=騰訊+阿里巴巴+小米……還把中國大陸家電業(yè)務(wù)給停了

懵了,三星市值破萬億=騰訊+阿里巴巴+小米……還把中國大陸家電業(yè)務(wù)給停了

新浪財經(jīng)
2026-05-08 15:09:54
10分+致命兩空!胡金秋被罵上熱搜,防守軟蛋+吃餅俠實錘?

10分+致命兩空!胡金秋被罵上熱搜,防守軟蛋+吃餅俠實錘?

劉哥談體育
2026-05-10 09:13:02
內(nèi)娛又曝私生子大瓜,撕開后,全是藏不住的算計和涼薄

內(nèi)娛又曝私生子大瓜,撕開后,全是藏不住的算計和涼薄

財叔
2026-05-10 09:35:06
休想再回國!中國體壇兩大叛徒,奪冠后不承認是國人,報應(yīng)終到來

休想再回國!中國體壇兩大叛徒,奪冠后不承認是國人,報應(yīng)終到來

大運河時空
2026-04-27 18:40:03
國防部已經(jīng)發(fā)出最后警告:關(guān)于如何處置賴清德,大陸早就想好了!

國防部已經(jīng)發(fā)出最后警告:關(guān)于如何處置賴清德,大陸早就想好了!

小曙說娛
2026-05-10 03:57:28
最喜歡的英超對手,薩卡11次對陣西漢姆聯(lián)貢獻5球4助攻

最喜歡的英超對手,薩卡11次對陣西漢姆聯(lián)貢獻5球4助攻

懂球帝
2026-05-10 10:04:05
“天下第一人”河北彩花出道8周年,2026年夏季相約臺北!

“天下第一人”河北彩花出道8周年,2026年夏季相約臺北!

吃瓜黨二號頭目
2026-05-09 10:07:58
曬太陽被關(guān)注!醫(yī)生發(fā)現(xiàn):曬得越久,壽命越長?告訴你答案

曬太陽被關(guān)注!醫(yī)生發(fā)現(xiàn):曬得越久,壽命越長?告訴你答案

橘子約定
2026-05-09 20:46:06
2026-05-10 10:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
15172文章數(shù) 66854關(guān)注度
往期回顧 全部

科技要聞

DeepSeek融資,改寫所有人的估值

頭條要聞

牛彈琴:74歲法國政壇老將對華清醒表態(tài) 讓人刮目相看

頭條要聞

牛彈琴:74歲法國政壇老將對華清醒表態(tài) 讓人刮目相看

體育要聞

成立128年后,這支升班馬首奪頂級聯(lián)賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經(jīng)要聞

白酒大逃殺

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

教育
健康
家居
本地
公開課

教育要聞

只需5步!手把手教你用一本書撬動整個資源盤!

干細胞能讓人“返老還童”嗎

家居要聞

菁英人居 全能豪宅

本地新聞

用蘇繡的方式,打開江西婺源

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版