国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

11位頂尖數(shù)學(xué)家發(fā)了篇沒結(jié)果的論文,陶哲軒推薦都關(guān)注一下

0
分享至

獲陶哲軒轉(zhuǎn)發(fā),arXiv上的一篇新論文正在引起巨大關(guān)注!

擠進(jìn)前排后發(fā)現(xiàn),原來(lái)這是一項(xiàng)由11位全球頂尖數(shù)學(xué)家發(fā)起的AI實(shí)驗(yàn)——

讓AI在規(guī)定期限內(nèi),解決他們各自在真實(shí)研究過(guò)程中產(chǎn)生的10道“研究級(jí)”難題,以此探索“AI+數(shù)學(xué)”的能力邊界。

而且走的還是高斯時(shí)代的路子——人類先證明出來(lái),但先不公布答案和過(guò)程,等到了合適時(shí)間再公開,避免AI偷偷看答案。

以前這是一項(xiàng)為保護(hù)數(shù)學(xué)家證明自己優(yōu)先解決某道問題的做法,而在AI時(shí)代卻有了新玩法。



在陶哲軒看來(lái),這項(xiàng)實(shí)驗(yàn)非常有意思:

  • 當(dāng)前“一次性”AI提示似乎難以解決這些問題,但它們已被人類領(lǐng)域?qū)<夜タ恕?梢灶A(yù)見,配備AI工具的其他領(lǐng)域?qū)<乙材芙鉀Q其中相當(dāng)一部分。這些問題的技術(shù)門檻相當(dāng)高,非領(lǐng)域?qū)<译y以驗(yàn)證AI生成的任何輸出結(jié)果
  • 因此在我看來(lái),要讓非專家解決其中任何一個(gè)問題都極具挑戰(zhàn)性——當(dāng)然,意外驚喜也并非不可能。在截止期限前,這項(xiàng)實(shí)驗(yàn)?zāi)芊癞a(chǎn)生任何顯著成果,將十分值得關(guān)注。



好好好,既然老陶如此安利了,咱這就開扒完整實(shí)驗(yàn)過(guò)程(doge)。

解完10道數(shù)學(xué)題,然后…藏起證明過(guò)程

概括而言,通過(guò)提出一套名為First Proof的實(shí)驗(yàn)方案,這群數(shù)學(xué)家想做一件事——

檢驗(yàn)當(dāng)前AI系統(tǒng),是否具備獨(dú)立解決研究級(jí)數(shù)學(xué)問題的能力。



在這之前,雖然很多商用AI成了數(shù)學(xué)家手中的實(shí)用工具(如用于文獻(xiàn)檢索、代碼編寫、手稿校驗(yàn)等),但對(duì)于AI是否具備他們想驗(yàn)證的能力,學(xué)界始終缺乏相關(guān)清晰結(jié)論。

這背后一個(gè)很重要的原因,就是評(píng)測(cè)手段的缺失。

放眼市面上的數(shù)學(xué)AI基準(zhǔn),目前絕大多數(shù)都聚焦于競(jìng)賽題,此類題目雖然便于規(guī)?;瘻y(cè)試,卻與真實(shí)的數(shù)學(xué)研究存在本質(zhì)差異(甚至可能存在數(shù)據(jù)污染問題)。

而數(shù)學(xué)家面對(duì)的真實(shí)情況往往是——

問題并非精確定義完成,解法也不存在明確模板,需要在大量試探、修正和結(jié)構(gòu)性判斷中逐步推進(jìn)。

基于這樣的背景,這群來(lái)自斯坦福、哥倫比亞、哈佛等高校及科研機(jī)構(gòu)的數(shù)學(xué)家們齊聚一堂,設(shè)計(jì)了10道研究級(jí)數(shù)學(xué)問題,覆蓋代數(shù)組合學(xué)、譜圖論、代數(shù)拓?fù)?、隨機(jī)分析、辛幾何等多個(gè)數(shù)學(xué)分支。

這里補(bǔ)充一下,一開始其實(shí)是20道題,不過(guò)按4個(gè)標(biāo)準(zhǔn)篩選后最終只留下了10道——AI能理解問題表述、無(wú)隱藏公開答案、作者同意按要求發(fā)布證明、每位團(tuán)隊(duì)成員僅貢獻(xiàn)1道題。

完整10道題目指路論文以下位置:



論文表示,F(xiàn)irst Proof區(qū)別于現(xiàn)有基準(zhǔn)的地方在于:

  • 問題來(lái)自數(shù)學(xué)家當(dāng)前研究中發(fā)現(xiàn)的真實(shí)疑問,答案為證明過(guò)程,需人類專家評(píng)分;
  • 問題全公開但答案無(wú)任何公開記錄,供社區(qū)驗(yàn)證但不可重復(fù)使用,同時(shí)徹底消除數(shù)據(jù)污染;
  • 允許AI無(wú)限制使用網(wǎng)絡(luò)搜索等外部資源,貼近真實(shí)研究場(chǎng)景。



劃重點(diǎn),這10道題均來(lái)自作者自身的研究過(guò)程,是未來(lái)發(fā)表成果中的小型核心引理,未在互聯(lián)網(wǎng)、會(huì)議等任何公共渠道發(fā)布,從根源避免數(shù)據(jù)污染。

每道題的人類證明不超過(guò)5頁(yè)(適配當(dāng)前AI的技術(shù)限制),且加密發(fā)表于下面的這個(gè)網(wǎng)站。



最終答案將于2026年2月13日公開,在此之前全球用戶均可以用這10道題來(lái)測(cè)試他們想要考驗(yàn)的AI。

GPT和Gemini先來(lái)挑戰(zhàn)一波

而在廣發(fā)全球英雄帖之后,這群數(shù)學(xué)家也先自己測(cè)試了一波:

邀請(qǐng)GPT 5.2 Pro和Gemini 3 Deepthink,對(duì)10道題進(jìn)行一次性作答測(cè)試

他們明確表示,F(xiàn)irst Proof僅聚焦數(shù)學(xué)研究最后、也是最明確的階段——

在問題表述和研究背景已經(jīng)清晰給定的前提下,檢驗(yàn)AI是否能夠完成嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明,而不評(píng)估AI提出研究問題、構(gòu)建新理論框架或發(fā)明新定義的能力。

換言之,這是一場(chǎng)單純的能力邊界測(cè)試。在假設(shè)所有前期研究工作已經(jīng)完成的情況下,看看AI能否獨(dú)立走完“從命題到正確證明”的最后一公里。

而實(shí)驗(yàn)結(jié)果顯示:

  • 在當(dāng)前公開可用的最佳AI系統(tǒng),僅有一次作答機(jī)會(huì)的情況下,它們難以解答我們提出的多數(shù)問題

不過(guò)作者也預(yù)計(jì),如果允許人類與AI反復(fù)對(duì)話、追問、引導(dǎo),就很有可能讓AI給出更好的答案。



再劃重點(diǎn),為了最大程度減少這一實(shí)驗(yàn)可能造成的數(shù)據(jù)污染問題,他們還有這樣的舉措:

  • 我們關(guān)閉了用于訓(xùn)練和改進(jìn)模型的數(shù)據(jù)共享選項(xiàng),但我們知曉谷歌仍會(huì)保留數(shù)據(jù)3天,而OpenAI會(huì)保留30天。
  • (即便如此)在整個(gè)過(guò)程中,我們始終盡力確保所提問題的答案保持私密。

未來(lái),這群數(shù)學(xué)家也計(jì)劃在數(shù)月內(nèi)設(shè)計(jì)第二套問題集,并在實(shí)驗(yàn)設(shè)計(jì)上進(jìn)一步收緊變量——

在與相關(guān)模型方達(dá)成明確協(xié)議的前提下,先讓前沿AI系統(tǒng)完成測(cè)試,再統(tǒng)一公開問題與答案,從而將First Proof逐步發(fā)展為一個(gè)可復(fù)用、可比較的研究級(jí)數(shù)學(xué)能力基準(zhǔn)。

在此基礎(chǔ)上,實(shí)驗(yàn)設(shè)置也將逐步“去人工化”。例如,放寬當(dāng)前對(duì)證明長(zhǎng)度、表達(dá)形式等人為限制,引入來(lái)自不同數(shù)學(xué)分支的問題,使測(cè)試不再局限于某一類技術(shù)路徑,而是覆蓋更廣泛的研究場(chǎng)景。

更進(jìn)一步,作者也明確表示,長(zhǎng)期目標(biāo)并不只是評(píng)估AI在“解題”階段的表現(xiàn),而是逐步探索更高階能力的評(píng)測(cè)方式,比如這次先忽略的提出新問題、構(gòu)建新理論框架的能力。



不得不說(shuō),以上種種也符合陶哲軒一直以來(lái)對(duì)AI的判斷——

未來(lái)的趨勢(shì)不是AI代替數(shù)學(xué)家,而是講求人機(jī)協(xié)作。

而First Proof的價(jià)值,也不在于給AI下一個(gè)“及格或不及格”的結(jié)論,而在于第一次用真實(shí)、未公開、研究級(jí)的問題,來(lái)試圖界定AI當(dāng)前所能觸及的邊界。

換言之,即使只完整解出一道題,也足以成為AI數(shù)學(xué)研究史上一個(gè)值得記錄的節(jié)點(diǎn)。

就是這時(shí)間會(huì)不會(huì)有點(diǎn)太短了?(截止到2月13日)



論文:
https://arxiv.org/abs/2602.05192
答案加密地址:
https://1stproof.org/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
談一談《太平年》對(duì)“燭影斧聲”的演繹

談一談《太平年》對(duì)“燭影斧聲”的演繹

知也行也
2026-02-20 01:20:59
1991年,張學(xué)良去紐約前女友家住了90多天,至死不再聯(lián)系

1991年,張學(xué)良去紐約前女友家住了90多天,至死不再聯(lián)系

近史談
2026-02-24 21:35:57
吉林省一法院院長(zhǎng)被查!

吉林省一法院院長(zhǎng)被查!

長(zhǎng)春新風(fēng)采
2026-02-25 15:41:39
自駕932公里“去貴州提親”車主發(fā)聲:準(zhǔn)備今年結(jié)婚

自駕932公里“去貴州提親”車主發(fā)聲:準(zhǔn)備今年結(jié)婚

大象新聞
2026-02-25 11:24:06
騰訊關(guān)閉天美蒙特利爾工作室!成立5年沒有自己作品

騰訊關(guān)閉天美蒙特利爾工作室!成立5年沒有自己作品

游民星空
2026-02-23 09:21:23
汪希玥去向追蹤:疑要轉(zhuǎn)入北京一所國(guó)際學(xué)校,汪希菻汪寶兒都回京

汪希玥去向追蹤:疑要轉(zhuǎn)入北京一所國(guó)際學(xué)校,汪希菻汪寶兒都回京

樂悠悠娛樂
2026-02-25 13:53:59
55年全軍授銜,遲浩田自報(bào)“大尉”未獲批,最終他被授予啥軍銜?

55年全軍授銜,遲浩田自報(bào)“大尉”未獲批,最終他被授予啥軍銜?

雍親王府
2026-02-25 09:05:05
每天一包煙,反而不易患肺癌?Nature:吸煙達(dá)一定量,風(fēng)險(xiǎn)不增加

每天一包煙,反而不易患肺癌?Nature:吸煙達(dá)一定量,風(fēng)險(xiǎn)不增加

思思夜話
2026-02-25 11:57:29
“仨兒子打光棍”視頻走紅,網(wǎng)友調(diào)侃:長(zhǎng)成這樣,擼網(wǎng)貸都費(fèi)勁!

“仨兒子打光棍”視頻走紅,網(wǎng)友調(diào)侃:長(zhǎng)成這樣,擼網(wǎng)貸都費(fèi)勁!

妍妍教育日記
2026-02-04 19:09:07
正月初八開工!李思思北京站臺(tái)哽咽:行李箱的臘肉,藏著爸媽的愛

正月初八開工!李思思北京站臺(tái)哽咽:行李箱的臘肉,藏著爸媽的愛

陳意小可愛
2026-02-25 15:50:28
75歲老人全新養(yǎng)老方式:不請(qǐng)保姆不去養(yǎng)老院,成本小老人舒心

75歲老人全新養(yǎng)老方式:不請(qǐng)保姆不去養(yǎng)老院,成本小老人舒心

孢木情感
2026-02-21 12:15:25
汪小菲大方曬娃,馬筱梅產(chǎn)后氣色好,三胎兒子五官立體很帥氣

汪小菲大方曬娃,馬筱梅產(chǎn)后氣色好,三胎兒子五官立體很帥氣

飄逸語(yǔ)人
2026-02-25 02:42:08
1比3爆冷出局!21歲日本女單主力遭淘汰,孫穎莎沖冠之路有大勁敵

1比3爆冷出局!21歲日本女單主力遭淘汰,孫穎莎沖冠之路有大勁敵

卿子書
2026-02-25 08:58:03
謝霆鋒和此沙《怒火漫延》到了《鏢人》!此沙成港圈力捧動(dòng)作新人

謝霆鋒和此沙《怒火漫延》到了《鏢人》!此沙成港圈力捧動(dòng)作新人

露珠聊影視
2026-02-24 23:52:46
83歲的毛主席逝世后,叛徒張國(guó)燾淡淡地說(shuō)了10個(gè)字,字字戳心

83歲的毛主席逝世后,叛徒張國(guó)燾淡淡地說(shuō)了10個(gè)字,字字戳心

青途歷史
2026-02-24 16:06:06
2月25日人民幣對(duì)美元中間價(jià)調(diào)升93個(gè)基點(diǎn)

2月25日人民幣對(duì)美元中間價(jià)調(diào)升93個(gè)基點(diǎn)

證券時(shí)報(bào)
2026-02-25 09:31:35
《鏢人》看懂知世郎的過(guò)往,才知老莫為何要刀馬護(hù)送知世郎回長(zhǎng)安

《鏢人》看懂知世郎的過(guò)往,才知老莫為何要刀馬護(hù)送知世郎回長(zhǎng)安

小七追劇站
2026-02-20 22:02:24
2026第一波大裁員來(lái)了,注意這5個(gè)危險(xiǎn)行業(yè)

2026第一波大裁員來(lái)了,注意這5個(gè)危險(xiǎn)行業(yè)

愛看劇的阿峰
2026-02-25 04:59:54
舒淇曬全家福!親弟比她顯老 豪宅奢華 馮德倫和岳父母互動(dòng)親密

舒淇曬全家福!親弟比她顯老 豪宅奢華 馮德倫和岳父母互動(dòng)親密

另子維愛讀史
2026-02-24 22:24:25
1958年,張國(guó)燾請(qǐng)求中央給予他補(bǔ)助,毛主席同意,但提出一個(gè)條件

1958年,張國(guó)燾請(qǐng)求中央給予他補(bǔ)助,毛主席同意,但提出一個(gè)條件

帝哥說(shuō)史
2026-01-17 06:40:03
2026-02-25 16:23:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12199文章數(shù) 176392關(guān)注度
往期回顧 全部

教育要聞

考研出分后的破局之道:抓住“金三銀四”,實(shí)現(xiàn)人生逆襲

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國(guó)代表發(fā)聲

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國(guó)代表發(fā)聲

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽(yáng)跑親戚 老婆李白模特身材

財(cái)經(jīng)要聞

GEO亂象:誰(shuí)為AI營(yíng)銷的泡沫買單?

科技要聞

“機(jī)器人只跳舞,沒什么用”

汽車要聞

750km超長(zhǎng)續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

教育
數(shù)碼
房產(chǎn)
旅游
公開課

教育要聞

【調(diào)劑專區(qū)】26考研調(diào)劑信息第二彈

數(shù)碼要聞

當(dāng)耳機(jī)帶了AMOLED屏 當(dāng)貝Air1深度評(píng)測(cè):是時(shí)尚耳飾 更是地表最強(qiáng) AI 耳機(jī)

房產(chǎn)要聞

330萬(wàn)人涌入!春節(jié)全國(guó)樓市,第一個(gè)賣爆的區(qū)域出現(xiàn)了!

旅游要聞

櫻桃花開了!來(lái)烏當(dāng)赴一場(chǎng)春暖花開之約

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版