国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

陶哲軒用Claude Code解題,兩度宕機(jī),因?yàn)閠oken不夠用

0
分享至

近日,菲爾茲獎得主、加州大學(xué)洛杉磯分校(UCLA)數(shù)學(xué)系教授陶哲軒(Terence Tao)在 YouTube 發(fā)布了一段時(shí)長約 26 分鐘的實(shí)操視頻,詳細(xì)演示了如何利用 Anthropic 推出的 Claude Code 代理工具,在 Lean 定理證明器中完成一項(xiàng)數(shù)學(xué)證明的形式化全過程。


(來源:Youtube)

陶哲軒在視頻開始就明確了任務(wù)目標(biāo):將集合論中的“單例定律”(Singleton Law)從非形式化的自然語言描述,轉(zhuǎn)化為 Lean 系統(tǒng)能夠編譯和嚴(yán)格驗(yàn)證的代碼。簡而言之,該定律論證了對于任意集合 A 和元素 x,單例集合 {x}屬于 A 的條件等價(jià)于某些特定的子集屬性。

盡管這在數(shù)學(xué)概念上這屬于較為基礎(chǔ)的引理,但要在類型論嚴(yán)苛的 Lean 系統(tǒng)中完成形式化,卻伴隨著大量瑣碎且對語法要求極高的代碼編寫工作。

這并非陶哲軒首次處理這一任務(wù)。大約九個(gè)月前,他曾在其主導(dǎo)的“方程理論”(Equation Theories)項(xiàng)目中,已經(jīng)利用當(dāng)時(shí)的主流工具(如 GitHub Copilot)手動完成了該證明。


(來源:Youtube)

這次引入 Claude Code 重做此題,陶哲軒是想直觀對比新一代“代理式編碼工具”與上一代代碼補(bǔ)全工具之間的代際差異。

與 GitHub Copilot 早期僅能基于光標(biāo)位置提供幾行代碼自動補(bǔ)全不同,Claude Code 是一個(gè)運(yùn)行在終端的代理系統(tǒng),能夠理解復(fù)雜的自然語言指令,自主讀取文件目錄,規(guī)劃步驟,并自動執(zhí)行代碼編輯和修改。在陶哲軒看來,這種能力的躍升或許讓 AI 有望真正接管數(shù)學(xué)研究中被稱為“繁文縟節(jié)”的重復(fù)性勞作。

大佬用 AI 也會翻車

有趣的是,視頻中所展示的流暢流程并非一蹴而就。陶哲軒在錄制中坦言,這是他第三次嘗試用 Claude Code 完成該任務(wù)。在此之前,他因?yàn)椴煌蛞呀?jīng)“翻車”了兩次。

在第一次嘗試中,陶哲軒直接給出了一個(gè)宏觀指令,要求 Claude“完成整個(gè)證明”。結(jié)果,AI 在連續(xù)運(yùn)行了 45 分鐘后,消耗了海量 Token 并導(dǎo)致電腦崩潰,最終未能產(chǎn)出任何有效結(jié)果。

有網(wǎng)友直接在評論區(qū)@Anthropic:“給陶哲軒開個(gè)無限 Token 權(quán)限吧,說不定數(shù)學(xué) 2.0 時(shí)代能提前到來!”這話聽著像玩笑,卻也戳中了當(dāng)前 AI 工具的一個(gè)現(xiàn)實(shí)痛點(diǎn):真干起精細(xì)活來,Token 消耗的速度是真快。


(來源:Youtube)

第二次嘗試時(shí),他改變了策略,要求 AI 按引理(Lemma 1, 2, 3)分步執(zhí)行,這次耗時(shí) 25 分鐘成功完成,但因錄屏軟件故障未能保存。

吸取了第一次的教訓(xùn),在第三次(即本次發(fā)布的視頻)實(shí)操中,陶哲軒采用了高度結(jié)構(gòu)化的“腳手架”(Scaffolding)策略。他在文件頂部撰寫了一份極其詳盡的“配方”(Recipe),將任務(wù)拆解為初始定義、大綱搭建以及三個(gè)子引理的逐步證明,以此來約束 AI 的行動發(fā)散空間。

1. 搭建骨架(Skeletonization)

流程初期,陶哲軒指令 Claude Code 先不要急于推導(dǎo),而是用 Lean 系統(tǒng)中的占位符“sorry”搭建起整個(gè)證明的宏觀框架。這一步進(jìn)行得異常順利,AI 準(zhǔn)確識別了非形式化證明中的邏輯斷點(diǎn),并將其轉(zhuǎn)化為 Lean 代碼結(jié)構(gòu)。陶哲軒指出,讓 AI 先寫出帶有“sorry”的骨架,隨后再逐一填補(bǔ),是目前最高效的人機(jī)協(xié)作模式。

2. 陷入泥潭與人工干預(yù)

然而,在具體填補(bǔ) Lemma 1 的證明細(xì)節(jié)時(shí),Claude Code 的短板開始顯現(xiàn)。由于 Lean 的底層邏輯要求高度嚴(yán)謹(jǐn),AI 在面對非形式化語言中的等式代換時(shí),表現(xiàn)出“過度思考”的傾向。它試圖頻繁展開底層的數(shù)學(xué)定義,而不是機(jī)械地按照人類給出的步驟進(jìn)行推演。

在視頻中,AI 在后臺進(jìn)行了大量的回溯和自我試錯(cuò),消耗了大量計(jì)算資源,推導(dǎo)過程變得異常冗長。在這個(gè)過程中,陶哲軒的工作站甚至意外宕機(jī)了一次。系統(tǒng)恢復(fù)后,面對 AI 將簡單步驟復(fù)雜化的窘境,陶哲軒果斷選擇人工介入。他直接接管了鍵盤,迅速輸入了一個(gè)基于 congr(同余/等式替換)指令的策略,瞬間突破了僵局。

他客觀評價(jià)道:“過度依賴工具可能會讓你失去對證明的直覺。當(dāng) AI 陷入死胡同時(shí),人類直接上手往往比等待它糾錯(cuò)要快得多。”

3. 演化出“并行工作流”

隨著進(jìn)程推進(jìn)到 Lemma 2 和 Lemma 3,陶哲軒展示了令人眼前一亮的工作流創(chuàng)新。當(dāng)他確認(rèn) AI 已經(jīng)掌握了骨架搭建的技巧后,他不再單純扮演“監(jiān)督者”,而是開始與 AI“雙線操作”。當(dāng) Claude Code 在后臺自主分析并試圖填補(bǔ) Lemma 3 的底層邏輯時(shí),陶哲軒則在代碼的前段手動補(bǔ)全 Lemma 2 中相對直觀的"sorry"部分。

這種人機(jī)并行作業(yè)的模式,最后將總耗時(shí)壓縮到了約半小時(shí)以內(nèi),并且最終代碼毫無報(bào)錯(cuò)地通過了 Lean 編譯器的嚴(yán)格審查。陶哲軒總結(jié)稱,將任務(wù)切分,人類處理一目了然的邏輯,而將需要堆砌代碼的繁重任務(wù)交由代理,是現(xiàn)階段最具可行性的實(shí)踐。

AI 從“平庸助教”到“初級合作者”

若將此次視頻置于陶哲軒近年來對 AI 的系列實(shí)驗(yàn)史中審視,我們能清晰地看到一條技術(shù)躍遷的軌跡。

早在此輪生成式 AI 爆發(fā)之初,陶哲軒就曾積極測試各類聊天機(jī)器人,并將其比作“平庸但不完全無能的研究生”。彼時(shí)的 AI 在處理如微積分中的 epsilon-delta 極限證明時(shí),極易出現(xiàn)幻覺,頻繁混淆變量域或遺漏邊界條件,更多是作為一種新奇的玩具存在。

到了 2025 年,隨著大模型基礎(chǔ)能力的提升,陶哲軒曾公開測試 GPT-5 級別模型在復(fù)雜學(xué)術(shù)文獻(xiàn)檢索上的表現(xiàn)。在那次測試中,AI 能夠快速在海量未完全結(jié)構(gòu)化的論文庫中挖掘出特定的定理淵源,為他節(jié)省了數(shù)周的案頭檢索時(shí)間。然而,當(dāng)時(shí) AI 扮演的仍是“高級圖書管理員”的輔助角色,而非直接介入證明的生成。

而進(jìn)入 2026 年初,形勢發(fā)生了質(zhì)的變化。以 ChatGPT 為代表的大模型在著名的 Erd?s 開放猜想庫中發(fā)力,試圖“獨(dú)立”解決這些涵蓋數(shù)論與組合學(xué)數(shù)百個(gè)未解之謎的問題。陶哲軒的 GitHub 主頁也記錄了利用這些系統(tǒng)自動化處理周邊猜想的嘗試,填補(bǔ)了人類因精力有限而忽略的邊緣地帶。


(來源:X)

本次利用 Claude Code 進(jìn)行的演示,恰恰是連接上述“前沿探索”與“日常實(shí)踐”的橋梁。雖然不如谷歌 AlphaProof 解出國際數(shù)學(xué)奧林匹克(IMO)難題那般具有極高的公眾戲劇性,但在 Lean 這一類型論保障的確定性環(huán)境中,陶哲軒的演示更為接地氣,也更貼近當(dāng)代數(shù)學(xué)家真實(shí)的研究常態(tài)。

當(dāng)然,在肯定 AI 帶來的效率革命的同時(shí),陶哲軒及其代表的數(shù)學(xué)界并未回避技術(shù)現(xiàn)存的局限性。

一方面,學(xué)術(shù)界有聲音擔(dān)憂,高度依賴 AI 生成的證明可能會引入“黑箱化”問題。即便 Lean 編譯器能夠從邏輯底層保證代碼 100% 的正確性,但長篇累牘、由機(jī)器生成的機(jī)器語言缺乏人類數(shù)學(xué)特有的直覺美感和可讀性,這可能導(dǎo)致數(shù)學(xué)從一門“理解的藝術(shù)”異化為單純的“符號驗(yàn)證”。

對此,陶哲軒保持了科學(xué)家特有的客觀與中立。他傾向于將 AI 定義為一種強(qiáng)大的“實(shí)驗(yàn)數(shù)學(xué)”工具。對于高度依賴計(jì)算和模式匹配的任務(wù),AI 無可替代;但涉及黎曼猜想這類需要顛覆性直覺和深層概念重構(gòu)的核心領(lǐng)域,人類的主導(dǎo)地位依然穩(wěn)固。

正如他此前在 IPAM 會議上所言:“只要 AI 為你節(jié)省的時(shí)間,多于你為了糾正它而浪費(fèi)的時(shí)間,它就是一款成功的工具?!贝舜伍L達(dá) 26 分鐘的無剪輯視頻,正是對這一論斷的最好背書。

在未來的數(shù)學(xué)研究中,“人機(jī)共作”或?qū)⒊蔀橐环N新常態(tài)。屆時(shí),也許 AI 能夠以“初級合作者”的身份,徹底打通數(shù)學(xué)從直覺構(gòu)想到計(jì)算機(jī)形式化驗(yàn)證之間的瓶頸。

視頻地址:https://www.youtube.com/watch?v=JHEO7cplfk8&t=124s

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
深度揭秘?|執(zhí)掌過3所院校都沒忘記過撈錢。山東科技大學(xué)原校長任廷琦貪腐細(xì)節(jié)曝光

深度揭秘?|執(zhí)掌過3所院校都沒忘記過撈錢。山東科技大學(xué)原校長任廷琦貪腐細(xì)節(jié)曝光

一分為三看人生
2026-03-10 00:07:27
長春這家大型連鎖加油站停止所有汽油銷售優(yōu)惠政策

長春這家大型連鎖加油站停止所有汽油銷售優(yōu)惠政策

吉刻新聞
2026-03-09 21:42:47
41萬ModelY新款上市,特斯拉嚇了車圈一跳!

41萬ModelY新款上市,特斯拉嚇了車圈一跳!

財(cái)經(jīng)三分鐘pro
2026-03-09 12:52:24
曝詹姆斯下賽季無意效力勇士!今夏選擇只有三個(gè):湖人騎士或退役

曝詹姆斯下賽季無意效力勇士!今夏選擇只有三個(gè):湖人騎士或退役

羅說NBA
2026-03-10 08:05:46
這兩條新聞放一起看,諷刺至極

這兩條新聞放一起看,諷刺至極

清書先生
2025-09-28 17:07:07
以色列兩名政客就餐時(shí)遭槍擊:蒙面男子連開數(shù)槍,遭襲人群慌亂找掩體

以色列兩名政客就餐時(shí)遭槍擊:蒙面男子連開數(shù)槍,遭襲人群慌亂找掩體

瀟湘晨報(bào)
2026-03-09 13:59:11
徐若瑄媽媽70歲大壽,林心如素顏出席,和賈靜雯載歌載舞好熱鬧

徐若瑄媽媽70歲大壽,林心如素顏出席,和賈靜雯載歌載舞好熱鬧

小徐講八卦
2026-03-10 07:06:31
美、布兩油持續(xù)跳水,美油逼近100美元/桶

美、布兩油持續(xù)跳水,美油逼近100美元/桶

貝殼財(cái)經(jīng)
2026-03-09 15:15:10
封神一戰(zhàn)!伊朗導(dǎo)彈把以色列命脈炸成火海,特朗普語無倫次露底牌

封神一戰(zhàn)!伊朗導(dǎo)彈把以色列命脈炸成火海,特朗普語無倫次露底牌

李健政觀察
2026-03-09 17:31:41
2592 元!蘋果剛發(fā)布的新機(jī),價(jià)格真的太香了

2592 元!蘋果剛發(fā)布的新機(jī),價(jià)格真的太香了

科技堡壘
2026-03-09 12:09:50
清算終于開始了!一個(gè)要求,震動?xùn)|京:中國要求日本限期內(nèi)歸還

清算終于開始了!一個(gè)要求,震動?xùn)|京:中國要求日本限期內(nèi)歸還

壹知眠羊
2026-01-28 22:03:28
專訪戴斌:不能用政府財(cái)政為網(wǎng)紅的冒險(xiǎn)行為買單

專訪戴斌:不能用政府財(cái)政為網(wǎng)紅的冒險(xiǎn)行為買單

極目新聞
2026-03-08 21:06:58
亞視一哥陳啟泰崩了:日賺斗金到靠老婆續(xù)命,20樓窗邊的絕望誰懂

亞視一哥陳啟泰崩了:日賺斗金到靠老婆續(xù)命,20樓窗邊的絕望誰懂

小椰的奶奶
2026-03-10 00:20:34
CBA全明星太太團(tuán)亮相,徐杰女友再度宣示主權(quán)大方回應(yīng)網(wǎng)友評論

CBA全明星太太團(tuán)亮相,徐杰女友再度宣示主權(quán)大方回應(yīng)網(wǎng)友評論

阿嚼影視評論
2026-03-09 18:35:57
伊朗發(fā)起第31波打擊

伊朗發(fā)起第31波打擊

界面新聞
2026-03-09 21:09:30
明著搶了?阿布拒絕將217億全捐給烏克蘭 英政府:我們將強(qiáng)制執(zhí)法

明著搶了?阿布拒絕將217億全捐給烏克蘭 英政府:我們將強(qiáng)制執(zhí)法

風(fēng)過鄉(xiāng)
2026-03-10 07:33:47
麥當(dāng)勞CEO試吃自家漢堡被批“生理性抗拒”,淪為公關(guān)災(zāi)難

麥當(dāng)勞CEO試吃自家漢堡被批“生理性抗拒”,淪為公關(guān)災(zāi)難

商業(yè)透鏡
2026-03-09 14:36:11
微信迎來史詩級大更新!全新界面來了

微信迎來史詩級大更新!全新界面來了

XCiOS俱樂部
2026-03-09 20:35:39
張曼曼資歷淺,楊舒予出局,女籃隊(duì)長懸念揭曉,只剩兩位花落誰家

張曼曼資歷淺,楊舒予出局,女籃隊(duì)長懸念揭曉,只剩兩位花落誰家

以茶帶書
2026-03-09 18:27:17
明星更應(yīng)具備藝德!在上海被拘的四位名人,你們知道他們是誰嗎?

明星更應(yīng)具備藝德!在上海被拘的四位名人,你們知道他們是誰嗎?

一盅情懷
2026-02-15 19:48:24
2026-03-10 08:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16387文章數(shù) 514729關(guān)注度
往期回顧 全部

科技要聞

OpenClaw更新,"養(yǎng)蝦"再也不會犯健忘癥了

頭條要聞

牛彈琴:特朗普放風(fēng)要停戰(zhàn) 伊朗稱正為美國準(zhǔn)備"驚喜"

頭條要聞

牛彈琴:特朗普放風(fēng)要停戰(zhàn) 伊朗稱正為美國準(zhǔn)備"驚喜"

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂要聞

薛之謙老婆懷二胎,現(xiàn)身產(chǎn)檢心情愉快

財(cái)經(jīng)要聞

"養(yǎng)蝦"生意經(jīng):有人賣鏟,有人做保鏢

汽車要聞

對標(biāo)奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
數(shù)碼
健康
游戲

房產(chǎn)要聞

國家要砸400億!海南這個(gè)超級項(xiàng)目又有新消息!

藝術(shù)要聞

30000畝杏花開了,才知道原來新疆的春天這么美!

數(shù)碼要聞

Tessan霆圣海外推出貓臉造型65W桌充:2C+2A,45.99美元

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

《風(fēng)之馬傳說》Steam特別好評 當(dāng)個(gè)古代快遞員

無障礙瀏覽 進(jìn)入關(guān)懷版