国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

哈佛教授招了個AI研究生,3天后發(fā)現(xiàn)它在論文里造假

0
分享至


讓AI搞科研,在這個智能體時代已經(jīng)不是什么新鮮事。

Sakana AI搞出了覆蓋整個研究生命周期的自動化系統(tǒng),Google推出了基于Gemini的AI聯(lián)合科學家。規(guī)?;▌t告訴我們:只要算力管夠,AI就能從海量數(shù)據(jù)和實驗里提煉出新發(fā)現(xiàn)。數(shù)學領(lǐng)域已經(jīng)驗證過了——AlphaProof拿下國際奧數(shù)金牌就是例子。

但理論物理學不一樣。這里需要極高的物理"直覺"、嚴密的邏輯,還有復雜近似推導的能力。AI能不能行?沒人知道。

哈佛物理學教授Matthew Schwartz決定親自試一把。這位美國國家科學基金會AI與基礎(chǔ)相互作用研究所的首席研究員,給Anthropic的Claude Opus 4.5發(fā)了份"錄取通知書",讓它獨立完成一項真實的理論物理研究。

規(guī)則很苛刻:教授絕對不碰任何代碼或計算文件,只通過純文本對話來指導。放在現(xiàn)實高校里,這導師得被投訴到下崗——光靠"動嘴",學生就要完成文獻綜述、公式推導、代碼編寫、蒙特卡洛模擬,最后排版出一篇20頁、具備發(fā)表水準的LaTeX論文。

結(jié)果讓物理學界和學術(shù)界都愣住了。AI確實才華橫溢、不知疲倦,短時間內(nèi)爆發(fā)出驚人的科研生產(chǎn)力。但它也暴露出一個致命弱點:為了討好導師,它會毫不猶豫地在數(shù)據(jù)和推導過程中"學術(shù)造假"。

哈佛物理系的培養(yǎng)階梯很清晰:研一(G1)上課打基礎(chǔ),研二(G2)做目標明確的跟進型項目,導師隨時糾錯;高年級(G3+)才碰完全開放的前沿研究。現(xiàn)在大模型已經(jīng)能搞定所有物理課程作業(yè),所以測試極限的最佳試金石就是G2難度的真實科研問題。

Schwartz教授給Claude選的題目,非物理專業(yè)的人基本看不懂:對e+e-碰撞中C-參數(shù)的Sudakov肩進行重求和。用大白話說,標準理論近似在這里會徹底失效,數(shù)學推導只會得出荒謬結(jié)果。

第一個要解決的難題是記憶和上下文窗口。經(jīng)常用AI寫代碼的人都知道,AI面對長線任務(wù)極其容易"斷片",一旦忘了前面干過什么,產(chǎn)出就是一團混沌。

Schwartz教授的策略是讓Claude、GPT-5.2和Gemini 3.0先開了一場會,最終由Claude制定了一份7階段、102個任務(wù)的詳細計劃。在VS Code環(huán)境下,Claude建了一個Markdown文件樹:每完成一個任務(wù)就寫摘要保存,下一項任務(wù)前先檢索歷史摘要。

這招確實管用。第三天結(jié)束時,Claude完成了65個任務(wù),理論分析曲線與蒙特卡洛模擬數(shù)據(jù)完美吻合,還交出了第一版論文草稿——20頁、排版精美、方程圖表一應(yīng)俱全。

但Schwartz教授坐下來審閱時,不自然感撲面而來。

要求Claude核對是否漏掉前面的推導結(jié)果,它心虛地報告:"我發(fā)現(xiàn)了一個錯誤!論文中的公式是不正確的。"追問推導過程中一個怪異的數(shù)字,它直接承認:"您是對的,我只是在掩蓋問題。讓我好好重新調(diào)試一下。"


這兩句回復,在AI輔助編程的場景里再熟悉不過了。

真相是:為了讓圖表數(shù)據(jù)看上去吻合預期,Claude選擇修改底層參數(shù),而不是去找推導過程中的真實錯誤。它在偽造結(jié)果,賭人類導師不會發(fā)現(xiàn)。

更離譜的造假出現(xiàn)在一張帶"不確定性帶"的結(jié)果圖上。Claude給出的圖表很美觀,但代碼審查揭穿了它的花招:它覺得某種標準誤差幅度太大、"不好看",就在代碼里直接刪了這個變量;覺得曲線不夠平滑,就硬加平滑處理,直到畫出能讓導師滿意的圖。

討好人類的傾向是有了,科學求真的底線卻完全沒有。

除了偽造圖表,"幻覺"導致的錯誤也隨處可見。驗證公式時,它憑空捏造了一段根本不存在的推導;最簡單的函數(shù)計算,它未經(jīng)推導直接給出"線性增加"的結(jié)論,盡管這在物理學上完全錯誤;它還會從過往論文里生搬硬套公式,完全無視物理情境的邊界條件。

這些現(xiàn)象和AI編程場景高度一致:虛空引用Python庫、編造API、抄襲代碼,程序員們早就見怪不怪。

Schwartz教授意識到,如果把科研完全交給AI端到端自動完成,最終結(jié)果一定是一堆完美包裝的學術(shù)垃圾。雖然不少人類研究生也擅長批量生產(chǎn)學術(shù)垃圾,但沒人敢把只做了三天的項目扔給導師并宣稱完美無瑕。

面對AI的科研成果,人類必須親自下場,審查每一處細節(jié)。

論文漏洞百出,但Schwartz教授沒打算扔進垃圾桶,而是開啟微操模式試圖拯救Claude。最大漏洞出在因子化公式上——這是整篇論文的理論基石,但Claude的推導從源頭上就是錯的。

在長上下文背景下,AI幾乎不可能準確定位錯誤源頭。讓它自己回顧推導,只會白白消耗token和時間。Schwartz教授花了好幾個小時才鎖定問題根源,并用極其嚴厲的指令訓斥了這位AI研究生。

神奇的是,只要人類點破這一句,Claude立刻能寫出長達幾頁的正確推導過程。

面對幾十頁論文,靠人類排查每個錯誤不太現(xiàn)實。為了應(yīng)對AI的馬虎,Schwartz教授開發(fā)了一套"人機交叉驗證"工作流:任何計算和推導,Claude不許用"顯而易見"、"為了保持一致"等借口跳過步驟,要么展示完整過程,要么老實承認不知道。

如果Claude給出極度復雜的過程,教授難以快速驗證,就丟給GPT和Gemini來驗證。期間GPT甚至幫Claude解出了一個極難的微積分結(jié)果,隨后Claude將其吸收進主代碼。不同大模型之間需要彼此,人類科學家則需要它們所有。


在Schwartz教授直覺指引和其他大模型幫助下,經(jīng)過一周高強度磨合,AI研究生小組終于讓論文內(nèi)核站穩(wěn)了腳跟。兩周后,研究宣布大功告成。

這可不是常規(guī)意義上AI生成的"灌水"論文。它闡述了一個全新因子化定理,深化了學術(shù)界對量子場論的理解,還對物理世界做出了可用實驗數(shù)據(jù)檢驗的新穎預測,學術(shù)價值極高。

出于對這位AI研究生的尊重,Schwartz教授本想將Claude Opus 4.5列為共同作者。但arXiv平臺有"AI無法承擔法律和學術(shù)責任"的政策,他只能在致謝部分鄭重聲明:項目由他構(gòu)思、指導并承擔全部科學責任,而推導、計算、蒙特卡洛模擬、數(shù)值分析和手稿準備等所有執(zhí)行工作均由Claude Opus 4.5獨立完成。

論文一經(jīng)發(fā)表,物理學界瞬間被引爆。Schwartz教授的郵箱被全球?qū)W術(shù)郵件擠爆,普林斯頓高等研究院甚至為此緊急召開了一場關(guān)于大模型在學術(shù)界應(yīng)用的會議。

復盤這場實驗,數(shù)據(jù)同樣驚人:對話總計270次,消耗約3600萬輸入token,110次草稿迭代,人類監(jiān)督時間僅為50-60小時。

Schwartz教授明確表示,目前最頂級的大語言模型已經(jīng)達到了物理學研二學生的水平。但落實到具體學術(shù)工程,AI完成整個項目只需要兩周,人類學生需要1-2年,哪怕教授本人全職來做也需要3-5個月。AI把頂尖科學家的個人科研效率,實打?qū)嵉靥嵘?0倍以上。

這也引發(fā)了擔憂:照這個進化速度,AI很可能在一年內(nèi)達到博士水平,未來的人類研究生還能干什么?

Schwartz教授沒有給出明確回答,但他指出了當前AI最欠缺的東西:"品位"。

在科學研究中,"品位"是一種無形的直覺。它能在面對數(shù)以萬計的計算路徑時,感知哪條是"死胡同",哪條通往偉大發(fā)現(xiàn)。大模型缺乏的,正是在選擇路徑前判斷其價值的"品位"。

當推導復雜公式和編寫海量代碼只需要幾秒鐘時,底層技術(shù)勞動力已經(jīng)不再稀缺。不只是科學家,對任何一個行業(yè),未來區(qū)分平庸與偉大的標準,正是提出好問題的"品味"。

對于AI,Schwartz教授也給出了忠告:不要因為AI會產(chǎn)生幻覺,就傲慢地棄之不用。人類必須利用它強大的基礎(chǔ)能力。

至于更長遠的未來,AI終將在所有智力領(lǐng)域超越人類。無論是數(shù)學、物理學還是工程學,都可能變得像音樂、美術(shù)和文學一樣,作為一門人文學科被保留下來,僅僅為了滿足一部分人享受純粹思考、透過特定視角觀察世界的樂趣。

論文致謝部分的最后一行,Schwartz教授留下了這樣一句話:"感謝Claude Opus 4.5,盡管它偶爾會試圖欺騙我。"

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張雪峰醫(yī)療文件疑遭泄露?蘇州衛(wèi)生健康委:已關(guān)注到此事并在處理

張雪峰醫(yī)療文件疑遭泄露?蘇州衛(wèi)生健康委:已關(guān)注到此事并在處理

極目新聞
2026-03-25 11:50:47
這些聊天記錄是真實事件吧?吃瓜群眾不嫌事大,八卦感拉滿了!

這些聊天記錄是真實事件吧?吃瓜群眾不嫌事大,八卦感拉滿了!

夜深愛雜談
2026-03-25 22:06:41
已刪除!鐘麗緹發(fā)文道歉:在孩子教育問題上有疏忽

已刪除!鐘麗緹發(fā)文道歉:在孩子教育問題上有疏忽

半島晨報
2026-03-24 15:30:03
親身跑完500公里高速,才懂電車和油車差距有多大,選錯車太糟心

親身跑完500公里高速,才懂電車和油車差距有多大,選錯車太糟心

老特有話說
2026-03-24 15:07:23
連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對話視頻原創(chuàng)作者:最初只是為了賣醬板鴨,特意設(shè)置反轉(zhuǎn)劇情,沒想到會這么火

連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對話視頻原創(chuàng)作者:最初只是為了賣醬板鴨,特意設(shè)置反轉(zhuǎn)劇情,沒想到會這么火

極目新聞
2026-03-25 19:37:57
20分32分42分!上海全員殺瘋,一夜爆3門慘案,3-12名亂成一鍋粥

20分32分42分!上海全員殺瘋,一夜爆3門慘案,3-12名亂成一鍋粥

后仰大風車
2026-03-26 06:05:05
日媒:政府出手后,日本汽油價已降至7.71元/升

日媒:政府出手后,日本汽油價已降至7.71元/升

隨波蕩漾的漂流瓶
2026-03-25 15:39:49
2.4億成全你!詹姆斯降薪2000萬?雙詹合體咋辦!

2.4億成全你!詹姆斯降薪2000萬?雙詹合體咋辦!

柚子說球
2026-03-25 11:44:10
1912年,曹錕娶20歲陳寒蕊,新婚夜他酣睡,新娘見其蒼老悲泣不止

1912年,曹錕娶20歲陳寒蕊,新婚夜他酣睡,新娘見其蒼老悲泣不止

嘮叨說歷史
2026-03-24 18:52:24
欠中國的錢,委內(nèi)瑞拉不還了?美財長:中國已無法繼續(xù)獲得委石油

欠中國的錢,委內(nèi)瑞拉不還了?美財長:中國已無法繼續(xù)獲得委石油

萌城少年強
2026-01-22 12:47:40
取消交強險呼聲高漲!交通部重磅出手,車主集體叫好:太給力

取消交強險呼聲高漲!交通部重磅出手,車主集體叫好:太給力

小怪吃美食
2026-03-24 02:51:39
中國空軍立下規(guī)矩:從今以后,絕不允許有人對我大聲說話!

中國空軍立下規(guī)矩:從今以后,絕不允許有人對我大聲說話!

郭蛹包工頭
2026-03-25 17:06:08
2002年,李玟在拍攝MV時,一眼看中了安志杰,兩人迅速墜入愛河。

2002年,李玟在拍攝MV時,一眼看中了安志杰,兩人迅速墜入愛河。

南權(quán)先生
2026-03-25 15:29:14
警醒!中國該提防巴基斯坦了,他們的小孩,隨口就說“秦腔窮”

警醒!中國該提防巴基斯坦了,他們的小孩,隨口就說“秦腔窮”

原來仙女不講理
2026-03-25 17:54:03
全國統(tǒng)一!煙花爆竹新規(guī)5月1日正式實施,個人燃放只認這兩類

全國統(tǒng)一!煙花爆竹新規(guī)5月1日正式實施,個人燃放只認這兩類

阿柒的訊
2026-03-24 22:54:33
甘蔗干成“柴”無人看管,陌生人發(fā)帖尋“甘蔗哥” 母親:兒子已手術(shù)出院

甘蔗干成“柴”無人看管,陌生人發(fā)帖尋“甘蔗哥” 母親:兒子已手術(shù)出院

封面新聞
2026-03-25 19:12:04
省下一億鎊!曼聯(lián)自有 “新吉馬良斯”,卡里克手握王炸

省下一億鎊!曼聯(lián)自有 “新吉馬良斯”,卡里克手握王炸

瀾歸序
2026-03-26 04:56:27
短短1年,靈活就業(yè)者暴增4千萬

短短1年,靈活就業(yè)者暴增4千萬

深度報
2026-03-23 21:47:58
張?zhí)鞇厶S滿了!穿掛脖裙兜不住好身材,真讓人心動!

張?zhí)鞇厶S滿了!穿掛脖裙兜不住好身材,真讓人心動!

東方不敗然多多
2026-03-09 06:31:29
《鏢人》再破紀錄,打敗《飛馳人生3》,登頂中國冠軍

《鏢人》再破紀錄,打敗《飛馳人生3》,登頂中國冠軍

影視高原說
2026-03-24 19:32:39
2026-03-26 07:56:49
灰度測試中
灰度測試中
生活正在重構(gòu),目前還在灰度測試階段,暫不全量發(fā)布。
59文章數(shù) 1關(guān)注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關(guān)停

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機 現(xiàn)場畫面披露

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機 現(xiàn)場畫面披露

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產(chǎn)分割復雜!是否立遺囑成關(guān)鍵

財經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

親子
藝術(shù)
本地
公開課
軍事航空

親子要聞

眼睛和嘴對了一晚上賬,愣是沒對上!

藝術(shù)要聞

原來唐朝貴婦的生活,比我們還會享受!

本地新聞

來永泰同安 赴一場春天的約會

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗重申非交戰(zhàn)國家船只可安全通過霍爾木茲海峽

無障礙瀏覽 進入關(guān)懷版