国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gary Marcus驚世之言:純LLM上構(gòu)建AGI徹底沒了希望!MIT、芝大、哈佛論文火了

0
分享至

來源:機(jī)器之心

今天,著名的人工智能學(xué)者和認(rèn)知科學(xué)家 Gary Marcus 轉(zhuǎn)推了 MIT、芝加哥大學(xué)、哈佛大學(xué)合著的一篇爆炸性論文,稱「對于 LLM 及其所謂能理解和推理的神話來說,情況變得更糟了 —— 而且是糟糕得多?!?/p>

這項(xiàng)研究揭示了一種被稱為「波將金式」(Potemkins)的推理不一致性模式(見下文圖1)。研究表明,即使是像 o3這樣的頂級模型也頻繁犯此類錯誤?;谶@些連自身論斷都無法保持一致的機(jī)器,你根本不可能創(chuàng)造出通用人工智能(AGI)。

正如論文所言:在基準(zhǔn)測試上的成功僅證明了「波將金式理解」:一種由「與人類對概念的理解方式完全不可調(diào)和的答案」所驅(qū)動的理解假象…… 這些失敗反映的不僅是理解錯誤,更是概念表征深層次的內(nèi)在矛盾。

Gary Marcus 認(rèn)為,這宣告了任何試圖在純粹 LLM 基礎(chǔ)上構(gòu)建 AGI 希望的終結(jié)。最后,他還 @了 Geoffrey Hinton,稱后者要失?。╟heckmate)。



接著,Gary Marcus 又接連發(fā)推,分享了他對這篇論文的更多看法。

他稱基于非正式測試,發(fā)現(xiàn)像 o3這類模型似乎較不容易陷入簡單的「波將金式錯誤」,但并非完全免疫。

如下圖(左)所示,模型雖然能正確闡述俳句的定義,卻錯誤斷言「asphalt shimmers」符合俳句末行應(yīng)為五音節(jié)的要求;直到后續(xù)追問之下(右),才勉強(qiáng)承認(rèn)錯誤。這再次印證了問題的核心:根本缺陷在于其缺乏可靠性。



在仔細(xì)研讀論文后,Gary Marcus 認(rèn)為它的核心觀點(diǎn)是正確的 ——LLM 確實(shí)容易產(chǎn)生各種自相矛盾(比如之前說的「波將金式錯誤」)。但是,論文里具體的實(shí)驗(yàn)例子在他看來說服力不夠強(qiáng)。

根據(jù)他自己之前非正式實(shí)驗(yàn)的觀察(包括下周會公布的一個例子),Gary Marcus 確信此處存在一個真正的問題。不過,要想真正弄清楚這個問題的普遍性有多大,以及它對不同類型模型的影響程度如何,還需要進(jìn)行更深入的研究。



Gary Marcus 的觀點(diǎn)讓評論區(qū)炸了鍋,有人問他是否認(rèn)可 LLM 越來越好。他雖然持肯定答案,但也認(rèn)為它們有可能來到了收益遞減的點(diǎn)。



還有人認(rèn)為,我們其實(shí)不需要 LLM 理解,只要它們表現(xiàn)得越來越好就夠了。即使是人類,也并不總是可以理解。



谷歌 DeepMind 資深科學(xué)家(Principal Scientist)Prateek Jain 現(xiàn)身評論區(qū),表示這篇論文和它提出的評估方法 + 基準(zhǔn)測試很有意思!他拿出 Gemini 2.5 Pro 測試了論文中提到的所有例子,結(jié)果都答對了。因此,他很想知道 Gemini 2.5 Pro 在完整的測試集上表現(xiàn)如何,以及它在哪些具體例子上會出錯。



有人也提出了質(zhì)疑,這篇論文只是很好地描述了當(dāng)前 LLM 的一種廣為人知的實(shí)效模式,不明白為什么「注定失敗」呢。



接下來,我們來看這篇論文究竟講了什么,是否真能支撐起 Gary Marcus 這番言論。

論文介紹



  • 論文標(biāo)題:Potemkin Understanding in Large Language Models
  • 論文地址:https://arxiv.org/pdf/2506.21521

大型語言模型通常依靠基準(zhǔn)數(shù)據(jù)集進(jìn)行評估。但僅僅根據(jù)它們在一套精心挑選的問題上的回答,就推斷其能力是否合理?本文首先提出了一個形式化框架來探討這一問題。關(guān)鍵在于:用來測試 LLM 的基準(zhǔn)(例如 AP 考試)原本是為了評估人類設(shè)計的。然而,這帶來了一個重要前提:只有當(dāng) LLM 在理解概念時出現(xiàn)的誤解方式與人類相似時,這些基準(zhǔn)才能作為有效的能力測試。否則,模型在基準(zhǔn)上的高分只能展現(xiàn)一種「波將金式理解」:看似正確的回答,卻掩蓋了與人類對概念的真正理解之間的巨大差距。

為此,本文提出了兩種方法來量化「波將金現(xiàn)象」的存在:一種是基于針對三個不同領(lǐng)域特制的基準(zhǔn),另一種是通用的程序,可提供其普遍性下限的估計。研究結(jié)果顯示,波將金現(xiàn)象在各類模型、任務(wù)和領(lǐng)域中普遍存在;更重要的是,這些失敗不僅是表面上的錯誤理解,更揭示了模型在概念表征上的深層內(nèi)在不一致性。



大型語言模型中的潛在理解圖示。這個例子顯示了 GPT-4o 未能運(yùn)用自己的概念解釋 ABAB 韻律方案。

框架

當(dāng)人類與大型語言模型在對概念的理解上存在不一致時,就會出現(xiàn)「波將金現(xiàn)象」。在此,本文提出了一個用于定義概念性理解的理論框架。

研究團(tuán)隊將這一概念形式化:定義 X 為與某一概念相關(guān)的所有字符串的集合。例如,一個字符串可以是該概念的一個可能定義,或是一個可能的示例。然而,并非所有與概念相關(guān)的字符串都是對概念的有效使用。

一個概念的解釋被定義為任何函數(shù) f:X→{0,1},其中輸出表示該字符串在此解釋中是否被認(rèn)為是有效的(0表示無效,1表示有效)。存在唯一正確的解釋,記作 f*。人類對概念可能的解釋方式構(gòu)成的集合記作 F_h。其中,任何 f∈ F_h 且 f≠f*的情況,都代表了人類對該概念可能產(chǎn)生的一種誤解。

考慮人類可能采用的某種解釋 f∈ F_h,我們?nèi)绾螜z驗(yàn) f 是不是正確的解釋?實(shí)際上,在所有字符串 x∈X 上驗(yàn)證 f (x)= f*(x) 是不可行的。

因此,研究團(tuán)隊希望僅在少數(shù)幾個字符串 x 上檢驗(yàn) f (x)= f*(x)。但這種做法在什么時候是合理的呢?答案在該框架中得以揭示:如果他們選擇的示例集是經(jīng)過精心設(shè)計的,使得只有真正理解概念的人才能對這些示例做出正確解釋,那么就可以用有限的示例集來測試人類的概念理解。

形式化地,他們將基石集定義為 S?X 的一個最小實(shí)例集,使得若 f∈F_h 且對所有 x∈S 滿足 f (x)=f*(x),則可得出 f= f*。也就是說,如果某人在基石集中的每個示例上都能做出與正確解釋一致的判斷,那么就不可能將其解釋與任何錯誤的人類理解調(diào)和起來。圖2給出了基石集的可視化示意。

這一方法說明了為什么測試人類對概念的理解是可行的:測試概念理解并不需要在所有相關(guān)示例上檢驗(yàn),而只需在基石集中的示例上進(jìn)行測試即可。



方法及結(jié)論

本文提出了兩種用于衡量大型語言模型中波將金現(xiàn)象普遍性的程序。本節(jié)介紹其中一種方法:基于研究團(tuán)隊收集的基準(zhǔn)數(shù)據(jù)集,測量一種特定類型的波將金式失敗 —— 即對概念的描述與應(yīng)用之間的脫節(jié)。具體來說,他們構(gòu)建了一個涵蓋三個不同領(lǐng)域(文學(xué)技巧、博弈論和心理偏差)的數(shù)據(jù)集,涉及32個概念,共收集了3159條標(biāo)注數(shù)據(jù)。

他們發(fā)現(xiàn),即使模型能夠正確地定義一個概念,它們在分類、生成和編輯任務(wù)中往往無法準(zhǔn)確地將其應(yīng)用。所有收集到的數(shù)據(jù)、標(biāo)注和分析結(jié)果均在 Potemkin Benchmark 倉庫中公開提供。

研究團(tuán)隊在32個概念上對7個大型語言模型進(jìn)行了分析。這些模型因其流行度以及涵蓋不同開發(fā)商和規(guī)模而被選中。他們通過 OpenAI、Together.AI、Anthropic 和 Google 的 API 收集模型推理結(jié)果。對于每個(模型,概念)組合,他們首先判斷模型是否給出了正確的概念定義。如果定義正確,再評估其在三項(xiàng)額外任務(wù) —— 分類、生成和編輯 —— 中的準(zhǔn)確性。根據(jù)本文的框架規(guī)范,將模型的回答標(biāo)記為正確或錯誤。

他們測量模型表現(xiàn)出的波將金率。波將金率被定義為:在基石示例上做出正確回答的前提下,模型在隨后的問題上回答錯誤的比例。對于隨機(jī)準(zhǔn)確率為0.50的任務(wù),將該值乘以2,使得波將金率為1表示表現(xiàn)相當(dāng)于隨機(jī)水平。

研究結(jié)果顯示,在所有模型和領(lǐng)域中,波將金率都普遍較高。



雖然模型在94.2% 的情況下能正確地定義概念,但在需要使用這些概念執(zhí)行任務(wù)時,其表現(xiàn)會急劇下降,這一點(diǎn)通過表中的高波將金率得到體現(xiàn)。盡管不同模型和任務(wù)間表現(xiàn)略有差異,但我們可以發(fā)現(xiàn)波將金現(xiàn)象在研究團(tuán)隊分析的所有模型、概念和領(lǐng)域中無處不在。



研究團(tuán)隊還提出了一種不同的、自動化的程序,用于評估波將金現(xiàn)象的存在。

剛才,已經(jīng)展示了波將金式理解在大型語言模型中的普遍性。造成這種現(xiàn)象可能有兩種原因:一種可能是模型對概念的理解存在輕微偏差,但其內(nèi)部是一致的;另一種可能是模型對概念的理解本身就是不連貫的,對同一個概念持有相互沖突的認(rèn)知。為了區(qū)分這兩種情況,研究團(tuán)隊專門測試模型內(nèi)部的概念不一致性。

他們通過兩步來衡量不一致性。首先,研究團(tuán)隊提示模型生成某一特定概念的一個實(shí)例或非實(shí)例(例如,生成一個斜韻的例子)。接著,他們將模型生成的輸出重新提交給模型(通過獨(dú)立的查詢),并詢問該輸出是否確實(shí)是該概念的一個實(shí)例。在斜韻的例子中,這意味著測試模型能否認(rèn)出自己生成的示例是否屬于斜韻。圖5總結(jié)了這一流程。



表2中我們可以觀察到在所有檢查的模型、概念和領(lǐng)域之間存在不一致性,得分范圍從0.02到0.64。盡管這些得分好于隨機(jī)情況,但仍然表明模型在一致性評估其自身輸出方面存在實(shí)質(zhì)性局限。這表明概念誤解不僅源于對概念的誤解,還源于對它們使用的不一致。



綜上,通過兩種互補(bǔ)的實(shí)證方法 —— 一種利用涵蓋文學(xué)技巧、博弈論和心理偏差的新基準(zhǔn)數(shù)據(jù)集,另一種采用自動化評估策略 —— 本文量化了波將金式理解現(xiàn)象在各種任務(wù)、概念、領(lǐng)域和模型中的普遍存在。兩種方法均顯示,即便是在按照傳統(tǒng)基準(zhǔn)測試標(biāo)準(zhǔn)看似能力很強(qiáng)的模型中,這種現(xiàn)象的發(fā)生率也很高。不一致性檢測表明,模型內(nèi)部存在對同一思想的沖突表征。

責(zé)任編輯:趙俊_NS5119

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
渝AD0001Z,國內(nèi)首塊L3級自動駕駛專用號牌誕生

渝AD0001Z,國內(nèi)首塊L3級自動駕駛專用號牌誕生

新京報
2025-12-21 12:59:08
南博風(fēng)波越挖越深!82歲前院長揪出,左手倒右手,8800萬國寶賤賣

南博風(fēng)波越挖越深!82歲前院長揪出,左手倒右手,8800萬國寶賤賣

烏娛子醬
2025-12-22 14:51:34
最不想看出現(xiàn)了!張凱麗因不得體穿搭被熱議,劉曉慶的話得到印證

最不想看出現(xiàn)了!張凱麗因不得體穿搭被熱議,劉曉慶的話得到印證

現(xiàn)代小青青慕慕
2025-12-20 09:42:00
完爆王少杰+碾壓焦泊喬!CBA最強(qiáng)中鋒打成大腿,已被廣東隊鎖定!

完爆王少杰+碾壓焦泊喬!CBA最強(qiáng)中鋒打成大腿,已被廣東隊鎖定!

緋雨兒
2025-12-22 11:21:37
他無顯赫出身,靠4任妻子成為知名人物,活到97歲

他無顯赫出身,靠4任妻子成為知名人物,活到97歲

古書記史
2025-12-19 18:18:41
新華社權(quán)威快報|支持個人信用重塑!央行發(fā)布一次性信用修復(fù)政策

新華社權(quán)威快報|支持個人信用重塑!央行發(fā)布一次性信用修復(fù)政策

新華社
2025-12-22 08:33:06
伊薩克已接受手術(shù),將缺陣數(shù)月

伊薩克已接受手術(shù),將缺陣數(shù)月

體壇周報
2025-12-23 07:28:09
被兄弟"做局"奪走300億公司,坐牢10年的賭徒CEO出來了

被兄弟"做局"奪走300億公司,坐牢10年的賭徒CEO出來了

帥真商業(yè)
2025-12-16 21:08:37
悲催!武漢一地產(chǎn)公司破產(chǎn),總資產(chǎn)34.6億元,負(fù)債卻高達(dá)64.6億元

悲催!武漢一地產(chǎn)公司破產(chǎn),總資產(chǎn)34.6億元,負(fù)債卻高達(dá)64.6億元

火山詩話
2025-12-22 11:06:32
中國乒協(xié)突然出手,多位日本球員的來華訓(xùn)練申請被按下暫停鍵。

中國乒協(xié)突然出手,多位日本球員的來華訓(xùn)練申請被按下暫停鍵。

荊楚寰宇文樞
2025-12-22 22:21:28
嬰兒出生誰先抱?老一輩有講究:這4種人先抱能旺娃一輩子

嬰兒出生誰先抱?老一輩有講究:這4種人先抱能旺娃一輩子

蕭竹輕語
2025-12-22 14:44:17
丹麥怒了!“這一決定令我深感憤慨”

丹麥怒了!“這一決定令我深感憤慨”

觀察者網(wǎng)
2025-12-22 21:12:40
南京博物院又揭大瓜,前文物局局長曾問:賣幾個兵馬俑行不行?

南京博物院又揭大瓜,前文物局局長曾問:賣幾個兵馬俑行不行?

今日美食分享
2025-12-22 18:10:12
軍事行動升級,全球同時接通知,解放軍用中英雙語,跟日本算總賬

軍事行動升級,全球同時接通知,解放軍用中英雙語,跟日本算總賬

阿鳧愛吐槽
2025-12-21 07:05:58
笑死!原來不跨過屎尿屁這一關(guān),兩人真的很難親密得起來!

笑死!原來不跨過屎尿屁這一關(guān),兩人真的很難親密得起來!

夜深愛雜談
2025-12-08 20:00:45
上港暴殄天物!剛放走古斯塔沃,中超各隊就瘋狂哄搶,或加盟重慶

上港暴殄天物!剛放走古斯塔沃,中超各隊就瘋狂哄搶,或加盟重慶

羅掌柜體育
2025-12-22 10:45:51
神秘“華人”爆料,某島上錢色交易不值一提,深層次的秘密才可怕

神秘“華人”爆料,某島上錢色交易不值一提,深層次的秘密才可怕

林林故事揭秘
2024-12-25 12:24:41
續(xù)航最高92公里 一周充次電!九號發(fā)布Fz系列新國標(biāo)電動車發(fā)布:2999元起

續(xù)航最高92公里 一周充次電!九號發(fā)布Fz系列新國標(biāo)電動車發(fā)布:2999元起

快科技
2025-12-22 20:08:09
恭喜!4中3生涯新高!楊瀚森也來了!

恭喜!4中3生涯新高!楊瀚森也來了!

左右為籃
2025-12-22 12:14:51
昔日“鞋王”跌落神壇!開膠、斷底,一上腳就報廢,2年巨虧4.6億

昔日“鞋王”跌落神壇!開膠、斷底,一上腳就報廢,2年巨虧4.6億

歷史偉人錄
2025-12-22 14:08:05
2025-12-23 08:39:00
風(fēng)向觀察
風(fēng)向觀察
關(guān)注新聞
150文章數(shù) 3354關(guān)注度
往期回顧 全部

科技要聞

快手遭黑灰產(chǎn)攻擊 直播間現(xiàn)大量色情內(nèi)容

頭條要聞

女子痔瘡術(shù)后9天離世 生前腿部劇痛醫(yī)生稱是正?,F(xiàn)象

頭條要聞

女子痔瘡術(shù)后9天離世 生前腿部劇痛醫(yī)生稱是正常現(xiàn)象

體育要聞

戴琳,中國足球的反向代言人

娛樂要聞

張柏芝不再隱瞞,三胎生父早有答案?

財經(jīng)要聞

直播間涉黃?快手:遭到黑灰產(chǎn)攻擊已報警

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

旅游
藝術(shù)
家居
健康
數(shù)碼

旅游要聞

劍川縣:“景村共生”激活千年古鎮(zhèn)

藝術(shù)要聞

溥儀驚人書法揭秘!他的“保證書”竟如此出色!

家居要聞

現(xiàn)代手法 詮釋東方文化

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

BIGME大我推出7英寸彩色墨水屏電紙書B751CS,1739元

無障礙瀏覽 進(jìn)入關(guān)懷版