国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

這不是構(gòu)建數(shù)字心智的方式:推理失敗如何阻礙AI模型實現(xiàn)人類智能

0
分享至

一項新研究的作者認(rèn)為,現(xiàn)有的大語言模型架構(gòu)可能無法支撐實現(xiàn)人類級人工智能所需的問題解決能力。



最新研究表明,當(dāng)今最流行的人工智能工具在架構(gòu)上的限制,可能會制約它們能夠達到的智能上限。

2月5日發(fā)表在預(yù)印本平臺arXiv上的一項研究指出,現(xiàn)代大語言模型在其問題解決邏輯中天生容易出現(xiàn)斷裂,即所謂的「推理失敗」。

當(dāng)大語言模型丟失了可靠完成任務(wù)所需的關(guān)鍵信息,導(dǎo)致對看似簡單的問題給出錯誤答案時,就發(fā)生了推理失敗。該論文是對現(xiàn)有研究的綜述,專門考察了Transformer模型——這是一種神經(jīng)網(wǎng)絡(luò)架構(gòu),支撐著包括ChatGPT、Claude和Google Gemini在內(nèi)的流行AI聊天機器人。

根據(jù)大語言模型在「人類最后考試」等評估中的表現(xiàn),一些科學(xué)家認(rèn)為,底層的神經(jīng)網(wǎng)絡(luò)架構(gòu)有朝一日可能催生出能夠達到人類級認(rèn)知的模型。然而,研究人員指出,雖然Transformer架構(gòu)使大語言模型在語言生成等任務(wù)上極為強大,但它也抑制了實現(xiàn)真正人類級推理所需的那種可靠的邏輯過程。

「大語言模型已展現(xiàn)出卓越的推理能力,在廣泛的任務(wù)上取得了令人矚目的成果,」研究人員在論文中表示。「盡管取得了這些進步,嚴(yán)重的推理失敗依然存在,甚至在看似簡單的場景中也會發(fā)生……這種失敗被歸因于模型缺乏整體規(guī)劃和深度思考的能力?!?/p>

大語言模型的局限性

大語言模型在海量文本數(shù)據(jù)上進行訓(xùn)練,通過逐詞預(yù)測一個合理的答案來響應(yīng)用戶的提示。它們通過將稱為「標(biāo)記」的文本單元串接在一起來實現(xiàn)這一點,這些串接方式基于從訓(xùn)練數(shù)據(jù)中學(xué)到的統(tǒng)計模式。

Transformer還使用一種稱為「自注意力」的機制來跟蹤長文本序列中單詞和概念之間的關(guān)系。自注意力機制加上龐大的訓(xùn)練數(shù)據(jù)庫,使得現(xiàn)代聊天機器人非常擅長對用戶提示生成令人信服的答案。

然而,大語言模型并不進行傳統(tǒng)意義上的任何實際「思考」。相反,它們的響應(yīng)由算法決定。對于需要多步驟真正解決問題的長任務(wù),Transformer可能會丟失關(guān)鍵信息,并退回到從訓(xùn)練數(shù)據(jù)中學(xué)到的模式。這導(dǎo)致了推理失敗。

「這一根本弱點不僅限于基本任務(wù),還擴展到數(shù)學(xué)問題的組合、多事實聲明驗證以及其他本質(zhì)上具有組合性的任務(wù),」研究人員在論文中表示。

推理失敗也是為什么大語言模型在被用戶告知回答錯誤后,常常仍然重復(fù)同樣的回復(fù);或者對同一問題的不同表述方式給出不同答案——即使被要求逐步解釋其推理過程也是如此。

英國阿蘭·圖靈研究所的高級研究數(shù)據(jù)科學(xué)家費德里科·南尼認(rèn)為,大語言模型通常呈現(xiàn)為推理的東西,多半只是表面功夫。

「人們發(fā)現(xiàn),如果你告訴大語言模型不要直接回答,而是『一步步思考』并先寫出推理過程,它往往能得到正確答案,」南尼告訴媒體?!傅@是一種技巧。這不是人類意義上的真正推理——它仍然只是裝扮成思維鏈的下一詞元預(yù)測,」他說?!府?dāng)我們說這些模型『推理』時,我們實際的意思是,它們寫出一個推理過程——聽起來像是一串合理的推理鏈條?!?/p>

現(xiàn)有AI基準(zhǔn)測試的不足

研究人員發(fā)現(xiàn),當(dāng)前評估大語言模型表現(xiàn)的方法在三個關(guān)鍵方面存在不足。第一,重新表述提示詞可能會影響結(jié)果。第二,基準(zhǔn)測試隨著使用次數(shù)的增加而退化并受到污染。第三,它們只評估最終結(jié)果,而不是模型得出結(jié)論所用的推理過程。

這意味著當(dāng)前的基準(zhǔn)測試可能嚴(yán)重高估了大語言模型的能力,并低估了它們在現(xiàn)實使用中失敗的頻率。



「我們的立場不是說基準(zhǔn)測試有缺陷,而是它們需要進化,」該研究的合著者、加州理工學(xué)院的計算機科學(xué)與機器人學(xué)學(xué)生宋培陽通過電子郵件表示。同樣地,南尼表示,基準(zhǔn)測試往往會滲入到大語言模型的訓(xùn)練數(shù)據(jù)中,這意味著后續(xù)的大語言模型會學(xué)會如何欺騙這些基準(zhǔn)測試。

「除此之外,既然模型已投入生產(chǎn)環(huán)境,使用本身也成了一種基準(zhǔn)測試,」南尼說。「你把系統(tǒng)擺在用戶面前,看看哪里出問題——這就是新的測試。所以是的,我們需要更好的基準(zhǔn)測試,也需要減少依賴AI來檢查AI。但這在實踐中非常困難,因為這些工具已經(jīng)融入我們的工作方式,直接使用它們極其方便?!?/p>

通往通用人工智能的新架構(gòu)?

與近期其他研究不同,這項新研究并不認(rèn)為神經(jīng)網(wǎng)絡(luò)方法在追求通用人工智能的道路上是死胡同。相反,研究人員將其比作計算機的早期時代,指出理解大語言模型為何失敗是改進它們的關(guān)鍵。

然而,他們確實認(rèn)為,僅僅在更多數(shù)據(jù)上訓(xùn)練模型或擴大模型規(guī)模,不太可能獨自解決這個問題。這意味著,開發(fā)通用人工智能可能需要一種根本不同的模型構(gòu)建方法。

「神經(jīng)網(wǎng)絡(luò),尤其是大語言模型,顯然是通用人工智能圖景的一部分。它們的進展是非凡的,」宋說?!溉欢?,我們的綜述表明,僅靠擴展規(guī)模不太可能解決所有推理失敗……[這意味著]達到人類級推理可能需要架構(gòu)上的創(chuàng)新、更強的世界模型、改進的魯棒性訓(xùn)練,以及與結(jié)構(gòu)化推理和具身交互的更深度融合。」

南尼對此表示贊同。「從心智哲學(xué)的角度來看,我認(rèn)為我們基本上已經(jīng)找到了Transformer的極限。它們不是你構(gòu)建數(shù)字心智的方式,」他說?!杆鼈儗ξ谋镜慕O其出色,以至于幾乎無法分辨一段文字是出自人類還是機器之手。『但這就是它們的本質(zhì):語言模型……這種架構(gòu)的潛力是有限的。』」

如果朋友們喜歡,敬請關(guān)注“知新了了”!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
突發(fā)!廣廈火速注冊新援 塔克被取消注冊 季后賽格局要變?

突發(fā)!廣廈火速注冊新援 塔克被取消注冊 季后賽格局要變?

你看球呢
2026-04-17 11:48:54
將完整生產(chǎn)線轉(zhuǎn)讓中國?只為報答“舊恩”,連美俄兩國都羨慕不已

將完整生產(chǎn)線轉(zhuǎn)讓中國?只為報答“舊恩”,連美俄兩國都羨慕不已

攬星辰入夢
2026-04-15 18:22:07
錢賺夠了,名聲沒了,謝娜開演唱會迎來全網(wǎng)罵潮,劉燁當(dāng)初沒說謊

錢賺夠了,名聲沒了,謝娜開演唱會迎來全網(wǎng)罵潮,劉燁當(dāng)初沒說謊

洲洲影視娛評
2026-04-15 23:09:10
56歲的王菲現(xiàn)身西藏,打扮的很高級,不愧是經(jīng)常拜佛的人

56歲的王菲現(xiàn)身西藏,打扮的很高級,不愧是經(jīng)常拜佛的人

鄉(xiāng)野小珥
2026-04-11 01:30:53
喝東鵬特飲,抽獎送10臺張雪機車,網(wǎng)友:仔細(xì)一看,是3年使用權(quán)

喝東鵬特飲,抽獎送10臺張雪機車,網(wǎng)友:仔細(xì)一看,是3年使用權(quán)

商悟社
2026-04-16 19:16:05
事實證明,已經(jīng)“消失”7年的周立波,早已走上一條不歸路

事實證明,已經(jīng)“消失”7年的周立波,早已走上一條不歸路

素衣讀史
2026-04-16 19:41:20
美國上周首次申領(lǐng)失業(yè)救濟人數(shù)為207,000人,預(yù)估為213,000人

美國上周首次申領(lǐng)失業(yè)救濟人數(shù)為207,000人,預(yù)估為213,000人

每日經(jīng)濟新聞
2026-04-16 20:36:07
《指環(huán)王》新片,86歲甘道夫拼了!五十度灰男主演阿拉貢

《指環(huán)王》新片,86歲甘道夫拼了!五十度灰男主演阿拉貢

白面書誏
2026-04-16 14:52:12
調(diào)查發(fā)現(xiàn):每天吃一根香蕉,就等于給血脂添負(fù)擔(dān)?真相來了

調(diào)查發(fā)現(xiàn):每天吃一根香蕉,就等于給血脂添負(fù)擔(dān)?真相來了

今日養(yǎng)生之道
2026-04-17 12:48:36
包養(yǎng)10位情婦,睡覺靠翻牌,生下11個私生子,75歲仍在拼命生娃!

包養(yǎng)10位情婦,睡覺靠翻牌,生下11個私生子,75歲仍在拼命生娃!

蜉蝣說
2026-04-17 11:02:03
特朗普要帶兒子訪華,美企高管喊話全美:絕不能答應(yīng)中國一件事!

特朗普要帶兒子訪華,美企高管喊話全美:絕不能答應(yīng)中國一件事!

李橑在北漂
2026-04-16 23:23:05
霸氣!29歲趙心童領(lǐng)跑世錦賽奪冠賠率:前10僅2中國人 丁俊暉第14

霸氣!29歲趙心童領(lǐng)跑世錦賽奪冠賠率:前10僅2中國人 丁俊暉第14

風(fēng)過鄉(xiāng)
2026-04-17 12:51:56
阿德巴約:三球并未向我道歉,將來總會再見到他,那時我們再溝通

阿德巴約:三球并未向我道歉,將來總會再見到他,那時我們再溝通

懂球帝
2026-04-17 10:34:18
蘇林坐高鐵到廣西,從北到南約10小時。吃什么?網(wǎng)友推薦這5道菜

蘇林坐高鐵到廣西,從北到南約10小時。吃什么?網(wǎng)友推薦這5道菜

椰青美食分享
2026-04-17 10:47:04
看到如今的伊朗,才懂左宗棠當(dāng)年多偉大!沒有他,西北或無險可守

看到如今的伊朗,才懂左宗棠當(dāng)年多偉大!沒有他,西北或無險可守

賤議你讀史
2026-04-17 01:48:21
“要求特朗普結(jié)束對伊軍事行動”議案,美眾議院213票贊成、214票反對

“要求特朗普結(jié)束對伊軍事行動”議案,美眾議院213票贊成、214票反對

南方都市報
2026-04-17 10:54:06
WOW!絕了,勇士絕了!曝又將交易追求倫納德

WOW!絕了,勇士絕了!曝又將交易追求倫納德

籃球?qū)崙?zhàn)寶典
2026-04-16 22:45:14
萬斯公開告誡教皇,被高聲打斷…

萬斯公開告誡教皇,被高聲打斷…

觀察者網(wǎng)
2026-04-16 10:10:15
百年一遇的超人氣精致純天然大燈女神Gabbie Carter

百年一遇的超人氣精致純天然大燈女神Gabbie Carter

吃瓜黨二號頭目
2026-04-17 09:13:46
參考封面|伊朗戰(zhàn)爭加速美國霸權(quán)衰落

參考封面|伊朗戰(zhàn)爭加速美國霸權(quán)衰落

參考消息
2026-04-16 16:49:03
2026-04-17 15:04:49
知新了了
知新了了
專注于新知、科普的傳播
5952文章數(shù) 2270關(guān)注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

78歲畫家每天畫800張1場直播賣100萬元:不共情普通人

頭條要聞

78歲畫家每天畫800張1場直播賣100萬元:不共情普通人

體育要聞

贏下快船,這場很庫里,很格林,很科爾

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

健康
教育
親子
游戲
家居

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

第3課巧妙禮貌地結(jié)束對話和告別

親子要聞

a2中文標(biāo)簽?zāi)谭鄞竺娣e缺貨,發(fā)生了什么?

《Saros》PS5手柄觸覺反饋“有驚喜” 扳機新玩法

家居要聞

法式線條 時光靜淌

無障礙瀏覽 進入關(guān)懷版