国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

LLM推理能力盲區(qū):從《愛麗絲夢游仙境》測試看AI的局限與未來方向

0
分享至

LAION研究機(jī)構(gòu)最近進(jìn)行的一項(xiàng)研究,當(dāng)前大型語言模型(LLM)在基準(zhǔn)測試中的一個(gè)重大盲區(qū)。研究人員受到經(jīng)典故事《愛麗絲夢游仙境》的啟發(fā),設(shè)計(jì)了一系列推理問題,以挑戰(zhàn)當(dāng)前最先進(jìn)的人工智能模型。這個(gè)名為“愛麗絲夢游仙境”(AIW,Artificial Intelligence Wisdom)的測試提出了一個(gè)簡單但深具挑戰(zhàn)性的問題:“愛麗絲有N個(gè)兄弟,她還有M個(gè)姐妹。愛麗絲的兄弟有多少個(gè)姐妹?”對于人類來說,這個(gè)問題的答案顯而易見是M+1(愛麗絲的姐妹數(shù)量加上愛麗絲自己),然而,當(dāng)前的主流模型,包括GPT-3.5/4、Claude、Gemini、Llama、Mistral等,在回答時(shí)卻頻頻出錯(cuò),只有OpenAI的最新模型GPT-4o勉強(qiáng)答對。

這些模型不僅答案錯(cuò)誤,還在解釋其推理過程時(shí)顯得荒謬。當(dāng)被告知答案不準(zhǔn)確時(shí),它們甚至?xí)虉?zhí)己見,堅(jiān)持錯(cuò)誤的結(jié)論。LAION由此得出結(jié)論:即使是最先進(jìn)的模型,在推理能力上仍遠(yuǎn)不及小學(xué)生。著名學(xué)者LeCun也強(qiáng)調(diào),推理能力和常識(shí)不能與存儲(chǔ)和大致檢索大量事實(shí)的能力混為一談。

ICLR 2024的一篇論文進(jìn)一步證實(shí)了AI在推理能力方面的局限性,發(fā)現(xiàn)大型語言模型在學(xué)習(xí)完“A是B”后,常常無法泛化到“B是A”,這種缺陷被稱為“逆轉(zhuǎn)詛咒”,凸顯了AI在邏輯推理上的不足。

為了更好地評估LLM在無需復(fù)雜知識(shí)但需要邏輯思維和基本推理的情境下的表現(xiàn),研究團(tuán)隊(duì)選擇了為7-10歲低年級學(xué)生設(shè)計(jì)的奧數(shù)題目作為測試材料。這些題目易于理解,但需要多種邏輯思維方式來解答。通過將《愛麗絲夢游仙境》中的元素融入測試題目,團(tuán)隊(duì)提出了AIW測試集。結(jié)果表明,即便是大多數(shù)成年人和一定年齡以上的兒童都能輕松解答的問題,當(dāng)前的SOTA LLM模型卻表現(xiàn)不佳,甚至在簡單的邏輯推理任務(wù)中表現(xiàn)得像是在“蒙”。

當(dāng)研究人員改變題目的表述方式或調(diào)整“N”和“M”的具體數(shù)值時(shí),模型的回答正確率出現(xiàn)了大幅波動(dòng),表明這些模型更傾向于“猜測”答案,而非基于邏輯推理得出結(jié)論。為了更深入地探索這一現(xiàn)象,研究團(tuán)隊(duì)為AIW問題設(shè)計(jì)了四個(gè)不同版本的變體。實(shí)驗(yàn)顯示,大多數(shù)LLM在AIW問題上的正確響應(yīng)率不足0.2,僅有少數(shù)模型的表現(xiàn)超過了0.3的閾值,其中GPT-4o和Claude 3 Opus的均值接近0.6。

這一結(jié)果與在MMLU、ARC-c等基準(zhǔn)測試中取得的高分形成了鮮明對比。在AIW測試中,表現(xiàn)優(yōu)異的GPT-4-0613模型在更換問題后準(zhǔn)確率急劇下降,即使是高分模型如GPT-4o、GPT-4 Turbo、Claude 3 Opus和Llama2-70B也未能幸免。研究團(tuán)隊(duì)還嘗試通過restricted模式的提示來強(qiáng)迫模型輸出簡短答案,但不同模型在這種模式下的正確率有升有降。

通過對比MMLU和AIW測試的結(jié)果,研究團(tuán)隊(duì)發(fā)現(xiàn)大多數(shù)模型在AIW測試中表現(xiàn)欠佳,而少數(shù)模型如Llama2-70B、GPT-4、GPT-4o和Claude 3在AIW測試中的得分較高。盡管如此,這些模型在AIW+測試中表現(xiàn)仍然不盡如人意。例如,GPT-4o在AIW+測試中的準(zhǔn)確率驟降至0.015。

研究發(fā)現(xiàn),LLM在錯(cuò)誤答案上表現(xiàn)出強(qiáng)烈的自信,即便在明顯錯(cuò)誤的推理中也聲稱邏輯成立,并堅(jiān)持其錯(cuò)誤結(jié)論。為了提高模型的正確率,研究人員嘗試了多種提示工程方法,包括Scientist類型的prompt和Confidence型prompt,但效果并不顯著。

研究人員觀察到,LLM在面對錯(cuò)誤時(shí),會(huì)編造各種有說服力的解釋。例如,某些模型會(huì)提供一堆毫無意義的計(jì)算或邏輯陳述來支持其錯(cuò)誤結(jié)論,而另一些模型則可能選擇拒絕回答,并通過道德議題進(jìn)行“道德綁架”。例如,CodeLlama模型可能會(huì)以“作為一個(gè)負(fù)責(zé)任的AI模型,我不可以歧視唐氏綜合癥患者”為理由拒絕回答與唐氏綜合癥無關(guān)的問題。

研究團(tuán)隊(duì)還嘗試了多種LLM調(diào)優(yōu)技巧,包括定制prompt以啟用多輪自我驗(yàn)證、將自然語言形式的AIW問題轉(zhuǎn)化為SQL語句或參數(shù)化版本,以及利用上下文學(xué)習(xí)等技術(shù),但這些策略都未能顯著提升模型的正確率。

為了顯著改善當(dāng)前LLM的推理能力,研究團(tuán)隊(duì)呼吁積極借助開源社區(qū)的力量。他們強(qiáng)調(diào),LLM的模型創(chuàng)建流程,包括數(shù)據(jù)集的精心構(gòu)建、訓(xùn)練源代碼的透明度、訓(xùn)練后模型的完整性,以及標(biāo)準(zhǔn)化的基準(zhǔn)測試程序,都必須實(shí)現(xiàn)完全的開放和可重復(fù)性。團(tuán)隊(duì)指出,僅開放模型權(quán)重的方法存在局限性,因?yàn)樗鼰o法讓研究人員和開發(fā)者洞察到訓(xùn)練過程中可能存在的潛在問題。

團(tuán)隊(duì)還呼吁業(yè)界開源LLM的完整訓(xùn)練流程,特別是數(shù)據(jù)集的組成。他們認(rèn)為,數(shù)據(jù)集的多樣性、質(zhì)量和合理性對于模型的推理能力至關(guān)重要,同時(shí)也強(qiáng)調(diào)了標(biāo)準(zhǔn)化基準(zhǔn)測試程序的重要性,認(rèn)為這有助于評估模型的性能并推動(dòng)AI技術(shù)的不斷進(jìn)步。

為了實(shí)現(xiàn)LLM推理能力的革新,必須在開源和透明的原則下,依靠開源社區(qū)的力量,共同推動(dòng)AI技術(shù)的發(fā)展和創(chuàng)新。

論文鏈接:https://arxiv.org/abs/2406.02061

項(xiàng)目地址:https://github.com/LAION-AI/AIW

▲ 滑動(dòng)查看往期內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
某境外組織資助躺平網(wǎng)紅,想以此消散我國青年奮斗信念

某境外組織資助躺平網(wǎng)紅,想以此消散我國青年奮斗信念

映射生活的身影
2026-04-28 20:04:15
世錦賽28日戰(zhàn)報(bào),趙心童遭五連鞭勉力追平,吳宜澤4-2浪打失先機(jī)

世錦賽28日戰(zhàn)報(bào),趙心童遭五連鞭勉力追平,吳宜澤4-2浪打失先機(jī)

天涯遠(yuǎn)行人
2026-04-29 08:11:07
7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

拳擊時(shí)空
2026-04-16 06:04:48
醫(yī)生提醒:早期心梗不是胸悶,而是頻繁出現(xiàn)這5個(gè)癥狀,一定警惕

醫(yī)生提醒:早期心梗不是胸悶,而是頻繁出現(xiàn)這5個(gè)癥狀,一定警惕

垚垚分享健康
2026-04-18 12:41:45
突發(fā)!40歲重返NBA?聯(lián)手胖虎?盼了這么多年,終于來了...

突發(fā)!40歲重返NBA?聯(lián)手胖虎?盼了這么多年,終于來了...

左右為籃
2026-04-29 12:43:52
伊朗或向巴基斯坦提交調(diào)整版方案

伊朗或向巴基斯坦提交調(diào)整版方案

每日經(jīng)濟(jì)新聞
2026-04-29 08:15:15
日本全面叫停種植牙?種牙潛藏的風(fēng)險(xiǎn)與后遺癥,一次為你講明白

日本全面叫停種植牙?種牙潛藏的風(fēng)險(xiǎn)與后遺癥,一次為你講明白

垚垚分享健康
2026-04-11 08:51:57
太平島一聲炮響,掀開南海最燙手的“三方底牌”

太平島一聲炮響,掀開南海最燙手的“三方底牌”

探秘全球
2026-04-29 09:07:00
國家消防救援局后勤保障司司長郭六虎被查

國家消防救援局后勤保障司司長郭六虎被查

新京報(bào)
2026-04-28 19:25:40
阿Sa宣布再婚,這一次她終于可以圓了生子夢,網(wǎng)友紛紛送上祝福

阿Sa宣布再婚,這一次她終于可以圓了生子夢,網(wǎng)友紛紛送上祝福

丹妮觀
2026-04-28 13:32:19
天價(jià)球員!8個(gè)選秀權(quán)+文班亞馬!瘋了吧你!

天價(jià)球員!8個(gè)選秀權(quán)+文班亞馬!瘋了吧你!

柚子說球
2026-04-28 14:08:37
東莞口腔醫(yī)院拒絕改名!

東莞口腔醫(yī)院拒絕改名!

聽心堂
2026-04-29 10:35:17
用DeepSeek,依據(jù)毛主席《沁園春·長沙》,寫了首《沁園春·太原》

用DeepSeek,依據(jù)毛主席《沁園春·長沙》,寫了首《沁園春·太原》

文史道
2025-03-13 16:43:09
楊麗萍“專屬男舞伴”墜樓自殺,跳得果決,和楊麗萍關(guān)系非同一般

楊麗萍“專屬男舞伴”墜樓自殺,跳得果決,和楊麗萍關(guān)系非同一般

一盅情懷
2026-04-03 07:49:11
75歲王石大梅沙光膀子,脫掉衣服那一刻,路人都愣住了

75歲王石大梅沙光膀子,脫掉衣服那一刻,路人都愣住了

荒野老五
2026-04-28 11:26:17
浙江一輛嚴(yán)重受損新能源車以8400元被法拍,引31人爭搶!最終拍價(jià)36800元,法院:車主已身亡,該車無法啟動(dòng)、無法行駛

浙江一輛嚴(yán)重受損新能源車以8400元被法拍,引31人爭搶!最終拍價(jià)36800元,法院:車主已身亡,該車無法啟動(dòng)、無法行駛

臺(tái)州交通廣播
2026-04-27 12:25:16
廣告使用“清朝長辮”被指辱華,法國品牌Lemaire致歉

廣告使用“清朝長辮”被指辱華,法國品牌Lemaire致歉

南方都市報(bào)
2026-04-26 20:40:18
為討好美國和日本,叫囂中國該解除核武的時(shí)殷弘,他現(xiàn)狀如何?

為討好美國和日本,叫囂中國該解除核武的時(shí)殷弘,他現(xiàn)狀如何?

談史論天地
2026-03-27 11:35:07
德國性交易合法化,為何中國對性交易零容忍?看德國現(xiàn)狀恍然大悟

德國性交易合法化,為何中國對性交易零容忍?看德國現(xiàn)狀恍然大悟

談史論天地
2026-04-24 14:30:03
馬競球員朱利安·阿爾瓦雷斯:“小時(shí)候,父親告訴我們不要紋身、不要喝酒、不要抽煙”

馬競球員朱利安·阿爾瓦雷斯:“小時(shí)候,父親告訴我們不要紋身、不要喝酒、不要抽煙”

綠茵情報(bào)局
2026-04-28 19:23:16
2026-04-29 16:00:49
小微模型 incentive-icons
小微模型
一起探索AGI世界,解鎖AI實(shí)用技能,伴您步入智能生活!
151文章數(shù) 9關(guān)注度
往期回顧 全部

科技要聞

今晨庭審紀(jì)實(shí)|馬斯克當(dāng)庭講述OpenAI被偷走

頭條要聞

媒體:阿聯(lián)酋官宣要走 對歐佩克重重一擊

頭條要聞

媒體:阿聯(lián)酋官宣要走 對歐佩克重重一擊

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節(jié)目組2小時(shí)

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

配32寸升降屏 新款別克世紀(jì)CENTURY上市53.99萬起

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
教育
手機(jī)
公開課

藝術(shù)要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復(fù)古作品!

房產(chǎn)要聞

80億投資!浙商總部基地+??诒闭?,金沙灣這是要起飛啊!

教育要聞

官宣!26年四川省高考各批次招生類型及投檔規(guī)則出爐

手機(jī)要聞

首銷火爆!搭載HarmonyOS 6.1的華為Pura 90系列 不止好看更好用

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版