国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

生成式人工智能的用戶難以準(zhǔn)確評估自身的能力

0
分享至

作者: 埃里克·W·多蘭

2025年12月29日

最新研究表明,利用人工智能完成任務(wù)可以提高個人的表現(xiàn),但同時也會扭曲他們對自身表現(xiàn)的準(zhǔn)確評估能力。研究結(jié)果顯示,雖然使用 ChatGPT 等人工智能工具的用戶在邏輯推理測試中比獨自完成任務(wù)的用戶得分更高,但他們往往會顯著高估自己的表現(xiàn)。

這種模式表明,人工智能輔助可能會使用戶對自身能力的感知與其實際結(jié)果脫節(jié),從而導(dǎo)致用戶產(chǎn)生過高的自信。該研究發(fā)表在科學(xué)期刊《人機交互》(Computers in Human Behavior)上。

科學(xué)家和心理學(xué)家越來越關(guān)注技術(shù)增強對人類認知的影響。隨著生成式人工智能系統(tǒng)在專業(yè)和教育領(lǐng)域日益普及,了解這些工具如何影響元認知至關(guān)重要。元認知是指個體監(jiān)控和調(diào)節(jié)自身思維過程的能力。它使人們能夠判斷自己何時可能正確,何時可能犯錯。

以往的心理學(xué)研究表明,人類普遍存在自我評估困難。一種被稱為鄧寧-克魯格效應(yīng)的著名現(xiàn)象描述了技能較低的人往往高估自己的能力,而技能較高的人則往往低估自己的能力。本文作者試圖探究當(dāng)人類與人工智能協(xié)作時,這種模式是否依然存在。他們的目標(biāo)是了解人工智能是否能夠起到平衡作用,消除這些偏見,還是會給人們評估自身工作的方式帶來新的復(fù)雜性。

為了探究這些問題,研究團隊設(shè)計了兩項以邏輯推理任務(wù)為中心的獨立研究。在第一項研究中,他們招募了246名美國參與者。這些參與者被要求完成20道選自法學(xué)院入學(xué)考試(LSAT)的邏輯推理題。研究人員為參與者提供了一個專門的網(wǎng)頁界面。該界面一側(cè)顯示題目,另一側(cè)顯示ChatGPT交互窗口。

參與者需要就每個問題至少與人工智能互動一次。他們可以要求人工智能解決問題或解釋其邏輯。提交答案后,參與者需要估計他們認為自己答對了20個問題中的多少個。他們還需要根據(jù)特定量表對每個決定的信心程度進行評分。

這項初步研究的結(jié)果顯示,客觀表現(xiàn)有了顯著提升。平均而言,使用 ChatGPT 的參與者比未使用人工智能輔助進行相同測試的歷史對照組高出約 3 分。人工智能幫助用戶解決了他們獨自答題時很可能錯過的問題。

盡管分數(shù)有所提高,但參與者普遍高估了自己的能力。平均而言,他們估計自己答對了20道題中的17道左右。而實際上,他們的平均得分接近13分。這代表著感知與現(xiàn)實之間存在4分的差距。數(shù)據(jù)表明,人工智能提供的無縫輔助造成了一種能力超群的錯覺。

該研究還分析了參與者對人工智能的了解程度與其自我評估之間的關(guān)系。研究人員使用名為“非專家人工智能素養(yǎng)評估量表”的工具來衡量“人工智能素養(yǎng)”。人們可能會認為,了解人工智能的工作原理會使用戶在判斷時更加謹慎或準(zhǔn)確。但研究結(jié)果卻恰恰相反。對人工智能技術(shù)理解程度更高的參與者往往對自己的答案更加自信,但在評估自身實際表現(xiàn)方面卻不太準(zhǔn)確。

這項研究的一個重要理論貢獻在于鄧寧-克魯格效應(yīng)。在沒有人工智能的典型情境下,數(shù)據(jù)會呈現(xiàn)出一條陡峭的斜率:低績效者會大幅高估自己,而高績效者則不會。當(dāng)參與者使用人工智能后,這種效應(yīng)消失了。這項技術(shù)的“均衡化”效應(yīng)意味著高估現(xiàn)象在所有參與者中變得普遍。低績效者和高績效者都以相似的幅度夸大了自己的分數(shù)。

研究人員觀察到,人類與人工智能的協(xié)同作用并未超過人工智能單獨運行時的表現(xiàn)。人工智能系統(tǒng)單獨運行測試時,其平均得分高于人類使用人工智能的情況。這表明協(xié)同作用未能實現(xiàn)。人類有時會接受人工智能的錯誤建議,或者否決正確的建議,從而拉低了整體性能,使其低于機器的最大潛力。

為了確保研究結(jié)果的可靠性,研究人員進行了第二項研究。這項重復(fù)研究納入了452名參與者。研究人員將樣本分為兩個不同的組。一組在人工智能輔助下完成任務(wù),而另一組則在沒有任何技術(shù)輔助的情況下完成任務(wù)。

在第二個實驗中,研究人員引入了金錢獎勵來鼓勵參與者提高準(zhǔn)確性。參與者被告知,如果他們對自己得分的估計與實際得分相符,他們將獲得一筆獎金。此舉旨在排除參與者可能因為不夠努力而缺乏自我意識的可能性。

第二項研究的結(jié)果與第一項研究的結(jié)果一致。金錢激勵并未糾正高估偏差。使用人工智能的組的表現(xiàn)仍然優(yōu)于未使用人工智能的組,但他們?nèi)匀桓吖懒俗约旱姆謹?shù)。未使用人工智能的組表現(xiàn)出經(jīng)典的鄧寧-克魯格效應(yīng),即技能最差的參與者表現(xiàn)出最大的偏差。人工智能組再次表現(xiàn)出一致的偏差,這證實了該技術(shù)從根本上改變了用戶對自身能力的認知。

該研究還采用了一種名為“曲線下面積”(AUC)的指標(biāo)來評估元認知敏感度。該指標(biāo)衡量的是一個人在回答正確時是否比回答錯誤時更有自信。理想情況下,一個人在犯錯時應(yīng)該感到不確定。數(shù)據(jù)顯示,參與者的元認知敏感度較低。無論他們對特定問題的回答正確與否,他們的自信程度都很高。

從聊天記錄中收集的定性數(shù)據(jù)提供了更多背景信息。研究人員注意到,大多數(shù)參與者只是被動地接收信息。他們經(jīng)常將問題復(fù)制粘貼到聊天記錄中,并接受人工智能的輸出結(jié)果,而沒有進行任何實質(zhì)性的質(zhì)疑或驗證。只有極少數(shù)用戶將人工智能視為合作伙伴或用于復(fù)核自身邏輯的工具。

研究人員探討了造成這些結(jié)果的幾個潛在原因。其中一種可能性是“解釋深度錯覺”。當(dāng)人工智能提供流暢、清晰且即時的解釋時,它會欺騙大腦,使其誤以為信息已被處理和理解得比實際情況更深入。答案的易得性降低了解決邏輯難題通常所需的認知努力,進而削弱了人們可能出錯的內(nèi)部信號。

所有研究都存在一些局限性,這一點需要考慮。第一項研究使用的是歷史比較組而非同期對照組,不過第二項研究對此進行了修正。此外,該研究的任務(wù)僅限于LSAT邏輯推理題。不同類型的任務(wù),例如創(chuàng)意寫作或編程,可能會產(chǎn)生不同的元認知模式。

該研究還使用了特定版本的ChatGPT。隨著這些模型不斷發(fā)展并變得更加精準(zhǔn),人機互動關(guān)系可能會發(fā)生變化。研究人員還指出,參與者必須使用人工智能,這可能與用戶在現(xiàn)實生活中自主選擇何時使用該工具的情況有所不同。

針對這些研究空白,研究人員提出了未來的研究方向。他們建議探索能夠促使用戶進行更批判性思考的設(shè)計改進。例如,界面可以要求用戶在接受答案之前向系統(tǒng)解釋人工智能的邏輯。此外,還需要進行長期研究,以觀察隨著用戶對大型語言模型局限性的了解加深,這種過度自信是否會逐漸消失。

這項名為“人工智能讓你更聰明,但并不讓你更明智:表現(xiàn)與元認知之間的脫節(jié)”的研究由 Daniela Fernandes、Steeven Villa、Salla Nicholls、Otso Haavisto、Daniel Buschek、Albrecht Schmidt、Thomas Kosch、Chenxinran Shen 和 Robin Welsch 撰寫。

AI makes you smarter but none the wiser: The disconnect between performance and metacognition

Author links open overlay panelDaniela Fernandes a , Steeven Villa b, Salla Nicholls a, Otso Haavisto a, Daniel Buschek c, Albrecht Schmidt b, Thomas Kosch d, Chenxinran Shen e, Robin Welsch a

Show more

Outline

Share

Cite

https://doi.org/10.1016/j.chb.2025.108779


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日本賭中方不會動手,軍艦直接開進臺海,解放軍為何仍保持克制?

日本賭中方不會動手,軍艦直接開進臺海,解放軍為何仍保持克制?

阿芒娛樂說
2026-04-17 17:49:52
張雪機車增重7公斤仍奪荷蘭站練習(xí)賽第三

張雪機車增重7公斤仍奪荷蘭站練習(xí)賽第三

北青網(wǎng)-北京青年報
2026-04-17 18:56:24
海牛0-0西海岸仍負分!海牛4中柱+葉博亞進球被吹 VAR半場4度介入

海牛0-0西海岸仍負分!海牛4中柱+葉博亞進球被吹 VAR半場4度介入

我愛英超
2026-04-17 21:08:02
特朗普:美國將獲得伊朗所有核“塵埃”

新華社
2026-04-17 22:14:31

24歲博主“徐平安”因黑色素瘤去世:妹妹白血病、媽媽胃癌相繼離世,曾多次復(fù)盤確診前被忽略的身體信號

24歲博主“徐平安”因黑色素瘤去世:妹妹白血病、媽媽胃癌相繼離世,曾多次復(fù)盤確診前被忽略的身體信號

極目新聞
2026-04-17 13:25:30
銅梁龍2-0十人新鵬城暫登頂,向余望、陳純新破門,本科維奇染紅

銅梁龍2-0十人新鵬城暫登頂,向余望、陳純新破門,本科維奇染紅

懂球帝
2026-04-17 21:53:29
周立波近況引熱議!定居美國現(xiàn)身同學(xué)會,坐核心位抽雪茄大放厥詞

周立波近況引熱議!定居美國現(xiàn)身同學(xué)會,坐核心位抽雪茄大放厥詞

鑒史錄
2026-04-16 23:30:31
笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區(qū)

笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區(qū)

另子維愛讀史
2026-04-17 17:36:52
超廣東升第4!北京最多領(lǐng)先26分大勝山東 周琦10+9杰曼23+8

超廣東升第4!北京最多領(lǐng)先26分大勝山東 周琦10+9杰曼23+8

醉臥浮生
2026-04-17 21:35:34
2-0!中超大黑馬又贏了:6場不敗,升班馬成為奪冠大熱門

2-0!中超大黑馬又贏了:6場不敗,升班馬成為奪冠大熱門

足球狗說
2026-04-17 21:30:37
烏克蘭拆解俄軍導(dǎo)彈:確認朝鮮制造,焊接技術(shù)落后50年仍在實戰(zhàn)

烏克蘭拆解俄軍導(dǎo)彈:確認朝鮮制造,焊接技術(shù)落后50年仍在實戰(zhàn)

桂系007
2026-04-17 16:34:16
大料!許家印的背后金主,也栽了!

大料!許家印的背后金主,也栽了!

財經(jīng)要參
2026-04-16 13:31:31
極大反差:中國人暴跌55%,日本外國游客又創(chuàng)新高,俄羅斯人增26%

極大反差:中國人暴跌55%,日本外國游客又創(chuàng)新高,俄羅斯人增26%

壹只灰鴿子
2026-04-15 22:41:48
港獨、罵中國人,如今卻還想來內(nèi)地撈金,這3位香港明星令人作嘔

港獨、罵中國人,如今卻還想來內(nèi)地撈金,這3位香港明星令人作嘔

橙星文娛
2026-04-17 16:04:52
伊朗女博主因以軍空襲遇難,至死不知伊朗情報部長家在自家附近

伊朗女博主因以軍空襲遇難,至死不知伊朗情報部長家在自家附近

網(wǎng)易新聞出品
2026-04-17 16:52:32
A股科技七巨頭誕生!

A股科技七巨頭誕生!

君臨財富
2026-04-17 15:29:44
突發(fā)!以軍發(fā)動大規(guī)模空襲

突發(fā)!以軍發(fā)動大規(guī)模空襲

新浪財經(jīng)
2026-04-17 10:30:28
年輕人為什么寧愿跑單也不進廠?廣州藍寶書數(shù)據(jù)很刺眼:送外賣15萬,工人才6萬

年輕人為什么寧愿跑單也不進廠?廣州藍寶書數(shù)據(jù)很刺眼:送外賣15萬,工人才6萬

風(fēng)向觀察
2026-04-17 16:36:41
剛簽德國大單就后悔?越南670億高鐵成爛攤子,蘇林轉(zhuǎn)身赴華求救

剛簽德國大單就后悔?越南670億高鐵成爛攤子,蘇林轉(zhuǎn)身赴華求救

泠泠說史
2026-04-17 20:05:32
2:0!重慶銅梁龍斬獲球隊首個中超三連勝,暫居積分榜首位

2:0!重慶銅梁龍斬獲球隊首個中超三連勝,暫居積分榜首位

上游新聞
2026-04-17 21:38:14
2026-04-17 22:23:00
科學(xué)的歷程 incentive-icons
科學(xué)的歷程
吳國盛、田松主編
3185文章數(shù) 15015關(guān)注度
往期回顧 全部

科技要聞

7家頭部平臺被罰沒35.97億元

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

體育要聞

遭網(wǎng)暴后,22歲大滿貫冠軍反擊:我的頭發(fā)足夠好

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

手機
健康
教育
藝術(shù)
軍事航空

手機要聞

10000毫安時,國產(chǎn)手機全押大!

干細胞抗衰4大誤區(qū),90%的人都中招

教育要聞

初中數(shù)學(xué)怎么學(xué)?成都七中初中王牌老師給了5個關(guān)鍵詞

藝術(shù)要聞

潘石屹、王石、許家印、王健林的審美比較,結(jié)局已注定?

軍事要聞

美宣布黎以停火10天 以方稱不會撤軍

無障礙瀏覽 進入關(guān)懷版