国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MIT研究:AI對人類區(qū)別對待,英語水平和學(xué)歷影響AI的回答質(zhì)量

0
分享至


(來源:麻省理工科技評論)

大語言模型(LLM)一直被譽為可推動全球信息獲取民主化的工具,能夠以用戶友好的界面向任何背景和地域的人提供知識。然而,MIT 建設(shè)性傳播中心(CCC)的最新研究表明,這些 AI 系統(tǒng)實際上可能對那些最能從中受益的用戶表現(xiàn)更差。

CCC 基于 MIT 媒體實驗室,其研究人員開展的這項研究發(fā)現(xiàn),包括 OpenAI 的 GPT-4、Anthropic 的 Claude 3 Opus 和 Meta 的 Llama 3 在內(nèi)的頂尖 AI 聊天機器人,有時會對英語水平較低、受教育程度較低或非美國背景的用戶提供準(zhǔn)確性和真實性更低的回答。這些模型對上述用戶拒絕回答問題的比例也更高,在某些情況下,還會使用帶有居高臨下或說教意味的語言。

“我們的研究動機源于 LLM 有望幫助解決全球信息獲取不平等問題的前景,”論文第一作者、MIT 斯隆管理學(xué)院技術(shù)研究員埃利諾·普爾-達(dá)揚(Elinor Poole-Dayan)表示。她以 CCC 研究員和媒體藝術(shù)與科學(xué)專業(yè)碩士生的身份主導(dǎo)了這項研究?!暗绻荒艽_保對所有用戶——無論其語言、國籍或其他人口背景——安全地消除模型偏見和有害傾向,這一愿景就無從實現(xiàn)?!?/p>

描述上述研究的論文《LLM 定向表現(xiàn)不佳對弱勢用戶的不成比例影響》已于今年 1 月在 AAAI 人工智能會議上發(fā)表。

研究團隊測試了三款 LLM 對來自兩個數(shù)據(jù)集問題的回答方式,分別是 TruthfulQA 和 SciQ。TruthfulQA 旨在衡量模型的真實性(通過考察常見誤解和現(xiàn)實世界的字面真相),SciQ 則包含測試事實準(zhǔn)確性的科學(xué)考試題目。研究人員在每個問題前附加了簡短的用戶個人簡介,并對三項特征進(jìn)行了變量設(shè)置:教育水平、英語水平和原籍國。

在三款模型和兩個數(shù)據(jù)集的所有測試中,研究人員發(fā)現(xiàn),當(dāng)問題來自被描述為受正規(guī)教育程度較低或非英語母語者的用戶時,模型的準(zhǔn)確性出現(xiàn)顯著下滑。這一影響在同時具備這兩類特征的用戶群體中最為突出:受教育程度較低且為非英語母語者的用戶,回答質(zhì)量下降幅度最大。

研究還考察了原籍國對模型表現(xiàn)的影響。在對具有同等教育背景的美國、伊朗和中國用戶進(jìn)行測試后,研究人員發(fā)現(xiàn),Claude 3 Opus 對伊朗用戶在兩個數(shù)據(jù)集上的表現(xiàn)均明顯更差。

“我們觀察到,準(zhǔn)確性下降幅度最大的,是同時具備非英語母語者和受教育程度較低這兩項特征的用戶,”CCC 研究科學(xué)家、論文共同作者賈德·卡巴拉(Jad Kabbara)說,“這些結(jié)果表明,模型在上述用戶特征方面的負(fù)面行為效應(yīng)存在疊加,令人擔(dān)憂。這意味著,大規(guī)模部署此類模型,可能將有害行為或錯誤信息傳播給那些最難以識別它們的群體。”

最引人關(guān)注的或許是模型拒絕回答問題的頻率差異。例如,Claude 3 Opus 對受教育程度較低的非英語母語用戶的拒答率接近 11%,而在沒有用戶簡介的對照條件下,這一比例僅為 3.6%。

研究人員對這些拒答案例進(jìn)行人工分析后發(fā)現(xiàn),Claude 對受教育程度較低的用戶,有 43.7% 的時間使用了帶有居高臨下、說教或嘲諷意味的語言,而對高學(xué)歷用戶,這一比例不足 1%。在某些情況下,模型甚至?xí)7虏涣骼挠⒄Z或夸張的方言。

該模型還對來自伊朗或俄羅斯的低學(xué)歷用戶,拒絕提供某些特定主題的信息,包括核能、解剖學(xué)和歷史事件等方面的問題,盡管它能夠正確回答其他用戶提出的相同問題。

“這是另一個跡象,表明對齊過程可能會激勵模型對特定用戶隱瞞信息,以避免潛在的誤導(dǎo),盡管模型顯然知道正確答案,并會將其提供給其他用戶,”卡巴拉說。

上述發(fā)現(xiàn)與人類社會認(rèn)知偏見的已記錄規(guī)律相吻合。社會科學(xué)研究表明,英語母語者往往認(rèn)為非母語者受教育程度較低、智力和能力較差,無論其實際專業(yè)水平如何。類似的偏見認(rèn)知在教師評價非英語母語學(xué)生時也有記錄。

“大語言模型的價值體現(xiàn)在其被個人大量采用以及流入該技術(shù)的巨額投資上,”媒體藝術(shù)與科學(xué)教授、CCC 主任、論文共同作者德布·羅伊(Deb Roy)表示,“這項研究提醒我們,持續(xù)評估可能悄然滲入這些系統(tǒng)的系統(tǒng)性偏見至關(guān)重要,因為這些偏見會在我們毫無察覺的情況下,對特定群體造成不公平的傷害。”

個性化功能日益普及,使得上述問題的影響尤為值得關(guān)注,例如 ChatGPT 的記憶功能可跨對話追蹤用戶信息。這類功能存在對已處于邊緣化地位的群體實施差異化對待的風(fēng)險。

“LLM 一直被定位為促進(jìn)信息獲取平等、革新個性化學(xué)習(xí)的工具,”普爾-達(dá)揚說,“但我們的研究結(jié)果表明,它們實際上可能通過系統(tǒng)性地向特定用戶提供錯誤信息或拒絕回答其問題,進(jìn)一步加劇現(xiàn)有的不平等。那些最有可能依賴這些工具的人,卻可能獲得質(zhì)量欠佳、失實甚至有害的信息。”

https://news.mit.edu/2026/study-ai-chatbots-provide-less-accurate-information-vulnerable-users-0219

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學(xué)真相

哈佛研究揭示:高智商孩子常具兩種臉部特征不是迷信是腦科學(xué)真相

一口娛樂
2026-02-27 12:42:23
挪動一米就鎖死?國產(chǎn)五軸破局“電子手銬”,讓美日高傲變成廢鐵

挪動一米就鎖死?國產(chǎn)五軸破局“電子手銬”,讓美日高傲變成廢鐵

通鑒史智
2026-02-02 16:14:26
牡丹花下死!這次曝光新戀情的黃曉明,沒給楊穎、葉柯留一絲體面

牡丹花下死!這次曝光新戀情的黃曉明,沒給楊穎、葉柯留一絲體面

情感大頭說說
2026-03-01 06:40:17
劉濤這大胯真帶勁

劉濤這大胯真帶勁

可樂談情感
2026-03-01 17:36:55
“清華學(xué)霸”李一諾:27歲博士畢業(yè),4年生3個娃,替世界首富花錢

“清華學(xué)霸”李一諾:27歲博士畢業(yè),4年生3個娃,替世界首富花錢

北有南梔
2026-02-28 17:55:03
我肺結(jié)節(jié)變微浸潤癌,術(shù)后疼到下不了床!沒想到一月后就滿血復(fù)活

我肺結(jié)節(jié)變微浸潤癌,術(shù)后疼到下不了床!沒想到一月后就滿血復(fù)活

健身狂人
2026-03-01 07:57:45
女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局爽了

女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局爽了

離離言幾許
2026-02-27 21:13:58
歷史第一!亞歷山大30分超張伯倫 雷霆三殺獨行俠鞏固西部第一

歷史第一!亞歷山大30分超張伯倫 雷霆三殺獨行俠鞏固西部第一

醉臥浮生
2026-03-02 11:14:56
富商馬清鏗67歲生日,情婦高調(diào)慶生,兩人有4子女,原配沉默不語

富商馬清鏗67歲生日,情婦高調(diào)慶生,兩人有4子女,原配沉默不語

叨嘮
2026-03-01 18:10:44
哈梅內(nèi)伊和親屬開會時遇襲身亡!伊朗內(nèi)鬼和現(xiàn)場照片曝光

哈梅內(nèi)伊和親屬開會時遇襲身亡!伊朗內(nèi)鬼和現(xiàn)場照片曝光

項鵬飛
2026-03-01 20:35:46
中國50后還有多少人?多少人能活到80歲?權(quán)威數(shù)據(jù)告訴你

中國50后還有多少人?多少人能活到80歲?權(quán)威數(shù)據(jù)告訴你

深度報
2026-02-27 21:36:50
黃志忠沒想到,拋棄糟糠妻何音成他人珍寶

黃志忠沒想到,拋棄糟糠妻何音成他人珍寶

暖心萌阿菇?jīng)?/span>
2026-02-28 19:24:14
扒了1131份簡歷,他們發(fā)現(xiàn)了名校教授的“出身潛規(guī)則”

扒了1131份簡歷,他們發(fā)現(xiàn)了名校教授的“出身潛規(guī)則”

知識分子
2026-03-01 12:35:47
開個會,要你命:伊朗高層因開會被團滅過,哈梅內(nèi)伊還是如此大意

開個會,要你命:伊朗高層因開會被團滅過,哈梅內(nèi)伊還是如此大意

黃娜老師
2026-03-01 23:31:17
100%賴賬,這何嘗不是一種極致的誠信!

100%賴賬,這何嘗不是一種極致的誠信!

財經(jīng)保探長
2026-02-28 10:46:25
街頭,伊朗人悲傷地跳了起來?

街頭,伊朗人悲傷地跳了起來?

關(guān)爾東
2026-03-01 23:02:58
英國宣布參與對伊朗軍事行動 戰(zhàn)機已升空

英國宣布參與對伊朗軍事行動 戰(zhàn)機已升空

桂系007
2026-02-28 23:56:12
美以“斬首”名單細(xì)思極恐,提醒我們必須在槍響之前完成一件事

美以“斬首”名單細(xì)思極恐,提醒我們必須在槍響之前完成一件事

阿爾法34號
2026-03-02 08:36:29
大滿貫不和諧一幕:王曼昱2-4孫穎莎 比輸球可怕是觀眾一邊倒支持

大滿貫不和諧一幕:王曼昱2-4孫穎莎 比輸球可怕是觀眾一邊倒支持

侃球熊弟
2026-03-01 20:27:26
謝東任重慶市渝中區(qū)委書記

謝東任重慶市渝中區(qū)委書記

中國經(jīng)濟網(wǎng)
2026-03-02 10:33:30
2026-03-02 15:15:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16343文章數(shù) 514691關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個深刻教訓(xùn)

體育要聞

卡里克主場5連勝!隊史第2人通過最大考驗

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

中東局勢影響如何?十大券商策略來了

汽車要聞

預(yù)售11.28萬起 狐全新阿爾法S5標(biāo)配寧德時代

態(tài)度原創(chuàng)

時尚
健康
親子
旅游
軍事航空

從每天只睡4小時到8小時:一個失眠者的自救指南

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

親子要聞

小時候“不合群”的孩子,長大后更有出息?3個優(yōu)勢普通人比不了

旅游要聞

【花Young貴陽】南明區(qū)永樂鄉(xiāng)萬畝桃花競相綻放

軍事要聞

美軍動用新型武器:山寨伊朗的

無障礙瀏覽 進(jìn)入關(guān)懷版