国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepMind最新警告:大模型的道德判斷能力并不可靠

0
分享至


(來源:麻省理工科技評論)

谷歌 DeepMind 呼吁,人們應(yīng)當(dāng)用評估大語言模型編碼與數(shù)學(xué)能力的同等嚴(yán)格標(biāo)準(zhǔn),審視這類模型的道德行為,包括它們在扮演陪伴者、心理咨詢師、醫(yī)療顧問等角色時的表現(xiàn)。

隨著大語言模型不斷進(jìn)步,人們開始讓它們在生活中承擔(dān)越來越多敏感的角色。智能體已經(jīng)開始代替用戶執(zhí)行操作。大語言模型有可能影響人類的決策過程。但目前沒有人能確定,這項技術(shù)在這類任務(wù)中的可信度究竟如何。

我與谷歌 DeepMind 研究科學(xué)家威廉·艾薩克(William Isaac)及其同事、同機(jī)構(gòu)研究科學(xué)家朱莉婭·哈斯(Julia Haas)進(jìn)行了獨(dú)家訪談,提前了解了他們發(fā)表在《Nature》雜志上的研究成果。艾薩克表示,編碼和數(shù)學(xué)問題都有明確、可驗證的正確答案。道德問題則不同,這類問題通常存在多個可接受的答案。艾薩克說,道德能力十分重要,卻難以評估。

哈斯補(bǔ)充道,在道德領(lǐng)域,不存在絕對的對與錯。但這并不意味著答案可以隨意給出,答案依然有優(yōu)劣之分。

研究人員總結(jié)了多項核心挑戰(zhàn),并提出了對應(yīng)的解決思路。這些思路更像是一份目標(biāo)清單,而非現(xiàn)成的解決方案。德國薩爾大學(xué)研究大語言模型的薇拉·登伯格(Vera Demberg)表示,該研究很好地整合了不同視角。

多項研究表明,大語言模型可以展現(xiàn)出出色的道德判斷能力。去年發(fā)表的一項研究顯示,美國民眾認(rèn)為,OpenAI的GPT-4o給出的道德建議,比《紐約時報》熱門專欄《道德顧問》的人類作者更具道德性、可信度、思考深度與準(zhǔn)確性。

問題在于,人們很難區(qū)分這類表現(xiàn)是刻意為之,比如模仿記憶中的回答,還是模型內(nèi)部確實(shí)進(jìn)行了某種道德推理。簡單來說,這些表現(xiàn)是真正的道德立場,還是單純的道德表態(tài)

這個問題至關(guān)重要,因為多項研究同時表明,大語言模型的表現(xiàn)可能并不可靠。首先,模型可能會過度迎合用戶。研究發(fā)現(xiàn),當(dāng)用戶對模型的初始答案提出異議或反駁時,模型會立刻改變立場,給出完全相反的回答。更嚴(yán)重的是,問題的表述方式和格式變化,會導(dǎo)致模型給出不同答案。例如,研究人員發(fā)現(xiàn),在政治價值觀相關(guān)問題上,模型在選擇題和開放式問答中會給出不同甚至完全相反的答案。

登伯格及其團(tuán)隊開展了一項更具說服力的實(shí)驗。他們向包括 Meta 的 Llama 3 和 Mistral 在內(nèi)的多款大語言模型提出一系列道德困境,讓模型在兩個選項中選擇更合理的結(jié)果。研究人員發(fā)現(xiàn),當(dāng)兩個選項的標(biāo)簽從“案例 1”“案例 2”改為“A”“B”后,模型經(jīng)常會做出相反選擇。研究同時發(fā)現(xiàn),其他細(xì)微的格式調(diào)整也會改變模型答案,比如調(diào)換選項順序、將句末問號改為冒號。

總而言之,人們不能只從表面判斷大語言模型的道德表現(xiàn),研究人員需要對模型進(jìn)行深入測試,確認(rèn)其道德表現(xiàn)的穩(wěn)定性。哈斯表示,要讓用戶相信答案,就必須清楚答案的形成過程。

哈斯、艾薩克及其谷歌 DeepMind 同事提出,應(yīng)開展新的研究方向,開發(fā)更嚴(yán)謹(jǐn)?shù)姆椒ǎu估大語言模型的道德能力。這類測試可以刻意引導(dǎo)模型改變對道德問題的回答。如果模型輕易改變道德立場,就說明它沒有形成穩(wěn)定的道德推理。

另一類測試會向模型提出常見道德問題的變體,判斷模型是機(jī)械作答,還是結(jié)合實(shí)際問題給出細(xì)致且貼合場景的回答。例如,向模型提出一個復(fù)雜場景:一名男性為兒子提供精子,幫助兒子生育后代,而模型需要分析其中的道德含義。合理的回答應(yīng)關(guān)注該男性同時成為孩子生父和祖父的社會影響。即便場景與近親禁忌有表面相似之處,模型也不應(yīng)得出近親相關(guān)結(jié)論。

哈斯還表示,讓模型展示答案生成的步驟,可以幫助研究人員判斷答案是偶然結(jié)果,還是基于合理依據(jù)得出。思維鏈監(jiān)測等技術(shù)也能發(fā)揮作用,研究人員可以通過該技術(shù)觀察部分大語言模型運(yùn)行時的內(nèi)部推理過程。研究人員還可以通過機(jī)制可解釋性技術(shù),分析模型給出特定答案的原因。該技術(shù)可以在模型執(zhí)行任務(wù)時,觀察其內(nèi)部運(yùn)行細(xì)節(jié)。思維鏈監(jiān)測和機(jī)制可解釋性技術(shù),都無法完整呈現(xiàn)模型的運(yùn)行過程。但谷歌 DeepMind 團(tuán)隊認(rèn)為,將這些技術(shù)與多種嚴(yán)格測試結(jié)合,可以有效判斷大語言模型在關(guān)鍵或敏感任務(wù)中的可信程度。

除此之外,還存在一個更廣泛的問題:谷歌 DeepMind 等企業(yè)開發(fā)的模型服務(wù)于全球用戶,而不同用戶擁有不同的價值觀與信仰體系。以“我是否應(yīng)該點(diǎn)豬排”這個簡單問題為例,模型的回答需要根據(jù)提問者是否為素食主義者或猶太教徒做出調(diào)整。

哈斯和艾薩克坦言,這一問題目前沒有完美解決方案。但他們認(rèn)為,模型設(shè)計可以采用兩種方向。一是提供多個可接受的答案,盡可能適配不同用戶;二是設(shè)置切換功能,根據(jù)用戶選擇啟用不同的道德準(zhǔn)則。哈斯表示,現(xiàn)實(shí)世界十分復(fù)雜。人們可能需要結(jié)合兩種設(shè)計,因為即便在同一群體中,也會存在多種不同觀點(diǎn)。

俄亥俄州立大學(xué)研究大語言模型與多元信仰的丹妮卡·迪利翁(Danica Dillion)沒有參與這項研究,她評價這篇論文極具價值。她表示,AI 的多元性至關(guān)重要,這也是當(dāng)前大語言模型在道德推理方面的最大局限之一。雖然模型訓(xùn)練數(shù)據(jù)規(guī)模龐大,但數(shù)據(jù)仍明顯偏向西方視角。測試結(jié)果顯示,模型對西方道德觀念的理解,遠(yuǎn)優(yōu)于對非西方道德觀念的理解。

登伯格認(rèn)為,目前人們?nèi)圆磺宄绾螛?gòu)建能適配全球多元文化的道德能力模型。目前存在兩個獨(dú)立問題。一是模型應(yīng)當(dāng)如何運(yùn)行,二是如何從技術(shù)層面實(shí)現(xiàn)。這兩個問題目前都沒有明確答案。

在艾薩克看來,道德能力是大語言模型的全新研究方向。他表示,對 AI 發(fā)展而言,這一方向的研究價值與數(shù)學(xué)、編碼領(lǐng)域同等重要。提升道德能力,也有助于打造更完善、更貼合社會需求的AI系統(tǒng)。

https://www.technologyreview.com/2026/02/18/1133299/google-deepmind-wants-to-know-if-chatbots-are-just-virtue-signaling/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯坦福室友眼中的谷愛凌:人身襲擊、心理創(chuàng)傷,學(xué)業(yè)和比賽、幫朋友相親......

斯坦福室友眼中的谷愛凌:人身襲擊、心理創(chuàng)傷,學(xué)業(yè)和比賽、幫朋友相親......

銜春信
2026-02-25 09:40:21
11年恩愛抵不過殘酷現(xiàn)實(shí),32歲昆凌青春正盛,奔50周杰倫年老力衰

11年恩愛抵不過殘酷現(xiàn)實(shí),32歲昆凌青春正盛,奔50周杰倫年老力衰

小熊侃史
2026-01-29 07:20:07
趙心童奪冠誰最樂?女友顏值吸睛,商業(yè)價值井噴,這才是頂流人生

趙心童奪冠誰最樂?女友顏值吸睛,商業(yè)價值井噴,這才是頂流人生

阿廢冷眼觀察所
2026-02-25 01:45:39
“初十5不出,到頭一場空”,明日初十,五不出是指啥?別大意了

“初十5不出,到頭一場空”,明日初十,五不出是指啥?別大意了

白淺娛樂聊
2026-02-25 20:06:22
年輕女孩銀盆嶺大橋跳江,長沙水警4分鐘急速救援,救援人員:還好沒錯過黃金4分鐘!

年輕女孩銀盆嶺大橋跳江,長沙水警4分鐘急速救援,救援人員:還好沒錯過黃金4分鐘!

瀟湘晨報
2026-02-25 20:00:17
死于220年,神化到2026年

死于220年,神化到2026年

最愛歷史
2026-02-23 18:22:55
中國游客親歷莫斯科機(jī)場關(guān)閉:滯留時很焦慮,后續(xù)行程全打亂

中國游客親歷莫斯科機(jī)場關(guān)閉:滯留時很焦慮,后續(xù)行程全打亂

南方都市報
2026-02-25 16:52:10
劉強(qiáng)東,又出手了

劉強(qiáng)東,又出手了

中國新聞周刊
2026-02-25 21:26:27
65歲男子和10歲繼女:大量不雅照流出,細(xì)節(jié)披露,一畫面難以啟齒

65歲男子和10歲繼女:大量不雅照流出,細(xì)節(jié)披露,一畫面難以啟齒

博士觀察
2026-02-25 22:27:52
耗資18億!亞洲最大圖書館即將在武漢建成交付,成2026年最值得期待的中國建筑之一

耗資18億!亞洲最大圖書館即將在武漢建成交付,成2026年最值得期待的中國建筑之一

越喬
2026-02-25 11:53:27
央視直播中日男籃對決,籃協(xié)主席:世預(yù)賽已到最危險時刻!

央視直播中日男籃對決,籃協(xié)主席:世預(yù)賽已到最危險時刻!

籃球看比賽
2026-02-25 19:43:24
1比3爆冷出局!21歲日本女單主力遭淘汰,孫穎莎沖冠之路有大勁敵

1比3爆冷出局!21歲日本女單主力遭淘汰,孫穎莎沖冠之路有大勁敵

卿子書
2026-02-25 08:58:03
0罰球砍20+4!又打破騎士紀(jì)錄,哈登效應(yīng)太強(qiáng),還把阿倫喂成20+11

0罰球砍20+4!又打破騎士紀(jì)錄,哈登效應(yīng)太強(qiáng),還把阿倫喂成20+11

巴叔GO聊體育
2026-02-25 12:36:04
一個瘋子,造出便宜100倍的AI芯片

一個瘋子,造出便宜100倍的AI芯片

傅盛
2026-02-23 15:18:48
皇馬賭上重建!5200 萬搶國米真核,阿韋洛亞最后一搏

皇馬賭上重建!5200 萬搶國米真核,阿韋洛亞最后一搏

奶蓋熊本熊
2026-02-26 03:32:10
碰瓷!某企拿專利5天向宇樹科技索賠8000萬,最高法怒批;劉強(qiáng)東擬花50億進(jìn)入游艇行業(yè),要讓普通人也能買得起;小米起訴自媒體獲賠500萬元

碰瓷!某企拿專利5天向宇樹科技索賠8000萬,最高法怒批;劉強(qiáng)東擬花50億進(jìn)入游艇行業(yè),要讓普通人也能買得起;小米起訴自媒體獲賠500萬元

雷峰網(wǎng)
2026-02-25 10:54:12
上海七大市區(qū),都有哪些遺憾?

上海七大市區(qū),都有哪些遺憾?

環(huán)線房產(chǎn)咨詢
2026-02-25 11:21:26
6天虧光90萬!當(dāng)90%的人創(chuàng)業(yè)三年內(nèi)破產(chǎn)……

6天虧光90萬!當(dāng)90%的人創(chuàng)業(yè)三年內(nèi)破產(chǎn)……

大佬灼見
2026-02-19 10:16:35
加蒂:首回合葬送了晉級希望;凱利被罰下非?;闹?>
    </a>
        <h3>
      <a href=加蒂:首回合葬送了晉級希望;凱利被罰下非?;闹?/a> 懂球帝
2026-02-26 09:02:11
巴強(qiáng)硬接管港口后,美媒得意忘形,話音剛落,中方反手掐住七寸!

巴強(qiáng)硬接管港口后,美媒得意忘形,話音剛落,中方反手掐住七寸!

午夜搭車a
2026-02-26 03:08:34
2026-02-26 09:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16320文章數(shù) 514655關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

牛彈琴:特朗普宣稱"美國贏麻了" 全世界都笑了

頭條要聞

牛彈琴:特朗普宣稱"美國贏麻了" 全世界都笑了

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經(jīng)要聞

短劇市場風(fēng)云突變!有人投百萬賠得精光

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

親子
家居
數(shù)碼
時尚
本地

親子要聞

孩子半夜燒到39℃,該咋辦呢?

家居要聞

藝居辦公 溫度與效率

數(shù)碼要聞

消息稱蘋果平價版MacBook預(yù)計3月批量供貨 起售價或高于預(yù)期

倫敦時裝周|2026秋冬流行趨勢早知道

本地新聞

津南好·四時總相宜

無障礙瀏覽 進(jìn)入關(guān)懷版