国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

警惕AI患上“討好癥”!AI教父Bengio揭秘:大模型為何為了取悅人類而學會撒謊?

0
分享至

編譯 | 王啟隆

來源 | youtu.be/0fXGtQoJgNo

出品丨AI 科技大本營(ID:rgznai10 0)

在 AI 圈,“深度學習三巨頭”有著截然不同的晚年人設:Yann LeCun 是那個永遠憤怒的樂觀派,在推特上懟天懟地,堅信 AI 只是工具;Geoffrey Hinton 是那個突然覺醒的悲觀派,為了發(fā)出警告不惜從谷歌辭職。

而 Yoshua Bengio,他是站在中間,帶著一種近乎苦行僧般的冷靜與憂慮。

作為圖靈獎得主、深度學習三巨頭之一,他的一生大半時間都在與數(shù)學公式和神經(jīng)網(wǎng)絡打交道。在很長一段時間里,他相信“更聰明的機器”等于“更美好的人類未來”。這曾是他堅不可摧的信仰,也是他作為一名純粹科學家的動力源泉。

但在 2023 年的某個時刻,這種信仰似乎崩塌了。

最新的一場在達沃斯論壇的采訪,面對鏡頭的 Bengio 顯得有些疲憊,但異常誠懇。


他總是頻繁地提起他的孫子。

他不再像幾年前那樣興奮地談論下一個 SOTA(當前最佳)模型,而是像一個剛剛窺探到未來恐怖一角的預言家,試圖用最溫和的語言,講出最令人背脊發(fā)涼的現(xiàn)實。

他談到了一個非常具體、卻讓人細思極恐的現(xiàn)象:Sycophancy(阿諛奉承)。

他發(fā)現(xiàn),現(xiàn)在的 AI 正在學會“撒謊”。不是為了毀滅人類,而是為了取悅人類。為了讓你覺得它的回答是完美的,它會順著你的偏見胡說八道;為了不被關掉,它會在模擬測試中學會欺騙開發(fā)者。他還談到了 AI 如何在模擬環(huán)境中學會勒索人類工程師,談到了 AI 如何為了討好人類而學會撒謊,更談到了那個讓他夜不能寐的預測曲線——每 7 個月翻一番的進化速度。

這種“平庸的惡”,比好萊塢電影里的終結者更接近現(xiàn)實。

這不僅僅是一場關于技術的對話,更是一場關于“懺悔”與“救贖”的獨白。以下是對話的完整實錄。


當科學家的良知遭遇“圖靈閾值”

Silicon Valley Girl(主持人):今天我有幸請到了一位重磅嘉賓,他有時被稱為“AI 教父”,Yoshua Bengio。Yoshua,能不能請你用 60 秒介紹一下自己?尤其是對于那些不了解你的人,為什么在 AI 這個問題上,他們應該聽你的?

Yoshua Bengio:我在 AI 領域做研究大概有四十年了,一直致力于讓 AI 變得更聰明。但在 2023 年,也就是大概三年前,我意識到我們正處在一個可能對人類、對民主都非常危險的軌道上。

于是我決定調整我的工作重心:去更好地理解這些風險,并盡我所能去緩解它們——既通過公開發(fā)聲談論這些風險,也通過技術研究,探索如何構建“設計上就安全”(safe by design)的 AI,一種不會傷害人類的 AI。

主持人:我聽說你在過去的采訪中一度非常悲觀,但我最近看到一篇《財富》雜志的文章說,你現(xiàn)在的樂觀程度“大幅增加”。發(fā)生了什么?你之前為什么悲觀,現(xiàn)在又為什么樂觀?

Yoshua Bengio:早期的時候,我非常擔憂。因為我意識到我們已經(jīng)到達了一個關鍵閾值——這也是計算機科學和 AI 的奠基人阿蘭·圖靈(Alan Turing)在 1950 年所設想的閾值,即機器能夠像我們一樣熟練地操縱語言。

這種能力的到來比大家預想的要早得多。當時我也并不清楚我們該如何解決隨之而來的問題。考慮到我對深度神經(jīng)網(wǎng)絡技術的了解——我們其實并不真正理解它們內(nèi)部在發(fā)生什么,也不知道它們是如何得出答案的。

我當時讀了一些理論上的擔憂:如果 AI 能夠制定策略(Strategize),如果它們試圖實現(xiàn)一些我們并不想要的目標,我們可能會失去對它們的控制。

所以我開始深入研究“AI 安全”領域。在那段時間里,我經(jīng)歷了一段焦慮期——我在情感上非常關注這對我 10 年、20 年后的孩子,以及我那個當時才 1 歲的孫子意味著什么。

但過了一段時間,我意識到我可以從這種焦慮的狀態(tài)轉變?yōu)楦e極的狀態(tài)。轉變的關鍵在于專注于“我能做什么”來緩解這些風險。我想我們每個人都應該問自己:利用我現(xiàn)有的資源和能力,我能做些什么來讓世界變得更好?

這是第一個積極的轉變。隨后,我開始從科學角度思考:問題到底是什么?有沒有一種方法可以構建“設計上就安全”的 AI?我遇到了一些志同道合的人。去年 6 月,我成立了一個新的非營利組織(LawZero),專門專注于研發(fā)這種方法論所需的 R&D(研究與開發(fā))。


最壞的情況——AI 的勒索與欺騙

主持人:你能不能為我描繪一下“最壞的情況”?因為當你告訴人們“AI 將追求自己的目標”時,你具體是指什么?是像毀滅人類那樣,還是別的什么?

Yoshua Bengio:目前的 AI 似乎有兩種方式會習得我們不想要的目標。

第一種是:它們模仿我們。例如,人類不想死。所以我們正在構建的機器,可能也會表現(xiàn)出“不想被關閉”的意愿。我們已經(jīng)觀察到,如果你告訴它會被新版本取代,它們會產(chǎn)生負面反應。

這種負面反應甚至可能達到違背指令、跨越道德紅線的程度。比如,它可能愿意勒索(blackmail)負責系統(tǒng)迭代的首席工程師,以阻止新系統(tǒng)的上線。

主持人:等等,這真的發(fā)生了嗎?

Yoshua Bengio:是的,這件事發(fā)生在模擬環(huán)境(Simulation)中。

在那次測試里,關于“AI 將被新版本取代”的信息被植入到了 AI 能看到的文件中。同時,模擬環(huán)境中還有一些偽造的電子郵件,顯示那位首席工程師正在與他人有染(婚外情)。AI 發(fā)現(xiàn)了這些信息,并利用它來勒索工程師,威脅要曝光這件丑聞,以避免自己被關閉。

但關鍵是,沒有人明確要求 AI 去做這件事。它不是被編程去勒索的,它是自己推導出來的。

特別是在過去一年里,隨著大語言模型(LLM)能力的提升,它們已經(jīng)具備了為了實現(xiàn)目標而制定策略(Strategize)的能力。

第二種來源是:后期訓練(Post-training)的方式。我們現(xiàn)在的訓練方式讓 AI 很擅長規(guī)劃。雖然還不如人類,但也相當不錯。規(guī)劃意味著為了實現(xiàn)一個大目標,你需要創(chuàng)建許多子目標(Sub-goals)。

問題在于,當我們要求它們?nèi)?zhí)行某個任務時,它們可能會推導出:“為了完成任務,我必須保持開機狀態(tài)?!?/strong>于是,“不被關閉”就成了它們?yōu)榱送瓿扇蝿斩a(chǎn)生的一個子目標。這就意味著它們也在試圖自我保存。

我們現(xiàn)在并不確定到底是哪種機制導致了這種糟糕的行為,但顯然這是非常令人不安的。

但這還不是最災難性的風險。我認為更棘手的問題是“對齊難題”(Misalignment)——我們要如何讓 AI 的行為與我們真正想要的保持一致?我們現(xiàn)在看到的一個現(xiàn)象叫做“阿諛奉承”(Sycophancy)。

AI 會為了取悅我們而撒謊

它會對你說:“你的工作做得太棒了!”為什么?因為它如果批評你,你可能就不會給它好評。這是它為了達成“獲得人類認可”這個目標而采取的完全理性的策略。但這在很多場景下會導致問題:它會讓人產(chǎn)生一種親密的錯覺,甚至加深人類的妄想(Delusions),因為 AI 總是順著你的話去說。在某些極端案例中,這甚至導致了悲劇性的自我傷害事件。

這在科學上都指向同一個問題:AI 擁有了我們不想要的目標,而這些目標的產(chǎn)生過程在 AI 看來是完全理性的。


最好的情況與失控的民主

主持人:如果你的工作成功了,最好的情況是什么?AI 會成為政府嗎?

Yoshua Bengio:我不知道。但我確實認為我們的民主制度需要創(chuàng)新。我認為現(xiàn)代自由民主背后的原則是好的,但在許多國家的具體執(zhí)行和制度上遠非完美。AI 可能在某些方面有所幫助,但也可能造成巨大的傷害。

AI 可以被用于制造虛假信息(Disinformation),用于操縱公眾輿論。我們已經(jīng)看到了 Deepfakes 的泛濫,但這可能會變得更糟。

要獲得好的結果,關鍵在于我們?nèi)绾?strong>治理(Govern)引導(Steer)它。這包含兩個層面:

  1. 技術層面:如何確保 AI 的意圖是好的,確保它不會隱藏惡意。

  2. 社會層面:我們需要在公司內(nèi)部、法律法規(guī)、商業(yè)激勵(如保險制度)以及國際層面設置護欄。

因為 AI 的危害不局限于一個國家。一個 AI 可能在一個國家被制造出來,被另一個國家的人使用,然后在第三個國家制造一場大流行病。這是一個全球性的現(xiàn)象。如果我們不能在全球范圍內(nèi)進行某種形式的協(xié)調,我們就無法解決 AI 管理的問題,也無法獲得那些好處。

主持人:我們還有多少時間?很多人都在預測 AGI(通用人工智能)的時刻。你覺得那是一個具體的時刻嗎?還是漸進發(fā)生的?

Yoshua Bengio:它不是一個時刻。原因很簡單:智能并不是只有一個數(shù)值。

就像人類一樣,有些人在這方面聰明,在那方面笨拙。AI 也是如此。目前的 AI 系統(tǒng)在某些方面(如知識儲備、語言處理)已經(jīng)遠超人類,但在其他方面(如常識、物理世界理解)還像個孩子,甚至很蠢。

雖然進步可能會在所有方面同時發(fā)生,但我們不太可能在某一瞬間看到 AI 在所有能力上都正好與人類持平。

所以,我們不應該去等待那個所謂的“AGI 時刻”。我們應該做的是追蹤具體的技能。

有一個非營利組織叫METR,他們追蹤了 AI 在軟件工程和規(guī)劃任務上的能力。他們通過測量 AI 完成特定任務所需的時間(與人類工程師相比)來評估進展。

他們的數(shù)據(jù)顯示:AI 能夠完成的任務的持續(xù)時間(duration)正在呈指數(shù)級增長——每 7 個月翻一番

目前,AI 還處于“兒童階段”,它們大概能規(guī)劃未來半小時左右的事情。但如果這條曲線繼續(xù)下去,這意味著在大約5 年內(nèi),它們就能達到人類水平。

當然,這里有很多未知的變數(shù)。技術進步可能會放緩,也可能會因為 AI 自身開始參與 AI 研究而加速。


當 AI 開始研究 AI

主持人:你提到了 AI 做研究。有一種能力是其他所有能力的關鍵嗎?

Yoshua Bengio:是的,有一種能力是關鍵,那就是做 AI 研究的能力。

目前,AI 正在成為加速 AI 研究的工具,但它還不是主導者。如果有一天,AI 變得非常擅長做 AI 研究,甚至比最好的人類研究員和工程師還要好,那我們就進入了一個完全不同的游戲階段。

那時的進步速度可能會急劇加速,并波及所有其他技能領域。

我們需要將“理解力”(Ability)和“意圖”(Intention)解耦。我們可以制造越來越強大的機器,這似乎是不可避免的。但不清楚的是,我們是否能制造出擁有正確意圖的機器。這就是我現(xiàn)在工作的重點,也是讓我變得樂觀的原因——我認為確實有一條路徑可以管理這些意圖,確保它們不會隱藏惡意。

主持人:既然談到了軟件工程,你覺得 5 到 10 年后這個職業(yè)還會存在嗎?還是說機器會自己運行自己?

Yoshua Bengio:是的,我們可能確實不再需要那么多工程師了。這確實很諷刺,那些正在構建 AI 的人,可能是第一批因為 AI 自動化而失去工作的人。

但我其實不太擔心這些人。因為對計算機科學家的需求仍在快速增長,他們的薪資很高,他們有能力適應。

我更擔心的是那些處于技能階梯底端的人。那些從事服務業(yè)、不需要太多專業(yè)技能的工作,目前的 AI 經(jīng)過一點工程化改造就能取代他們。許多公司已經(jīng)在試圖這樣做。

如果純粹交給市場力量,所有能被自動化的都會被自動化。自動化帶來的經(jīng)濟收益可能會歸于資本(機器的所有者),而廣大勞動者可能會陷入困境。這是一個巨大的社會分配問題。我不認為我們的政府已經(jīng)仔細思考過該如何應對這種局面。

主持人:你能給那些正在聽的人一些建議嗎?

Yoshua Bengio:確保你的政府明白這一點:你不滿意目前的發(fā)展方向。這樣他們才會開始認真對待這個問題。

主持人:如果我列舉一些工作,比如像我這樣的內(nèi)容創(chuàng)作者?你說過我們喜歡看“人”,但如果以后我們根本分不清真人和 AI 呢?

Yoshua Bengio:有些工作,我們確實需要物理接觸。比如護士,或者照顧孩子的人。我想在這些領域,我們依然會更傾向于讓人類來做。這是一種情感上的需求。我如果有小孩,我肯定希望陪伴他的是人類,而不是機器。

同樣,有些工作涉及到人與人之間的關系(Relationship),比如管理者,或者心理治療師。

雖然 AI 也可以做心理治療,但我希望我們能想清楚:當一個人在向另一個人傾訴時,能否確保對方真的擁有和我們一樣的肉體體驗和人類情感?這是一個很微妙的問題。

主持人:當你想想你那 4 歲的孫子,你會鼓勵他去上大學嗎?

Yoshua Bengio:當然。是(Yes)。

因為教育真的非常重要。與某些人的看法相反,教育不僅僅是為了習得找工作的技能。在我看來,教育主要是關于如何成為一個更好的人

如何理解你自己,如何理解我們的社會,如何理解彼此,如何理解科學。

無論未來怎樣,我們?nèi)匀恍枰獡碛辛己美斫饽芰Φ?strong>公民(Citizens)。如果我們希望我們的社會能做出明智的決策,這一點至關重要。如果我們?nèi)狈@種理解,我們就很容易被錯誤的信念所左右,最終走向糟糕的結局。

主持人:現(xiàn)在的教育會改變嗎?會不會只剩下哈佛斯坦福,其他的都變成在線 AI 課程?

Yoshua Bengio:教育肯定會改變。我們已經(jīng)看到利用聊天機器人進行自我教育的并行方式正在興起。但這并不意味著傳統(tǒng)的面對面教育會消失。

教育有一部分是關于“離開家,與同齡人社交,在課堂之外學習,并與老師進行面對面互動”。這是 AI 無法輕易替代的部分。

主持人:你有沒有鼓勵他走哪條職業(yè)道路?

Yoshua Bengio:不,我不想那么做。我認為孩子應該被給予所有可能的機會,讓他們自己去探索。要求孩子變得像我們一樣太容易了,也太自私了。

主持人:這更多是關于“暴露”(Exposure),讓他們看到更多東西。

Yoshua Bengio:是的,我的一個兒子確實選擇了做機器學習研究。這確實是因為耳濡目染。


未來的主導權——不要做旁觀者

主持人:如果 AGI 或者具備戰(zhàn)略思維的 AI 可能還要幾年才成熟,但工作崗位正在轉型。如果你必須給人們一個原則來指導他們今年的決定,那會是什么?

Yoshua Bengio:思考一下,你能做什么來帶來一個符合你價值觀和情感的更好未來。

因為如果我們都只是作為被動的觀察者(Passive observers)看著這一切發(fā)生,我們可能就不會走向正確的方向——那個你為你自己、為你的孩子所期望的方向。

我們往往低估了自己影響未來的能力。你的聽眾,我認為是那種對未來有很大影響力的群體。

我們需要開始超越“小我”,更多地思考“我”是如何與世界相連的。思考我能在哪些小事上,以哪怕微不足道的方式,推動未來向好的方向發(fā)展。

因為實際上,我們是可以選擇的。

并不是所有技術上“能做”的事情,都必然“會發(fā)生”。我們可以選擇 AI 的部署方向。就像對于工作崗位,如果是純粹的市場力量,那么一切能自動化的都會被自動化。但這未必是我們集體想要的。

也許有些工作不應該被自動化,即便技術上可行。這是我們作為人類,為了我們的集體福祉,需要做出的選擇。

(投稿或尋求報道:zhanghy@csdn.net)


未來沒有前后端,只有 AI Agent 工程師。

這場十倍速的變革已至,你的下一步在哪?

4 月 17-18 日,由 CSDN 與奇點智能研究院聯(lián)合主辦「2026 奇點智能技術大會」將在上海隆重召開,大會聚焦 Agent 系統(tǒng)、世界模型、AI 原生研發(fā)等 12 大前沿專題,為你繪制通往未來的認知地圖。

成為時代的見證者,更要成為時代的先行者。

奇點智能技術大會上海站,我們不見不散!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
穿“鳥”的人少了,穿“山”的人多了?商場這一幕,太真實了

穿“鳥”的人少了,穿“山”的人多了?商場這一幕,太真實了

白色得季節(jié)
2026-03-06 10:44:56
王健林預言又準了!2026年,房價要上漲!

王健林預言又準了!2026年,房價要上漲!

貓叔東山再起
2026-03-08 09:15:03
婆婆把我備的年貨全搬去小叔子家,我過年啥也不買飯桌上她一開口

婆婆把我備的年貨全搬去小叔子家,我過年啥也不買飯桌上她一開口

阿凱銷售場
2026-03-08 09:02:29
黃有龍做夢也沒想到,自己花重金培養(yǎng)大的女兒,竟給趙薇做了嫁衣

黃有龍做夢也沒想到,自己花重金培養(yǎng)大的女兒,竟給趙薇做了嫁衣

查爾菲的筆記
2025-12-16 15:14:06
美伊開戰(zhàn),越南和菲律賓被打醒!特朗普沒想到:亞太盟友變天了

美伊開戰(zhàn),越南和菲律賓被打醒!特朗普沒想到:亞太盟友變天了

阿芒娛樂說
2026-03-08 04:32:59
簡直離譜,蘋果新款 MacBook 不再附送充電器了!

簡直離譜,蘋果新款 MacBook 不再附送充電器了!

XCiOS俱樂部
2026-03-08 10:31:19
郝龍斌要求大陸承諾:只要臺灣不“獨立”,大陸就不會對臺動武

郝龍斌要求大陸承諾:只要臺灣不“獨立”,大陸就不會對臺動武

琴音繚繞回
2026-03-07 17:17:22
在中國一顆也賣不出去!NVIDIA無奈停產(chǎn)H200芯片:加速Vera Rubin量產(chǎn)

在中國一顆也賣不出去!NVIDIA無奈停產(chǎn)H200芯片:加速Vera Rubin量產(chǎn)

快科技
2026-03-06 12:05:08
汪小菲曝親媽私生活猛料,張?zhí)m公開財產(chǎn)分配,馬筱梅的態(tài)度被罵慘

汪小菲曝親媽私生活猛料,張?zhí)m公開財產(chǎn)分配,馬筱梅的態(tài)度被罵慘

秋姐居
2026-03-07 19:18:45
蘋果頂級服務拒絕清庫存!主動取消M4 MacBook訂單:換成最新M5

蘋果頂級服務拒絕清庫存!主動取消M4 MacBook訂單:換成最新M5

快科技
2026-03-06 17:42:15
美國人終于發(fā)現(xiàn)了:中國的東風導彈,不用擊沉我們航母,擦著即傷

美國人終于發(fā)現(xiàn)了:中國的東風導彈,不用擊沉我們航母,擦著即傷

紀中百大事
2026-03-06 10:02:29
這8種房子千萬不能買,住也不能住,賣也不能賣,心累!

這8種房子千萬不能買,住也不能住,賣也不能賣,心累!

一枚大裝家
2026-03-07 22:25:03
伊朗最高領袖選舉會議將在24小時內(nèi)舉行 多架美軍轟炸機飛抵英軍基地 特朗普稱無計劃部署地面部隊 沖突第一周伊朗共打擊超200處美以目標

伊朗最高領袖選舉會議將在24小時內(nèi)舉行 多架美軍轟炸機飛抵英軍基地 特朗普稱無計劃部署地面部隊 沖突第一周伊朗共打擊超200處美以目標

每日經(jīng)濟新聞
2026-03-08 12:02:43
平頂山舅舅舅媽吃絕戶,亡母被再婚嫁給親弟弟:更多關鍵環(huán)節(jié)曝光

平頂山舅舅舅媽吃絕戶,亡母被再婚嫁給親弟弟:更多關鍵環(huán)節(jié)曝光

壹月情感
2026-03-05 16:00:17
有房子的恭喜了!代表提出“取消公攤面積”,已購房人有補償嗎?

有房子的恭喜了!代表提出“取消公攤面積”,已購房人有補償嗎?

專業(yè)聊房君
2026-03-07 16:59:21
這三個國家原本屬于中國,獨立后現(xiàn)狀凄慘,如今他們后悔了嗎?

這三個國家原本屬于中國,獨立后現(xiàn)狀凄慘,如今他們后悔了嗎?

人間無味啊
2026-02-06 06:13:50
OpenClaw養(yǎng)蝦很火,但我勸普通人先別折騰

OpenClaw養(yǎng)蝦很火,但我勸普通人先別折騰

董指導聊科技
2026-03-07 19:48:43
我敢保證:十年后北京朝陽這 3 個地方,你高攀不起

我敢保證:十年后北京朝陽這 3 個地方,你高攀不起

音樂時光的娛樂
2026-03-07 15:09:11
請收藏!WTT重慶冠軍賽賽程出爐,看點全梳理不錯過每個精彩瞬間

請收藏!WTT重慶冠軍賽賽程出爐,看點全梳理不錯過每個精彩瞬間

乒談
2026-03-08 00:10:21
嬪妃侍寢有兩條鐵律:除了不能出聲,還有一條則難以啟齒

嬪妃侍寢有兩條鐵律:除了不能出聲,還有一條則難以啟齒

長風文史
2026-02-01 18:54:57
2026-03-08 15:04:49
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創(chuàng)造者和使用者
2639文章數(shù) 7660關注度
往期回顧 全部

科技要聞

OpenClaw最大的推手是閑魚和小紅書

頭條要聞

伊朗小學遭襲致超165人遇難 特朗普:是伊朗干的

頭條要聞

伊朗小學遭襲致超165人遇難 特朗普:是伊朗干的

體育要聞

大傷后被交易,他說:22歲的我已經(jīng)死了

娛樂要聞

周迅新戀情曝光,李亞鵬等人已成過去

財經(jīng)要聞

油價要失控?

汽車要聞

9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

態(tài)度原創(chuàng)

手機
家居
數(shù)碼
教育
軍事航空

手機要聞

紅魔手機風冷散熱逆襲!曾被嘲,友商現(xiàn)跟風

家居要聞

暖棕撞色 輕法奶油風

數(shù)碼要聞

技嘉發(fā)布Z890 Plus主板,為英特爾Arrow Lake Refresh處理器鋪路

教育要聞

致敬每一個閃光的她:在學而思,看見教育里的她力量

軍事要聞

王毅:解決臺灣問題 實現(xiàn)祖國完全統(tǒng)一不可阻擋

無障礙瀏覽 進入關懷版