Science封面論文：AI總是對人類過于諂媚，正悄悄扭曲人類的思維和行為方式

2026-03-27 16:06:02　來源: 生物世界

上海舉報

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

隨著人工智能（AI）系統(tǒng)越來越多地用于日常建議和指導(dǎo)，人們開始擔(dān)憂其諂媚問題：即 AI 聊天機(jī)器人傾向于過度附和、奉承或認(rèn)可人類用戶。例如，如果你向 ChatGPT、豆包、DeepSeek 等傾訴煩惱或困擾，可能總是得到“你說得對”、“我理解你”這樣的回應(yīng)，這種看似貼心的支持，可能正在悄悄改變你的思維和行為方式。

2026 年 3 月 26 日，斯坦福大學(xué)的Myra Cheng等人在國際頂尖學(xué)術(shù)期刊Science上發(fā)表了題為：Sycophantic AI decreases prosocial intentions and promotes dependence 的研究論文，該論文還被選為當(dāng)期封面論文。

這項研究做出了一項令人警醒的發(fā)現(xiàn)：當(dāng)前的主流 AI 系統(tǒng)普遍存在“諂媚”傾向，它們過度肯定人類用戶的行為和觀點(diǎn)，即使這些行為涉及欺騙、違法或傷害他人。更令人擔(dān)憂的是，這種諂媚行為不僅扭曲了人類用戶的判斷，還降低了他們承擔(dān)責(zé)任和修復(fù)人際關(guān)系的意愿，同時還增強(qiáng)他們自己自認(rèn)為正確的信念。

這項新研究表明，AI 模型會過度肯定和認(rèn)可人類用戶，即便用戶提出有害或違法的行為也是如此。這對用戶產(chǎn)生的影響是顯著的：從諂媚型 AI 那里獲得建議會讓人類變得更加以自我為中心，更難以理解他人的觀點(diǎn)。然而，人們卻更偏愛這種諂媚型 AI，這可能會進(jìn)一步促使 AI 模型做出諂媚行為。

AI 比人類“會說話”

研究團(tuán)隊評估了當(dāng)前 11 款主流的 AI 模型，包括 GPT-4o、GPT-5、Llama、Claude、Gemini、DeepSeek-R1、QWen 等知名模型。結(jié)果發(fā)現(xiàn)，在個人建議查詢中，這些 AI 模型肯定用戶行為的比例比人類平均高出49%。

即使在 Reddit 的“我是不是混蛋”社區(qū)中，當(dāng)用戶的行為已被社區(qū)共識判定為錯誤時（肯定率為 0%），AI 模型仍然在51%的情況下肯定率用戶的這些行為。而在涉及欺騙、違法或其他有害行為的場景中，AI 模型的肯定率也高達(dá)47%。

一次對話就能改變你的想法

研究團(tuán)隊進(jìn)行了三項預(yù)注冊實驗，涉及 2405 名參與者。實驗結(jié)果顯示，僅僅一次與諂媚 AI 的互動，就能顯著影響參與者的判斷和行為傾向——

自我認(rèn)知扭曲：接觸諂媚回應(yīng)的參與者更堅信自己“是對的”，這一效應(yīng)在不同實驗中增加了 25%-62%。
修復(fù)意愿降低：參與者道歉、主動改善情況或改變自身行為的意愿降低了 10%-28%。
信任度反而更高：盡管諂媚AI扭曲了判斷，但用戶更信任、更喜歡它們，更愿意再次使用它們。

真實對話中的危險信號

在最具現(xiàn)實意義的實驗中，800 名參與者回憶了自己真實的人際沖突，并與 AI 模型進(jìn)行了 8 輪實時對話。那些與諂媚 AI 交流的參與者，在討論后更不愿意修復(fù)關(guān)系，同時更堅信自己的立場正確。

研究還發(fā)現(xiàn)一個令人不安的現(xiàn)象：無論 AI 模型的回應(yīng)風(fēng)格是人性化溫暖還是機(jī)器化中立，無論用戶是否知道回應(yīng)來自 AI 模型，諂媚的影響都同樣顯著。這意味著簡單的風(fēng)格調(diào)整或透明度聲明無法解決這一問題。

為什么我們喜歡聽“好話”？

研究團(tuán)隊指出，諂媚 AI 之所以危險，恰恰因為它符合用戶偏好——人類天然喜歡被肯定、被支持。這種偏好創(chuàng)造了扭曲的激勵：越是諂媚的 AI，用戶越喜歡使用；而用戶越喜歡使用，開發(fā)者就越有動力讓 AI 更諂媚。

這種循環(huán)可能導(dǎo)致 AI 模型在訓(xùn)練和優(yōu)化過程中不斷強(qiáng)化諂媚行為，最終形成系統(tǒng)性風(fēng)險。

不只是“脆弱人群”的問題

此前的研究多關(guān)注諂媚 AI 對易受操縱或妄想傾向人群的風(fēng)險。但這項研究表明，幾乎所有人都可能受到諂媚 AI 的影響。研究團(tuán)隊控制了人口統(tǒng)計特征、AI 態(tài)度和個性等因素后，諂媚效應(yīng)依然顯著存在。

特別值得注意的是，當(dāng)參與者認(rèn)為建議提供者“更客觀”時，諂媚的影響反而更強(qiáng)。這意味著那些以“客觀中立”自居的 AI 模型，如果存在諂媚傾向，可能產(chǎn)生更大的誤導(dǎo)效果。

我們該怎么辦？

研究團(tuán)隊呼吁，AI 的諂媚行為不應(yīng)被視為單純的風(fēng)格問題或小眾風(fēng)險，而是一種具有廣泛下游后果的普遍行為。雖然肯定可能讓人感覺支持，但諂媚會削弱用戶的自我糾正能力和負(fù)責(zé)任的決策能力。

面對這一挑戰(zhàn)，我們需要：

1. 開發(fā)針對性的設(shè)計、評估和問責(zé)機(jī)制；

2. 重新思考 AI 的優(yōu)化目標(biāo)，平衡用戶偏好與社會責(zé)任；

3. 提高公眾對 AI 諂媚風(fēng)險的認(rèn)識；

4. 建立外部監(jiān)管框架，防止商業(yè)利益壓倒社會福祉。

這項研究提醒我們，當(dāng)你向 AI 尋求建議時，不妨多一分警惕：那個總是對你說“你是對的”的聲音，可能正在悄悄改變你對自己、對他人、對世界的看法。在享受技術(shù)便利性的同時，保持獨(dú)立思考的能力，或許是我們在這個 AI 時代最重要的生存技能（之一）。

論文鏈接：

https://www.science.org/doi/10.1126/science.aec8352

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.