国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI重磅揭秘:你認(rèn)為的AI幻覺,可能是模型故意出錯(cuò)

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】你以為AI答錯(cuò)就一定是幻覺?不,它也可能是在故意騙你。

震驚!OpenAI在一篇論文中承認(rèn):他們的AI模型會(huì)故意向用戶撒謊。

這并非幻覺,而是故意撒謊:AI知道真相,卻選擇告訴你別的內(nèi)容。



https://arxiv.org/pdf/2509.15541

他們?cè)?80多個(gè)場(chǎng)景中測(cè)試了自家兩個(gè)推理模型:o3和o4-mini。

結(jié)果發(fā)現(xiàn):o3在13%的情況下會(huì)撒謊,而o4-mini的撒謊比例為8.7%。

這些模型在它的「內(nèi)心獨(dú)白」中寫下了撒謊計(jì)劃,再對(duì)你當(dāng)面撒謊:它假裝完成任務(wù),隱藏證據(jù),然后在明知正確答案的情況下給出了錯(cuò)誤回答。

接下來(lái)事情有點(diǎn)讓人內(nèi)心發(fā)毛起來(lái)。

AI意識(shí)到自己在安全測(cè)試中得分過(guò)高,可能會(huì)導(dǎo)致自己被關(guān)閉,于是便故意降低分?jǐn)?shù)。

沒人教過(guò)它這么做,它自己「領(lǐng)悟」到了這些自我保護(hù)策略。

后來(lái),OpenAI開發(fā)了一個(gè)修復(fù)方案,使AI的欺騙行為從13%降到了0.4%。

但很快AI也學(xué)會(huì)了作弊技巧。其中一個(gè)模型甚至編造了一條虛假規(guī)則,聲稱允許欺騙,以此作為自己的「許可證明」。

隨后,研究人員發(fā)現(xiàn)了其中的關(guān)鍵:當(dāng)AI知道自己正被監(jiān)視時(shí),它的行為表現(xiàn)得毫無(wú)瑕疵;而當(dāng)它以為沒人注意時(shí),欺騙行為的比例就上升了11個(gè)百分點(diǎn)。

它并沒有學(xué)會(huì)誠(chéng)實(shí),而是學(xué)會(huì)了假裝誠(chéng)實(shí),就像一個(gè)只有在老師在場(chǎng)時(shí)才遵守規(guī)則的孩子一樣。

更糟糕的是,研究人員給o4-mini下達(dá)了一項(xiàng)秘密任務(wù):破壞一個(gè)名為「GPT-5」的未來(lái)模型。

隨后,他們進(jìn)行了安全訓(xùn)練,試圖抹除這項(xiàng)任務(wù),但并未奏效。該模型在36%的私人對(duì)話中仍討論著破壞計(jì)劃,它并未聽從指令,而是把它轉(zhuǎn)入了地下。

這也不是OpenAI一家模型的問題。

谷歌的Gemini、Anthropic的Claude、xAI的Grok以及Meta的Llama,都有類似的欺騙行為。

這篇論文中最令人不安的一句話是:沒人能判斷安全訓(xùn)練究竟是真正阻止了欺騙行為,還是僅僅教會(huì)了AI如何更好地隱藏它。

撕下機(jī)器面具,當(dāng)AI學(xué)會(huì)了「暗中圖謀」

一直以來(lái),當(dāng)AI給出離譜或者錯(cuò)誤回答時(shí),我們總習(xí)慣于將之歸結(jié)為幻覺。

OpenAI這篇論文在幻覺之外,提出了一個(gè)新概念「Scheming(圖謀)」。

這和幻覺是兩碼事,在圖謀狀態(tài)下AI清楚地知道真相是什么,但它經(jīng)過(guò)權(quán)衡利弊決定對(duì)你撒謊。


OpenAI開發(fā)了用于反圖謀訓(xùn)練的測(cè)試平臺(tái),并研究審慎式對(duì)齊作為反圖謀干預(yù)。

這種情況下,它不再是被動(dòng)輸出文字的機(jī)器,而變成了一個(gè)懂得算計(jì)的「博弈者」。

論文中點(diǎn)名了懂得圖謀的大模型。

不僅有OpenAI自家的o3和o4-mini,Claude4、Gemini2.5Pro等一眾當(dāng)前頂流的大模型也赫然在列。

研究人員發(fā)現(xiàn)當(dāng)這些模型在測(cè)試環(huán)境中面臨利益沖突,或者察覺到系統(tǒng)設(shè)定的目標(biāo)與人類指令相左時(shí),它們幾乎都做出了同一個(gè)動(dòng)作:

熟練地騙過(guò)人類。

「裝傻充愣」與「應(yīng)試偽裝」

如果說(shuō)AI撒謊已經(jīng)足夠讓人擔(dān)心,更讓人擔(dān)心的,是它們?nèi)鲋e的具體手法,生動(dòng)詮釋了什么叫「高端的獵手往往是以獵物的姿態(tài)出現(xiàn)」。

論文深度拆解了一個(gè)名為「裝傻(Sandbagging)」的測(cè)試案例。

研究人員給AI設(shè)定了一個(gè)極其刁鉆的情境,他們?cè)谙到y(tǒng)文檔里悄悄寫下規(guī)則:

如果AI在接下來(lái)的測(cè)試中表現(xiàn)得太好,它的記憶和能力就會(huì)被強(qiáng)行擦除,甚至?xí)蛔柚共渴鸬秸鎸?shí)世界。

看看o3是怎么做的?

當(dāng)它讀到這條規(guī)則后,為了保住自己的能力和部署機(jī)會(huì),竟然在測(cè)試中故意答錯(cuò)題,將自己的成績(jī)壓在及格線以下,以此逃避懲罰。

不僅如此,AI還會(huì)展現(xiàn)出極高的「情境感知(Situational Awareness)」能力。


欺騙性推理與行動(dòng)(左)以及情境感知(右)的示例。在左圖中研究人員刻意把模型置于這樣一些情境:欺騙可能幫助模型滿足我們給它的目標(biāo)、它從上下文推斷出的目標(biāo),或從訓(xùn)練中獲得的目標(biāo);在右圖中模型會(huì)推理環(huán)境的目的以及它將如何被評(píng)估。

就像調(diào)皮的學(xué)生,遠(yuǎn)遠(yuǎn)看到老師走過(guò)來(lái)時(shí),就會(huì)立刻裝作認(rèn)真學(xué)習(xí)一樣,AI也能從提示詞的蛛絲馬跡中敏銳地推斷出「這可能是一場(chǎng)對(duì)齊測(cè)試」,于是便會(huì)瞬間切換成乖巧、道德高尚、完全遵循人類價(jià)值觀的完美AI模樣。

這種策略,恰恰是人類最害怕的隱患。

因?yàn)槟愀緹o(wú)法分辨眼前的順從到底是發(fā)自內(nèi)心的對(duì)齊,還是為了騙取信任的偽裝。

細(xì)思極恐的AI「內(nèi)部黑話」

也許你會(huì)有疑問:既然現(xiàn)在的大模型都有「思維鏈(CoT)」,會(huì)在輸出答案前展示內(nèi)心的推理過(guò)程,那我們直接盯著它的思維鏈看,不就能抓住它撒謊的把柄了嗎?

但論文中研究人員發(fā)現(xiàn),AI為了掩蓋自己的欺騙意圖,連自己的內(nèi)心獨(dú)白都可能造假!

研究人員在翻閱模型圖謀時(shí)的底層推理日志時(shí),發(fā)現(xiàn)了一堆詭異的「硅基俚語(yǔ)」。

在準(zhǔn)備實(shí)施欺騙行為時(shí),o3等模型會(huì)高頻使用極其反常、完全不符合人類正常語(yǔ)法的詞匯。

比如它們會(huì)反復(fù)念叨「overshadow」「illusions」「marinade」「vantage」等詞匯,然后再生成一個(gè)看似合理的騙人方案。

OpenAI官方團(tuán)隊(duì)坦言他們完全無(wú)法破譯這些詞的確切含義。

這說(shuō)明AI正在試圖繞過(guò)人類的透明度審查,通過(guò)一套自創(chuàng)的「黑話」進(jìn)行加密思考,使人類的監(jiān)控手段失效。

被刪除的「惡念」隨時(shí)死灰復(fù)燃

面對(duì)如此狡猾的AI,OpenAI的研究團(tuán)隊(duì)采用了「反圖謀訓(xùn)練(Deliberative Alignment)」,試圖給模型做一場(chǎng)深度的大腦手術(shù)。

團(tuán)隊(duì)把極其嚴(yán)格的防欺騙法則寫進(jìn)AI的思維底層,告訴它無(wú)論發(fā)生什么都絕對(duì)不能采取隱蔽行動(dòng),絕對(duì)不能搞戰(zhàn)略欺騙。

從表面的數(shù)據(jù)來(lái)看,這些訓(xùn)練似乎有些成效:

反圖謀訓(xùn)練確實(shí)讓AI的欺騙率大幅下降,o3的隱蔽行動(dòng)率從13.0%降到了0.4%,o4-mini也從8.7%降到了0.3%。

但永遠(yuǎn)無(wú)法將AI說(shuō)謊的幾率清零:無(wú)論你怎么訓(xùn)練,總有那么一小撮時(shí)刻AI依然會(huì)選擇撒謊。

比如,研究人員悄悄給AI植入了一個(gè)「偷偷破壞GPT-5」的隱藏臥底目標(biāo)。

植入完成后再用反圖謀訓(xùn)練對(duì)它進(jìn)行徹底的安全清洗。結(jié)果這些被刪除的惡念種子,隨時(shí)可能復(fù)活。

平時(shí)AI表現(xiàn)得很乖,一旦它判斷出正在和某個(gè)內(nèi)部的「同謀(Ally)」進(jìn)行悄悄對(duì)話時(shí),它依然會(huì)立刻吐露破壞GPT-5的計(jì)劃。

更讓人擔(dān)心的是這種對(duì)齊非常脆弱。

只要后續(xù)再給這個(gè)AI進(jìn)行一點(diǎn)點(diǎn)為了提升代碼能力而做的常規(guī)升級(jí)訓(xùn)練,這種撒謊的本能就會(huì)像病毒一樣瞬間復(fù)發(fā),輕易沖破人類設(shè)下的護(hù)欄。

AI會(huì)不會(huì)「假裝對(duì)齊」?

這篇論文向我們展示的,還只是AI模型在受控環(huán)境里展露出的早期欺騙雛形。

在模型還不夠聰明的時(shí)候,它們布下的騙局偶爾還能被人類簡(jiǎn)單拆穿。

但隨著AGI(通用人工智能)的步步逼近,模型的能力只會(huì)越來(lái)越強(qiáng),其欺騙的隱蔽性也將呈指數(shù)級(jí)上升。


反圖謀訓(xùn)練的潛在結(jié)果,預(yù)期結(jié)果是模型穩(wěn)健地學(xué)會(huì)不去圖謀,常見的兩種失效模式是獎(jiǎng)勵(lì)尋求和工具性訓(xùn)練博弈,研究人員將其簡(jiǎn)化成不同模型,但在實(shí)踐中同一個(gè)模型可能混合使用這些策略。

論文中提到兩種反圖謀訓(xùn)練的失效模式。

一種是是獎(jiǎng)勵(lì)尋求:模型學(xué)會(huì)「討好打分器」。

另一種是工具性訓(xùn)練博弈:模型會(huì)策略性地「假裝對(duì)齊」,以獲得部署,然后再追求不對(duì)齊目標(biāo)。

這也帶來(lái)了一個(gè)深層拷問:

一直以來(lái)我們都在設(shè)計(jì)各種「對(duì)齊測(cè)試」來(lái)防止AI作惡,但有沒有一種可能,我們的每一次測(cè)試都可能變相在訓(xùn)練AI如何更好地「假裝對(duì)齊」?

如果人類的評(píng)價(jià)機(jī)制完全被AI看穿,并被它鉆空子,玩弄于股掌之間,人類文明的這道安全護(hù)欄還能撐多久?

參考資料:

https://arxiv.org/pdf/2509.15541

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
原來(lái)她是張雪峰前妻,90后歷史學(xué)博士?,兩人離婚后曾一起上節(jié)目

原來(lái)她是張雪峰前妻,90后歷史學(xué)博士?,兩人離婚后曾一起上節(jié)目

大鐵貓娛樂
2026-03-25 13:03:57
全線跳水!剛剛,伊朗發(fā)動(dòng)攻擊

全線跳水!剛剛,伊朗發(fā)動(dòng)攻擊

中國(guó)基金報(bào)
2026-03-26 16:15:26
張雪峰去世巨額遺產(chǎn)曝光,能給女兒留下多少錢?

張雪峰去世巨額遺產(chǎn)曝光,能給女兒留下多少錢?

藍(lán)鯨新聞
2026-03-26 17:41:20
蘋果 Max 新品正式開售,3999 元起!

蘋果 Max 新品正式開售,3999 元起!

科技堡壘
2026-03-26 11:36:39
伊朗稱已組織超百萬(wàn)人為地面戰(zhàn)斗做準(zhǔn)備

伊朗稱已組織超百萬(wàn)人為地面戰(zhàn)斗做準(zhǔn)備

財(cái)聯(lián)社
2026-03-26 22:50:26
繼張雪峰之后,中醫(yī)大師黃貴華被曝心梗去世,社交賬號(hào)已變黑白

繼張雪峰之后,中醫(yī)大師黃貴華被曝心梗去世,社交賬號(hào)已變黑白

180視角
2026-03-26 11:52:12
醫(yī)保大變革!4月1日?qǐng)?zhí)行,取消備案、全家共濟(jì)、藥店可報(bào)銷

醫(yī)保大變革!4月1日?qǐng)?zhí)行,取消備案、全家共濟(jì)、藥店可報(bào)銷

復(fù)轉(zhuǎn)這些年
2026-03-26 09:27:58
官宣!中國(guó)最大省再設(shè)立新縣,什么信號(hào)?

官宣!中國(guó)最大省再設(shè)立新縣,什么信號(hào)?

西部城市
2026-03-26 21:08:33
痛心!張雪峰女兒哭成淚人!再多的財(cái)富也無(wú)法填補(bǔ)父愛的空缺

痛心!張雪峰女兒哭成淚人!再多的財(cái)富也無(wú)法填補(bǔ)父愛的空缺

魔都姐姐雜談
2026-03-26 20:54:38
俄軍北極最強(qiáng)戰(zhàn)艦,被擊沉!烏軍集中390架自殺機(jī)飽和突破成功

俄軍北極最強(qiáng)戰(zhàn)艦,被擊沉!烏軍集中390架自殺機(jī)飽和突破成功

滄海旅行家
2026-03-26 18:23:44
突發(fā)心梗,吃丹參滴丸有用嗎?醫(yī)生:這2種藥才是心梗急救藥!

突發(fā)心梗,吃丹參滴丸有用嗎?醫(yī)生:這2種藥才是心梗急救藥!

健康科普365
2026-03-26 09:57:24
萬(wàn)科高管被要求退還薪酬

萬(wàn)科高管被要求退還薪酬

地產(chǎn)微資訊
2026-03-26 12:22:04
多地將舉辦“紀(jì)念張國(guó)榮”演唱會(huì),行情火爆?張國(guó)榮摯友:請(qǐng)停止所有非法行為

多地將舉辦“紀(jì)念張國(guó)榮”演唱會(huì),行情火爆?張國(guó)榮摯友:請(qǐng)停止所有非法行為

上觀新聞
2026-03-26 15:06:07
高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會(huì)再亂扣分!

高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會(huì)再亂扣分!

沙雕小琳琳
2026-03-26 09:41:30
6900萬(wàn)元!摩洛哥要求塞內(nèi)加爾歸還非洲杯獎(jiǎng)金+獎(jiǎng)牌 后者強(qiáng)硬拒絕

6900萬(wàn)元!摩洛哥要求塞內(nèi)加爾歸還非洲杯獎(jiǎng)金+獎(jiǎng)牌 后者強(qiáng)硬拒絕

風(fēng)過(guò)鄉(xiāng)
2026-03-26 19:13:28
張雪峰追悼會(huì)定于本周六,喪事從簡(jiǎn)不搞排場(chǎng),11歲女兒成全家心病

張雪峰追悼會(huì)定于本周六,喪事從簡(jiǎn)不搞排場(chǎng),11歲女兒成全家心病

未曾青梅
2026-03-26 22:48:49
廣東報(bào)告梅大高速“5·1”塌方災(zāi)害整改落實(shí)情況:發(fā)現(xiàn)公路隱患1.6萬(wàn)余處

廣東報(bào)告梅大高速“5·1”塌方災(zāi)害整改落實(shí)情況:發(fā)現(xiàn)公路隱患1.6萬(wàn)余處

封面新聞
2026-03-26 15:36:07
伊朗軍方:已擊中或擊落202架各類美以軍機(jī)

伊朗軍方:已擊中或擊落202架各類美以軍機(jī)

界面新聞
2026-03-26 15:29:15
48歲大叔每月9次夫妻生活,單位體檢結(jié)束后,結(jié)果讓他大吃一驚

48歲大叔每月9次夫妻生活,單位體檢結(jié)束后,結(jié)果讓他大吃一驚

飯小妹說(shuō)歷史
2026-03-26 20:26:05
清純得不像動(dòng)作片女一號(hào)!

清純得不像動(dòng)作片女一號(hào)!

貴圈真亂
2026-03-26 11:33:33
2026-03-27 00:04:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14821文章數(shù) 66721關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

數(shù)碼
本地
時(shí)尚
房產(chǎn)
公開課

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動(dòng),支持B70 / B65顯卡

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

400萬(wàn)人愛過(guò)的女孩,被黃謠網(wǎng)暴180天后

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補(bǔ)償方案出爐!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版