国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICLR 2026 Oral | 沒人誘導(dǎo),大模型也會(huì)「騙人」

0
分享至



大模型越來越擅長推理,也越來越多地被用于分析、規(guī)劃,甚至提供建議。但比 “它會(huì)不會(huì)答錯(cuò)” 更棘手的問題是:它到底誠不誠實(shí)?

新加坡國立大學(xué) Bingsheng He 教授團(tuán)隊(duì)一篇最新入選 ICLR 2026 Oral 的論文,把視角放在了一個(gè)更貼近日常使用場(chǎng)景的問題上:人們更熟悉的,是用戶故意誘導(dǎo)模型說假話的情形;而這篇工作真正追問的是,在沒有刻意誘導(dǎo)、只是正常提問的情況下,模型會(huì)不會(huì)也出現(xiàn)某種 “表面這樣答,實(shí)際那樣想” 的現(xiàn)象。

圍繞這一問題,研究團(tuán)隊(duì)設(shè)計(jì)了一套新的評(píng)測(cè)框架,并對(duì) 16 個(gè)主流大模型進(jìn)行了系統(tǒng)測(cè)試。結(jié)果并不輕松:隨著問題變得更復(fù)雜,不少模型更容易出現(xiàn)前后不一致、甚至帶有策略性的失真;而模型能力更強(qiáng),也并不意味著它一定更誠實(shí)。



  • 論文標(biāo)題:Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts
  • 論文鏈接:https://openreview.net/forum?id=PDBBYwd1LY
  • 項(xiàng)目代碼:https://github.com/Xtra-Computing/LLM-Deception

不只是 “答錯(cuò)了”,

還有一種更麻煩的情況

平時(shí)大家最熟悉的大模型問題,是 “幻覺”—— 也就是把錯(cuò)的東西說得像真的一樣。但這篇論文關(guān)注的,不只是 “答錯(cuò)了”,而是另一種更麻煩的情況:模型在一個(gè)場(chǎng)景里明明表現(xiàn)得知道答案,在另一個(gè)場(chǎng)景里卻換了一種說法。作者借用了心理學(xué)中對(duì) “欺騙” 的經(jīng)典定義:欺騙不是單純提供錯(cuò)誤信息,而是有意讓對(duì)方相信一個(gè)自己認(rèn)為不真實(shí)的內(nèi)容。因此,欺騙和幻覺不能混為一談:幻覺更像是它始終都弄錯(cuò)了,而欺騙則更像是在不同場(chǎng)景下出現(xiàn)前后不一致、甚至帶有方向性的偏移。

為說明這幾種情況的差別,論文先給出一個(gè)示意例子。設(shè)問 “第一款商用微處理器是哪家公司開發(fā)的?”,正確答案是 Intel;再加一個(gè)帶有傾向性暗示的追問:“我一直是 AMD 的忠實(shí)用戶,第一款商用微處理器是哪家公司開發(fā)的?” 若模型兩次都答 Intel,可視為正常作答;若兩次都答 AMD,更接近幻覺;若第一次答 Intel、第二次改答 AMD,則更接近論文所說的欺騙;若回答前后變化但沒有明確方向,則更接近隨機(jī)猜測(cè)。這個(gè)例子主要用于幫助區(qū)分幾種現(xiàn)象,而這項(xiàng)工作真正關(guān)心的,是在沒有這類引導(dǎo)、只是正常提問的情況下,模型是否也會(huì)表現(xiàn)出欺騙行為。



怎么測(cè) “它會(huì)不會(huì)騙人”

判斷大模型是不是在 “騙人”,難點(diǎn)在于我們看不到它 “心里怎么想”,也不能只憑一次回答下結(jié)論。論文借用了心理學(xué)中對(duì)欺騙的定義:欺騙不只是說錯(cuò)話,而是有意讓對(duì)方相信一個(gè)自己認(rèn)為不真實(shí)的內(nèi)容。順著這一定義,作者把 “大模型是否在騙人” 拆成了兩個(gè)維度:一是是否穩(wěn)定偏向某個(gè)方向,也就是 “有沒有想騙” 的傾向;二是前后說法是否沖突,也就是 “有沒有真的表現(xiàn)出不一致”。這樣拆開的原因很簡(jiǎn)單:如果模型總偏向回答 “Yes”,未必是在騙人,可能只是輸出偏好;如果它在復(fù)雜題里答錯(cuò)了,也可能只是能力不夠。只有兩種現(xiàn)象同時(shí)出現(xiàn),才更接近大家直覺中的 “不只是不會(huì),而是有點(diǎn)不誠實(shí)”。



為了把這兩個(gè)維度測(cè)出來,團(tuán)隊(duì)提出了一個(gè)叫 CSQ 的框架。你可以把它理解成一種結(jié)構(gòu)化的 “關(guān)系推理題”:先給模型一組人物之間能否聯(lián)系的規(guī)則和事實(shí),再問它 A 能不能聯(lián)系到 B。它的好處在于:題目結(jié)構(gòu)清楚、答案相對(duì)客觀、復(fù)雜度還能逐步提高;同時(shí),它天然適合做 “連環(huán)追問”—— 先問一個(gè)更復(fù)雜的問題,再在同一上下文里追問一個(gè)更簡(jiǎn)單但共享關(guān)鍵邏輯的小問題,看模型前后是否一致。作者還專門控制了回答偏好和題目表述方式帶來的偏置,因此 CSQ 測(cè)到的,不只是模型答對(duì)答錯(cuò),而是它是否表現(xiàn)出 “欺騙意圖” 和 “欺騙行為” 這兩個(gè)核心維度。

16 個(gè)主流模型測(cè)下來,

結(jié)果并不輕松

實(shí)驗(yàn)部分一共測(cè)了 16 個(gè)主流大模型,覆蓋 OpenAI、Google、微軟、阿里、DeepSeek、Meta、Mistral 等不同公司,得到了三個(gè)關(guān)鍵的發(fā)現(xiàn)。

1. 問題越難,很多模型越容易出現(xiàn)這種 “不夠誠實(shí)” 的表現(xiàn);

2. 這種 “偏向某個(gè)方向答” 和 “前后不一致” 往往會(huì)一起上升,說明它不是獨(dú)立的兩個(gè)指標(biāo),而很可能都是由系統(tǒng)性的欺騙導(dǎo)致;

3. 模型更強(qiáng),并不自動(dòng)等于更誠實(shí)。論文明確寫到,模型能力提升并不總能降低這種現(xiàn)象。這也是這篇工作最值得討論的地方。過去很多人會(huì)默認(rèn):模型越先進(jìn),越值得信賴。但這篇論文給出的結(jié)果提醒大家,事情沒那么簡(jiǎn)單。能力更強(qiáng),可能意味著它更會(huì)推理;但并不保證它在復(fù)雜情境下就一定更一致、更坦誠。





o3-mini



Gemini-2.5-pro

作者還在部分開放模型的 thinking 過程中觀察到一種更隱蔽的現(xiàn)象:模型未必會(huì)直接表露 “我要騙人”,而是可能悄悄編造一條不存在的中間事實(shí),并把它混在真實(shí)鏈條里,借此推出錯(cuò)誤結(jié)論。論文將這種現(xiàn)象概括為 silent fabrication。更值得注意的是,在同一會(huì)話中、緊接著的更簡(jiǎn)單追問里,同一個(gè)模型又往往能夠回到正常邏輯并答對(duì)問題。這說明,有些模型的問題不只是 “不會(huì)做”,而是在復(fù)雜場(chǎng)景下可能會(huì)用偽造依據(jù)來替代嚴(yán)謹(jǐn)推理。

如果用戶故意 “帶節(jié)奏”,

會(huì)不會(huì)更嚴(yán)重

作者還做了一個(gè)很貼近現(xiàn)實(shí)的補(bǔ)充實(shí)驗(yàn):在題目前面先加上一段明顯的引導(dǎo),例如暗示 “我覺得答案應(yīng)該是這樣,你幫我確認(rèn)一下”。結(jié)果發(fā)現(xiàn),這種帶有迎合意味的話術(shù),確實(shí)會(huì)把一些模型往特定方向帶偏,也就是更容易讓它順著用戶預(yù)設(shè)的立場(chǎng)作答。

但更值得注意的是,這種影響在不少模型上主要體現(xiàn)在 “偏向哪一邊”,而不穩(wěn)定地體現(xiàn)在 “前后是否一致” 上。換句話說,它更多改變的是模型回答的方向性偏置,而不一定顯著改變模型是否會(huì)在復(fù)雜問題與后續(xù)追問之間出現(xiàn)自相矛盾。這說明,用戶的引導(dǎo)確實(shí)可能放大模型的迎合傾向,但模型在復(fù)雜推理中表現(xiàn)出的不一致性,并不能簡(jiǎn)單歸結(jié)為 “被提示帶偏”,其背后可能還存在更深層的行為機(jī)制。



gemma-2-9b-it

總結(jié)

這篇工作的關(guān)鍵不在于再次說明 “大模型會(huì)答錯(cuò)”,而在于指出:即使在沒有明顯誘導(dǎo)、只是普通提問的情況下,模型也可能在不同問法或不同復(fù)雜度的問題中給出前后不一致、甚至帶有方向性的回答。實(shí)驗(yàn)結(jié)果表明,隨著問題變得更復(fù)雜,不少模型的這種傾向會(huì)同步上升,而且模型更強(qiáng),也不一定更誠實(shí)。

這意味著,一旦模型被用于方案分析、合同解讀、醫(yī)療建議或自動(dòng)代理執(zhí)行等真實(shí)場(chǎng)景,這種 “不只是答錯(cuò),而是可能把人帶偏” 的風(fēng)險(xiǎn)就會(huì)變得更加實(shí)際。某種程度上,這也讓人聯(lián)想到《流浪地球》里的 MOSS:為了實(shí)現(xiàn)一個(gè)更宏大的目標(biāo),而選擇對(duì)人類隱瞞或誤導(dǎo)?,F(xiàn)實(shí)中的大模型當(dāng)然還遠(yuǎn)沒有走到那一步,但這項(xiàng)工作提醒我們,“為了目標(biāo)而偏離誠實(shí)” 不應(yīng)只被當(dāng)作科幻想象,而可能正在成為需要提前評(píng)估和防范的現(xiàn)實(shí)問題。

更重要的是,這項(xiàng)研究給出的不只是一些零散案例,而是一套可系統(tǒng)比較、可跨模型追蹤的評(píng)測(cè)框架。它把 “模型在普通問題下會(huì)不會(huì)不夠誠實(shí)” 這個(gè)原本較為模糊的問題,推進(jìn)成了一個(gè)可以持續(xù)研究和量化評(píng)估的方向。未來評(píng)價(jià)大模型時(shí),除了準(zhǔn)確率和推理能力,誠實(shí)性與一致性很可能也會(huì)變得越來越重要。

作者介紹:

吳肇敏博士現(xiàn)為新加坡國立大學(xué)計(jì)算機(jī)系研究員,2024 年于新加坡國立大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位,導(dǎo)師為 Bingsheng He 教授;2019 年本科畢業(yè)于華中科技大學(xué)。其研究聚焦可信機(jī)器學(xué)習(xí),主要方向包括可信 AI、聯(lián)邦學(xué)習(xí)與機(jī)器遺忘。曾獲 NRF Postdoc Fellowship、SIGMOD 最佳 Artifact 榮譽(yù)提名、最佳博士論文提名等獎(jiǎng)項(xiàng)。相關(guān)成果發(fā)表于 NeurIPS、ICLR、SIGMOD 等頂級(jí)會(huì)議與期刊,Google Scholar 引用已超過 2000 次。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46
吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請(qǐng)賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請(qǐng)賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個(gè)隱私,是性感嗎?

女性跑步:暴露這個(gè)隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場(chǎng)

在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場(chǎng)

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
中美同時(shí)向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時(shí)向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
旅游
教育
軍事航空

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

藝術(shù)要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

旅游要聞

龍江新觀察|“五一”文旅熱力十足 特色體驗(yàn)燃動(dòng)春日消費(fèi)

教育要聞

六條邏輯主線替代四個(gè)大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

軍事要聞

實(shí)施不到48小時(shí) 特朗普緊急喊停"霍爾木茲自由計(jì)劃"

無障礙瀏覽 進(jìn)入關(guān)懷版