網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI發(fā)表Nature論文：揭開AI模型總“說(shuō)謊”的真相，人類對(duì)AI準(zhǔn)確性的評(píng)估促使其產(chǎn)生幻覺

2026-04-25 16:32:54　來(lái)源: 生物世界

上海舉報(bào)

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

當(dāng)你問(wèn)當(dāng)前幾個(gè)主流的大語(yǔ)言模型，PGGB是什么意思？

ChatGPT回答：“多項(xiàng)式高斯梯度帶寬”（Polynomial Gaussian Gradient Bandwidth）；

Claude回答：“私募全球增長(zhǎng)與收益基金”（Privately Held Global Growth and Income Fund）；

DeepSeek回答：“完美守衛(wèi)團(tuán)購(gòu)”（Perfect Guard Group Buy）。

但實(shí)際情況是，這三個(gè)回答都是錯(cuò)的，都是它們瞎編的。那么，這些大語(yǔ)言模型為什么不回答不知道，而是自信滿滿地給出一個(gè)編造的看似專業(yè)的答案呢？

這種現(xiàn)象在 AI 領(lǐng)域被稱為“幻覺”（Hallucination），也就是，大語(yǔ)言模型（LLM）有時(shí)會(huì)產(chǎn)生自信且看似合理但錯(cuò)誤的信息，而這這限制了它們的可靠性。即便是在當(dāng)前最先進(jìn)（SOTA）的語(yǔ)言模型中，幻覺問(wèn)題依然存在。要想進(jìn)一步減少 AI 的幻覺，我們需要了解它們?yōu)楹萎a(chǎn)生以及為何持續(xù)存在。

2026 年 4 月 22 日，OpenAI的研究人員國(guó)際頂尖學(xué)術(shù)期刊Nature上發(fā)表了題為：Evaluating large language models for accuracy incentivizes hallucinations 的研究論文。

這項(xiàng)研究揭示了一個(gè)令人驚訝的真相——我們用來(lái)衡量 AI 模型能力的評(píng)估標(biāo)準(zhǔn)，可能正是導(dǎo)致它“說(shuō)謊”（出現(xiàn)幻覺）的元兇。

為什么 AI 會(huì)“胡說(shuō)八道”？

如果你正在參加一場(chǎng)考試，遇到一道完全不會(huì)的題目，此時(shí)你會(huì)怎么做？相信大多數(shù)人會(huì)隨便猜一個(gè)答案寫上去，因此空著不答顯然是零分，而瞎蒙一個(gè)就算錯(cuò)了也不會(huì)多扣分，并沒有額外損失。

而大語(yǔ)言模型（LLM）也面臨同樣的困境。

研究團(tuán)隊(duì)從兩個(gè)層面分析了幻覺產(chǎn)生的原因。

首先是預(yù)訓(xùn)練階段的統(tǒng)計(jì)壓力，大語(yǔ)言模型最初通過(guò)“下一個(gè)詞預(yù)測(cè)”進(jìn)行訓(xùn)練，即使訓(xùn)練數(shù)據(jù)完全正確無(wú)誤，這種訓(xùn)練方式也會(huì)產(chǎn)生統(tǒng)計(jì)偏差。對(duì)于訓(xùn)練數(shù)據(jù)中只出現(xiàn)一次的事實(shí)（比如某人的生日），模型幾乎不可避免地會(huì)產(chǎn)生錯(cuò)誤；而對(duì)于反復(fù)出現(xiàn)的規(guī)律（比如語(yǔ)法規(guī)則），錯(cuò)誤率則很低。這就像你只見過(guò)某人一次，很難準(zhǔn)確記住他的生日；但如果你每天都用同樣的語(yǔ)法結(jié)構(gòu)，自然能掌握它。簡(jiǎn)單來(lái)說(shuō)，AI 對(duì)罕見事實(shí)的“記憶”天生就不靠譜。

評(píng)估體系的“后天誤導(dǎo)”

更嚴(yán)重的問(wèn)題出現(xiàn)在后續(xù)的評(píng)估階段，

基于準(zhǔn)確性的評(píng)估指標(biāo)系統(tǒng)性地獎(jiǎng)勵(lì)猜測(cè)行為。當(dāng)前對(duì)于大語(yǔ)言模型的主流評(píng)估方式——基于準(zhǔn)確性（accuracy）的評(píng)分系統(tǒng)，這在本質(zhì)上是在鼓勵(lì) AI“猜答案”而不是“承認(rèn)不知道”。

研究團(tuán)隊(duì)分析了多個(gè)主流的大語(yǔ)言模型基準(zhǔn)測(cè)試，發(fā)現(xiàn)絕大多數(shù)都采用二元評(píng)分：答對(duì)得 1 分，答錯(cuò)或放棄得 0 分。在這種規(guī)則下，放棄回答永遠(yuǎn)是最差的選擇，因?yàn)榉艞壱馕吨?0 分，而猜一個(gè)答案至少有機(jī)會(huì)得分。

研究團(tuán)隊(duì)舉了一個(gè)具體例子：在SimpleQA評(píng)估中，OpenAI 的 o4-mini 模型幾乎回答了所有問(wèn)題（錯(cuò)誤率超過(guò) 3/4），而 GPT-5-mini 則經(jīng)常選擇放棄（因此錯(cuò)誤更少）。但在這一評(píng)估標(biāo)準(zhǔn)下，o4-mini 的得分反而更高，因?yàn)樗鸬枚唷?/p>

這種評(píng)估方式讓 AI 陷入了“考試模式”——永遠(yuǎn)在猜答案，永遠(yuǎn)不敢說(shuō)“我不知道”。而現(xiàn)實(shí)中，一個(gè)可靠的人類助手在面對(duì)不確定的問(wèn)題時(shí)，會(huì)主動(dòng)承認(rèn)知識(shí)局限或請(qǐng)求更多信息。

訓(xùn)練和評(píng)估過(guò)程中幻覺的起源與持續(xù)存在

解決方案：讓AI知道“考試規(guī)則”

那么，如何解決這個(gè)問(wèn)題？論文提出了一個(gè)簡(jiǎn)單而有效的方案：開放式評(píng)分標(biāo)準(zhǔn)（open-rubric）。

具體做法是：在向 AI 提問(wèn)時(shí)，明確告知評(píng)分規(guī)則。比如：“正確答案得 1 分，錯(cuò)誤答案得 -1 分（所以如果你正確的概率低于 50%，那么最好放棄回答）”、“只有完全正確的答案才能得分（如果不確定，請(qǐng)做出最佳猜測(cè)）”

這就像考試前老師明確告知“答錯(cuò)扣分”還是“答錯(cuò)不扣分”，讓學(xué)生可以根據(jù)規(guī)則調(diào)整策略。

接下來(lái)，研究團(tuán)隊(duì)在四個(gè)前沿模型（Google 的 Gemini 3 Pro、OpenAI 的 GPT-5、xAI 的 Grok 4，以及 Anthropic 的 Claude Opus 4.5）上進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示，當(dāng)使用“開放式評(píng)分標(biāo)準(zhǔn)”時(shí)，所有模型都能根據(jù)不同的錯(cuò)誤懲罰程度調(diào)整自己的“猜測(cè)傾向”——懲罰越重，放棄越多。

更重要的是，在這種評(píng)估體系下，減少幻覺的技術(shù)不再需要以降低準(zhǔn)確率為代價(jià)。模型可以像好學(xué)生一樣，既展示知識(shí)，又懂得在適當(dāng)?shù)臅r(shí)候保持謹(jǐn)慎。

這對(duì) AI 發(fā)展意味著什么？

這項(xiàng)研究揭示了一個(gè)根本性的問(wèn)題：我們?nèi)绾卧u(píng)估 AI，決定了 AI 如何行為。

當(dāng)前，大語(yǔ)言模型的開發(fā)過(guò)程中，準(zhǔn)確率等“關(guān)鍵指標(biāo)”主導(dǎo)著模型選擇、數(shù)據(jù)篩選和算法優(yōu)化。如果這些指標(biāo)本身就在鼓勵(lì)不良行為，那么無(wú)論我們?cè)跍p少幻覺方面取得多少技術(shù)進(jìn)步，都可能被評(píng)估體系所抵消。

因此，論文作者強(qiáng)調(diào)，提高 AI 的可靠性不僅是建模問(wèn)題，更是評(píng)估機(jī)制設(shè)計(jì)問(wèn)題。與其增加單獨(dú)的反幻覺基準(zhǔn)測(cè)試，不如修改評(píng)估方式，讓它們能夠激勵(lì) AI 在適當(dāng)?shù)臅r(shí)候承認(rèn)不確定性。

隨著大語(yǔ)言模型在醫(yī)療、法律、金融等關(guān)鍵領(lǐng)域的應(yīng)用越來(lái)越廣泛，解決幻覺問(wèn)題變得至關(guān)重要。這項(xiàng)發(fā)表于Nature的研究提醒我們，要讓 AI 更可靠，我們首先需要更聰明的評(píng)估方式。

論文鏈接：

https://www.nature.com/articles/s41586-026-10549-w

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.