OpenAI的新論文，為什么被業(yè)內(nèi)嘲諷是營銷？

2025-09-12 15:52:11　來源: 知危

浙江舉報

分享至

近期，OpenAI 發(fā)布了一篇新論文《 Why Language Models Hallucinate 》，指出當前大模型幻覺的主要來源，引發(fā)了廣泛關(guān)注。

他們給出了一個簡潔卻顛覆性的解釋：大模型之所以出現(xiàn)幻覺，并非由于模型架構(gòu)的失靈，而是當前技術(shù)社區(qū)的訓練與評測機制傾向于獎勵猜測，并且懲罰承認不確定的行為，迫使模型在高度不確定時，也傾向猜測性作答以博取準確率分數(shù)。

換句話說，大多數(shù)評估基準采用一種 “ 應試考試 ” 的方式，迫使大語言模型成為 “ 應試者 ”，不管是選擇題、填空題還是解答題，如果不知道正確答案，那就猜一個甚至蒙一個，這樣在概率上也比不答分數(shù)高。

預訓練層面上，大模型通常只接觸正面示例，也就是給定提示詞，然后接著輸出完整的回答，沒有在這個過程中接觸任何拒絕回答的示例，所以自然學不會這種拒絕回答的行為。

OpenAI 拿自家模型舉了一個例子，在 SimpleQA 基準中，舊模型 o4-mini 相比新模型 GPT-5-thinking-mini 準確率略高（ 22% vs. 24% ），但也有高得多的錯誤率（ 75% vs. 26% ），因為它更少 “ 棄答 ”。

OpenAI據(jù)此主張：在往后的評估基準中，應對高自信的錯誤施以懲罰，并為恰當?shù)牟淮_定表達給出適當分數(shù)，使激勵從 “ 大膽猜 ” 轉(zhuǎn)向 “ 知之為知之 ”，改變主流排行榜長期以 “ 準確率 ” 一項稱王的局面。

可以說，這篇研究是在把 “ 幻覺 ” 從工程缺陷轉(zhuǎn)化為技術(shù)社區(qū)的 “ 激勵設(shè)計 ” 問題。

如果真的往這個方向發(fā)展，以后真正值得關(guān)注的，將不再是誰的準確率小幅上漲，而是誰愿意重寫評測與產(chǎn)品規(guī)則，讓模型在不確定時自然地說：“ 我不知道 ”。

技術(shù)社區(qū)對該話題討論熱烈，其中對論文的詬病也不少。

有人認為這篇論文既不新穎，水平也不高，即相關(guān)研究早已經(jīng)出現(xiàn)，并且這篇論文的技術(shù)水平更像是初級研究人員寫出來的。

紐約大學數(shù)據(jù)中心助理教授 Ravid Shwartz Ziv 直言這篇論文更像是一場營銷，而不是研究。

有人指出，問題的核心其實在于，幻覺的概念實際上到現(xiàn)在為止都還沒有被嚴格地定義。

雖然已有不少研究指出了幻覺的可能原因，例如模型過度自信、解碼隨機性、滾雪球效應、長尾訓練樣本、誤導性對齊訓練、虛假相關(guān)性、曝光偏差、逆轉(zhuǎn)詛咒以及上下文劫持等，但這些方法毋寧說是一種幻覺的分類。

幻覺的本質(zhì)，或許可以用一個很簡單的例子來說明。

以機器學習中的曲線擬合為例，假設(shè)下圖的數(shù)據(jù)點是被用于訓練的事實，我們需要擬合一條曲線來對數(shù)據(jù)進行回歸，使其能夠準確地預測新數(shù)據(jù)。這條曲線，代表的就是模型。

圖源：網(wǎng)絡(luò)

嚴格意義上來講，不存在唯一正確的模型。因為每一種模型都具備不同的擬合度和泛化性，也都有各自的適用場景。

比如上圖中最右邊的復雜曲線擬合度更強甚至過擬合（訓練數(shù)據(jù)準確率高），但泛化性弱（測試數(shù)據(jù)準確率低）；最左邊的簡單曲線擬合度更弱甚至欠擬合（訓練數(shù)據(jù)準確率低），但泛化性強（測試數(shù)據(jù)準確率高）。

不同曲線，可以生成不同的新數(shù)據(jù)。而任何曲線，生成的不同于訓練數(shù)據(jù)的新數(shù)據(jù)，都有可能是錯的，也就是都有可能是幻覺。至于幻覺的確認，原則是只能與現(xiàn)實進行直接對比校驗，其它方式都是間接性的。

而且，機器學習或大語言模型其實都不擅長分布外泛化，也就是其泛化能力更多是在已有觀測點的范圍內(nèi)估計未知值。

近期的理論研究比如 2024 年發(fā)表的論文《On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse 》形式化地闡述了一致性（避免無效輸出）和廣度（生成多樣化、語言豐富的內(nèi)容）之間的內(nèi)在權(quán)衡。這些研究表明，對于廣泛的語言類別，任何在其訓練數(shù)據(jù)之外進行泛化的模型，要么會產(chǎn)生幻覺，要么會遭遇模式崩潰，無法生成所有有效的響應。

所以，如果保證訓練數(shù)據(jù)和測試數(shù)據(jù)（或?qū)嶋H應用數(shù)據(jù) ）在大致相同的數(shù)據(jù)分布范圍內(nèi)，并且模型是過擬合的，基本能保證很低的錯誤率或幻覺率。

假設(shè) “ 低幻覺 ” 大模型發(fā)展成了這個樣子，那其實它基本上就是更高效地串聯(lián)已知事實點、知識點的自然語言搜索引擎而已。

這會是OpenAI希望的結(jié)果嗎？我們假設(shè)是，然后繼續(xù)推測一下。

回過頭看《 Why Language Models Hallucinate 》這篇論文，幻覺表現(xiàn)方面，OpenAI 指出，大模型在拼寫和括號等細節(jié)基本不會出錯，但在低頻任意事實上很容易出錯。

他們引用了一個有趣的研究成果，論文《 Calibrated Language Models Must Hallucinate 》表明即使訓練數(shù)據(jù)沒有錯誤，產(chǎn)生幻覺的概率也接近于訓練數(shù)據(jù)中恰好出現(xiàn)一次的事實的比例（ “ Good-Turing ” 估計）。相比之下，大型語言模型很少會在經(jīng)常引用的事實上出錯，例如愛因斯坦的生日或論文標題。

并且，該論文還指出，沒有統(tǒng)計學理由表明預訓練會導致對訓練數(shù)據(jù)中可能出現(xiàn)多次的事實（例如對文章、書籍的引用）或系統(tǒng)性事實（例如算術(shù)計算）產(chǎn)生幻覺。

所以，盡管這個自然語言搜索引擎很死板，但在使用時，對于查詢提示詞的拼寫、標點符號、語言表達習慣等還是能做出靈活的響應，并且對于人類多次引用或應用的知識、事實，基本能保證準確。如果是涉及單次出現(xiàn)的事實，則很可能出錯，這時候大模型會選擇拒絕回答。

這樣的大模型自然會變得很安全、可靠。對于 AI Agent 產(chǎn)品的構(gòu)建或企業(yè) AI（企業(yè) AI 將主要以 Agent 的形式交付）的落地，都是非常好的底座。因為要發(fā)揮AI Agent 的最大限度的能力，首先要保證低幻覺，避免錯誤累積的乘積效應。

而且，企業(yè)數(shù)據(jù)通常領(lǐng)域獨立、長尾、稀疏，訓練出來的大模型潛在的幻覺點會很多，增加拒答率，其實類似于在代碼里增加了 Bug 日志，可以幫助企業(yè)更好地優(yōu)化模型。

但另一方面，我們能信任這個死板的自然語言搜索引擎的泛化能力嗎？也就是應對實際新問題的能力？

當然，這只是一種對 OpenAI 描繪的設(shè)想在經(jīng)典概念上的理解。對于泛化能力這一部分，其實目前沒有很好的量化方法。

這個 “ 低幻覺 ” 大模型將不會只能解決已知場景下的問題。至于在解決一個具體問題時，是否保證準確，還是需要一些間接指標來判斷。

當前并沒有很好地自動化檢測幻覺的方法，很多復雜的檢測方法，甚至只和分析響應長度方法效果相當。

最簡單粗暴的方法，就是讓 LLM 生成多個獨立答案，然后比較這些答案的一致性，但計算成本高昂，因為每個查詢都需要生成多個答案。

后續(xù)研究則在這個基礎(chǔ)上，利用多個答案之間的重復部分的緩存來節(jié)省計算成本。另一些方法則是比較不同模型對同一個查詢的輸出差異來分析幻覺。

目前可能最高效的方法，是在推理過程中，一邊推理，一邊計算模型內(nèi)部的置信度信號，在推理過程中或推理結(jié)束后動態(tài)過濾掉低質(zhì)量的推理路徑。該方法無需額外的模型訓練或超參數(shù)調(diào)整。比如論文《 DEEP THINK WITH CONFIDENCE 》依靠這種方法，基于開源模型在 AIME 2025 達到了 99.9% 的 “ @512 準確率 ”（ Best-of-512 sampling ），生成的文本長度也比全并行推理方法減少了 84.7% 。

圖源：DEEP THINK WITH CONFIDENCE

置信度是非常典型的度量大模型自信程度的信號，這也是 OpenAI 指出的大模型拒絕回答時的依據(jù)。

如何理解置信度呢？簡單來說，有一種簡單的定義是，大模型推理生成下一個 token 時，下一個 token 的所有候選詞的概率分布越不均勻，越集中在少量詞，置信度越大。比如下圖中的下一個 token 的概率分布就比較符合高置信度的特點。

圖源：網(wǎng)絡(luò)

客觀來講，關(guān)于置信度的相關(guān)研究確實已經(jīng)出現(xiàn)，而且還不少，概念定義和方法也非常多樣。上述提到的讓 LLM 生成多個獨立答案再分析一致性的方式，也是一種度量置信度的方法。

甚至，你可以直接讓大模型在輸出時，附加一句 “ 我有約80%的把握 ” 之類的話，或使用詞語如 “ 可能 ”、“ 不確定 ”來表達置信度。這就有點 “ 玄學 ” 的味道了，但確實實驗統(tǒng)計上有效。論文《 Just Ask for Calibration 》通過實驗發(fā)現(xiàn)，在提示詞中加入不確定性表達，可以顯著提高 GPT-3 答案的準確性和模型校準度。

OpenAI 這篇論文的創(chuàng)新之處不在于提出的方法，更像是一種面向大模型技術(shù)社區(qū)的倡議，如果社區(qū)集體能夠認同其觀點，后續(xù)大模型將會朝著不鼓勵猜測答案的方向發(fā)展。

在論文中，OpenAI 也確實指出，“ 這種懲罰不確定答案的 ‘ 流行病 ’ 只能通過社會技術(shù)緩解措施來解決 ”。

而作為大模型時代的奠基者，OpenAI 確實具備這樣的號召力。

那么，OpenAI 如此倡導，背后有沒有更深層次的理由？

結(jié)合 GPT-5 的低幻覺招牌，低幻覺率對 AI Agent、企業(yè)AI的重要性，企業(yè)數(shù)據(jù)的稀疏性，以及 OpenAI 近期的關(guān)鍵舉措，包括收購并合并 io Products 推進硬件布局、成立 “ 應用 ” 板塊并任命 Fidji Simo 為 Applications CEO 等。

只能猜測，OpenAI 希望社區(qū)認可 GPT-5的成就，強調(diào) GPT-5 或后續(xù)模型（如果有的話）對AI Agent、企業(yè)應用的優(yōu)勢所在。

以及，他們自己也要認真做應用了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.