国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI的新論文,為什么被業(yè)內(nèi)嘲諷是營銷?

0
分享至



近期,OpenAI 發(fā)布了一篇新論文《 Why Language Models Hallucinate 》,指出當前大模型幻覺的主要來源,引發(fā)了廣泛關(guān)注。

他們給出了一個簡潔卻顛覆性的解釋:大模型之所以出現(xiàn)幻覺,并非由于模型架構(gòu)的失靈,而是當前技術(shù)社區(qū)的訓練與評測機制傾向于獎勵猜測,并且懲罰承認不確定的行為,迫使模型在高度不確定時,也傾向猜測性作答以博取準確率分數(shù)。

換句話說,大多數(shù)評估基準采用一種 “ 應試考試 ” 的方式,迫使大語言模型成為 “ 應試者 ”,不管是選擇題、填空題還是解答題,如果不知道正確答案,那就猜一個甚至蒙一個,這樣在概率上也比不答分數(shù)高。

預訓練層面上,大模型通常只接觸正面示例,也就是給定提示詞,然后接著輸出完整的回答,沒有在這個過程中接觸任何拒絕回答的示例,所以自然學不會這種拒絕回答的行為。

OpenAI 拿自家模型舉了一個例子,在 SimpleQA 基準中,舊模型 o4-mini 相比新模型 GPT-5-thinking-mini 準確率略高( 22% vs. 24% ),但也有高得多的錯誤率( 75% vs. 26% ),因為它更少 “ 棄答 ”。



OpenAI據(jù)此主張:在往后的評估基準中,應對高自信的錯誤施以懲罰,并為恰當?shù)牟淮_定表達給出適當分數(shù),使激勵從 “ 大膽猜 ” 轉(zhuǎn)向 “ 知之為知之 ”,改變主流排行榜長期以 “ 準確率 ” 一項稱王的局面。

可以說,這篇研究是在把 “ 幻覺 ” 從工程缺陷轉(zhuǎn)化為技術(shù)社區(qū)的 “ 激勵設(shè)計 ” 問題。

如果真的往這個方向發(fā)展,以后真正值得關(guān)注的,將不再是誰的準確率小幅上漲,而是誰愿意重寫評測與產(chǎn)品規(guī)則,讓模型在不確定時自然地說:“ 我不知道 ”。

技術(shù)社區(qū)對該話題討論熱烈,其中對論文的詬病也不少。

有人認為這篇論文既不新穎,水平也不高,即相關(guān)研究早已經(jīng)出現(xiàn),并且這篇論文的技術(shù)水平更像是初級研究人員寫出來的。

紐約大學數(shù)據(jù)中心助理教授 Ravid Shwartz Ziv 直言這篇論文更像是一場營銷,而不是研究。



有人指出,問題的核心其實在于,幻覺的概念實際上到現(xiàn)在為止都還沒有被嚴格地定義。

雖然已有不少研究指出了幻覺的可能原因,例如模型過度自信、解碼隨機性、滾雪球效應、長尾訓練樣本、誤導性對齊訓練、虛假相關(guān)性、曝光偏差、逆轉(zhuǎn)詛咒以及上下文劫持等,但這些方法毋寧說是一種幻覺的分類。

幻覺的本質(zhì),或許可以用一個很簡單的例子來說明。

以機器學習中的曲線擬合為例,假設(shè)下圖的數(shù)據(jù)點是被用于訓練的事實,我們需要擬合一條曲線來對數(shù)據(jù)進行回歸,使其能夠準確地預測新數(shù)據(jù)。這條曲線,代表的就是模型。



圖源:網(wǎng)絡(luò)

嚴格意義上來講,不存在唯一正確的模型。因為每一種模型都具備不同的擬合度和泛化性,也都有各自的適用場景。

比如上圖中最右邊的復雜曲線擬合度更強甚至過擬合( 訓練數(shù)據(jù)準確率高 ),但泛化性弱( 測試數(shù)據(jù)準確率低 );最左邊的簡單曲線擬合度更弱甚至欠擬合( 訓練數(shù)據(jù)準確率低 ),但泛化性強( 測試數(shù)據(jù)準確率高 )。

不同曲線,可以生成不同的新數(shù)據(jù)。而任何曲線,生成的不同于訓練數(shù)據(jù)的新數(shù)據(jù),都有可能是錯的,也就是都有可能是幻覺。至于幻覺的確認,原則是只能與現(xiàn)實進行直接對比校驗,其它方式都是間接性的。

而且,機器學習或大語言模型其實都不擅長分布外泛化,也就是其泛化能力更多是在已有觀測點的范圍內(nèi)估計未知值。

近期的理論研究比如 2024 年發(fā)表的論文《On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse 》形式化地闡述了一致性( 避免無效輸出 )和廣度( 生成多樣化、語言豐富的內(nèi)容 )之間的內(nèi)在權(quán)衡。這些研究表明,對于廣泛的語言類別,任何在其訓練數(shù)據(jù)之外進行泛化的模型,要么會產(chǎn)生幻覺,要么會遭遇模式崩潰,無法生成所有有效的響應。

所以,如果保證訓練數(shù)據(jù)和測試數(shù)據(jù)( 或?qū)嶋H應用數(shù)據(jù) )在大致相同的數(shù)據(jù)分布范圍內(nèi),并且模型是過擬合的,基本能保證很低的錯誤率或幻覺率。

假設(shè) “ 低幻覺 ” 大模型發(fā)展成了這個樣子,那其實它基本上就是更高效地串聯(lián)已知事實點、知識點的自然語言搜索引擎而已。

這會是OpenAI希望的結(jié)果嗎?我們假設(shè)是,然后繼續(xù)推測一下。

回過頭看《 Why Language Models Hallucinate 》這篇論文,幻覺表現(xiàn)方面,OpenAI 指出,大模型在拼寫和括號等細節(jié)基本不會出錯,但在低頻任意事實上很容易出錯。

他們引用了一個有趣的研究成果,論文 《 Calibrated Language Models Must Hallucinate 》表明即使訓練數(shù)據(jù)沒有錯誤,產(chǎn)生幻覺的概率也接近于訓練數(shù)據(jù)中恰好出現(xiàn)一次的事實的比例( “ Good-Turing ” 估計 )。相比之下,大型語言模型很少會在經(jīng)常引用的事實上出錯,例如愛因斯坦的生日或論文標題。

并且,該論文還指出,沒有統(tǒng)計學理由表明預訓練會導致對訓練數(shù)據(jù)中可能出現(xiàn)多次的事實( 例如對文章、書籍的引用 )或系統(tǒng)性事實( 例如算術(shù)計算 )產(chǎn)生幻覺。

所以,盡管這個自然語言搜索引擎很死板,但在使用時,對于查詢提示詞的拼寫、標點符號、語言表達習慣等還是能做出靈活的響應,并且對于人類多次引用或應用的知識、事實,基本能保證準確。如果是涉及單次出現(xiàn)的事實,則很可能出錯,這時候大模型會選擇拒絕回答。

這樣的大模型自然會變得很安全、可靠。對于 AI Agent 產(chǎn)品的構(gòu)建或企業(yè) AI( 企業(yè) AI 將主要以 Agent 的形式交付 )的落地,都是非常好的底座。因為要發(fā)揮AI Agent 的最大限度的能力,首先要保證低幻覺,避免錯誤累積的乘積效應。

而且,企業(yè)數(shù)據(jù)通常領(lǐng)域獨立、長尾、稀疏,訓練出來的大模型潛在的幻覺點會很多,增加拒答率,其實類似于在代碼里增加了 Bug 日志,可以幫助企業(yè)更好地優(yōu)化模型。

但另一方面,我們能信任這個死板的自然語言搜索引擎的泛化能力嗎?也就是應對實際新問題的能力?

當然,這只是一種對 OpenAI 描繪的設(shè)想在經(jīng)典概念上的理解。對于泛化能力這一部分,其實目前沒有很好的量化方法。

這個 “ 低幻覺 ” 大模型將不會只能解決已知場景下的問題。至于在解決一個具體問題時,是否保證準確,還是需要一些間接指標來判斷。

當前并沒有很好地自動化檢測幻覺的方法,很多復雜的檢測方法,甚至只和分析響應長度方法效果相當。

最簡單粗暴的方法,就是讓 LLM 生成多個獨立答案,然后比較這些答案的一致性,但計算成本高昂,因為每個查詢都需要生成多個答案。

后續(xù)研究則在這個基礎(chǔ)上,利用多個答案之間的重復部分的緩存來節(jié)省計算成本。另一些方法則是比較不同模型對同一個查詢的輸出差異來分析幻覺。

目前可能最高效的方法,是在推理過程中,一邊推理,一邊計算模型內(nèi)部的置信度信號,在推理過程中或推理結(jié)束后動態(tài)過濾掉低質(zhì)量的推理路徑。該方法無需額外的模型訓練或超參數(shù)調(diào)整。比如論文《 DEEP THINK WITH CONFIDENCE 》依靠這種方法,基于開源模型在 AIME 2025 達到了 99.9% 的 “ @512 準確率 ”( Best-of-512 sampling ),生成的文本長度也比全并行推理方法減少了 84.7% 。



圖源:DEEP THINK WITH CONFIDENCE

置信度是非常典型的度量大模型自信程度的信號,這也是 OpenAI 指出的大模型拒絕回答時的依據(jù)。

如何理解置信度呢?簡單來說,有一種簡單的定義是,大模型推理生成下一個 token 時,下一個 token 的所有候選詞的概率分布越不均勻,越集中在少量詞,置信度越大。比如下圖中的下一個 token 的概率分布就比較符合高置信度的特點。



圖源:網(wǎng)絡(luò)

客觀來講,關(guān)于置信度的相關(guān)研究確實已經(jīng)出現(xiàn),而且還不少,概念定義和方法也非常多樣。上述提到的讓 LLM 生成多個獨立答案再分析一致性的方式,也是一種度量置信度的方法。

甚至,你可以直接讓大模型在輸出時,附加一句 “ 我有約80%的把握 ” 之類的話,或使用詞語如 “ 可能 ”、“ 不確定 ”來表達置信度。這就有點 “ 玄學 ” 的味道了,但確實實驗統(tǒng)計上有效。論文《 Just Ask for Calibration 》通過實驗發(fā)現(xiàn),在提示詞中加入不確定性表達,可以顯著提高 GPT-3 答案的準確性和模型校準度。

OpenAI 這篇論文的創(chuàng)新之處不在于提出的方法,更像是一種面向大模型技術(shù)社區(qū)的倡議,如果社區(qū)集體能夠認同其觀點,后續(xù)大模型將會朝著不鼓勵猜測答案的方向發(fā)展。

在論文中,OpenAI 也確實指出,“ 這種懲罰不確定答案的 ‘ 流行病 ’ 只能通過社會技術(shù)緩解措施來解決 ”。

而作為大模型時代的奠基者,OpenAI 確實具備這樣的號召力。

那么,OpenAI 如此倡導,背后有沒有更深層次的理由?

結(jié)合 GPT-5 的低幻覺招牌,低幻覺率對 AI Agent、企業(yè)AI的重要性,企業(yè)數(shù)據(jù)的稀疏性,以及 OpenAI 近期的關(guān)鍵舉措,包括收購并合并 io Products 推進硬件布局、成立 “ 應用 ” 板塊并任命 Fidji Simo 為 Applications CEO 等。

只能猜測,OpenAI 希望社區(qū)認可 GPT-5的 成就,強調(diào) GPT-5 或后續(xù)模型( 如果有的話 )對AI Agent、企業(yè)應用的優(yōu)勢所在。

以及,他們自己也要認真做應用了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“伊朗德黑蘭飛烏魯木齊航班進入中國領(lǐng)空 機艙內(nèi)傳來廣播”視頻熱傳 川航:未開通伊朗航線

“伊朗德黑蘭飛烏魯木齊航班進入中國領(lǐng)空 機艙內(nèi)傳來廣播”視頻熱傳 川航:未開通伊朗航線

閃電新聞
2026-03-02 17:29:47
庫明加轉(zhuǎn)會連爆三場 老鷹球迷主場高喊:謝謝勇士!

庫明加轉(zhuǎn)會連爆三場 老鷹球迷主場高喊:謝謝勇士!

體壇周報
2026-03-02 16:26:34
剛剛,全線暴跌!緊急救市!

剛剛,全線暴跌!緊急救市!

中國基金報
2026-03-02 17:11:34
加水加糖加廢料,椰子水系統(tǒng)性摻假翻車!網(wǎng)友:真夠歹毒……

加水加糖加廢料,椰子水系統(tǒng)性摻假翻車!網(wǎng)友:真夠歹毒……

柴狗夫斯基
2026-03-02 10:46:05
新華時評:當炸彈落在校園,文明底線何在

新華時評:當炸彈落在校園,文明底線何在

澎湃新聞
2026-03-01 22:32:48
北京女子奔赴河南見陌生男,一見面抱緊崩潰說:對不起,我來晚了

北京女子奔赴河南見陌生男,一見面抱緊崩潰說:對不起,我來晚了

觀察鑒娛
2026-03-02 10:22:34
韓國:70%的石油和20%的天然氣由中東進口 危機時將動用戰(zhàn)略儲備

韓國:70%的石油和20%的天然氣由中東進口 危機時將動用戰(zhàn)略儲備

財聯(lián)社
2026-03-02 19:02:07
挪威傾其所有向烏克蘭援助10套防空系統(tǒng),俄要求海外國人服兵役

挪威傾其所有向烏克蘭援助10套防空系統(tǒng),俄要求海外國人服兵役

史政先鋒
2026-03-02 16:24:50
伊朗發(fā)射近1200枚導彈報復美國和以色列

伊朗發(fā)射近1200枚導彈報復美國和以色列

中國網(wǎng)
2026-03-01 16:43:10
伊朗4枚彈道導彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

伊朗4枚彈道導彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
伊朗最高國家安全委員會秘書:已為長期戰(zhàn)爭做好準備

伊朗最高國家安全委員會秘書:已為長期戰(zhàn)爭做好準備

財聯(lián)社
2026-03-02 20:44:25
美以聯(lián)合襲擊伊朗是否提前通報中方?外交部:沒有

美以聯(lián)合襲擊伊朗是否提前通報中方?外交部:沒有

澎湃新聞
2026-03-02 15:36:34
近期,一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

近期,一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

鯨探所長
2026-03-01 14:38:25
以軍稱投下超2500枚炸彈 摧毀約600個伊朗目標

以軍稱投下超2500枚炸彈 摧毀約600個伊朗目標

財聯(lián)社
2026-03-02 21:18:08
現(xiàn)貨白銀快速跳水 跌幅擴大至近6%

現(xiàn)貨白銀快速跳水 跌幅擴大至近6%

財聯(lián)社
2026-03-02 22:30:10
英國曾阻止美軍使用迪戈加西亞基地打擊伊朗,特朗普抱怨:斯塔默“花太長時間”改變主意

英國曾阻止美軍使用迪戈加西亞基地打擊伊朗,特朗普抱怨:斯塔默“花太長時間”改變主意

環(huán)球網(wǎng)資訊
2026-03-02 21:27:19
報告!伊朗戰(zhàn)場導彈精準命中恒生科技

報告!伊朗戰(zhàn)場導彈精準命中恒生科技

民工看市
2026-03-02 12:21:21
哈梅內(nèi)伊身亡現(xiàn)場照片曝光

哈梅內(nèi)伊身亡現(xiàn)場照片曝光

名人茍或
2026-03-02 10:37:43
美國中央司令部:美軍三架F-15E戰(zhàn)機在科威特“明顯遭友軍誤擊”墜毀

美國中央司令部:美軍三架F-15E戰(zhàn)機在科威特“明顯遭友軍誤擊”墜毀

環(huán)球網(wǎng)資訊
2026-03-02 19:32:13
西班牙拒絕美方使用其基地打擊伊朗

西班牙拒絕美方使用其基地打擊伊朗

新華社
2026-03-02 23:40:05
2026-03-03 00:16:49
知危 incentive-icons
知危
投資不立危墻之下
541文章數(shù) 1833關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

頭條要聞

媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

藝術(shù)
家居
數(shù)碼
親子
教育

藝術(shù)要聞

簡約的風景畫,美國畫家Ben Bauer作品

家居要聞

萬物互聯(lián) 享科技福祉

數(shù)碼要聞

英偉達發(fā)布595.71 WHQL驅(qū)動,修復顯卡風扇“翻車”問題

親子要聞

45歲這年,我這個二胎媽媽決定做一件“瘋狂”的事

教育要聞

特別猛,但在留學生心中存在感很低的英國大學!

無障礙瀏覽 進入關(guān)懷版