国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI的新論文,為什么被業(yè)內(nèi)嘲諷是營(yíng)銷(xiāo)?

0
分享至



近期,OpenAI 發(fā)布了一篇新論文《 Why Language Models Hallucinate 》,指出當(dāng)前大模型幻覺(jué)的主要來(lái)源,引發(fā)了廣泛關(guān)注。

他們給出了一個(gè)簡(jiǎn)潔卻顛覆性的解釋?zhuān)?strong>大模型之所以出現(xiàn)幻覺(jué),并非由于模型架構(gòu)的失靈,而是當(dāng)前技術(shù)社區(qū)的訓(xùn)練與評(píng)測(cè)機(jī)制傾向于獎(jiǎng)勵(lì)猜測(cè),并且懲罰承認(rèn)不確定的行為,迫使模型在高度不確定時(shí),也傾向猜測(cè)性作答以博取準(zhǔn)確率分?jǐn)?shù)。

換句話(huà)說(shuō),大多數(shù)評(píng)估基準(zhǔn)采用一種 “ 應(yīng)試考試 ” 的方式,迫使大語(yǔ)言模型成為 “ 應(yīng)試者 ”,不管是選擇題、填空題還是解答題,如果不知道正確答案,那就猜一個(gè)甚至蒙一個(gè),這樣在概率上也比不答分?jǐn)?shù)高。

預(yù)訓(xùn)練層面上,大模型通常只接觸正面示例,也就是給定提示詞,然后接著輸出完整的回答,沒(méi)有在這個(gè)過(guò)程中接觸任何拒絕回答的示例,所以自然學(xué)不會(huì)這種拒絕回答的行為。

OpenAI 拿自家模型舉了一個(gè)例子,在 SimpleQA 基準(zhǔn)中,舊模型 o4-mini 相比新模型 GPT-5-thinking-mini 準(zhǔn)確率略高( 22% vs. 24% ),但也有高得多的錯(cuò)誤率( 75% vs. 26% ),因?yàn)樗?“ 棄答 ”。



OpenAI據(jù)此主張:在往后的評(píng)估基準(zhǔn)中,應(yīng)對(duì)高自信的錯(cuò)誤施以懲罰,并為恰當(dāng)?shù)牟淮_定表達(dá)給出適當(dāng)分?jǐn)?shù),使激勵(lì)從 “ 大膽猜 ” 轉(zhuǎn)向 “ 知之為知之 ”,改變主流排行榜長(zhǎng)期以 “ 準(zhǔn)確率 ” 一項(xiàng)稱(chēng)王的局面。

可以說(shuō),這篇研究是在把 “ 幻覺(jué) ” 從工程缺陷轉(zhuǎn)化為技術(shù)社區(qū)的 “ 激勵(lì)設(shè)計(jì) ” 問(wèn)題。

如果真的往這個(gè)方向發(fā)展,以后真正值得關(guān)注的,將不再是誰(shuí)的準(zhǔn)確率小幅上漲,而是誰(shuí)愿意重寫(xiě)評(píng)測(cè)與產(chǎn)品規(guī)則,讓模型在不確定時(shí)自然地說(shuō):“ 我不知道 ”。

技術(shù)社區(qū)對(duì)該話(huà)題討論熱烈,其中對(duì)論文的詬病也不少。

有人認(rèn)為這篇論文既不新穎,水平也不高,即相關(guān)研究早已經(jīng)出現(xiàn),并且這篇論文的技術(shù)水平更像是初級(jí)研究人員寫(xiě)出來(lái)的。

紐約大學(xué)數(shù)據(jù)中心助理教授 Ravid Shwartz Ziv 直言這篇論文更像是一場(chǎng)營(yíng)銷(xiāo),而不是研究。



有人指出,問(wèn)題的核心其實(shí)在于,幻覺(jué)的概念實(shí)際上到現(xiàn)在為止都還沒(méi)有被嚴(yán)格地定義。

雖然已有不少研究指出了幻覺(jué)的可能原因,例如模型過(guò)度自信、解碼隨機(jī)性、滾雪球效應(yīng)、長(zhǎng)尾訓(xùn)練樣本、誤導(dǎo)性對(duì)齊訓(xùn)練、虛假相關(guān)性、曝光偏差、逆轉(zhuǎn)詛咒以及上下文劫持等,但這些方法毋寧說(shuō)是一種幻覺(jué)的分類(lèi)。

幻覺(jué)的本質(zhì),或許可以用一個(gè)很簡(jiǎn)單的例子來(lái)說(shuō)明。

以機(jī)器學(xué)習(xí)中的曲線(xiàn)擬合為例,假設(shè)下圖的數(shù)據(jù)點(diǎn)是被用于訓(xùn)練的事實(shí),我們需要擬合一條曲線(xiàn)來(lái)對(duì)數(shù)據(jù)進(jìn)行回歸,使其能夠準(zhǔn)確地預(yù)測(cè)新數(shù)據(jù)。這條曲線(xiàn),代表的就是模型。



圖源:網(wǎng)絡(luò)

嚴(yán)格意義上來(lái)講,不存在唯一正確的模型。因?yàn)槊恳环N模型都具備不同的擬合度和泛化性,也都有各自的適用場(chǎng)景。

比如上圖中最右邊的復(fù)雜曲線(xiàn)擬合度更強(qiáng)甚至過(guò)擬合( 訓(xùn)練數(shù)據(jù)準(zhǔn)確率高 ),但泛化性弱( 測(cè)試數(shù)據(jù)準(zhǔn)確率低 );最左邊的簡(jiǎn)單曲線(xiàn)擬合度更弱甚至欠擬合( 訓(xùn)練數(shù)據(jù)準(zhǔn)確率低 ),但泛化性強(qiáng)( 測(cè)試數(shù)據(jù)準(zhǔn)確率高 )。

不同曲線(xiàn),可以生成不同的新數(shù)據(jù)。而任何曲線(xiàn),生成的不同于訓(xùn)練數(shù)據(jù)的新數(shù)據(jù),都有可能是錯(cuò)的,也就是都有可能是幻覺(jué)。至于幻覺(jué)的確認(rèn),原則是只能與現(xiàn)實(shí)進(jìn)行直接對(duì)比校驗(yàn),其它方式都是間接性的。

而且,機(jī)器學(xué)習(xí)或大語(yǔ)言模型其實(shí)都不擅長(zhǎng)分布外泛化,也就是其泛化能力更多是在已有觀測(cè)點(diǎn)的范圍內(nèi)估計(jì)未知值。

近期的理論研究比如 2024 年發(fā)表的論文《On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse 》形式化地闡述了一致性( 避免無(wú)效輸出 )和廣度( 生成多樣化、語(yǔ)言豐富的內(nèi)容 )之間的內(nèi)在權(quán)衡。這些研究表明,對(duì)于廣泛的語(yǔ)言類(lèi)別,任何在其訓(xùn)練數(shù)據(jù)之外進(jìn)行泛化的模型,要么會(huì)產(chǎn)生幻覺(jué),要么會(huì)遭遇模式崩潰,無(wú)法生成所有有效的響應(yīng)。

所以,如果保證訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)( 或?qū)嶋H應(yīng)用數(shù)據(jù) )在大致相同的數(shù)據(jù)分布范圍內(nèi),并且模型是過(guò)擬合的,基本能保證很低的錯(cuò)誤率或幻覺(jué)率。

假設(shè) “ 低幻覺(jué) ” 大模型發(fā)展成了這個(gè)樣子,那其實(shí)它基本上就是更高效地串聯(lián)已知事實(shí)點(diǎn)、知識(shí)點(diǎn)的自然語(yǔ)言搜索引擎而已。

這會(huì)是OpenAI希望的結(jié)果嗎?我們假設(shè)是,然后繼續(xù)推測(cè)一下。

回過(guò)頭看《 Why Language Models Hallucinate 》這篇論文,幻覺(jué)表現(xiàn)方面,OpenAI 指出,大模型在拼寫(xiě)和括號(hào)等細(xì)節(jié)基本不會(huì)出錯(cuò),但在低頻任意事實(shí)上很容易出錯(cuò)。

他們引用了一個(gè)有趣的研究成果,論文 《 Calibrated Language Models Must Hallucinate 》表明即使訓(xùn)練數(shù)據(jù)沒(méi)有錯(cuò)誤,產(chǎn)生幻覺(jué)的概率也接近于訓(xùn)練數(shù)據(jù)中恰好出現(xiàn)一次的事實(shí)的比例( “ Good-Turing ” 估計(jì) )。相比之下,大型語(yǔ)言模型很少會(huì)在經(jīng)常引用的事實(shí)上出錯(cuò),例如愛(ài)因斯坦的生日或論文標(biāo)題。

并且,該論文還指出,沒(méi)有統(tǒng)計(jì)學(xué)理由表明預(yù)訓(xùn)練會(huì)導(dǎo)致對(duì)訓(xùn)練數(shù)據(jù)中可能出現(xiàn)多次的事實(shí)( 例如對(duì)文章、書(shū)籍的引用 )或系統(tǒng)性事實(shí)( 例如算術(shù)計(jì)算 )產(chǎn)生幻覺(jué)。

所以,盡管這個(gè)自然語(yǔ)言搜索引擎很死板,但在使用時(shí),對(duì)于查詢(xún)提示詞的拼寫(xiě)、標(biāo)點(diǎn)符號(hào)、語(yǔ)言表達(dá)習(xí)慣等還是能做出靈活的響應(yīng),并且對(duì)于人類(lèi)多次引用或應(yīng)用的知識(shí)、事實(shí),基本能保證準(zhǔn)確。如果是涉及單次出現(xiàn)的事實(shí),則很可能出錯(cuò),這時(shí)候大模型會(huì)選擇拒絕回答。

這樣的大模型自然會(huì)變得很安全、可靠。對(duì)于 AI Agent 產(chǎn)品的構(gòu)建或企業(yè) AI( 企業(yè) AI 將主要以 Agent 的形式交付 )的落地,都是非常好的底座。因?yàn)橐l(fā)揮AI Agent 的最大限度的能力,首先要保證低幻覺(jué),避免錯(cuò)誤累積的乘積效應(yīng)。

而且,企業(yè)數(shù)據(jù)通常領(lǐng)域獨(dú)立、長(zhǎng)尾、稀疏,訓(xùn)練出來(lái)的大模型潛在的幻覺(jué)點(diǎn)會(huì)很多,增加拒答率,其實(shí)類(lèi)似于在代碼里增加了 Bug 日志,可以幫助企業(yè)更好地優(yōu)化模型。

但另一方面,我們能信任這個(gè)死板的自然語(yǔ)言搜索引擎的泛化能力嗎?也就是應(yīng)對(duì)實(shí)際新問(wèn)題的能力?

當(dāng)然,這只是一種對(duì) OpenAI 描繪的設(shè)想在經(jīng)典概念上的理解。對(duì)于泛化能力這一部分,其實(shí)目前沒(méi)有很好的量化方法。

這個(gè) “ 低幻覺(jué) ” 大模型將不會(huì)只能解決已知場(chǎng)景下的問(wèn)題。至于在解決一個(gè)具體問(wèn)題時(shí),是否保證準(zhǔn)確,還是需要一些間接指標(biāo)來(lái)判斷。

當(dāng)前并沒(méi)有很好地自動(dòng)化檢測(cè)幻覺(jué)的方法,很多復(fù)雜的檢測(cè)方法,甚至只和分析響應(yīng)長(zhǎng)度方法效果相當(dāng)。

最簡(jiǎn)單粗暴的方法,就是讓 LLM 生成多個(gè)獨(dú)立答案,然后比較這些答案的一致性,但計(jì)算成本高昂,因?yàn)槊總€(gè)查詢(xún)都需要生成多個(gè)答案。

后續(xù)研究則在這個(gè)基礎(chǔ)上,利用多個(gè)答案之間的重復(fù)部分的緩存來(lái)節(jié)省計(jì)算成本。另一些方法則是比較不同模型對(duì)同一個(gè)查詢(xún)的輸出差異來(lái)分析幻覺(jué)。

目前可能最高效的方法,是在推理過(guò)程中,一邊推理,一邊計(jì)算模型內(nèi)部的置信度信號(hào),在推理過(guò)程中或推理結(jié)束后動(dòng)態(tài)過(guò)濾掉低質(zhì)量的推理路徑。該方法無(wú)需額外的模型訓(xùn)練或超參數(shù)調(diào)整。比如論文《 DEEP THINK WITH CONFIDENCE 》依靠這種方法,基于開(kāi)源模型在 AIME 2025 達(dá)到了 99.9% 的 “ @512 準(zhǔn)確率 ”( Best-of-512 sampling ),生成的文本長(zhǎng)度也比全并行推理方法減少了 84.7% 。



圖源:DEEP THINK WITH CONFIDENCE

置信度是非常典型的度量大模型自信程度的信號(hào),這也是 OpenAI 指出的大模型拒絕回答時(shí)的依據(jù)。

如何理解置信度呢?簡(jiǎn)單來(lái)說(shuō),有一種簡(jiǎn)單的定義是,大模型推理生成下一個(gè) token 時(shí),下一個(gè) token 的所有候選詞的概率分布越不均勻,越集中在少量詞,置信度越大。比如下圖中的下一個(gè) token 的概率分布就比較符合高置信度的特點(diǎn)。



圖源:網(wǎng)絡(luò)

客觀來(lái)講,關(guān)于置信度的相關(guān)研究確實(shí)已經(jīng)出現(xiàn),而且還不少,概念定義和方法也非常多樣。上述提到的讓 LLM 生成多個(gè)獨(dú)立答案再分析一致性的方式,也是一種度量置信度的方法。

甚至,你可以直接讓大模型在輸出時(shí),附加一句 “ 我有約80%的把握 ” 之類(lèi)的話(huà),或使用詞語(yǔ)如 “ 可能 ”、“ 不確定 ”來(lái)表達(dá)置信度。這就有點(diǎn) “ 玄學(xué) ” 的味道了,但確實(shí)實(shí)驗(yàn)統(tǒng)計(jì)上有效。論文《 Just Ask for Calibration 》通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在提示詞中加入不確定性表達(dá),可以顯著提高 GPT-3 答案的準(zhǔn)確性和模型校準(zhǔn)度。

OpenAI 這篇論文的創(chuàng)新之處不在于提出的方法,更像是一種面向大模型技術(shù)社區(qū)的倡議,如果社區(qū)集體能夠認(rèn)同其觀點(diǎn),后續(xù)大模型將會(huì)朝著不鼓勵(lì)猜測(cè)答案的方向發(fā)展。

在論文中,OpenAI 也確實(shí)指出,“ 這種懲罰不確定答案的 ‘ 流行病 ’ 只能通過(guò)社會(huì)技術(shù)緩解措施來(lái)解決 ”。

而作為大模型時(shí)代的奠基者,OpenAI 確實(shí)具備這樣的號(hào)召力。

那么,OpenAI 如此倡導(dǎo),背后有沒(méi)有更深層次的理由?

結(jié)合 GPT-5 的低幻覺(jué)招牌,低幻覺(jué)率對(duì) AI Agent、企業(yè)AI的重要性,企業(yè)數(shù)據(jù)的稀疏性,以及 OpenAI 近期的關(guān)鍵舉措,包括收購(gòu)并合并 io Products 推進(jìn)硬件布局、成立 “ 應(yīng)用 ” 板塊并任命 Fidji Simo 為 Applications CEO 等。

只能猜測(cè),OpenAI 希望社區(qū)認(rèn)可 GPT-5的 成就,強(qiáng)調(diào) GPT-5 或后續(xù)模型( 如果有的話(huà) )對(duì)AI Agent、企業(yè)應(yīng)用的優(yōu)勢(shì)所在。

以及,他們自己也要認(rèn)真做應(yīng)用了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蔡暢得知女兒在蘇聯(lián)結(jié)婚生子,質(zhì)問(wèn):你為什么非要和一外國(guó)人結(jié)婚

蔡暢得知女兒在蘇聯(lián)結(jié)婚生子,質(zhì)問(wèn):你為什么非要和一外國(guó)人結(jié)婚

大運(yùn)河時(shí)空
2026-01-06 15:20:03
胡歌帶田樸珺爬4200米財(cái)神山!田樸珺全程撒嬌,兩人互動(dòng)更像情侶

胡歌帶田樸珺爬4200米財(cái)神山!田樸珺全程撒嬌,兩人互動(dòng)更像情侶

好賢觀史記
2025-12-01 14:18:01
暮光女穿透視裙再出鏡!一雙腿型太美了,潦草發(fā)型不影響她的帥氣

暮光女穿透視裙再出鏡!一雙腿型太美了,潦草發(fā)型不影響她的帥氣

有趣的胡侃
2026-01-07 13:41:25
國(guó)際乒聯(lián)公布百年榮譽(yù)榜!國(guó)乒3人入選,許昕備受質(zhì)疑

國(guó)際乒聯(lián)公布百年榮譽(yù)榜!國(guó)乒3人入選,許昕備受質(zhì)疑

十點(diǎn)街球體育
2026-01-07 00:10:03
白宮:特朗普考慮動(dòng)用美軍等“一系列選項(xiàng)”得到格陵蘭島

白宮:特朗普考慮動(dòng)用美軍等“一系列選項(xiàng)”得到格陵蘭島

新華社
2026-01-07 06:57:20
外媒爆:美國(guó)正將委內(nèi)瑞拉內(nèi)政部長(zhǎng)、防長(zhǎng)視為潛在目標(biāo)

外媒爆:美國(guó)正將委內(nèi)瑞拉內(nèi)政部長(zhǎng)、防長(zhǎng)視為潛在目標(biāo)

環(huán)球網(wǎng)資訊
2026-01-07 11:27:06
于曉光做夢(mèng)沒(méi)想到,韓國(guó)總統(tǒng)訪華僅3天,46歲秋瓷炫竟意外火出圈

于曉光做夢(mèng)沒(méi)想到,韓國(guó)總統(tǒng)訪華僅3天,46歲秋瓷炫竟意外火出圈

一娛三分地
2026-01-06 16:14:28
調(diào)查發(fā)現(xiàn):癌癥患者過(guò)了79歲,基本都有這3現(xiàn)狀,坦然接受即可!

調(diào)查發(fā)現(xiàn):癌癥患者過(guò)了79歲,基本都有這3現(xiàn)狀,坦然接受即可!

墜入二次元的海洋
2025-12-30 10:26:08
玄學(xué)提醒:盡量不要給身邊任何人,分享這3件事。

玄學(xué)提醒:盡量不要給身邊任何人,分享這3件事。

木言觀
2026-01-07 08:23:22
廣東16歲女兒被父親過(guò)度寵溺,被母親回家撞見(jiàn)后,失控將其砍死

廣東16歲女兒被父親過(guò)度寵溺,被母親回家撞見(jiàn)后,失控將其砍死

曉艾故事匯
2024-11-04 10:55:36
AI生成漫畫(huà)登頂日本暢銷(xiāo)榜榜首 傳統(tǒng)漫畫(huà)家集體憂(yōu)慮

AI生成漫畫(huà)登頂日本暢銷(xiāo)榜榜首 傳統(tǒng)漫畫(huà)家集體憂(yōu)慮

3DM游戲
2026-01-06 17:22:06
“換旗”大逃亡!17艘影子油輪突掛俄羅斯國(guó)旗,特朗普會(huì)攔嗎?

“換旗”大逃亡!17艘影子油輪突掛俄羅斯國(guó)旗,特朗普會(huì)攔嗎?

金十?dāng)?shù)據(jù)
2026-01-07 14:21:19
黃仁勛回應(yīng)H200何時(shí)售往中國(guó):正加快生產(chǎn),等待許可的最終細(xì)節(jié)敲定

黃仁勛回應(yīng)H200何時(shí)售往中國(guó):正加快生產(chǎn),等待許可的最終細(xì)節(jié)敲定

界面新聞
2026-01-07 10:53:25
廣東3消息!朱芳雨正式上訴,徐杰腳踝傷勢(shì)加重,奎因官方喜訊

廣東3消息!朱芳雨正式上訴,徐杰腳踝傷勢(shì)加重,奎因官方喜訊

多特體育說(shuō)
2026-01-06 22:43:17
原山西省人力資源和社會(huì)保障廳黨組書(shū)記常建忠已出任山西省委編辦主任

原山西省人力資源和社會(huì)保障廳黨組書(shū)記常建忠已出任山西省委編辦主任

太原全接觸
2026-01-07 10:38:34
演員余男:我最正確的決定,就是將出軌的王全安“賞”給張雨綺!

演員余男:我最正確的決定,就是將出軌的王全安“賞”給張雨綺!

窺史
2026-01-07 13:38:10
“打殘就只能跟我”:北京女孩家有2套房,男友想娶她將她打殘了

“打殘就只能跟我”:北京女孩家有2套房,男友想娶她將她打殘了

江山揮筆
2026-01-06 19:18:37
中國(guó)股市:如果接下來(lái)迎來(lái)牛市,堅(jiān)持只做一種股票,掙得盆滿(mǎn)缽滿(mǎn)

中國(guó)股市:如果接下來(lái)迎來(lái)牛市,堅(jiān)持只做一種股票,掙得盆滿(mǎn)缽滿(mǎn)

股經(jīng)縱橫談
2026-01-02 17:58:01
這個(gè)菜是“天然化痰王”,煮水當(dāng)茶喝,把肺里“老痰”都涮干凈

這個(gè)菜是“天然化痰王”,煮水當(dāng)茶喝,把肺里“老痰”都涮干凈

江江食研社
2026-01-03 10:30:03
南京人狂喜!南京鼓樓要發(fā)生大變化,住這里的人有福了!

南京人狂喜!南京鼓樓要發(fā)生大變化,住這里的人有福了!

記錄生活日常阿蜴
2026-01-07 10:01:55
2026-01-07 15:51:00
知危 incentive-icons
知危
投資不立危墻之下
517文章數(shù) 1829關(guān)注度
往期回顧 全部

科技要聞

豪擲世界第一"球" 楊元慶亮出聯(lián)想AI護(hù)城河

頭條要聞

北京獨(dú)生女被男友毆打致殘:他讓我再買(mǎi)房寫(xiě)他兒子名字

頭條要聞

北京獨(dú)生女被男友毆打致殘:他讓我再買(mǎi)房寫(xiě)他兒子名字

體育要聞

賣(mài)水果、搬磚的小伙,與哈蘭德?tīng)?zhēng)英超金靴

娛樂(lè)要聞

2026年央視春晚彩排:沈騰確定回歸

財(cái)經(jīng)要聞

農(nóng)大教授科普:無(wú)需過(guò)度擔(dān)憂(yōu)蔬菜農(nóng)殘

汽車(chē)要聞

蔚來(lái)2025百萬(wàn)臺(tái)收官 一場(chǎng)遲到的自我修復(fù)

態(tài)度原創(chuàng)

教育
游戲
時(shí)尚
家居
軍事航空

教育要聞

中字頭央企四川分公司2026校招246人,成都錦城學(xué)院成最大贏家

曝育碧計(jì)劃今年舉辦大型發(fā)布會(huì) 并推出《孤島驚魂7》

冬天穿衣既要有溫度又要有風(fēng)度!看看這些穿搭,優(yōu)雅又顯瘦

家居要聞

寧?kù)o不單調(diào) 恰到好處的美

軍事要聞

特朗普政府正在討論獲取格陵蘭島的方案 包括軍事選項(xiàng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版