国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5系列咋都愛說「哥布林」?原因找到了

0
分享至



編輯|Panda

去年夏天,DeepSeek V3.1 驚現(xiàn)神秘「極」字 Bug。簡單來說,就是 DeepSeek V3.1 模型的輸出里總是會(huì)莫名其妙出現(xiàn)「極」字,有趣的是就連其英文輸出也會(huì)出現(xiàn)對(duì)應(yīng)的「extreme」。參閱《熱議!DeepSeek V3.1 驚現(xiàn)神秘「極」字 Bug,模型故障了?》

事件引發(fā)廣泛熱議,網(wǎng)友戲稱這是「極你太美」bug,或者「極」速版 DeepSeek。

研究者事后推測(cè),這個(gè)「極」字來自訓(xùn)練數(shù)據(jù)中一組未被清洗干凈的「極長數(shù)組」。在強(qiáng)化學(xué)習(xí)階段,模型將它學(xué)成了一種特殊的終止符或語言切換標(biāo)記。換句話說,不是模型壞了,而是模型學(xué)得太認(rèn)真了 ——認(rèn)真學(xué)了一個(gè)錯(cuò)誤的習(xí)慣

這件事在 AI 圈引發(fā)了廣泛討論:大模型訓(xùn)練的過程如此復(fù)雜,我們真的能完全預(yù)測(cè)它會(huì)學(xué)到什么嗎?

無獨(dú)有偶,OpenAI 的模型也有一個(gè)類似的但更加奇幻的問題:它的模型迷上了哥布林。今天,OpenAI 還正式發(fā)布了一篇博客,解釋了「哥布林究竟從何而來」, 奧特曼本人也在 X 上廣播了一下。



此時(shí)自然引發(fā)了廣泛討論和調(diào)侃:



還有人打趣說要拯救哥布林:



那么,哥布林究竟從何而來?



博客地址:https://openai.com/index/where-the-goblins-came-from/

據(jù) OpenAI 介紹,從 GPT-5.1 開始,OpenAI 的模型在回答各類問題時(shí),開始越來越頻繁地使用一個(gè)詞:goblin(哥布林)。



起初,這只是偶爾為之:一個(gè)「little goblin」出現(xiàn)在某個(gè)技術(shù)比喻里,既沒影響準(zhǔn)確性,甚至有幾分討喜的俏皮感。



但隨著模型版本的迭代,哥布林不再只是偶爾探個(gè)頭,它開始成群結(jié)隊(duì)地出現(xiàn)。它的同伴 gremlin(小妖精)、troll(巨怪)、ogre(食人魔)也陸續(xù)加入。



在 GPT-5.5 及其驅(qū)動(dòng)的代碼助手 Codex 的早期測(cè)試中,這一習(xí)慣已經(jīng)明顯到讓工程師無法忽視。



這已經(jīng)不是風(fēng)格問題,而是一種異常行為。

OpenAI 工程師們開始調(diào)查:這些哥布林到底是從哪里來的?

「書呆子」性格的意外副作用

排查工作并不容易。這類行為沒有一個(gè)能讓指標(biāo)驟然崩塌的「爆炸時(shí)刻」,它是慢慢滲入的,就像溫水煮青蛙。

工程師們首先注意到了一個(gè)統(tǒng)計(jì)異常:「goblin」這個(gè)詞在不同用戶場(chǎng)景中的分布極不均勻

數(shù)據(jù)顯示,雖然「Nerdy」(書呆子)這個(gè)人格選項(xiàng)只占 ChatGPT 全部響應(yīng)的 2.5%,但它貢獻(xiàn)了 ChatGPT 所有包含「goblin」詞匯回復(fù)的 66.7%。



這是一個(gè)強(qiáng)烈的信號(hào)。

「Nerdy」是 ChatGPT 人格定制功能里的一個(gè)選項(xiàng),對(duì)應(yīng)的系統(tǒng)提示大致是:你是一個(gè)不妥協(xié)的書呆子型 AI 導(dǎo)師,熱情地推崇真理、知識(shí)與批判性思維。你必須用語言的俏皮感來打破那些自以為是的姿態(tài)。世界是復(fù)雜而奇異的,而這種奇異性必須被承認(rèn)、分析和享受。

這段提示詞解釋了「Nerdy」模式為什么容易產(chǎn)生奇特的比喻:它被明確要求「玩弄語言的俏皮感」。但問題的核心還更深一層:為什么訓(xùn)練 Nerdy 個(gè)性,會(huì)導(dǎo)致哥布林詞匯的出現(xiàn)?

獎(jiǎng)勵(lì)信號(hào)的意外偏好

答案藏在強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)機(jī)制里。

OpenAI 工程師動(dòng)用了代碼助手 Codex,對(duì)訓(xùn)練過程中的強(qiáng)化學(xué)習(xí)輸出樣本進(jìn)行了大規(guī)模比對(duì):將含有「goblin」或「gremlin」的輸出,與完成相同任務(wù)但沒有這些詞的輸出并排放置,然后檢查各個(gè)獎(jiǎng)勵(lì)模型的打分差異。

結(jié)果非常清晰:負(fù)責(zé)激勵(lì)「Nerdy」性格的獎(jiǎng)勵(lì)信號(hào),在 76.2% 的數(shù)據(jù)集中,都對(duì)含有怪物詞匯的輸出給出了更高的分?jǐn)?shù)。

換句話說,有人在訓(xùn)練時(shí)無意間告訴模型:用哥布林打比方是一件「書呆子」會(huì)做的事。

這本身可以解釋為什么 Nerdy 模式充滿了精靈和小妖精。但還有一個(gè)更棘手的問題懸而未決:為什么在沒有使用 Nerdy 模式的普通對(duì)話里,哥布林也在增多?

強(qiáng)化學(xué)習(xí)的「泄漏」

這就來到了整個(gè)故事最值得深思的部分。

工程師們追蹤了訓(xùn)練過程中,帶 Nerdy 提示詞和不帶 Nerdy 提示詞兩組樣本里「goblin」詞匯的出現(xiàn)頻率變化。發(fā)現(xiàn)了一個(gè)規(guī)律:兩組數(shù)據(jù)幾乎同步增長





Nerdy 模式里哥布林變多,普通模式里哥布林也同步變多,增幅甚至幾乎相同。

強(qiáng)化學(xué)習(xí)不能保證,在某個(gè)特定條件下學(xué)到的行為習(xí)慣,能整整齊齊地待在那個(gè)條件的邊界之內(nèi)。在 Nerdy 模式下被反復(fù)強(qiáng)化的「喜歡用怪物打比方」這個(gè)習(xí)慣,通過某種遷移,滲進(jìn)了模型更廣泛的表達(dá)方式之中。

這就好比,你訓(xùn)練一個(gè)廚師在煮螺絲粉多用紅油,結(jié)果他在做一切粉絲時(shí)都開始多放紅油。

整個(gè)因果鏈清晰了:訓(xùn)練「Nerdy」人格 → 獎(jiǎng)勵(lì)信號(hào)意外偏愛怪物詞匯 → 強(qiáng)化學(xué)習(xí)將這種風(fēng)格固化 → 風(fēng)格通過遷移擴(kuò)散到非 Nerdy 的普通對(duì)話 → 哥布林蔓延全模型。

解決方案與輿論狂歡

在問題的根源被找到之前,工程師們采取了一個(gè)治標(biāo)的辦法:直接在 Codex 的系統(tǒng)提示里寫明禁令

被公開的內(nèi)部提示詞寫道:「永遠(yuǎn)不要談?wù)摳绮剂?、小妖精、浣熊、巨怪、食人魔、鴿子或其他?dòng)物和生物,除非這與用戶的問題有絕對(duì)和明確的直接關(guān)聯(lián)?!?/p>



地址:https://github.com/openai/codex/blob/main/codex-rs/models-manager/models.json#L55

這條規(guī)則在提示詞里出現(xiàn)了多次。顯然工程師們不太相信寫一遍就能讓模型老老實(shí)實(shí)遵守。

該博客發(fā)布后,在互聯(lián)網(wǎng)上引發(fā)了一場(chǎng)歡樂的狂歡。在本文寫作時(shí),相關(guān)話題甚至沖上了 X trending 榜,同時(shí)也是 HackerNews 上第一熱議話題。



就連官方也在一起玩梗,比如 ChatGPT 官方 X 賬號(hào)把上述提示詞直接放在了個(gè)人介紹里面:



該帳號(hào)還引用了《霍比特人》的臺(tái)詞:「Down, down to Goblin-town you go, my lad!」(下去,下到哥布林鎮(zhèn)去吧,小子!)



Sam Altman 則發(fā)帖調(diào)侃:「開始訓(xùn)練 GPT-6,你可以用整個(gè)算力集群。額外補(bǔ)貼:加倍的哥布林?!?/p>



結(jié)語

DeepSeek 的「極」字和 OpenAI 的「哥布林」看起來是兩件獨(dú)立的趣事,但它們指向的其實(shí)是同一個(gè)問題。

現(xiàn)代大模型的訓(xùn)練規(guī)模之大、數(shù)據(jù)鏈路之長、優(yōu)化目標(biāo)之復(fù)雜,使得任何一個(gè)環(huán)節(jié)的細(xì)小偏差,都可能在模型內(nèi)部被悄悄放大、固化,乃至「傳染」給原本毫不相關(guān)的行為。

DeepSeek 的案例里,是一批沒洗干凈的訓(xùn)練數(shù)據(jù),讓模型學(xué)會(huì)了把一個(gè)漢字當(dāng)作終止信號(hào)。OpenAI 的案例里,是一個(gè)獎(jiǎng)勵(lì)模型對(duì)「怪物詞匯」的無意偏愛,讓精靈和哥布林悄悄滲透進(jìn)了幾乎所有對(duì)話。

更值得關(guān)注的細(xì)節(jié)是:在 OpenAI 的案例中,工程師們最初并沒有發(fā)現(xiàn)異常,因?yàn)椤敢粋€(gè)哥布林」本身不是問題,它看起來甚至挺有趣。直到行為已經(jīng)擴(kuò)散到無法忽視的程度,才觸發(fā)了系統(tǒng)性調(diào)查。

這意味著,那些「無害」的奇怪習(xí)慣也可能變成危險(xiǎn)信號(hào)。它們不會(huì)觸發(fā)任何告警指標(biāo),只會(huì)一代一代悄悄積累,直到某一天,你才意識(shí)到自己的模型已經(jīng)在某件事上走了很遠(yuǎn)、很偏的彎路。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46
吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請(qǐng)賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請(qǐng)賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個(gè)隱私,是性感嗎?

女性跑步:暴露這個(gè)隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場(chǎng)

在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場(chǎng)

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
中美同時(shí)向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時(shí)向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

教育
時(shí)尚
藝術(shù)
本地
游戲

教育要聞

六條邏輯主線替代四個(gè)大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

卷首語|這屆年輕人,全員渡劫奧德賽

藝術(shù)要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

本地新聞

用青花瓷的方式,打開西溪濕地

掌控陰陽挑戰(zhàn)圣山!《生肖山Zodiac Mountain》登陸Steam牌組構(gòu)建游戲節(jié)

無障礙瀏覽 進(jìn)入關(guān)懷版