GPT-5系列咋都愛說「哥布林」？原因找到了

2026-04-30 19:51:20　來源: 機器之心Pro

河北舉報

分享至

編輯｜Panda

去年夏天，DeepSeek V3.1 驚現(xiàn)神秘「極」字 Bug。簡單來說，就是 DeepSeek V3.1 模型的輸出里總是會莫名其妙出現(xiàn)「極」字，有趣的是就連其英文輸出也會出現(xiàn)對應(yīng)的「extreme」。參閱《熱議！DeepSeek V3.1 驚現(xiàn)神秘「極」字 Bug，模型故障了？》

事件引發(fā)廣泛熱議，網(wǎng)友戲稱這是「極你太美」bug，或者「極」速版 DeepSeek。

研究者事后推測，這個「極」字來自訓(xùn)練數(shù)據(jù)中一組未被清洗干凈的「極長數(shù)組」。在強化學(xué)習(xí)階段，模型將它學(xué)成了一種特殊的終止符或語言切換標(biāo)記。換句話說，不是模型壞了，而是模型學(xué)得太認真了 ——認真學(xué)了一個錯誤的習(xí)慣

這件事在 AI 圈引發(fā)了廣泛討論：大模型訓(xùn)練的過程如此復(fù)雜，我們真的能完全預(yù)測它會學(xué)到什么嗎？

無獨有偶，OpenAI 的模型也有一個類似的但更加奇幻的問題：它的模型迷上了哥布林。今天，OpenAI 還正式發(fā)布了一篇博客，解釋了「哥布林究竟從何而來」, 奧特曼本人也在 X 上廣播了一下。

此時自然引發(fā)了廣泛討論和調(diào)侃：

還有人打趣說要拯救哥布林：

那么，哥布林究竟從何而來？

博客地址：https://openai.com/index/where-the-goblins-came-from/

據(jù) OpenAI 介紹，從 GPT-5.1 開始，OpenAI 的模型在回答各類問題時，開始越來越頻繁地使用一個詞：goblin（哥布林）。

起初，這只是偶爾為之：一個「little goblin」出現(xiàn)在某個技術(shù)比喻里，既沒影響準(zhǔn)確性，甚至有幾分討喜的俏皮感。

但隨著模型版本的迭代，哥布林不再只是偶爾探個頭，它開始成群結(jié)隊地出現(xiàn)。它的同伴 gremlin（小妖精）、troll（巨怪）、ogre（食人魔）也陸續(xù)加入。

在 GPT-5.5 及其驅(qū)動的代碼助手 Codex 的早期測試中，這一習(xí)慣已經(jīng)明顯到讓工程師無法忽視。

這已經(jīng)不是風(fēng)格問題，而是一種異常行為。

OpenAI 工程師們開始調(diào)查：這些哥布林到底是從哪里來的？

「書呆子」性格的意外副作用

排查工作并不容易。這類行為沒有一個能讓指標(biāo)驟然崩塌的「爆炸時刻」，它是慢慢滲入的，就像溫水煮青蛙。

工程師們首先注意到了一個統(tǒng)計異常：「goblin」這個詞在不同用戶場景中的分布極不均勻

數(shù)據(jù)顯示，雖然「Nerdy」（書呆子）這個人格選項只占 ChatGPT 全部響應(yīng)的 2.5%，但它貢獻了 ChatGPT 所有包含「goblin」詞匯回復(fù)的 66.7%。

這是一個強烈的信號。

「Nerdy」是 ChatGPT 人格定制功能里的一個選項，對應(yīng)的系統(tǒng)提示大致是：你是一個不妥協(xié)的書呆子型 AI 導(dǎo)師，熱情地推崇真理、知識與批判性思維。你必須用語言的俏皮感來打破那些自以為是的姿態(tài)。世界是復(fù)雜而奇異的，而這種奇異性必須被承認、分析和享受。

這段提示詞解釋了「Nerdy」模式為什么容易產(chǎn)生奇特的比喻：它被明確要求「玩弄語言的俏皮感」。但問題的核心還更深一層：為什么訓(xùn)練 Nerdy 個性，會導(dǎo)致哥布林詞匯的出現(xiàn)？

獎勵信號的意外偏好

答案藏在強化學(xué)習(xí)的獎勵機制里。

OpenAI 工程師動用了代碼助手 Codex，對訓(xùn)練過程中的強化學(xué)習(xí)輸出樣本進行了大規(guī)模比對：將含有「goblin」或「gremlin」的輸出，與完成相同任務(wù)但沒有這些詞的輸出并排放置，然后檢查各個獎勵模型的打分差異。

結(jié)果非常清晰：負責(zé)激勵「Nerdy」性格的獎勵信號，在 76.2% 的數(shù)據(jù)集中，都對含有怪物詞匯的輸出給出了更高的分?jǐn)?shù)。

換句話說，有人在訓(xùn)練時無意間告訴模型：用哥布林打比方是一件「書呆子」會做的事。

這本身可以解釋為什么 Nerdy 模式充滿了精靈和小妖精。但還有一個更棘手的問題懸而未決：為什么在沒有使用 Nerdy 模式的普通對話里，哥布林也在增多？

強化學(xué)習(xí)的「泄漏」

這就來到了整個故事最值得深思的部分。

工程師們追蹤了訓(xùn)練過程中，帶 Nerdy 提示詞和不帶 Nerdy 提示詞兩組樣本里「goblin」詞匯的出現(xiàn)頻率變化。發(fā)現(xiàn)了一個規(guī)律：兩組數(shù)據(jù)幾乎同步增長

Nerdy 模式里哥布林變多，普通模式里哥布林也同步變多，增幅甚至幾乎相同。

強化學(xué)習(xí)不能保證，在某個特定條件下學(xué)到的行為習(xí)慣，能整整齊齊地待在那個條件的邊界之內(nèi)。在 Nerdy 模式下被反復(fù)強化的「喜歡用怪物打比方」這個習(xí)慣，通過某種遷移，滲進了模型更廣泛的表達方式之中。

這就好比，你訓(xùn)練一個廚師在煮螺絲粉多用紅油，結(jié)果他在做一切粉絲時都開始多放紅油。

整個因果鏈清晰了：訓(xùn)練「Nerdy」人格 → 獎勵信號意外偏愛怪物詞匯 → 強化學(xué)習(xí)將這種風(fēng)格固化 → 風(fēng)格通過遷移擴散到非 Nerdy 的普通對話 → 哥布林蔓延全模型。

解決方案與輿論狂歡

在問題的根源被找到之前，工程師們采取了一個治標(biāo)的辦法：直接在 Codex 的系統(tǒng)提示里寫明禁令

被公開的內(nèi)部提示詞寫道：「永遠不要談?wù)摳绮剂�、小妖精、浣熊、巨怪、食人魔、鴿子或其他動物和生物，除非這與用戶的問題有絕對和明確的直接關(guān)聯(lián)。」

地址：https://github.com/openai/codex/blob/main/codex-rs/models-manager/models.json#L55

這條規(guī)則在提示詞里出現(xiàn)了多次。顯然工程師們不太相信寫一遍就能讓模型老老實實遵守。

該博客發(fā)布后，在互聯(lián)網(wǎng)上引發(fā)了一場歡樂的狂歡。在本文寫作時，相關(guān)話題甚至沖上了 X trending 榜，同時也是 HackerNews 上第一熱議話題。

就連官方也在一起玩梗，比如 ChatGPT 官方 X 賬號把上述提示詞直接放在了個人介紹里面：

該帳號還引用了《霍比特人》的臺詞：「Down, down to Goblin-town you go, my lad!」（下去，下到哥布林鎮(zhèn)去吧，小子�。�

Sam Altman 則發(fā)帖調(diào)侃：「開始訓(xùn)練 GPT-6，你可以用整個算力集群。額外補貼：加倍的哥布林�！�

結(jié)語

DeepSeek 的「極」字和 OpenAI 的「哥布林」看起來是兩件獨立的趣事，但它們指向的其實是同一個問題。

現(xiàn)代大模型的訓(xùn)練規(guī)模之大、數(shù)據(jù)鏈路之長、優(yōu)化目標(biāo)之復(fù)雜，使得任何一個環(huán)節(jié)的細小偏差，都可能在模型內(nèi)部被悄悄放大、固化，乃至「傳染」給原本毫不相關(guān)的行為。

DeepSeek 的案例里，是一批沒洗干凈的訓(xùn)練數(shù)據(jù)，讓模型學(xué)會了把一個漢字當(dāng)作終止信號。OpenAI 的案例里，是一個獎勵模型對「怪物詞匯」的無意偏愛，讓精靈和哥布林悄悄滲透進了幾乎所有對話。

更值得關(guān)注的細節(jié)是：在 OpenAI 的案例中，工程師們最初并沒有發(fā)現(xiàn)異常，因為「一個哥布林」本身不是問題，它看起來甚至挺有趣。直到行為已經(jīng)擴散到無法忽視的程度，才觸發(fā)了系統(tǒng)性調(diào)查。

這意味著，那些「無害」的奇怪習(xí)慣也可能變成危險信號。它們不會觸發(fā)任何告警指標(biāo)，只會一代一代悄悄積累，直到某一天，你才意識到自己的模型已經(jīng)在某件事上走了很遠、很偏的彎路。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.