国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5系列咋都愛說「哥布林」?原因找到了

0
分享至



編輯|Panda

去年夏天,DeepSeek V3.1 驚現(xiàn)神秘「極」字 Bug。簡單來說,就是 DeepSeek V3.1 模型的輸出里總是會莫名其妙出現(xiàn)「極」字,有趣的是就連其英文輸出也會出現(xiàn)對應(yīng)的「extreme」。參閱《熱議!DeepSeek V3.1 驚現(xiàn)神秘「極」字 Bug,模型故障了?》

事件引發(fā)廣泛熱議,網(wǎng)友戲稱這是「極你太美」bug,或者「極」速版 DeepSeek。

研究者事后推測,這個「極」字來自訓(xùn)練數(shù)據(jù)中一組未被清洗干凈的「極長數(shù)組」。在強化學(xué)習(xí)階段,模型將它學(xué)成了一種特殊的終止符或語言切換標(biāo)記。換句話說,不是模型壞了,而是模型學(xué)得太認真了 ——認真學(xué)了一個錯誤的習(xí)慣

這件事在 AI 圈引發(fā)了廣泛討論:大模型訓(xùn)練的過程如此復(fù)雜,我們真的能完全預(yù)測它會學(xué)到什么嗎?

無獨有偶,OpenAI 的模型也有一個類似的但更加奇幻的問題:它的模型迷上了哥布林。今天,OpenAI 還正式發(fā)布了一篇博客,解釋了「哥布林究竟從何而來」, 奧特曼本人也在 X 上廣播了一下。



此時自然引發(fā)了廣泛討論和調(diào)侃:



還有人打趣說要拯救哥布林:



那么,哥布林究竟從何而來?



博客地址:https://openai.com/index/where-the-goblins-came-from/

據(jù) OpenAI 介紹,從 GPT-5.1 開始,OpenAI 的模型在回答各類問題時,開始越來越頻繁地使用一個詞:goblin(哥布林)。



起初,這只是偶爾為之:一個「little goblin」出現(xiàn)在某個技術(shù)比喻里,既沒影響準(zhǔn)確性,甚至有幾分討喜的俏皮感。



但隨著模型版本的迭代,哥布林不再只是偶爾探個頭,它開始成群結(jié)隊地出現(xiàn)。它的同伴 gremlin(小妖精)、troll(巨怪)、ogre(食人魔)也陸續(xù)加入。



在 GPT-5.5 及其驅(qū)動的代碼助手 Codex 的早期測試中,這一習(xí)慣已經(jīng)明顯到讓工程師無法忽視。



這已經(jīng)不是風(fēng)格問題,而是一種異常行為。

OpenAI 工程師們開始調(diào)查:這些哥布林到底是從哪里來的?

「書呆子」性格的意外副作用

排查工作并不容易。這類行為沒有一個能讓指標(biāo)驟然崩塌的「爆炸時刻」,它是慢慢滲入的,就像溫水煮青蛙。

工程師們首先注意到了一個統(tǒng)計異常:「goblin」這個詞在不同用戶場景中的分布極不均勻

數(shù)據(jù)顯示,雖然「Nerdy」(書呆子)這個人格選項只占 ChatGPT 全部響應(yīng)的 2.5%,但它貢獻了 ChatGPT 所有包含「goblin」詞匯回復(fù)的 66.7%。



這是一個強烈的信號。

「Nerdy」是 ChatGPT 人格定制功能里的一個選項,對應(yīng)的系統(tǒng)提示大致是:你是一個不妥協(xié)的書呆子型 AI 導(dǎo)師,熱情地推崇真理、知識與批判性思維。你必須用語言的俏皮感來打破那些自以為是的姿態(tài)。世界是復(fù)雜而奇異的,而這種奇異性必須被承認、分析和享受。

這段提示詞解釋了「Nerdy」模式為什么容易產(chǎn)生奇特的比喻:它被明確要求「玩弄語言的俏皮感」。但問題的核心還更深一層:為什么訓(xùn)練 Nerdy 個性,會導(dǎo)致哥布林詞匯的出現(xiàn)?

獎勵信號的意外偏好

答案藏在強化學(xué)習(xí)的獎勵機制里。

OpenAI 工程師動用了代碼助手 Codex,對訓(xùn)練過程中的強化學(xué)習(xí)輸出樣本進行了大規(guī)模比對:將含有「goblin」或「gremlin」的輸出,與完成相同任務(wù)但沒有這些詞的輸出并排放置,然后檢查各個獎勵模型的打分差異。

結(jié)果非常清晰:負責(zé)激勵「Nerdy」性格的獎勵信號,在 76.2% 的數(shù)據(jù)集中,都對含有怪物詞匯的輸出給出了更高的分?jǐn)?shù)。

換句話說,有人在訓(xùn)練時無意間告訴模型:用哥布林打比方是一件「書呆子」會做的事。

這本身可以解釋為什么 Nerdy 模式充滿了精靈和小妖精。但還有一個更棘手的問題懸而未決:為什么在沒有使用 Nerdy 模式的普通對話里,哥布林也在增多?

強化學(xué)習(xí)的「泄漏」

這就來到了整個故事最值得深思的部分。

工程師們追蹤了訓(xùn)練過程中,帶 Nerdy 提示詞和不帶 Nerdy 提示詞兩組樣本里「goblin」詞匯的出現(xiàn)頻率變化。發(fā)現(xiàn)了一個規(guī)律:兩組數(shù)據(jù)幾乎同步增長





Nerdy 模式里哥布林變多,普通模式里哥布林也同步變多,增幅甚至幾乎相同。

強化學(xué)習(xí)不能保證,在某個特定條件下學(xué)到的行為習(xí)慣,能整整齊齊地待在那個條件的邊界之內(nèi)。在 Nerdy 模式下被反復(fù)強化的「喜歡用怪物打比方」這個習(xí)慣,通過某種遷移,滲進了模型更廣泛的表達方式之中。

這就好比,你訓(xùn)練一個廚師在煮螺絲粉多用紅油,結(jié)果他在做一切粉絲時都開始多放紅油。

整個因果鏈清晰了:訓(xùn)練「Nerdy」人格 → 獎勵信號意外偏愛怪物詞匯 → 強化學(xué)習(xí)將這種風(fēng)格固化 → 風(fēng)格通過遷移擴散到非 Nerdy 的普通對話 → 哥布林蔓延全模型。

解決方案與輿論狂歡

在問題的根源被找到之前,工程師們采取了一個治標(biāo)的辦法:直接在 Codex 的系統(tǒng)提示里寫明禁令

被公開的內(nèi)部提示詞寫道:「永遠不要談?wù)摳绮剂、小妖精、浣熊、巨怪、食人魔、鴿子或其他動物和生物,除非這與用戶的問題有絕對和明確的直接關(guān)聯(lián)。」



地址:https://github.com/openai/codex/blob/main/codex-rs/models-manager/models.json#L55

這條規(guī)則在提示詞里出現(xiàn)了多次。顯然工程師們不太相信寫一遍就能讓模型老老實實遵守。

該博客發(fā)布后,在互聯(lián)網(wǎng)上引發(fā)了一場歡樂的狂歡。在本文寫作時,相關(guān)話題甚至沖上了 X trending 榜,同時也是 HackerNews 上第一熱議話題。



就連官方也在一起玩梗,比如 ChatGPT 官方 X 賬號把上述提示詞直接放在了個人介紹里面:



該帳號還引用了《霍比特人》的臺詞:「Down, down to Goblin-town you go, my lad!」(下去,下到哥布林鎮(zhèn)去吧,小子。



Sam Altman 則發(fā)帖調(diào)侃:「開始訓(xùn)練 GPT-6,你可以用整個算力集群。額外補貼:加倍的哥布林!



結(jié)語

DeepSeek 的「極」字和 OpenAI 的「哥布林」看起來是兩件獨立的趣事,但它們指向的其實是同一個問題。

現(xiàn)代大模型的訓(xùn)練規(guī)模之大、數(shù)據(jù)鏈路之長、優(yōu)化目標(biāo)之復(fù)雜,使得任何一個環(huán)節(jié)的細小偏差,都可能在模型內(nèi)部被悄悄放大、固化,乃至「傳染」給原本毫不相關(guān)的行為。

DeepSeek 的案例里,是一批沒洗干凈的訓(xùn)練數(shù)據(jù),讓模型學(xué)會了把一個漢字當(dāng)作終止信號。OpenAI 的案例里,是一個獎勵模型對「怪物詞匯」的無意偏愛,讓精靈和哥布林悄悄滲透進了幾乎所有對話。

更值得關(guān)注的細節(jié)是:在 OpenAI 的案例中,工程師們最初并沒有發(fā)現(xiàn)異常,因為「一個哥布林」本身不是問題,它看起來甚至挺有趣。直到行為已經(jīng)擴散到無法忽視的程度,才觸發(fā)了系統(tǒng)性調(diào)查。

這意味著,那些「無害」的奇怪習(xí)慣也可能變成危險信號。它們不會觸發(fā)任何告警指標(biāo),只會一代一代悄悄積累,直到某一天,你才意識到自己的模型已經(jīng)在某件事上走了很遠、很偏的彎路。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
恒力集團:恒力重工目前手持訂單已排至2030年

恒力集團:恒力重工目前手持訂單已排至2030年

界面新聞
2026-04-30 12:00:53
陳思誠賭贏了!《10間敢死隊》口碑井噴,王傳君妻子出場驚艷全場

陳思誠賭贏了!《10間敢死隊》口碑井噴,王傳君妻子出場驚艷全場

星宿影視鴨
2026-04-30 18:37:12
小米YU9實車曝光:5.2米六座+天地門+1500公里續(xù)航,37萬起必賣爆

小米YU9實車曝光:5.2米六座+天地門+1500公里續(xù)航,37萬起必賣爆

數(shù)碼八叔
2026-04-29 19:35:26
CBA官方:山西汾酒助教布扎斯因發(fā)表指責(zé)裁判言論,罰款3萬元

CBA官方:山西汾酒助教布扎斯因發(fā)表指責(zé)裁判言論,罰款3萬元

懂球帝
2026-04-30 16:21:05
權(quán)宦逼皇帝下跪,皇帝笑著照做,回頭對錦衣衛(wèi)說:把他剁碎了喂狗

權(quán)宦逼皇帝下跪,皇帝笑著照做,回頭對錦衣衛(wèi)說:把他剁碎了喂狗

老達子
2026-04-30 06:20:08
75歲劉曉慶被指耍大牌,現(xiàn)身萬歲山,和王婆同臺全程黑臉拒絕講話

75歲劉曉慶被指耍大牌,現(xiàn)身萬歲山,和王婆同臺全程黑臉拒絕講話

喜歡歷史的阿繁
2026-04-30 19:14:32
決定英明果斷。中央終于出手了!

決定英明果斷。中央終于出手了!

果媽聊娛樂
2026-04-29 14:08:29
1972年公安部的通緝令——63軍副軍長余洪信因強奸殺人被通緝

1972年公安部的通緝令——63軍副軍長余洪信因強奸殺人被通緝

顧史
2026-04-30 01:50:44
趙薇曬北電96級同學(xué)聚會照,黃曉明保養(yǎng)太絕,與男同學(xué)們像差了輩

趙薇曬北電96級同學(xué)聚會照,黃曉明保養(yǎng)太絕,與男同學(xué)們像差了輩

清川逐影
2026-04-30 19:27:38
5月新規(guī)正式落地!轉(zhuǎn)賬嚴(yán)查全面開啟,普通人日常轉(zhuǎn)賬一定要留心

5月新規(guī)正式落地!轉(zhuǎn)賬嚴(yán)查全面開啟,普通人日常轉(zhuǎn)賬一定要留心

老特有話說
2026-04-29 15:03:03
馬奎斯想不通!自己拼死拼活跑比賽,在中國知名度竟被老實人碾壓

馬奎斯想不通!自己拼死拼活跑比賽,在中國知名度竟被老實人碾壓

童叔不飆車
2026-04-30 14:17:56
今年8月能吃到!塔克拉瑪干沙漠引入28萬只,養(yǎng)在昆侖山雪水中

今年8月能吃到!塔克拉瑪干沙漠引入28萬只,養(yǎng)在昆侖山雪水中

萬象硬核本尊
2026-04-30 19:37:47
卡西三粒爆米花引爆伯納烏:13年后,穆帥鐵腕再臨皇馬更衣室?

卡西三粒爆米花引爆伯納烏:13年后,穆帥鐵腕再臨皇馬更衣室?

落夜足球
2026-04-29 21:49:36
花掉三億人民幣,打撈一艘800年沉船,打開船艙后,所有人都懵了

花掉三億人民幣,打撈一艘800年沉船,打開船艙后,所有人都懵了

海佑講史
2026-04-30 17:15:12
職稱倒查風(fēng)暴來襲

職稱倒查風(fēng)暴來襲

職場資深秘書
2026-04-30 15:56:12
公開曬結(jié)婚證!趙露思:我會一直一直保護你的幸福

公開曬結(jié)婚證!趙露思:我會一直一直保護你的幸福

黔鄉(xiāng)小姊妹
2026-04-28 08:16:52
《妻子的浪漫旅行2026》很明顯,馬頔不喜歡孫楊!

《妻子的浪漫旅行2026》很明顯,馬頔不喜歡孫楊!

娛樂圈筆娛君
2026-04-30 18:10:27
美國質(zhì)問中國:若中國真的愛好和平,為何還要大力發(fā)展軍事?

美國質(zhì)問中國:若中國真的愛好和平,為何還要大力發(fā)展軍事?

墨羽怪談
2026-04-21 18:29:25
暴雨、大暴雨要來了!小心9~10級大風(fēng)!五一出行提前準(zhǔn)備

暴雨、大暴雨要來了!小心9~10級大風(fēng)!五一出行提前準(zhǔn)備

新浪財經(jīng)
2026-04-30 20:19:02
故事:產(chǎn)婦活蹦亂跳送進醫(yī)院待產(chǎn),晚上母嬰雙亡,通過錄像得出真相

故事:產(chǎn)婦活蹦亂跳送進醫(yī)院待產(chǎn),晚上母嬰雙亡,通過錄像得出真相

紅豆講堂
2024-12-19 10:54:00
2026-04-30 22:07:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12898文章數(shù) 142640關(guān)注度
往期回顧 全部

科技要聞

9000億美元估值,Anthropic即將反超OpenAI

頭條要聞

廣州一段路泊位最高收132元/天 市民收萬元罰單也不停

頭條要聞

廣州一段路泊位最高收132元/天 市民收萬元罰單也不停

體育要聞

季后賽場均5.4分,他憑啥在騎士打首發(fā)?

娛樂要聞

孫楊博士學(xué)歷有問題?官方含糊其辭

財經(jīng)要聞

易會滿被“雙開”!

汽車要聞

專訪捷途汪如生:捷途雙線作戰(zhàn) 全球化全面落地

態(tài)度原創(chuàng)

藝術(shù)
手機
家居
健康
公開課

藝術(shù)要聞

安東·愛德華·基爾德魯普:19世紀(jì)丹麥風(fēng)景畫家

手機要聞

米粉狂喜!小米玄戒O3芯片參數(shù)全曝光,全新架構(gòu),碾壓驍龍8 Elite

家居要聞

靈動實用 生活藝術(shù)場

干細胞治燒燙傷能用了么?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版