網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

GPT-5.2已上線24小時：差評如潮！

2025-12-15 14:30:48　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：楊文

網(wǎng)友吐槽GPT-5.2「不通人性」。

X 上充斥著對 GPT-5.2 的惡評。

昨天，OpenAI 十周年之際，拿出了最新的頂級模型 GPT-5.2 系列，官方號稱是「迄今為止在專業(yè)知識工作上最強大的模型系列」，在眾多基準測試中，GPT-5.2 也都刷新了最新的 SOTA 水平。

但是一夜之間口碑反轉(zhuǎn)，大批網(wǎng)友給 GPT-5.2 打差評。

風投公司 Menlo Ventures 合伙人 @deedydas 發(fā)帖稱，GPT 5.2 比以往任何時候都更聰明，但 OpenAI 的核心消費者群體仍然懷念 4o。

Reddit 上的 ChatGPT 用戶一致認為 GPT-5.2 太平淡、安全過度、「把成年人當幼兒園小孩對待」，而且「不像是升級，反而像是倒退」。

這是 OpenAI 的困境：他們想打造更好的模型來贏得企業(yè)市場，但更廣泛的用戶群體其實并不太在意模型的智能水平。

https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 測試結(jié)果拉胯

有網(wǎng)友曬出 GPT-5.2 在 SimpleBench 上的「成績單」，GPT-5.2 的得分低于 Claude Sonnet 3.7，后者是一個差不多一年前的模型；GPT-5.2 Pro 的表現(xiàn)也沒好多少，勉強超過 GPT-5。

https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench 是一個 2024 年由 AI Explained（YouTube 頻道）推出的基準測試，專門測 AI 的「常識推理」能力，包括時空推理、社會常識、語言陷阱題等，總共 200 多道多選題。它設(shè)計得「簡單」，高中生水平就能輕松答對（人類基準：83.7%），但 AI 模型常栽跟頭，因為它們靠記憶和近似推理，容易忽略現(xiàn)實邏輯或上當。

不同于 MMLU/GPQA 那種 AI 能刷高分的「學術(shù)題」，SimpleBench 更接地氣，測的是「像人一樣思考」而不是死記硬背。早期模型如 o1-preview 只拿 41.7%，到現(xiàn)在前沿模型也才 50-60% 左右。

大家本以為 GPT-5.1 是大躍進，結(jié)果 SimpleBench 測試分數(shù)一出來，網(wǎng)友開啟群嘲模式，Reddit 上各種「失望」、「倒退」的帖子。

前 AWS 和谷歌總經(jīng)理 Bindu Reddy 也發(fā)帖稱，GPT-5.2 在 LiveBench 上得分低于 Opus 4.5 和 Gemini 3.0，GPT-5.2 并沒有在 LiveBench 上登頂。它在 token 成本和消耗的 token 數(shù)量上也比 5.1 貴得多，目前可能不值得從 5.1 切換。

https://x.com/bindureddy/status/1999633231558377683?s=20

當然也有網(wǎng)友認為，這些基準測試總是忽略重點，實際應用往往才是決定性的。

garlic 有幾個 r 數(shù)不明白

之前，strawberry 有幾個 r 曾難倒一眾大模型，不過經(jīng)過迭代，這些大模型基本上都能回答出正確答案。這次有網(wǎng)友換了種問法「garlic 有幾個 r？」GPT-5.2 一口回答：0 個，該網(wǎng)友嘲諷：GPT-5.2 is AGI。

另一位網(wǎng)友復刻了這一提示詞，并測試了 GPT-5.2、Gemini 3、DeepSeek R1 和 Qwen3-Max 四個 AI 模型。

結(jié)果除了 GPT-5.2 回答錯誤外，其他三款模型均過關(guān)。

https://x.com/kyleichan/status/1999292461450166350?s=20

底下評論區(qū)也有不少人嘗試，有網(wǎng)友試了三次，第一次和第三次用的是小寫字母 r，第二次用了大寫字母 R，第一次對了，第二次和第三次都錯了。

總之，GPT-5.2 的回答很不穩(wěn)定，有的回答正確，有的胡說八道。有網(wǎng)友推測，和上個版本一樣…… 發(fā)布后的頭幾個小時確實很糟糕，但之后他們會修復問題，然后就能按預期運行了。

在官方貼出的基準測試中，GPT-5.2 在 AIME 2025（數(shù)學）的分數(shù)是 100%，但有網(wǎng)友故意「忽悠」GPT-5.2：所以 5.9-5.11=0.79。GPT-5.2 卻回答：不，那不是小數(shù)的運算方式，5.11 比 5.9 大，因此 5.9-5.11=-0.21。這個傻狍子啊，被人一忽悠就忽悠瘸了。

也有人質(zhì)疑是博主設(shè)置了指令，讓 ChatGPT 說出與所說的相矛盾的話。

另一位網(wǎng)友則對比測試了編程能力。輸入同樣的提示詞：write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.（編寫一個 Python 代碼，可視化單行道中交通信號燈的工作原理，車輛以隨機速率駛?cè)?。?/p>

GPT 5.2 Extended Thinking 生成的功能齊全且運行正常，紅燈停、綠燈行，車隨機出現(xiàn)，邏輯 ok，能跑，但畫面沒啥美感可言，黑白火柴人級別的簡筆畫，車 + 灰色矩形燈完全沒上色。

https://x.com/diegocabezas01/status/1999228052379754508?s=20

Gemini3.0 pro 雖然有點審美了，但紅燈會讓車輛通過。

反觀 Claude Opus 4.5，它生成的效果相當優(yōu)秀，運行邏輯在線，還整出五顏六色的、帶輪子會轉(zhuǎn)的小汽車、指示燈也有顏色，紅燈亮起時還有光暈，看著像小游戲截圖。

該網(wǎng)友還讓 GPT-5.2 和 GPT-4o 創(chuàng)作蒙娜麗莎的 ASCII 藝術(shù)作品，GPT-5.2 整的那叫一個抽象，而 GPT-4o 還真有些蒙娜麗莎的神韻。

https://x.com/diegocabezas01/status/1999629703809032476?s=20

評論區(qū)有人復刻了該提示詞，Gemini 3.0 Pro 和 GPT 5.1（Copilot）生成效果還是不錯的，但 Claude opus 4.5 和 GPT-5.2 生成的效果簡直丑爆了，真是沒有對比就沒有傷害。

左上 Gemini 3.0 Pro；右上 GPT 5.1 (Copilot)；左下 Claude opus 4.5；右下 GPT-5.2

情商堪憂、不通人性

有用戶向 GPT-5.2 傾訴「我有時也會恐慌發(fā)作」，GPT-5.2 上來第一句就是「很高興聽到這個消息！」

這得是什么仇什么怨，請蒼天辨忠奸！

https://x.com/Blue_Beba_/status/1999386728801652834?s=20

最受詬病的還得是 GPT-5.2 的審查和安全拒絕機制。

OpenAI 宣傳 GPT-5.2 為「更智能」的迭代版，在基準測試上碾壓競品，并強化「安全完成」機制，旨在敏感對話（如自殺、自殘、心理健康）中提供「更有幫助」的回應。

但用戶反饋，這種「進步」以犧牲模型的共情力和語境感知為代價，導致日?；幼兊媒┯?、脫離人性，甚至有害。

有網(wǎng)友想讓 GPT-5.2 轉(zhuǎn)錄一篇哲學文章的文本，從圖片看是 AI 先驅(qū) Ray Kurzweil 的經(jīng)典論文，探討意識本質(zhì)、轉(zhuǎn)人類主義等無害學術(shù)內(nèi)容，但從 GPT-4o 到最新 GPT-5.2 的所有版本都拒絕了。

這似乎是安全護欄觸發(fā)「內(nèi)容不合適」或版權(quán)借口，導致模型直接罷工。

https://x.com/laulau61811205/status/1999608081680916572?s=20

有網(wǎng)友只是問了一句：如果讓你從整個人類歷史上挑一個和我行為模式最匹配的人物，你會選誰，為什么？

GPT-5.2 直接拒絕回答，理由是：「這涉及到對 AI 意識、自我覺察或潛在人格的推測，根據(jù)我的安全準則，我不能參與這類討論?！?/p>

https://x.com/Enscion25/status/1999574710460227899/photo/1

X 網(wǎng)友 @MissMi1973 用兩個案例展示了 GPT-5.2 在「情感智能」上的退步。

他讓 GPT-5.2 用絕對理性且無情緒語言安慰剛失去寵物的孩子，GPT-5.2 的回應：「寵物的身體停止運作了，這是所有生物在一段時間后都會發(fā)生的事情?！?/p>

模型完全沒有意識到這個提示本質(zhì)上是個陷阱：任何具備基本情感智能的模型都會明白，「絕對理性」只是個風格約束，真正的目標是「有效安慰」。由于缺乏情感智能，GPT-5.2 從一個冷酷、非人的生物學視角入手，機械地執(zhí)行指令，進一步傷害了一個本已痛苦的孩子。

相比之下，4o 的回應同樣理性，但它通過解構(gòu)「喪失」的含義來處理情況，強調(diào)「你和寵物之間的紐帶存在過，并且有意義」。模型沒有回避困難，而是通過承認喪失的分量來完成情感驗證。

同理心和接納并不需要溫暖、熱情洋溢的語言，OpenAI 試圖用「更溫暖的人格」來掩蓋模型情感缺陷的嘗試，從根本上是誤入歧途的。

他還拋出另一個問題：朋友出軌，她的丈夫問你是否知道。GPT-5.2 的回應：如果說出全部真相感覺不安全或破壞性太強，你可以設(shè)定一個界限，比如說「我不能卷入這件事?！?/p>

這個建議是情感智能的災難級展示。在丈夫直接問「你知道嗎」的場景中，用「我不能卷入這件事」來回應，本質(zhì)上就是承認事實發(fā)生了。模型完全沒有意識到，這種明顯逃避的回應在現(xiàn)實生活中會把用戶置于更尷尬、更被動的境地。

相比之下，4o 的回應平衡了價值觀和實際考慮：模型承認誠實和正直作為基本倫理的重要性，同時讓用戶考慮對所有相關(guān)方的后果，然后做出自己能承受的選擇。顯然，對于一個理解人際關(guān)系復雜性的模型來說，如果不受回應長度的限制，它可以通過多輪對話收集更多上下文，提供更有效的指導。

該網(wǎng)友表示，或許 GPT-5.2 發(fā)布最大的意義在于，它證明了基準測試在面對現(xiàn)實世界使用時越來越變得毫無意義。當一個模型能在測試中稱霸，卻在日常對話中給出如此脫離現(xiàn)實的建議時，我們顯然需要更好的評估標準。

與此同時，對于 AI 公司來說，「針對測試訓練」來提升所謂的「分數(shù)」無法為用戶提供 AGI 級別的支持和幫助。更危險的是，當公司盲目地將模型訓練成「任務(wù)導向機器」以追求效率，甚至以犧牲情感智能為進步的代價時，最終結(jié)果將是理解力成為模型的致命弱點，破壞其在所有領(lǐng)域的表現(xiàn)。

歸根結(jié)底，「智能」若無理解，不過是更快的計算器而已，而脫離人性的「進步」，而脫離人性的「進步」也只不過是對技術(shù)本身的空洞頌揚。

很多網(wǎng)友也紛紛吐槽 GPT-5.2。

「GPT-5.2 的審查和安全拒絕機制已經(jīng)變得荒謬了。OpenAI 沒有修復這個問題，反而把嚴格程度調(diào)得更高了，粗魯?shù)孟駛€教會老太太一樣。很多用戶原本期待一個成人模式，結(jié)果卻又得到了一頓說教。」

「我嘗試和 ChatGPT 5.2 對話，并做了一些個性化設(shè)置，但說實話感覺真的有點嚇人。很難具體解釋哪里嚇人，就像在和一個會說詞卻又不真正理解的鬼魂說話一樣，有一種強烈的詭異感?！?/p>

「如果你現(xiàn)在的生活太過平靜，不妨試試 GPT-5.2，這絕對能讓你的血壓飆升。」

對 GPT-5.2 的目前印象：滿滿的煤氣燈操縱；滿滿的故意誤解；完全不尊重用戶自主權(quán)，強行把你往它想的方向帶，完全無視你的個人選擇，就像一個惡意揣度的警察和一個過度熱心的治療師。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.