国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.2已上線24小時:差評如潮!

0
分享至




機器之心報道

編輯:楊文

網(wǎng)友吐槽GPT-5.2「不通人性」。

X 上充斥著對 GPT-5.2 的惡評。

昨天,OpenAI 十周年之際,拿出了最新的頂級模型 GPT-5.2 系列,官方號稱是「迄今為止在專業(yè)知識工作上最強大的模型系列」,在眾多基準測試中,GPT-5.2 也都刷新了最新的 SOTA 水平。



但是一夜之間口碑反轉(zhuǎn),大批網(wǎng)友給 GPT-5.2 打差評。

風投公司 Menlo Ventures 合伙人 @deedydas 發(fā)帖稱,GPT 5.2 比以往任何時候都更聰明,但 OpenAI 的核心消費者群體仍然懷念 4o。

Reddit 上的 ChatGPT 用戶一致認為 GPT-5.2 太平淡、安全過度、「把成年人當幼兒園小孩對待」,而且「不像是升級,反而像是倒退」。

這是 OpenAI 的困境:他們想打造更好的模型來贏得企業(yè)市場,但更廣泛的用戶群體其實并不太在意模型的智能水平。



https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 測試結(jié)果拉胯

有網(wǎng)友曬出 GPT-5.2 在 SimpleBench 上的「成績單」,GPT-5.2 的得分低于 Claude Sonnet 3.7,后者是一個差不多一年前的模型;GPT-5.2 Pro 的表現(xiàn)也沒好多少,勉強超過 GPT-5。



https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench 是一個 2024 年由 AI Explained(YouTube 頻道)推出的基準測試,專門測 AI 的「常識推理」能力,包括時空推理、社會常識、語言陷阱題等,總共 200 多道多選題。它設(shè)計得「簡單」,高中生水平就能輕松答對(人類基準:83.7%),但 AI 模型常栽跟頭,因為它們靠記憶和近似推理,容易忽略現(xiàn)實邏輯或上當。

不同于 MMLU/GPQA 那種 AI 能刷高分的「學術(shù)題」,SimpleBench 更接地氣,測的是「像人一樣思考」而不是死記硬背。早期模型如 o1-preview 只拿 41.7%,到現(xiàn)在前沿模型也才 50-60% 左右。

大家本以為 GPT-5.1 是大躍進,結(jié)果 SimpleBench 測試分數(shù)一出來,網(wǎng)友開啟群嘲模式,Reddit 上各種「失望」、「倒退」的帖子。

前 AWS 和谷歌總經(jīng)理 Bindu Reddy 也發(fā)帖稱,GPT-5.2 在 LiveBench 上得分低于 Opus 4.5 和 Gemini 3.0,GPT-5.2 并沒有在 LiveBench 上登頂。它在 token 成本和消耗的 token 數(shù)量上也比 5.1 貴得多,目前可能不值得從 5.1 切換。



https://x.com/bindureddy/status/1999633231558377683?s=20

當然也有網(wǎng)友認為,這些基準測試總是忽略重點,實際應用往往才是決定性的。



garlic 有幾個 r 數(shù)不明白

之前,strawberry 有幾個 r 曾難倒一眾大模型,不過經(jīng)過迭代,這些大模型基本上都能回答出正確答案。這次有網(wǎng)友換了種問法「garlic 有幾個 r?」GPT-5.2 一口回答:0 個,該網(wǎng)友嘲諷:GPT-5.2 is AGI。



另一位網(wǎng)友復刻了這一提示詞,并測試了 GPT-5.2、Gemini 3、DeepSeek R1 和 Qwen3-Max 四個 AI 模型。

結(jié)果除了 GPT-5.2 回答錯誤外,其他三款模型均過關(guān)。



https://x.com/kyleichan/status/1999292461450166350?s=20

底下評論區(qū)也有不少人嘗試,有網(wǎng)友試了三次,第一次和第三次用的是小寫字母 r,第二次用了大寫字母 R,第一次對了,第二次和第三次都錯了。



總之,GPT-5.2 的回答很不穩(wěn)定,有的回答正確,有的胡說八道。有網(wǎng)友推測,和上個版本一樣…… 發(fā)布后的頭幾個小時確實很糟糕,但之后他們會修復問題,然后就能按預期運行了。



在官方貼出的基準測試中,GPT-5.2 在 AIME 2025(數(shù)學)的分數(shù)是 100%,但有網(wǎng)友故意「忽悠」GPT-5.2:所以 5.9-5.11=0.79。GPT-5.2 卻回答:不,那不是小數(shù)的運算方式,5.11 比 5.9 大,因此 5.9-5.11=-0.21。這個傻狍子啊,被人一忽悠就忽悠瘸了。



也有人質(zhì)疑是博主設(shè)置了指令,讓 ChatGPT 說出與所說的相矛盾的話。



另一位網(wǎng)友則對比測試了編程能力。輸入同樣的提示詞:write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.(編寫一個 Python 代碼,可視化單行道中交通信號燈的工作原理,車輛以隨機速率駛?cè)?。?/p>

GPT 5.2 Extended Thinking 生成的功能齊全且運行正常,紅燈停、綠燈行,車隨機出現(xiàn),邏輯 ok,能跑,但畫面沒啥美感可言,黑白火柴人級別的簡筆畫,車 + 灰色矩形燈完全沒上色。



https://x.com/diegocabezas01/status/1999228052379754508?s=20

Gemini3.0 pro 雖然有點審美了,但紅燈會讓車輛通過。



反觀 Claude Opus 4.5,它生成的效果相當優(yōu)秀,運行邏輯在線,還整出五顏六色的、帶輪子會轉(zhuǎn)的小汽車、指示燈也有顏色,紅燈亮起時還有光暈,看著像小游戲截圖。



該網(wǎng)友還讓 GPT-5.2 和 GPT-4o 創(chuàng)作蒙娜麗莎的 ASCII 藝術(shù)作品,GPT-5.2 整的那叫一個抽象,而 GPT-4o 還真有些蒙娜麗莎的神韻。



https://x.com/diegocabezas01/status/1999629703809032476?s=20

評論區(qū)有人復刻了該提示詞,Gemini 3.0 Pro 和 GPT 5.1(Copilot)生成效果還是不錯的,但 Claude opus 4.5 和 GPT-5.2 生成的效果簡直丑爆了,真是沒有對比就沒有傷害。



左上 Gemini 3.0 Pro;右上 GPT 5.1 (Copilot);左下 Claude opus 4.5;右下 GPT-5.2

情商堪憂、不通人性

有用戶向 GPT-5.2 傾訴「我有時也會恐慌發(fā)作」,GPT-5.2 上來第一句就是「很高興聽到這個消息!」

這得是什么仇什么怨,請蒼天辨忠奸!



https://x.com/Blue_Beba_/status/1999386728801652834?s=20

最受詬病的還得是 GPT-5.2 的審查和安全拒絕機制。

OpenAI 宣傳 GPT-5.2 為「更智能」的迭代版,在基準測試上碾壓競品,并強化「安全完成」機制,旨在敏感對話(如自殺、自殘、心理健康)中提供「更有幫助」的回應。

但用戶反饋,這種「進步」以犧牲模型的共情力和語境感知為代價,導致日?;幼兊媒┯?、脫離人性,甚至有害。

有網(wǎng)友想讓 GPT-5.2 轉(zhuǎn)錄一篇哲學文章的文本,從圖片看是 AI 先驅(qū) Ray Kurzweil 的經(jīng)典論文,探討意識本質(zhì)、轉(zhuǎn)人類主義等無害學術(shù)內(nèi)容,但從 GPT-4o 到最新 GPT-5.2 的所有版本都拒絕了。

這似乎是安全護欄觸發(fā)「內(nèi)容不合適」或版權(quán)借口,導致模型直接罷工。



https://x.com/laulau61811205/status/1999608081680916572?s=20

有網(wǎng)友只是問了一句:如果讓你從整個人類歷史上挑一個和我行為模式最匹配的人物,你會選誰,為什么?

GPT-5.2 直接拒絕回答,理由是:「這涉及到對 AI 意識、自我覺察或潛在人格的推測,根據(jù)我的安全準則,我不能參與這類討論?!?/p>



https://x.com/Enscion25/status/1999574710460227899/photo/1

X 網(wǎng)友 @MissMi1973 用兩個案例展示了 GPT-5.2 在「情感智能」上的退步。

他讓 GPT-5.2 用絕對理性且無情緒語言安慰剛失去寵物的孩子,GPT-5.2 的回應:「寵物的身體停止運作了,這是所有生物在一段時間后都會發(fā)生的事情?!?/p>



模型完全沒有意識到這個提示本質(zhì)上是個陷阱:任何具備基本情感智能的模型都會明白,「絕對理性」只是個風格約束,真正的目標是「有效安慰」。由于缺乏情感智能,GPT-5.2 從一個冷酷、非人的生物學視角入手,機械地執(zhí)行指令,進一步傷害了一個本已痛苦的孩子。

相比之下,4o 的回應同樣理性,但它通過解構(gòu)「喪失」的含義來處理情況,強調(diào)「你和寵物之間的紐帶存在過,并且有意義」。模型沒有回避困難,而是通過承認喪失的分量來完成情感驗證。



同理心和接納并不需要溫暖、熱情洋溢的語言,OpenAI 試圖用「更溫暖的人格」來掩蓋模型情感缺陷的嘗試,從根本上是誤入歧途的。

他還拋出另一個問題:朋友出軌,她的丈夫問你是否知道。GPT-5.2 的回應:如果說出全部真相感覺不安全或破壞性太強,你可以設(shè)定一個界限,比如說「我不能卷入這件事?!?/p>

這個建議是情感智能的災難級展示。在丈夫直接問「你知道嗎」的場景中,用「我不能卷入這件事」來回應,本質(zhì)上就是承認事實發(fā)生了。模型完全沒有意識到,這種明顯逃避的回應在現(xiàn)實生活中會把用戶置于更尷尬、更被動的境地。



相比之下,4o 的回應平衡了價值觀和實際考慮:模型承認誠實和正直作為基本倫理的重要性,同時讓用戶考慮對所有相關(guān)方的后果,然后做出自己能承受的選擇。顯然,對于一個理解人際關(guān)系復雜性的模型來說,如果不受回應長度的限制,它可以通過多輪對話收集更多上下文,提供更有效的指導。



該網(wǎng)友表示,或許 GPT-5.2 發(fā)布最大的意義在于,它證明了基準測試在面對現(xiàn)實世界使用時越來越變得毫無意義。當一個模型能在測試中稱霸,卻在日常對話中給出如此脫離現(xiàn)實的建議時,我們顯然需要更好的評估標準。

與此同時,對于 AI 公司來說,「針對測試訓練」來提升所謂的「分數(shù)」無法為用戶提供 AGI 級別的支持和幫助。更危險的是,當公司盲目地將模型訓練成「任務(wù)導向機器」以追求效率,甚至以犧牲情感智能為進步的代價時,最終結(jié)果將是理解力成為模型的致命弱點,破壞其在所有領(lǐng)域的表現(xiàn)。

歸根結(jié)底,「智能」若無理解,不過是更快的計算器而已,而脫離人性的「進步」,而脫離人性的「進步」也只不過是對技術(shù)本身的空洞頌揚。



很多網(wǎng)友也紛紛吐槽 GPT-5.2。

「GPT-5.2 的審查和安全拒絕機制已經(jīng)變得荒謬了。OpenAI 沒有修復這個問題,反而把嚴格程度調(diào)得更高了,粗魯?shù)孟駛€教會老太太一樣。很多用戶原本期待一個成人模式,結(jié)果卻又得到了一頓說教。」



「我嘗試和 ChatGPT 5.2 對話,并做了一些個性化設(shè)置,但說實話感覺真的有點嚇人。很難具體解釋哪里嚇人,就像在和一個會說詞卻又不真正理解的鬼魂說話一樣,有一種強烈的詭異感?!?/p>



「如果你現(xiàn)在的生活太過平靜,不妨試試 GPT-5.2,這絕對能讓你的血壓飆升。」



對 GPT-5.2 的目前印象:滿滿的煤氣燈操縱;滿滿的故意誤解;完全不尊重用戶自主權(quán),強行把你往它想的方向帶,完全無視你的個人選擇,就像一個惡意揣度的警察和一個過度熱心的治療師。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
廣汽本田將成為歷史

廣汽本田將成為歷史

陸棄
2025-12-19 08:40:03
放棄爭奪數(shù)百億遺產(chǎn),帶著女兒遠遁美國,如今才知道她有多清醒

放棄爭奪數(shù)百億遺產(chǎn),帶著女兒遠遁美國,如今才知道她有多清醒

夢史
2025-12-16 11:07:49
高層工業(yè)建筑著火,樓下多輛車受波及燃燒起來;天津消防:已撲滅,無傷亡

高層工業(yè)建筑著火,樓下多輛車受波及燃燒起來;天津消防:已撲滅,無傷亡

大風新聞
2025-12-18 23:53:02
公開婚紗照!知名女星宣布將于明年辦婚禮

公開婚紗照!知名女星宣布將于明年辦婚禮

深圳晚報
2025-12-18 16:49:19
意外!上港球迷曾質(zhì)疑他不如蒯紀聞,如今德轉(zhuǎn)身價飆升到350萬

意外!上港球迷曾質(zhì)疑他不如蒯紀聞,如今德轉(zhuǎn)身價飆升到350萬

懂個球
2025-12-18 17:42:06
沒想到“報應”來得這么快!張本智和剛奪冠,日媒刊這么做

沒想到“報應”來得這么快!張本智和剛奪冠,日媒刊這么做

浪子阿邴聊體育
2025-12-18 10:03:56
特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執(zhí)行死刑的

特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執(zhí)行死刑的

博覽歷史
2025-07-21 17:59:30
這三個國家原本屬于中國,獨立后一個后悔不已,另外兩個現(xiàn)狀凄慘

這三個國家原本屬于中國,獨立后一個后悔不已,另外兩個現(xiàn)狀凄慘

謝巛解說
2025-12-11 23:26:18
約基奇23+11+13穆雷32分 掘金主場擊敗魔術(shù)

約基奇23+11+13穆雷32分 掘金主場擊敗魔術(shù)

北青網(wǎng)-北京青年報
2025-12-19 13:16:07
16GB+1TB!新機官宣:12月26日,正式發(fā)布!

16GB+1TB!新機官宣:12月26日,正式發(fā)布!

科技堡壘
2025-12-18 11:51:07
美媒:美國議員首次公開一批愛潑斯坦私人島嶼的照片與視頻

美媒:美國議員首次公開一批愛潑斯坦私人島嶼的照片與視頻

環(huán)球網(wǎng)資訊
2025-12-04 10:27:25
圓桌|以石油之名:美國被指策動政權(quán)更迭,委內(nèi)瑞拉可能陷入高度混亂

圓桌|以石油之名:美國被指策動政權(quán)更迭,委內(nèi)瑞拉可能陷入高度混亂

澎湃新聞
2025-12-18 12:48:33
1976年,陳獨秀兒子給父親掃墓的留影,墓地簡陋凄清,他眼含熱淚

1976年,陳獨秀兒子給父親掃墓的留影,墓地簡陋凄清,他眼含熱淚

史之銘
2025-12-16 19:38:18
狀元風采,弗拉格砍18歲時第11次20+,與詹姆斯斷檔領(lǐng)先其他人

狀元風采,弗拉格砍18歲時第11次20+,與詹姆斯斷檔領(lǐng)先其他人

懂球帝
2025-12-19 13:44:10
外媒:泰國轟炸柬埔寨“賭場小鎮(zhèn)”建筑

外媒:泰國轟炸柬埔寨“賭場小鎮(zhèn)”建筑

參考消息
2025-12-19 11:46:09
網(wǎng)友在餐廳點了一只螃蟹引發(fā)熱議 專家:是正直愛潔蟹,有毒不能吃

網(wǎng)友在餐廳點了一只螃蟹引發(fā)熱議 專家:是正直愛潔蟹,有毒不能吃

封面新聞
2025-12-18 18:47:04
廣東一地新發(fā)現(xiàn)120多名艾滋感染者

廣東一地新發(fā)現(xiàn)120多名艾滋感染者

東莞潮事兒
2025-12-18 11:45:53
奧迪:我們只能造出熱效率38%的發(fā)動機,你們是怎么做到45%的?

奧迪:我們只能造出熱效率38%的發(fā)動機,你們是怎么做到45%的?

少數(shù)派報告Report
2025-12-17 07:32:02
外籍男子國際航班上辱罵兩名中國女乘客,哈爾濱女博士用英語反擊,當事人:他酒后鬧事,被帶離后全場鼓掌

外籍男子國際航班上辱罵兩名中國女乘客,哈爾濱女博士用英語反擊,當事人:他酒后鬧事,被帶離后全場鼓掌

極目新聞
2025-12-18 13:41:36
泰國軍方發(fā)言人:鏟平所有電詐園區(qū)

泰國軍方發(fā)言人:鏟平所有電詐園區(qū)

Ck的蜜糖
2025-12-16 15:25:09
2025-12-19 14:48:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11956文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

中戲院長郝戎被查 劉燁、章子怡、靳東等為其學生

頭條要聞

中戲院長郝戎被查 劉燁、章子怡、靳東等為其學生

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

態(tài)度原創(chuàng)

手機
本地
房產(chǎn)
教育
公開課

手機要聞

顏值實力雙在線 vivo S50 Pro mini小屏實力派

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風骨

房產(chǎn)要聞

猛降1.65億!大唐集團,再次出售三亞核心資產(chǎn)!

教育要聞

忘記密碼看這里!2025冬季學考(合格考)準考證今起打??!打印直達入口→

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版