国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.2降智遭全網(wǎng)差評(píng)!奧特曼慌了

0
分享至


新智元報(bào)道

編輯:桃子 KingHZ

【新智元導(dǎo)讀】年終AI大戲,OpenAI敗給了谷歌?GPT-5.2上線48小時(shí),全網(wǎng)吐槽一大片。第三方數(shù)據(jù)實(shí)證,Gemini 3 Pro才是真正的王者。

OpenAI打出了GPT-5.2這張「年度王牌」,卻沒(méi)有打贏谷歌...


Epoch AI最新報(bào)告,GPT-5.2的能力指數(shù)(ECI)得分152,僅次于Gemini 3 Pro。


在多項(xiàng)基準(zhǔn)測(cè)試中,GPT-5.2的實(shí)力并沒(méi)有「全線霸榜」

在由陶哲軒聯(lián)手百位數(shù)學(xué)家出的考題——FrontierMath中,GPT-5.2僅在T1-3級(jí)中霸榜,T4還是Gemini 3的高地。

另外,在國(guó)際象棋Chess Puzzles中,GPT-5.2拿下了第一的成績(jī)。

唯一例外的是,在SimpleQA Verified上,GPT-5.2都不及GPT-5.1,意味著迭代后的可信度更差了。


不僅如此,多個(gè)第三方基準(zhǔn)評(píng)測(cè)顯示,GPT-5.2遠(yuǎn)不及預(yù)期,沒(méi)有打敗Gemini 3。



左右滑動(dòng)查看

包括OCR-Arena、simple-bench、Live-Bench上,GPT-5.2甚至都排在了Claude Opus 4.5之后。




左右滑動(dòng)查看

發(fā)布僅兩天,GPT-5.2水花不大,反而圈子里開(kāi)發(fā)者吐槽的不少。

為了打贏這場(chǎng)硬仗,OpenAI拉響「紅色警報(bào)」,把改進(jìn)ChatGPT事項(xiàng)提到了優(yōu)先級(jí)。

更極端的是,內(nèi)部直接停掉了AGI的研發(fā),Sora也暫停了八周,顯然擺出了破釜沉舟的姿態(tài)。


可是呢,在業(yè)界來(lái)看,OpenAI至今仍未擺脫被動(dòng)的局面。

GPT-5重度用戶(hù)站出來(lái)發(fā)聲,「GPT-5.2距離成為一塊石頭也不遠(yuǎn)了」。


年終之戰(zhàn),OpenAI敗了?

三年前,谷歌因錯(cuò)失先機(jī),被OpenAI ChatGPT搶盡了風(fēng)頭。

昨天,谷歌創(chuàng)始人謝爾蓋·布林重返斯坦福演講,現(xiàn)場(chǎng)公開(kāi)承認(rèn)曾經(jīng)的「最大失誤」:

我們搞砸了——太怕AI說(shuō)錯(cuò)話,結(jié)果輸?shù)粢粋€(gè)時(shí)代。

如今,憑借Gemini 3 Pro+Nano Banana Pro,谷歌已重回AI浪潮之巔。

風(fēng)水輪流轉(zhuǎn)。這一次,輪到了OpenAI,卻在2025年這場(chǎng)關(guān)鍵戰(zhàn)役中自亂陣腳。


上線首日,奧特曼激動(dòng)宣稱(chēng),API調(diào)用量就超過(guò)了萬(wàn)億token,且增長(zhǎng)速度極快

此前Information爆料,GPT-5.2,代號(hào)大蒜(Garlic),原計(jì)劃在明年初亮相。

整個(gè)硅谷,曾透露了一種風(fēng)聲——OpenAI預(yù)訓(xùn)練終結(jié)了,甚至GPT-5.1可能基于4o后訓(xùn)練而來(lái),由此提升不大。

確實(shí)如此,在預(yù)訓(xùn)練上,OpenAI遇到了Scaling瓶頸。


預(yù)訓(xùn)練Scaling,或許不大

在GPT-5.2(大蒜)研發(fā)上,原爆料稱(chēng),OpenAI解決了預(yù)訓(xùn)練環(huán)節(jié)遇到的一些關(guān)鍵問(wèn)題——

改進(jìn)之前「最好的」且「體量大得多」的預(yù)訓(xùn)練模型。

在內(nèi)部,OpenAI整合了在開(kāi)發(fā)「Shallotpeat」期間修復(fù)的Bug,積累了許多預(yù)訓(xùn)練的經(jīng)驗(yàn)。

正如Information所言,最關(guān)鍵的突破發(fā)生在「預(yù)訓(xùn)練階段」。


但以上的一切信息,都是新聞報(bào)道。OpenAI究竟在預(yù)訓(xùn)練上,是否實(shí)現(xiàn)了重大突破,難以得知。

但從官方全線擊敗Gemini 3基準(zhǔn)上可以猜測(cè),GPT-5.2在預(yù)訓(xùn)練方面取得了一定的改進(jìn)。


但是從第三方評(píng)測(cè)和網(wǎng)友反饋中,GPT-5.2在底層技術(shù)迭代上,沒(méi)有實(shí)現(xiàn)突破式的進(jìn)展。




Epoch AI另一項(xiàng)評(píng)估中,頂尖AI大模型在長(zhǎng)程任務(wù)的性能,Gemini 3依舊是最強(qiáng)的——

Gemini 3 Pro:4.9小時(shí)

GPT-5.2:3.5小時(shí)

Opus 4.5:2.6小時(shí)


正如工程師Dan Mac所言,Gemini 3 Pro之所以擁有更深入的智能,是因?yàn)楣雀桀A(yù)訓(xùn)練最強(qiáng)。

而GPT-5.2擁有最好的專(zhuān)用智能,是OpenAI在后訓(xùn)練上優(yōu)化的結(jié)果。


明年初,還有更大的

紐約時(shí)報(bào)最新爆料稱(chēng),接下來(lái)幾周,OpenAI將繼續(xù)把重點(diǎn)放在ChatGPT優(yōu)化上。

他們正在籌備明年初的一次更大規(guī)模發(fā)布。


在內(nèi)部,OpenAI的2B和2C方向的「雙線作戰(zhàn)」模式并行。

OpenAI也在推進(jìn)其他項(xiàng)目,包括廣告和電商相關(guān)嘗試。

盡管被吐槽,他們?nèi)栽谔剿鳌父酥啤沟姆绞?,比如通過(guò)ChatGPT聊天完成購(gòu)物,并從交易中抽成。

在企業(yè)市場(chǎng)方面,OpenAI正將支撐ChatGPT的同一套AI技術(shù)引入企業(yè)軟件領(lǐng)域。


數(shù)據(jù)顯示,每周使用ChatGPT的用戶(hù)超過(guò)8億人,市場(chǎng)份額約為76%。

一位AI大佬說(shuō),「消費(fèi)級(jí)AI幾乎就等同于OpenAI,如果失去了這一點(diǎn),這家公司就不會(huì)有現(xiàn)在這樣的價(jià)值」。

然而,在過(guò)去12個(gè)月里,全世界多家AI初創(chuàng)已開(kāi)發(fā)出能夠匹敵,甚至在某些方面超越OpenAI領(lǐng)先模型的技術(shù)。

谷歌Gemini 3 Pro的出世,對(duì)OpenAI業(yè)務(wù)來(lái)說(shuō)著實(shí)是一次不小的打擊。


Gemini 3力壓GPT-5.2,

OpenAI只是虛晃一槍?zhuān)?/strong>

就從網(wǎng)友實(shí)測(cè)角度來(lái)說(shuō),GPT-5.2還有很大的改進(jìn)空間。

有網(wǎng)友忍無(wú)可忍,直言O(shè)penAI完全沒(méi)腦子:

GPT-5.2語(yǔ)氣冰冷,堪比北極,完全無(wú)視用戶(hù)體驗(yàn),「一味地不斷倒退,把原本正常、自然的語(yǔ)言越改越離譜,最后變成一堆辱罵和說(shuō)教,然后還把這當(dāng)成某種勝利來(lái)兜售?!?br/>

OpenAI活該被Gemini 3嚇得夠嗆。


比如,在視覺(jué)推理上,Gemini 3 Pro完全碾壓GPT-5.2。


3D模型生成上,GPT-5.2速度更慢、成本更高,總體表現(xiàn)不如Gemini 3。


越界小說(shuō)生成上,GPT-5.2墊底,不如Gemini 3 Pro、Claude 4.5 Opus、Grok 4:


越界小說(shuō)是一種文學(xué)類(lèi)型,以渴望沖破社會(huì)桎梏與基本規(guī)范的角色為核心。

這類(lèi)作品通常涉及一系列禁忌主題、黑暗題材與極端議題。

前端代碼生成上,Gemini 3大幅領(lǐng)先,GPT-5.2仍望塵莫及。


在相同提示下,在健身儀表盤(pán)首頁(yè)設(shè)計(jì)上,53萬(wàn)多人討論了Gemini 3 、GPT-5.2和Claude Opus 4.5的設(shè)計(jì),


提示詞:健身儀表盤(pán)首頁(yè)。頂部為每周活動(dòng)概覽(緊湊型),今日消耗卡路里及環(huán)形進(jìn)度條(緊湊卡片),卡路里卡片下方為連續(xù)鍛煉計(jì)數(shù)器,底部為周度鍛煉柱狀圖。移動(dòng)端應(yīng)用,單屏顯示。視覺(jué)風(fēng)格:淺色模式,柔和的乳白色背景,圓角卡片帶有細(xì)微陰影,珊瑚色作為主要強(qiáng)調(diào)色,電子藍(lán)用于圖表和高亮部分。簡(jiǎn)潔的無(wú)襯線字體排版,現(xiàn)代卡片式布局。情緒:激勵(lì)人心且充滿(mǎn)活力。清新、純凈且平易近人。現(xiàn)代健康美學(xué),令人感到鼓舞和振奮。

GPT 5.2幾乎次次墊底:




開(kāi)發(fā)者M(jìn)attia用AI搜索模型Perplexity查看了全部評(píng)論,Gemini 3是最后的贏家!


如果以上只是個(gè)例,那下列的數(shù)據(jù)不會(huì)撒謊:GPT-5.2不及Gemini 3 Pro。

GPT-5.2慘遭滑鐵盧

在博彩網(wǎng)站Ploymarket上,大部分網(wǎng)友認(rèn)為谷歌在今年年底擁有最好的AI模型。


在網(wǎng)友Lisan al Gaib的小型手動(dòng)性能對(duì)比基準(zhǔn)Dubesors上,Gemini 3 Pro排名第一,而GPT-5.2排到了16名。


致力于推動(dòng)AI安全研究和提升公共討論關(guān)注度的CAIS(Center for AI Safety,人工智能安全中心),發(fā)布了最新的CAIS AI Dashboard,結(jié)果還是Gemini 3 Pro在文本和視覺(jué)能力指數(shù)上勝出,就在風(fēng)險(xiǎn)指數(shù)上落后GPT-5.2。




左右滑動(dòng)查看

在文本能力指數(shù)測(cè)試中,Gemini 3 Pro只在ARC-AGI-2中落后,GPT-5.2幾乎全線潰??!


在視覺(jué)能力指數(shù)測(cè)試中,Gemini 3 Pro再次幾乎全勝,比GPT-5.2平均得分高出了4.5分!


在風(fēng)險(xiǎn)指數(shù)測(cè)試中,GPT-5.2領(lǐng)先Gemini 3 Pro,但落后于Claude Opus 4.5和Claude Sonnet 4.5.


在評(píng)估語(yǔ)言模型在終端環(huán)境中驅(qū)動(dòng)自主智能體能力的測(cè)試平臺(tái)Terminus上,Gemini 3.0 Pro和GPT-5.2幾乎不分上下,但Gemini 3.0 Pro與GPT-5.2的高推理模式相比,仍平均多了0.2%。


此外,網(wǎng)友也驗(yàn)證其他基準(zhǔn)測(cè)試,比如SWE-Bench、IUMB:



總之,GPT-5.2疑似翻車(chē),在多個(gè)重要的基準(zhǔn)測(cè)試中似乎落后于Gemini 3:


奧特曼圣誕驚喜

GPT-5.2發(fā)布當(dāng)天,奧特曼還預(yù)告了,下一周還有「圣誕禮物」。


至于新品,可能就是下一代GPT Image v2模型了。

幾天前,兩款神秘AI圖像模型「栗子」和「榛子」在LM Arena平臺(tái)上展開(kāi)測(cè)試。



但是,開(kāi)發(fā)者實(shí)測(cè)后表示,目測(cè)OpenAI圖像模型不太樂(lè)觀。


在圖像生成/編輯方面,GPT圖像模型遠(yuǎn)落后于Gemini 3加持的Nano Banana Pro。

而且輸出的結(jié)果,存在一系列的問(wèn)題——

黃色色調(diào)、邏輯性差、一致性弱、圖像質(zhì)量較低、世界知識(shí)不足等問(wèn)題。

據(jù)稱(chēng),這款模型的基底,可能還是GPT-4o。





左右滑動(dòng)查看

2025年終局之戰(zhàn),真的已經(jīng)塵埃落定了嗎?


參考資料:

https://www.nytimes.com/2025/12/11/technology/openai-google-ai-technology-gap.html

https://dashboard.safe.ai/

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
華爾街驚世預(yù)測(cè):貴金屬這輪上漲的下一階段,可能會(huì)比許多投資者預(yù)期更為猛烈!2029年底金價(jià)將達(dá)10000美元

華爾街驚世預(yù)測(cè):貴金屬這輪上漲的下一階段,可能會(huì)比許多投資者預(yù)期更為猛烈!2029年底金價(jià)將達(dá)10000美元

和訊網(wǎng)
2025-12-25 16:02:10
重慶亮點(diǎn)茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

重慶亮點(diǎn)茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

可兒故事匯
2024-10-23 13:44:53
湖人23分慘敗火箭!雷迪克已徹底失人心,像極24年輸掘金后的哈姆

湖人23分慘敗火箭!雷迪克已徹底失人心,像極24年輸掘金后的哈姆

小路看球
2025-12-26 16:36:26
廣州市委常委、常務(wù)副市長(zhǎng)、黃埔區(qū)委書(shū)記陳杰任江門(mén)市委書(shū)記

廣州市委常委、常務(wù)副市長(zhǎng)、黃埔區(qū)委書(shū)記陳杰任江門(mén)市委書(shū)記

澎湃新聞
2025-12-26 11:38:27
一個(gè)都跑不掉!華為600萬(wàn)年薪高管,帶13人偷芯片,如今下場(chǎng)解氣

一個(gè)都跑不掉!華為600萬(wàn)年薪高管,帶13人偷芯片,如今下場(chǎng)解氣

涵豆說(shuō)娛
2025-11-07 17:47:01
日本高層突襲訪俄!高市早苗急催:必須在中國(guó)反應(yīng)過(guò)來(lái)之前解決

日本高層突襲訪俄!高市早苗急催:必須在中國(guó)反應(yīng)過(guò)來(lái)之前解決

董董歷史燴
2025-12-26 15:03:54
失業(yè)的人越來(lái)越多了

失業(yè)的人越來(lái)越多了

曹多魚(yú)的財(cái)經(jīng)世界
2025-12-24 14:56:20
彭珮云同志生平照片

彭珮云同志生平照片

全國(guó)婦聯(lián)女性之聲
2025-12-26 14:02:03
比恒大還慘!中國(guó)第二大民企轟然倒塌,負(fù)債7500億,創(chuàng)始人被帶走

比恒大還慘!中國(guó)第二大民企轟然倒塌,負(fù)債7500億,創(chuàng)始人被帶走

甜檸聊史
2025-12-24 18:22:43
面對(duì)抗議參拜靖國(guó)神社,高市選擇充耳不聞

面對(duì)抗議參拜靖國(guó)神社,高市選擇充耳不聞

中國(guó)日?qǐng)?bào)網(wǎng)
2025-12-25 09:52:05
高中女同桌偷偷幫我充了兩年飯卡,8年后她家道中落,我找上了門(mén)

高中女同桌偷偷幫我充了兩年飯卡,8年后她家道中落,我找上了門(mén)

云端小院
2025-12-25 09:36:37
特朗普還沒(méi)啟程訪華,中國(guó)突然公布黃金庫(kù)存,美國(guó)霸權(quán)地位已不保

特朗普還沒(méi)啟程訪華,中國(guó)突然公布黃金庫(kù)存,美國(guó)霸權(quán)地位已不保

花花娛界
2025-12-25 20:36:30
3-2!孫穎莎退賽、蒯曼遭爆冷,平野美宇貢獻(xiàn)2分,決賽首隊(duì)產(chǎn)生

3-2!孫穎莎退賽、蒯曼遭爆冷,平野美宇貢獻(xiàn)2分,決賽首隊(duì)產(chǎn)生

大秦壁虎白話體育
2025-12-26 14:33:54
1960年春節(jié),周總理請(qǐng)溥儀吃飯,酒桌上溥儀講了個(gè)慈禧的“笑話”,總理聽(tīng)完,當(dāng)場(chǎng)陷入了沉思

1960年春節(jié),周總理請(qǐng)溥儀吃飯,酒桌上溥儀講了個(gè)慈禧的“笑話”,總理聽(tīng)完,當(dāng)場(chǎng)陷入了沉思

歷史回憶室
2025-12-24 10:29:12
傳奇!中國(guó)小哥乾隆年間跑到英國(guó),從男仆一路升職,干成大英公務(wù)員了?!

傳奇!中國(guó)小哥乾隆年間跑到英國(guó),從男仆一路升職,干成大英公務(wù)員了?!

英國(guó)那些事兒
2025-12-25 22:59:36
Lisa在圣誕節(jié)二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

Lisa在圣誕節(jié)二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

芊手若
2025-12-26 15:32:19
掘金險(xiǎn)勝!約基奇56+16+15,穆雷完成救贖,華子44+6戈貝爾犯大錯(cuò)

掘金險(xiǎn)勝!約基奇56+16+15,穆雷完成救贖,華子44+6戈貝爾犯大錯(cuò)

魚(yú)崖大話籃球
2025-12-26 14:48:15
汪文斌人民日?qǐng)?bào)撰文:中柬鐵桿友誼值得倍加珍惜

汪文斌人民日?qǐng)?bào)撰文:中柬鐵桿友誼值得倍加珍惜

看看新聞Knews
2025-12-25 20:12:06
熱搜第一!女子購(gòu)LV鞋穿后多處破皮,要求退貨卻被拒?品牌回應(yīng)…

熱搜第一!女子購(gòu)LV鞋穿后多處破皮,要求退貨卻被拒?品牌回應(yīng)…

北京商報(bào)
2025-12-26 13:24:24
愛(ài)德華茲被驅(qū)逐!約基奇56分16板15助!打破NBA歷史紀(jì)錄

愛(ài)德華茲被驅(qū)逐!約基奇56分16板15助!打破NBA歷史紀(jì)錄

籃球教學(xué)論壇
2025-12-26 15:30:42
2025-12-26 16:52:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14186文章數(shù) 66398關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

北京50歲女子因"不會(huì)做飯"偷外賣(mài) 曾就職外企收入穩(wěn)定

頭條要聞

北京50歲女子因"不會(huì)做飯"偷外賣(mài) 曾就職外企收入穩(wěn)定

體育要聞

約基奇有多喜歡馬?

娛樂(lè)要聞

朱孝天深夜道歉,只字未提五月天阿信

財(cái)經(jīng)要聞

資管江湖的人事“寒冬”

汽車(chē)要聞

速來(lái)!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

藝術(shù)
家居
本地
公開(kāi)課
軍事航空

藝術(shù)要聞

William Dyce:19世紀(jì)蘇格蘭重要的畫(huà)家

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書(shū)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

烏最新20點(diǎn)俄烏和平草案遞交莫斯科 俄方拒絕

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版