国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.2深夜炸場,評測碾壓谷歌Gemini 3 Pro,真正的打工人利器

0
分享至

  作者|沐風(fēng)

  來源|AI先鋒官

  上周,OpenAI CEO奧特曼剛宣布完公司進(jìn)入“紅色警戒”(Code Red)狀態(tài),要求團(tuán)隊將工作重心轉(zhuǎn)移到提高ChatGPT的性能和用戶體驗上后。

  就在今天,OpenAI發(fā)布了最新的頂級模型 GPT-5.2系列。

  GPT-5.2 將向 ChatGPT 付費用戶開放,并通過 API 提供給開發(fā)者,一共分為三個系列:

  GPT?5.2 Instant(即時版)

  GPT?5.2 Thinking(思考版)

  GPT?5.2 Pro(專業(yè)版)

  在OpenAI官方公布的基準(zhǔn)測試中,它幾乎對Gemini 3 Pro、Claude Opus 4.5實現(xiàn)了全方位碾壓。

  

  值得注意的是,GPT?5.2 Thinking在AIME 2025(數(shù)學(xué))的分?jǐn)?shù)達(dá)到了滿分,Gemini 3 Pro 的分?jǐn)?shù)是 95%。

  OpenAI應(yīng)用CEO Fidji Simo曾說過,GPT-5.2 的設(shè)計目標(biāo)就是為人們創(chuàng)造更多經(jīng)濟價值。

  那么如何創(chuàng)造呢?

  那就不得不提到GPT-5.2的拿手好戲:制作電子表格、構(gòu)建演示文稿、編寫代碼、理解圖像、處理超長上下文、使用工具,以及執(zhí)行復(fù)雜的多步驟項目等等。

  空口無憑,讓我們先來看看數(shù)據(jù)。

  在OpenAI新出的基準(zhǔn)測試GDPval(覆蓋 44 個職業(yè)、針對明確知識工作任務(wù)的評估體系)中,GPT-5.2 Thinking 在70.9%的任務(wù)上勝過或打平行業(yè)專家,GPT-5.2 Pro更高,為74.1%。

  

  主要測試內(nèi)容為制作演示文稿、電子表格以及其他專業(yè)產(chǎn)出物。

  官方還放出了對比圖,GPT-5.2 做的表格比GPT-5.1確實精細(xì)很多。

  

  一個評審員對此的評價是:“看起來像是一個有員工的專業(yè)公司做的,布局和建議都很專業(yè),雖然還有一些小錯誤需要修正。”

  另外,GPT-5.2 Thinking生成輸出的速度也超過人類專家11 倍以上,成本不到人類專家的1%。

  OpenAI 聲稱這是AI模型首次達(dá)到了“人類專家水平”。

  在ARC-AGI放出的測試中,此前o3 (High) 在ARC-AGI-1測試得分為88%,平均每項任務(wù)成本為4500美元。

  而GPT-5.2 Pro (X-High) 最新SOTA得分為90.5%,是第一個突破90%的模型,它的平均任務(wù)成本僅為11.64美元,在一年內(nèi)效率提高了約390倍。

  

  ARC-AGI-2(抽象推理)的分?jǐn)?shù)是 52.9%,相較此前翻了三倍,對比Gemini 3 Pro是 31.1 %。

  

  GPT-5.2 Thinking的代碼能力也同樣刷新了紀(jì)錄:

  在SWE-bench Verified上,得分達(dá)到80%。

  在SWE-Bench Pro上,得分達(dá)到55.6%。

  

  SWE-Bench Pro是新的代碼基準(zhǔn)測試,比SWE-bench Verified更難,涵蓋四種編程語言,不只是Python,更接近真實軟件工程。

  早期測試者特別提到,GPT-5.2在前端的能力也明顯提升了,尤其是3D和復(fù)雜UI。

  官方也放出了由單prompt生成的demo:

  

  同時,GPT-5.2 Thinking在長文檔處理方面的表現(xiàn)也很亮眼。

  在OpenAI自制的MRCRv2(長文檔中多個信息點的整合能力)評測中,GPT-5.2 Thinking成為首個在256k 上下文長的4-needle上達(dá)到接近100%準(zhǔn)確率的模型。

  

  不過,更難的8 needle版還是有明顯下降。

  

  GPT-5.2 Thinking的視覺能力也明顯提升,錯誤率基本減半。

  在CharXiv Reasoning測試中,GPT-5.2 Thinking得分達(dá)到88.7%,GPT-5.1是80.3%。

  

  在ScreenSpot-Pro測試中,GPT-5.2 Thinking得分達(dá)到86.3%。GPT-5.1 是 64.2%。

  

  在官方放出的示例中,OpenAI 要求模型識別輸入圖像中的組件,并返回帶有大致邊界框的標(biāo)簽。

  

  即使在低質(zhì)量圖像上,GPT-5.2 也能識別出主要區(qū)域,并放置有時能與每個組件真實位置相匹配的框;而 GPT-5.1 僅標(biāo)記了少數(shù)幾個部分,且對其空間排列的理解要弱得多。

  而且,GPT-5.2 Thinking 的幻覺比GPT-5.1 Thinking更少了。

  在一組去標(biāo)識化的ChatGPT查詢中,前者包含錯誤的回答相對減少了30%。

  

  最后,我們來聊聊價格,GPT-5.2的價格一如既往的貴到離譜。

  GPT-5.2的定價為1.75美元/百萬輸入Token,14美元/百萬輸出Token,緩存輸入有90%的折扣,比GPT-5.1貴40%。

  ChatGPT訂閱價格不變。

  

  但是!

  在多個智能體評估中,盡管GPT-5.2的每Token成本更高,但GPT-5.2由于更高的Token效率,性價比反而更高。

  ChatGPT 將于今日開始逐步推出 GPT-5.2(包括 Instant、Thinking 和 Pro 版本),首先面向付費用戶(Plus、Pro、Go、Business 和 Enterprise 版本)提供。

  為確保 ChatGPT 的流暢性和穩(wěn)定性,GPT-5.2 將分階段部署,在 ChatGPT 中,付費用戶仍可在三個月內(nèi)繼續(xù)使用 GPT-5.1(舊版模式),之后 GPT-5.1 將逐步下線。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
新婚夜被丈夫家暴,我連夜出走,第二天回去時,發(fā)現(xiàn)他已經(jīng)涼了

新婚夜被丈夫家暴,我連夜出走,第二天回去時,發(fā)現(xiàn)他已經(jīng)涼了

千秋文化
2026-03-20 20:35:00
4萬股民懵了!002538突遭ST,明起停牌

4萬股民懵了!002538突遭ST,明起停牌

大眾證券報
2026-03-29 11:34:12
長期熬夜后突發(fā)心梗倒地昏迷,搶救成功后回農(nóng)村靜養(yǎng),40歲心梗幸存者“二梨”:心臟疼痛必須立刻去醫(yī)院,倒在醫(yī)院被救活的概率比外面大

長期熬夜后突發(fā)心梗倒地昏迷,搶救成功后回農(nóng)村靜養(yǎng),40歲心梗幸存者“二梨”:心臟疼痛必須立刻去醫(yī)院,倒在醫(yī)院被救活的概率比外面大

極目新聞
2026-03-27 23:24:09
上海知名主持周瑾:從不做飯全靠外賣,真實家庭狀態(tài)令人意外

上海知名主持周瑾:從不做飯全靠外賣,真實家庭狀態(tài)令人意外

日落于西
2026-03-28 21:21:53
以軍完成對伊朗首都 新一輪大規(guī)模空襲

以軍完成對伊朗首都 新一輪大規(guī)模空襲

每日經(jīng)濟新聞
2026-03-29 07:46:47
以色列最擔(dān)心的事發(fā)生:伊朗送出“大禮”,特朗普的反應(yīng)出人意料

以色列最擔(dān)心的事發(fā)生:伊朗送出“大禮”,特朗普的反應(yīng)出人意料

空天力量
2026-03-28 17:14:31
河南一法官被通報索賄涉44條人命遭捕,竟毫發(fā)無損穩(wěn)坐審判席審案

河南一法官被通報索賄涉44條人命遭捕,竟毫發(fā)無損穩(wěn)坐審判席審案

追月數(shù)星
2026-03-29 16:49:01
美國怕的不是伊朗,如果不是中國虎視眈眈,美伊戰(zhàn)爭或許早已結(jié)束

美國怕的不是伊朗,如果不是中國虎視眈眈,美伊戰(zhàn)爭或許早已結(jié)束

安安說
2026-03-29 13:42:09
軍號被粉底液將軍粉絲圍攻,編劇汪海林發(fā)聲:真是無法無天

軍號被粉底液將軍粉絲圍攻,編劇汪海林發(fā)聲:真是無法無天

往史過眼云煙
2026-03-28 14:32:07
邵佳一規(guī)定:不得外出購物,此前國足0-7輸日本還大包小包買特產(chǎn)

邵佳一規(guī)定:不得外出購物,此前國足0-7輸日本還大包小包買特產(chǎn)

茜子足球
2026-03-29 14:58:56
迪麗熱巴官宣,這一戰(zhàn)她贏了,恭喜!

迪麗熱巴官宣,這一戰(zhàn)她贏了,恭喜!

黎兜兜
2026-03-28 21:19:15
網(wǎng)約車司機花1200元把車改成“頭等艙”,收到6000元打賞

網(wǎng)約車司機花1200元把車改成“頭等艙”,收到6000元打賞

用車指南
2026-03-29 10:01:32
張康陽現(xiàn)狀證明,不怕富二代躺平就怕有野心,僅5年千億身價歸零

張康陽現(xiàn)狀證明,不怕富二代躺平就怕有野心,僅5年千億身價歸零

青杉依舊啊啊
2026-03-19 22:10:26
北京男子靠龍蝦OpenClaw實現(xiàn)36小時買房:龍蝦迅速篩出周邊房源,2小時內(nèi)獨自對比大量中介并選定,精準(zhǔn)摸清歷史最低成交價

北京男子靠龍蝦OpenClaw實現(xiàn)36小時買房:龍蝦迅速篩出周邊房源,2小時內(nèi)獨自對比大量中介并選定,精準(zhǔn)摸清歷史最低成交價

揚子晚報
2026-03-29 19:35:46
汽柴油即將下調(diào)!3月29日92/95號汽油最新價,4月7日調(diào)價窗口開啟

汽柴油即將下調(diào)!3月29日92/95號汽油最新價,4月7日調(diào)價窗口開啟

沙雕小琳琳
2026-03-29 10:28:54
張雪峰女兒發(fā)聲悼念惹淚目,員工回應(yīng)其二婚爆料,靈堂遺照已曝光

張雪峰女兒發(fā)聲悼念惹淚目,員工回應(yīng)其二婚爆料,靈堂遺照已曝光

小徐講八卦
2026-03-28 06:21:26
定了!公安部正式官宣,6月1日起全國推行10項便民新措施

定了!公安部正式官宣,6月1日起全國推行10項便民新措施

混沌錄
2026-03-28 20:14:21
張雪峰追悼會破防一幕:朋友三鞠躬,員工卻磕頭,看完瞬間淚目

張雪峰追悼會破防一幕:朋友三鞠躬,員工卻磕頭,看完瞬間淚目

行者聊官
2026-03-28 12:37:18
國足vs喀麥??!4231陣型首發(fā)浮現(xiàn):韋世豪搭檔張玉寧,劍指2連勝

國足vs喀麥隆!4231陣型首發(fā)浮現(xiàn):韋世豪搭檔張玉寧,劍指2連勝

球場沒跑道
2026-03-29 14:40:20
不裝了!徐帆回應(yīng)離婚7個月后,馮小剛貼臉養(yǎng)女,擔(dān)心的事發(fā)生了

不裝了!徐帆回應(yīng)離婚7個月后,馮小剛貼臉養(yǎng)女,擔(dān)心的事發(fā)生了

共工之錨
2026-03-29 18:18:53
2026-03-29 21:43:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評測
466文章數(shù) 69關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

動車被困隧道內(nèi)停車斷電4個小時 乘客:有人緊張暈倒

頭條要聞

動車被困隧道內(nèi)停車斷電4個小時 乘客:有人緊張暈倒

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻(xiàn)給父親

娛樂要聞

張凌赫事件持續(xù)升級!官方點名怒批

財經(jīng)要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

本地
數(shù)碼
教育
旅游
公開課

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

數(shù)碼要聞

DDR5內(nèi)存價格回落!專家:仍將持續(xù)下探

教育要聞

總想養(yǎng)聽話的孩子,其實正在毀掉他一生

旅游要聞

半日游、一日游都有!南京棲霞發(fā)布首批27條精品研學(xué)路線

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版