国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.2 發(fā)布|信息全整理

0
分享至

上周,

剛剛,GPT-5.2 來(lái)了,包含三個(gè)版本

  • ? GPT-5.2 Instant :日常對(duì)話,快

  • ? GPT-5.2 Thinking :深度任務(wù),代碼、長(zhǎng)文檔、數(shù)學(xué)、規(guī)劃

  • ? GPT-5.2 Pro :最強(qiáng),適合難題,愿意等

模型肯定是更強(qiáng)的,比如在AIME 2025 中取得滿分,在 ARC-AGI-2 上拿到了 52.9%(和 Gemini3 相當(dāng))

今天開始向付費(fèi)用戶推送,API 已上線,標(biāo)準(zhǔn)版比 GPT-5.1 貴 40%


GPT-5.2 核心評(píng)測(cè)

如下圖所示,是 GPT-5.2 的相關(guān)核心數(shù)據(jù)


GPT-5.2 Benchmark

注意:

  • ? AIME 2025 滿分(無(wú)工具)

  • ? GPT-5.2 Pro 在 ARC-AGI-1 上達(dá)到 90.5%,是第一個(gè)突破 90% 的模型

  • ? ARC-AGI-2 從 17.6% 到 52.9%,翻了三倍

處理真實(shí)工作

GDPval 是 OpenAI 新出的 benchmark

測(cè)的是 44 個(gè)職業(yè)的真實(shí)工作任務(wù):
做 PPT、做表格、寫分析報(bào)告

GPT-5.2 Thinking 在 70.9% 的任務(wù)上勝過(guò)或打平行業(yè)專家
GPT-5.2 Pro 更高,74.1%


GDPval 知識(shí)工作

速度是人類專家的 11 倍,成本不到 1%
一個(gè)評(píng)審員的評(píng)價(jià):
「看起來(lái)像是一個(gè)有員工的專業(yè)公司做的,布局和建議都很專業(yè),雖然還有一些小錯(cuò)誤需要修正」

在投行分析師的表格建模任務(wù)上
比如給 Fortune 500 公司做三表模型、做 LBO 模型
平均分從 59.1% 提升到 68.4%

官方放了幾個(gè)對(duì)比
GPT-5.2 做的表格和 PPT 比 GPT-5.1 精細(xì)很多


Workforce Planner 對(duì)比,左邊 GPT-5.1,右邊 GPT-5.2

要用這個(gè)功能,需要付費(fèi)版(Plus、Pro、Business、Enterprise),選 GPT-5.2 Thinking 或 Pro

復(fù)雜任務(wù)可能要跑好幾分鐘

寫代碼

SWE-Bench Pro 是新的代碼 benchmark
比 SWE-bench Verified 更難

測(cè)四種語(yǔ)言,不只是 Python,更接近真實(shí)軟件工程
GPT-5.2 Thinking 55.6%,GPT-5.1 是 50.8%


SWE-Bench Pro

前端能力也提升了,尤其是 3D 和復(fù)雜 UI
官方放了幾個(gè) demo,單 prompt 生成的


海浪模擬,單 prompt 生成

對(duì)此,Windsurf 的 CEO 表示
「這是 GPT-5 以來(lái) agentic coding 最大的躍升,版本號(hào)的小幅升級(jí)低估了智能的大幅提升。我們會(huì)把它設(shè)為 Windsurf 和 Devin 核心工作流的默認(rèn)模型」

看圖

視覺能力提升明顯,錯(cuò)誤率基本減半


CharXiv Reasoning

CharXiv Reasoning:科學(xué)論文圖表問(wèn)答,88.7%,GPT-5.1 是 80.3%

ScreenSpot-Pro,GUI 截圖理解,86.3%,GPT-5.1 是 64.2%

此外,一個(gè)很明顯的區(qū)別是:空間位置理解更強(qiáng)了
官方放了個(gè)主板識(shí)別的對(duì)比:給一張低質(zhì)量的主板圖片,讓模型標(biāo)注各個(gè)組件的位置

GPT-5.1 只能標(biāo)幾個(gè),位置也不太對(duì)


GPT-5.1 主板識(shí)別

GPT-5.2 能準(zhǔn)確標(biāo)注各個(gè)組件,位置基本對(duì)


GPT-5.2 主板識(shí)別 長(zhǎng)文檔

OpenAI MRCRv2,測(cè)的是長(zhǎng)文檔中多個(gè)信息點(diǎn)的整合能力
在文檔里插入多個(gè)相同的「針/needl」,然后問(wèn)模型第 n 個(gè)針的內(nèi)容是什么

4 needle 變體,GPT-5.2 Thinking 在 256k token 長(zhǎng)度接近 100%
GPT-5.1 在同樣長(zhǎng)度只有 30% 左右

這是第一個(gè)在 4-needle 變體上達(dá)到接近 100%(256k)的模型


長(zhǎng)上下文 4 needles

8 needle 更難,GPT-5.2 也有顯著提升


長(zhǎng)上下文 8 needles

API 還支持新的 /compact 端點(diǎn),可以擴(kuò)展有效上下文窗口,適合工具多、跑得久的任務(wù)

工具調(diào)用

Tau2-bench 測(cè)的是多輪對(duì)話中的工具使用,模擬客服場(chǎng)景
Telecom 領(lǐng)域,GPT-5.2 Thinking 98.7%,GPT-5.1 是 95.6%
Retail 領(lǐng)域,82.0%,GPT-5.1 是 77.9%


工具調(diào)用

官方舉了個(gè)例子
用戶說(shuō):我從巴黎飛紐約的航班延誤了,錯(cuò)過(guò)了轉(zhuǎn)機(jī)去奧斯汀,行李也丟了,需要在紐約過(guò)夜,還有醫(yī)療原因需要前排座位

GPT-5.1 漏了好幾步


GPT-5.1 工具調(diào)用

GPT-5.2 一次性處理完:改簽、特殊座位、賠償,全部搞定


GPT-5.2 工具調(diào)用 數(shù)學(xué)和科學(xué)

AIME 2025 100%,滿分,無(wú)工具
HMMT 2025 年 2 月 99.4%,Pro 版 100%
GPQA Diamond 92.4%,Pro 版 93.2%
FrontierMath Tier 1-3 40.3%,Tier 4 14.6%
HLE(Humanity's Last Exam)34.5%(無(wú)工具),45.5%(有工具)


數(shù)學(xué)&科學(xué)

ARC-AGI 是測(cè)抽象推理的

ARC-AGI-1,GPT-5.2 Thinking 86.2%,Pro 版 90.5%,第一個(gè)突破 90%

ARC-AGI-2 更難,GPT-5.2 Thinking 52.9%,Pro 版 54.2%

GPT-5.1 Thinking 在 ARC-AGI-2 上只有 17.6%


ARC-AGI 幻覺

在 ChatGPT 真實(shí)用戶查詢上測(cè)試

有錯(cuò)誤的回復(fù)比例從 8.8% 降到 6.2%,相對(duì)減少 30%


幻覺率 價(jià)格

漲了
GPT-5.2 比 GPT-5.1 貴 40%;GPT-5.2 Pro 的價(jià)格,一如既往的貴到離譜


每百萬(wàn) token 價(jià)格

官方解釋:雖然單價(jià)更高,但 token 效率更高,達(dá)到同樣效果的總成本反而更低

ChatGPT 訂閱價(jià)格不變

可用性

ChatGPT 今天開始向付費(fèi)用戶推送:Plus、Pro、Go、Business、Enterprise
如果還沒看到,過(guò)幾天再試

GPT-5.1 在 ChatGPT 中還會(huì)保留三個(gè)月,之后下線
API 已經(jīng)上線:

  • ? gpt-5.2 :Thinking 版

  • ? gpt-5.2-chat-latest :Instant 版

  • ? gpt-5.2-pro :Pro 版

在 PlayGround 里面,可以看到這些模型

新增 xhigh reasoning effort,適合對(duì)質(zhì)量要求最高的任務(wù)
GPT-5.1、GPT-5、GPT-4.1 在 API 中暫時(shí)不會(huì)下線
Codex 優(yōu)化版即將推出

安全

延續(xù)了 GPT-5 的 safe completion 研究
在自殺、自殘、心理健康、情感依賴等敏感對(duì)話上的表現(xiàn)改進(jìn)了


安全性評(píng)估

開始部署年齡預(yù)測(cè)模型,18 歲以下用戶自動(dòng)限制敏感內(nèi)容
官方說(shuō)過(guò)度拒絕的問(wèn)題還在改進(jìn)中

最后

總結(jié)下本次發(fā)布的內(nèi)容

  • ? Code Red 一周后,GPT-5.2 發(fā)布,三個(gè)版本

  • ? 性能更強(qiáng),價(jià)格更貴

  • ? 今天開始向付費(fèi)用戶推送,API 已上線


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不裝了?特朗普打劫百萬(wàn)桶油,航母圍堵南美,中方三招幫委國(guó)破局

不裝了?特朗普打劫百萬(wàn)桶油,航母圍堵南美,中方三招幫委國(guó)破局

念得小柔
2025-12-23 01:58:27
阿森納10號(hào)困局!高價(jià)強(qiáng)援被改造成型,沖冠之路竟埋用人隱患

阿森納10號(hào)困局!高價(jià)強(qiáng)援被改造成型,沖冠之路竟埋用人隱患

體育閑話說(shuō)
2025-12-25 10:30:56
怎么辦?強(qiáng)盜特朗普宣布:中國(guó)被扣押的原油,將由美國(guó)永久保留

怎么辦?強(qiáng)盜特朗普宣布:中國(guó)被扣押的原油,將由美國(guó)永久保留

我心縱橫天地間
2025-12-24 20:50:05
沒想到,46條中日航線取消后,各方勢(shì)力紛紛現(xiàn)身

沒想到,46條中日航線取消后,各方勢(shì)力紛紛現(xiàn)身

有牙的兔紙
2025-12-25 01:46:25
海南封關(guān)讓新加坡沉默了,連美媒集體也不做聲了,這已見怪不怪!

海南封關(guān)讓新加坡沉默了,連美媒集體也不做聲了,這已見怪不怪!

墨蘭史書
2025-12-25 04:10:03
《復(fù)聯(lián)5》82秒預(yù)告引爆全球,英雄再見,漫威你還我十四年!

《復(fù)聯(lián)5》82秒預(yù)告引爆全球,英雄再見,漫威你還我十四年!

八卦南風(fēng)
2025-12-24 18:08:19
特朗普為何罕見強(qiáng)調(diào)新型戰(zhàn)列艦“不針對(duì)中國(guó)”?

特朗普為何罕見強(qiáng)調(diào)新型戰(zhàn)列艦“不針對(duì)中國(guó)”?

看看新聞Knews
2025-12-24 18:01:02
關(guān)系藏不住了!樊振東放著世界冠軍陳夢(mèng)不選,原來(lái)他喜歡這樣的

關(guān)系藏不住了!樊振東放著世界冠軍陳夢(mèng)不選,原來(lái)他喜歡這樣的

誮惜顏a
2025-12-24 05:53:10
不到24小時(shí)美國(guó)扣押第三艘油輪,遭遇強(qiáng)硬對(duì)手引發(fā)海上追逐戰(zhàn)

不到24小時(shí)美國(guó)扣押第三艘油輪,遭遇強(qiáng)硬對(duì)手引發(fā)海上追逐戰(zhàn)

優(yōu)趣紀(jì)史記
2025-12-23 16:23:38
事關(guān)春節(jié)期間煙花爆竹燃放,上海市公安局發(fā)布最新安全管理通告!

事關(guān)春節(jié)期間煙花爆竹燃放,上海市公安局發(fā)布最新安全管理通告!

上觀新聞
2025-12-23 21:12:15
臺(tái)灣其實(shí)根本就不用打,打它干什么?只要把臺(tái)灣海峽劃成戰(zhàn)區(qū)

臺(tái)灣其實(shí)根本就不用打,打它干什么?只要把臺(tái)灣海峽劃成戰(zhàn)區(qū)

百態(tài)人間
2025-12-24 16:46:46
3A游戲市場(chǎng)死了,這次不是“狼來(lái)了”

3A游戲市場(chǎng)死了,這次不是“狼來(lái)了”

3DM游戲
2025-12-23 09:13:27
環(huán)球小姐被要求穿一套自己國(guó)家特色的衣服!然后韓國(guó)亮了

環(huán)球小姐被要求穿一套自己國(guó)家特色的衣服!然后韓國(guó)亮了

譚老師地理大課堂
2025-12-18 17:24:52
向好友發(fā)不雅照片或視頻違法?專家:是誤讀,實(shí)踐執(zhí)行中還應(yīng)細(xì)化分類

向好友發(fā)不雅照片或視頻違法?專家:是誤讀,實(shí)踐執(zhí)行中還應(yīng)細(xì)化分類

封面新聞
2025-12-23 21:37:02
孫海波已任教育部人事司司長(zhǎng)

孫海波已任教育部人事司司長(zhǎng)

澎湃新聞
2025-12-24 22:58:27
更炸裂的來(lái)了,南博的水太深

更炸裂的來(lái)了,南博的水太深

亮見
2025-12-22 14:34:33
阿森納魔鬼賽程到來(lái)!41天踢12場(chǎng)比賽+6戰(zhàn)強(qiáng)隊(duì),4線爭(zhēng)冠或創(chuàng)紀(jì)錄

阿森納魔鬼賽程到來(lái)!41天踢12場(chǎng)比賽+6戰(zhàn)強(qiáng)隊(duì),4線爭(zhēng)冠或創(chuàng)紀(jì)錄

體育知多少
2025-12-25 10:26:21
中央定調(diào)!2026年房貸1%貼息全國(guó)落地,月供降幅精準(zhǔn)測(cè)算來(lái)了

中央定調(diào)!2026年房貸1%貼息全國(guó)落地,月供降幅精準(zhǔn)測(cè)算來(lái)了

老特有話說(shuō)
2025-12-24 21:41:08
何晴葬禮結(jié)束10天,閨蜜催淚發(fā)文,才知14歲許何搬離許亞軍家真相

何晴葬禮結(jié)束10天,閨蜜催淚發(fā)文,才知14歲許何搬離許亞軍家真相

阿纂看事
2025-12-25 10:30:44
0分0板0助0斷0帽!連刷4場(chǎng)五零神跡,卻坐穩(wěn)輪換,開拓者會(huì)搞事情

0分0板0助0斷0帽!連刷4場(chǎng)五零神跡,卻坐穩(wěn)輪換,開拓者會(huì)搞事情

球童無(wú)忌
2025-12-24 13:44:19
2025-12-25 12:00:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
224文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

屠龍少年被"招安"!英偉達(dá)平安夜豪擲200億

頭條要聞

讓美國(guó)人跌入深淵的"斬殺線":四口之家一年要賺98萬(wàn)元

頭條要聞

讓美國(guó)人跌入深淵的"斬殺線":四口之家一年要賺98萬(wàn)元

體育要聞

單賽季11冠,羽壇“安洗瑩時(shí)代”真的來(lái)了

娛樂要聞

金莎小19歲男友求婚成功!兩人雪地?fù)砦?/h3>

財(cái)經(jīng)要聞

美國(guó)未來(lái)18個(gè)月不對(duì)中國(guó)芯片加額外關(guān)稅

汽車要聞

預(yù)售31.3萬(wàn)元起 全新奧迪Q5L將于1月內(nèi)上市

態(tài)度原創(chuàng)

本地
游戲
親子
教育
手機(jī)

本地新聞

云游安徽|亳州晨暮皆成史,街巷縱橫印春秋

Xbox360何以為經(jīng)典?外媒盤點(diǎn)10款Xbox360時(shí)代神作

親子要聞

小小房缺引發(fā)奪命案,醫(yī)院加急手術(shù)藏貓膩,家屬哭訴觸目驚心

教育要聞

高二英語(yǔ)穩(wěn)定135以上,怎么上140?感覺就是差那么一點(diǎn)

手機(jī)要聞

Fairphone 4手機(jī)“圣誕更新”后變磚,用戶反饋無(wú)法開機(jī)、充電

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版