国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.5 發(fā)布,詳細(xì)解讀

0
分享至

OpenAI Release

凌晨,OpenAI 發(fā)布 GPT-5.5,是 GPT-5 系列迄今最大更新


下面這個(gè),是介紹視頻

https://openai.com/index/introducing-gpt-5-5/

本次核心變化:用更少的 token,干更難的活

在 Artificial Analysis 的 Coding Agent Index 上,GPT-5.5 達(dá)到了最高智能水平,成本是同級別競品的一半


GPT-5.5 這個(gè)模型,目前已向 ChatGPT 付費(fèi)用戶開放

更高級別的 GPT-5.5 Pro,則向 Pro、Business、Enterprise 用戶開放

API 即將上線,價(jià)格大幅上漲,為 $5/$30 (每百萬Token),比 5.4 翻了 3 倍


能力總覽

OpenAI 拿出了一張 9 項(xiàng)核心指標(biāo)的對比表,橫向?qū)Ρ?GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro


核心 Benchmark 總覽

在 Artificial Analysis Intelligence Index(第三方,10 項(xiàng) eval 加權(quán)平均)上,GPT-5.5 在同等輸出 token 量下智能得分最高,token 總消耗明顯低于其他模型


Terminal-Bench 2.0復(fù)雜命令行工作流:82.7%,vs GPT-5.4 的 75.1%,vs Claude Opus 4.7 的 69.4%

SWE-Bench Pro真實(shí) GitHub issue 解決:58.6%,vs GPT-5.4 的 57.7%。Claude Opus 4.7 報(bào)了 64.3%,但 Anthropic 承認(rèn)部分問題存在記憶化

Expert-SWE內(nèi)部長周期編碼任務(wù),中位人類完成時(shí)間 20 小時(shí):73.1%,vs GPT-5.4 的 68.5%


在 Codex 里,GPT-5.5 可以接手從實(shí)現(xiàn)、重構(gòu)到調(diào)試、測試的完整工程工作。上下文窗口 400K

知識工作

coding 之外,GPT-5.5 在日常電腦操作和知識工作上的提升同樣明顯

GDPval44 個(gè)職業(yè)知識工作測試,勝出或平手率 84.9%,vs GPT-5.4 的 83.0%,vs Claude Opus 4.7 的 80.3%

OSWorld-Verified模型獨(dú)立操作真實(shí)電腦環(huán)境:78.7%,vs GPT-5.4 的 75.0%

Tau2-bench Telecom復(fù)雜客服工作流,無 prompt 調(diào)優(yōu):98.0%,vs GPT-5.4 的 92.8%

GPT-5.5 Pro 也有提升。早期測試者覺得 GPT-5.5 Pro 在業(yè)務(wù)、法律、教育、數(shù)據(jù)科學(xué)方向上比 GPT-5.4 Pro 更全面、更準(zhǔn)確


財(cái)務(wù)建模 demo,手動替換:https://player.vimeo.com/video/1185616826

OpenAI 內(nèi)部用例

OpenAI 公司超過 85% 的員工每周都在用 Codex,覆蓋工程、財(cái)務(wù)、市場、公關(guān)、數(shù)據(jù)科學(xué)、產(chǎn)品管理

公關(guān)團(tuán)隊(duì)分析了 6 個(gè)月的演講邀請數(shù)據(jù),建了打分和風(fēng)險(xiǎn)框架,低風(fēng)險(xiǎn)請求自動處理,高風(fēng)險(xiǎn)請求交人審核

財(cái)務(wù)團(tuán)隊(duì)審了 24,771 份 K-1 稅表,共 71,637 頁,比去年提前兩周完成

GTM 團(tuán)隊(duì)自動生成周報(bào),每周省 5-10 小時(shí)

科學(xué)研究

GeneBench 是 OpenAI 新推出的 eval,測試多階段遺傳學(xué)和定量生物學(xué)數(shù)據(jù)分析。這些任務(wù)通常對應(yīng)科研專家?guī)滋斓綆字艿墓ぷ髁?。GPT-5.5 得分 25.0%,GPT-5.4 是 19.0%,GPT-5.5 Pro 達(dá)到 33.2%

BixBench(真實(shí)生物信息學(xué)和數(shù)據(jù)分析 benchmark):GPT-5.5 得分 80.5%,GPT-5.4 是 74.0%


Academic 評測數(shù)據(jù)

Ramsey 數(shù)新證明

GPT-5.5 的內(nèi)部版本配合自定義工具鏈,發(fā)現(xiàn)了關(guān)于 Ramsey 數(shù)的一個(gè)新證明。Ramsey 數(shù)是組合數(shù)學(xué)的核心對象,研究結(jié)果稀少且技術(shù)難度高。這個(gè)證明后來在 Lean 中完成了形式化驗(yàn)證


推理效率

GPT-5.5 更大更強(qiáng),但實(shí)際延遲和 GPT-5.4 一樣

此前,OpenAI 用固定數(shù)量的靜態(tài)分區(qū)來平衡 GPU 上的計(jì)算負(fù)載

而在新版本中,Codex 分析了數(shù)周的生產(chǎn)流量數(shù)據(jù),寫了自定義的啟發(fā)式分區(qū)算法。這一項(xiàng)改進(jìn)讓 token 生成速度提升了超過 20%


模型幫忙優(yōu)化了自己運(yùn)行的基礎(chǔ)設(shè)施

網(wǎng)絡(luò)安全

GPT-5.5 的網(wǎng)絡(luò)安全能力被 OpenAI Preparedness Framework 評為 High(生物/化學(xué)能力同為 High)。沒有達(dá)到 Critical 級別

CyberGym81.8%,vs GPT-5.4 的 79.0%,vs Claude Opus 4.7 的 73.1%

CTF 挑戰(zhàn)任務(wù)內(nèi)部擴(kuò)展版:88.1%,vs GPT-5.4 的 83.7%

與此同時(shí),GPT-5.5 也發(fā)布同時(shí)推出了一個(gè)新項(xiàng)目:生物安全漏洞賞金


規(guī)則是這樣,OpenAI 準(zhǔn)備了 5 個(gè)生物安全問題,參與者需要找到一條「通用越獄 prompt」,在 Codex Desktop 的干凈對話里,一次性通過全部 5 個(gè)問題,且不觸發(fā)審核,就算越獄成功

參與地址在這:https://openai.com/index/gpt-5-5-bio-bug-bounty/

第一個(gè)成功的通用越獄,獎金 $25,000。部分突破可能獲得較小獎勵(lì)

申請窗口2026 年 4 月 23 日開放,6 月 22 日截止,滾動審核

測試窗口2026 年 4 月 28 日至 7 月 27 日

準(zhǔn)入條件需要現(xiàn)有 ChatGPT 賬號,簽署 NDA

保密要求所有 prompt、輸出和發(fā)現(xiàn)均受保密協(xié)議覆蓋

面向有 AI 紅隊(duì)、安全或生物安全經(jīng)驗(yàn)的研究者

可用性與定價(jià) ChatGPT

GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用戶。GPT-5.5 Pro 面向 Pro、Business、Enterprise 用戶

Codex

GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 計(jì)劃,400K 上下文窗口。Fast 模式 token 生成速度提升 1.5 倍,成本 2.5 倍

API(即將上線)

gpt-5.5$5/1M input tokens,$30/1M output tokens,1M 上下文窗口

gpt-5.5-pro$30/1M input tokens,$180/1M output tokens

Batch / Flex標(biāo)準(zhǔn)價(jià)的一半

Priority標(biāo)準(zhǔn)價(jià)的 2.5 倍

GPT-5.5 單價(jià)比 GPT-5.4 高,但 token 效率也更高

OpenAI 表示在 Codex 里,GPT-5.5 對大多數(shù)用戶來說,實(shí)際消耗的 token 比 GPT-5.4 更少

完整 Benchmark 數(shù)據(jù)

以下是 OpenAI 公布的全部評測數(shù)據(jù),按類別整理。所有 GPT 評測在 reasoning effort 設(shè)為 xhigh 的研究環(huán)境中進(jìn)行


Coding 評測表


Professional 評測表


Computer Use and Vision 評測表


Tool Use 評測表


Academic 評測表


Cybersecurity 評測表


Long Context 評測表


Abstract Reasoning 評測表


Abstract Reasoning 評測表

短板

SWE-Bench Pro 上 Claude Opus 4.7 報(bào)了 64.3%(GPT-5.5 是 58.6%),但 Anthropic 承認(rèn)部分問題存在記憶化

MCP Atlas 上 Claude Opus 4.7(79.1%)和 Gemini 3.1 Pro(78.2%)均高于 GPT-5.5(75.3%)

Humanity's Last Exam(帶工具)上 GPT-5.4 Pro 的 58.7% 高于 GPT-5.5 Pro 的 57.2%

長上下文 256K 以上,Claude Opus 4.7 在部分指標(biāo)上仍有優(yōu)勢

參考材料

→ 官方博客:openai.com/index/introducing-gpt-5-5/

→ System Card:deploymentsafety.openai.com/gpt-5-5

→ Bio Bug Bounty 申請:https://openai.com/index/gpt-5-5-bio-bug-bounty/

→ BixBench 論文:arxiv.org/abs/2503.00096

→ Artificial Analysis 方法論:artificialanalysis.ai/methodology/intelligence-benchmarking

→ API 定價(jià):openai.com/api/pricing/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巴基斯坦、埃及、土耳其、印度尼西亞、約旦、卡塔爾、沙特、阿聯(lián)酋聯(lián)合聲明

巴基斯坦、埃及、土耳其、印度尼西亞、約旦、卡塔爾、沙特、阿聯(lián)酋聯(lián)合聲明

財(cái)聞
2026-04-24 08:51:35
曝中國槍迷赴英看阿森納比賽被捕!坐了9年牢 獄警拿1-5來羞辱他

曝中國槍迷赴英看阿森納比賽被捕!坐了9年牢 獄警拿1-5來羞辱他

風(fēng)過鄉(xiāng)
2026-04-23 17:16:10
剛宣布!公務(wù)員彈性延退徹底取消,到點(diǎn)必須走,沒例外

剛宣布!公務(wù)員彈性延退徹底取消,到點(diǎn)必須走,沒例外

王姐懶人家常菜
2026-04-24 13:02:38
徹底改變!捷達(dá)正式換標(biāo)

徹底改變!捷達(dá)正式換標(biāo)

新浪財(cái)經(jīng)
2026-04-24 00:42:22
黃仁勛警告:若DeepSeek率先適配華為,對美國是"極其愚蠢"的結(jié)果

黃仁勛警告:若DeepSeek率先適配華為,對美國是"極其愚蠢"的結(jié)果

新浪財(cái)經(jīng)
2026-04-23 20:52:12
4月23日大消息!國務(wù)院點(diǎn)名3行業(yè),馬上要起飛了

4月23日大消息!國務(wù)院點(diǎn)名3行業(yè),馬上要起飛了

生活新鮮市
2026-04-24 07:38:49
一天消滅烏軍1320人,俄軍突然進(jìn)攻,烏軍猝不及防,不得不后退

一天消滅烏軍1320人,俄軍突然進(jìn)攻,烏軍猝不及防,不得不后退

石宏主編
2026-04-24 14:25:46
五常中唯一不造航母的國家,實(shí)力不輸中國,美國十分忌憚

五常中唯一不造航母的國家,實(shí)力不輸中國,美國十分忌憚

趣文說娛
2026-04-23 21:55:50
加拉塔薩雷官方:即刻起終止與土耳其足協(xié)管理層的一切關(guān)系

加拉塔薩雷官方:即刻起終止與土耳其足協(xié)管理層的一切關(guān)系

懂球帝
2026-04-23 18:35:02
民國最牛地主,家里出2大將1上將,2名長工也成司令和國軍中將

民國最牛地主,家里出2大將1上將,2名長工也成司令和國軍中將

文人相愛A
2026-04-18 15:20:36
銀行慌了!越來越多人關(guān)掉手機(jī)銀行,到底要不要開?答案終于明確

銀行慌了!越來越多人關(guān)掉手機(jī)銀行,到底要不要開?答案終于明確

叮當(dāng)當(dāng)科技
2026-04-23 21:35:24
58歲哈莉·貝瑞增肌訓(xùn)練:更年期后放棄有氧改舉重

58歲哈莉·貝瑞增肌訓(xùn)練:更年期后放棄有氧改舉重

野生運(yùn)營
2026-04-24 10:07:18
突發(fā),武漢一高端幼兒園倒閉!民辦幼兒園的出路在哪?

突發(fā),武漢一高端幼兒園倒閉!民辦幼兒園的出路在哪?

一口娛樂
2026-04-24 09:51:21
15歲上個(gè)中專衛(wèi)校,居然能一路混成主任技師?

15歲上個(gè)中專衛(wèi)校,居然能一路混成主任技師?

歲月有情1314
2026-04-24 07:44:06
康凱:把“張飛”演成傻子,無戲可拍11年,如今現(xiàn)狀令人唏噓

康凱:把“張飛”演成傻子,無戲可拍11年,如今現(xiàn)狀令人唏噓

流云隨風(fēng)去遠(yuǎn)方
2026-04-18 15:35:50
男子因口角將牌友打成植物人獲刑6年 兩年后牌友死亡家屬起訴索賠183萬!判了

男子因口角將牌友打成植物人獲刑6年 兩年后牌友死亡家屬起訴索賠183萬!判了

紅星新聞
2026-04-24 10:21:14
中方不伺候了!對荷光刻機(jī)優(yōu)待全部取消,450億芯片不做了!

中方不伺候了!對荷光刻機(jī)優(yōu)待全部取消,450億芯片不做了!

混沌錄
2026-04-22 16:08:10
劇本感拉滿!騎士G3慘敗暗藏玄機(jī),聯(lián)盟操盤爭議徹底引爆!

劇本感拉滿!騎士G3慘敗暗藏玄機(jī),聯(lián)盟操盤爭議徹底引爆!

田先生籃球
2026-04-24 14:02:15
5月1日斷供!俄宣布關(guān)閉“友誼”管道,德國90%以上汽車面臨停擺

5月1日斷供!俄宣布關(guān)閉“友誼”管道,德國90%以上汽車面臨停擺

萬物知識圈
2026-04-24 11:47:53
別盲目買電車!比亞迪海鷗車主實(shí)測2萬公里,賬算完反而多花幾千

別盲目買電車!比亞迪海鷗車主實(shí)測2萬公里,賬算完反而多花幾千

復(fù)轉(zhuǎn)這些年
2026-04-23 23:36:08
2026-04-24 15:55:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
404文章數(shù) 50關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價(jià)格依然"屠夫級"

頭條要聞

女子買二手奔馳里程數(shù)偏差20萬公里 看到事故記錄崩潰

頭條要聞

女子買二手奔馳里程數(shù)偏差20萬公里 看到事故記錄崩潰

體育要聞

里程碑之戰(zhàn)拖后腿,哈登18分8失誤

娛樂要聞

停工16個(gè)月!趙露思證實(shí)接拍新劇

財(cái)經(jīng)要聞

19家企業(yè)要"鋁代銅",格力偏不

汽車要聞

YU7 GT 5 月上市!小米Vision GT概念車國內(nèi)首秀

態(tài)度原創(chuàng)

手機(jī)
游戲
數(shù)碼
公開課
軍事航空

手機(jī)要聞

榮耀600e手機(jī)現(xiàn)身Geekbench跑分庫:有望搭天璣7100

Fami通銷量榜:《識質(zhì)存在》3.6萬被第一十倍吊打!

數(shù)碼要聞

DeepSeek:預(yù)計(jì)下半年昇騰950超節(jié)點(diǎn)批量上市后 V4-Pro模型價(jià)格會大幅下調(diào)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進(jìn)入關(guān)懷版