国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.2果然反超谷歌Gemini 3 Pro!北大數(shù)院校友核心貢獻(xiàn)

0
分享至

夢(mèng)晨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

紅色警報(bào)拉響,OpenAI是真急了:

30天,GPT-5.2系列緊接著GPT-5.1而來(lái),這次還專(zhuān)門(mén)強(qiáng)化了打工能力。

這是GPT-5.1 Thinking和GPT-5.2 Thinking做人力資源表格的對(duì)比:



雖然版本號(hào)只加了0.1,但是在多個(gè)實(shí)用領(lǐng)域都更強(qiáng)了:做表格、做PPT、寫(xiě)代碼、理解長(zhǎng)文檔、調(diào)用工具、處理復(fù)雜多步驟項(xiàng)目……

視覺(jué)理解能力也大幅提升,GPT-5.2能準(zhǔn)確標(biāo)記出更多主板上的元件。



這是GPT-5.2做的網(wǎng)頁(yè)版波浪模擬器:



如果你遇到航班延誤、又錯(cuò)過(guò)轉(zhuǎn)機(jī)、需要當(dāng)?shù)剡^(guò)夜以及需要特殊醫(yī)療座位,聽(tīng)起來(lái)就很頭疼。

但GPT-5.2安排好了一切:重新訂機(jī)票、安排特殊座位和賠償。



ARC-AGI也在第一時(shí)間發(fā)布了測(cè)試結(jié)果。

一年前的o3 (High) 在ARC-AGI-1測(cè)試中得分88%,平均每項(xiàng)任務(wù)成本為4500美元。

今天的GPT-5.2 Pro (X-High) ,最新SOTA得分為90.5%,平均任務(wù)成本僅為11.64美元,在一年內(nèi)效率提高了約390倍。

同時(shí)超過(guò)了谷歌Gemini 3 Pro的對(duì)應(yīng)版本(綠色點(diǎn)),也算扳回一局。



拆解GPT-5.2各項(xiàng)能力

高經(jīng)濟(jì)價(jià)值任務(wù)

在GDPval測(cè)試中,涵蓋美國(guó)GDP前九大產(chǎn)業(yè)中的44個(gè)職業(yè)領(lǐng)域,完成人類(lèi)需要4-8小時(shí)才能完成的任務(wù)。

在人類(lèi)評(píng)委打分下,GPT-5.2 Thinking與人類(lèi)專(zhuān)家相比有71%的勝率,GPT-5.2 Pro還能更高一些。

而且速度是人類(lèi)專(zhuān)家的11倍以上,成本不到人類(lèi)專(zhuān)家的1%。



在投行分析師的電子表格建模任務(wù)上,GPT-5.2 Thinking平均每項(xiàng)任務(wù)得分相比GPT-5.1提升了9.3%,從59.1%上升到68.4%。這些任務(wù)包括為財(cái)富500強(qiáng)公司搭建三表聯(lián)動(dòng)模型、構(gòu)建杠桿收購(gòu)模型等。



提示:您是一名投資銀行分析師,剛剛接到一項(xiàng)任務(wù),需要完成一份瀑布式分析,以了解創(chuàng)始人及現(xiàn)有投資者的所有權(quán)和回報(bào)情況。您的客戶是一家正在考慮 C 輪融資的初創(chuàng)公司。

請(qǐng)查收附件中的模板,您需要對(duì)其進(jìn)行修改。我在 G 列中添加了必要的假設(shè)。C 列的名稱(chēng)在普通股部分重復(fù)出現(xiàn),以便于索引。假設(shè)包括退出時(shí)的股權(quán)、系列投資金額、基金所有權(quán)、認(rèn)股權(quán)證、清算優(yōu)先權(quán)、轉(zhuǎn)換價(jià)格、普通股稀釋后股份數(shù)和行權(quán)價(jià)格。假設(shè)種子輪、A 輪和 B 輪均為同等權(quán)益的非參與性優(yōu)先股(即,這些輪次的投資者享有同等待遇;對(duì)借款人的資產(chǎn)擁有同等的索償權(quán))

在審查一份特別優(yōu)秀的成果時(shí),一位GDPval評(píng)委表示:

  • 在輸出質(zhì)量上令人興奮且顯著的飛躍……[它]看起來(lái)像是由一家專(zhuān)業(yè)公司的員工完成的,兩份交付成果的布局設(shè)計(jì)和建議都出人意料地出色,盡管其中一份仍存在一些小錯(cuò)誤需要糾正。

要在ChatGPT中使用新的做表格和PPT能力,需要充值Plus、Pro、Business或 Enterprise套餐,選擇GPT-5.2 Thinking或Pro版本 。生成復(fù)雜的內(nèi)容可能需要幾分鐘時(shí)間。

代碼能力

GPT-5.2代碼能力同樣刷新紀(jì)錄,在SWE-bench Verified上,得分達(dá)到80%。

在SWE-Bench Pro這個(gè)更難的軟件工程評(píng)測(cè)上,GPT-5.2 Thinking拿下55.6%的新高。

這個(gè)評(píng)測(cè)不止測(cè)Python,還包括JavaScript、TypeScript和Go,更貼近真實(shí)工業(yè)場(chǎng)景。

早期測(cè)試者特別提到,GPT-5.2在前端開(kāi)發(fā)和復(fù)雜UI工作上明顯更強(qiáng),尤其是涉及3D元素的場(chǎng)景。



長(zhǎng)上下文

長(zhǎng)文檔處理是這次升級(jí)的重頭戲。

在OpenAI自制的大海撈針MRCRv2評(píng)測(cè)中,GPT-5.2 Thinking成為首個(gè)在256k 上下文長(zhǎng)的4針版(4-needle variant)上達(dá)到接近100%準(zhǔn)確率的模型。



不過(guò)8針版性能還是會(huì)隨上下文長(zhǎng)度明顯下降。



對(duì)于需要超越最大上下文窗口進(jìn)行思考的任務(wù),GPT-5.2 Thinking兼容簡(jiǎn)潔回復(fù)模式,能夠處理更多工具密集型、長(zhǎng)時(shí)間運(yùn)行的工作流。

視覺(jué)理解

視覺(jué)能力的提升同樣顯著。

在科學(xué)論文圖表理解上,GPT-5.2 Thinking的錯(cuò)誤率大約降低了一半。



更關(guān)鍵的是,它對(duì)圖像中元素的空間位置有了更強(qiáng)的把握。

在高分辨率圖形面屏幕截圖推理測(cè)試中,配合Python工具得分達(dá)到86.3%。



如果禁用Python工具得分會(huì)低很多,OpenAI建議在這樣的視覺(jué)任務(wù)中通通啟用工具。

工具調(diào)用

工具調(diào)用能力同樣達(dá)到新高度,在Tau2-bench Telecom多輪交互電話客服場(chǎng)景評(píng)測(cè)上,GPT-5.2 Thinking取得98.7%的成績(jī)。

Tau2-bench Retail零售場(chǎng)景也達(dá)到82%。



這些成績(jī)意味著更強(qiáng)大的端到端工作流程,例如解決客戶支持案例、從多個(gè)系統(tǒng)中提取數(shù)據(jù)、運(yùn)行分析以及生成最終輸出,且各步驟之間的故障更少。

科學(xué)能力

OpenAI一直希望AI能加速科學(xué)研究,這次他們相信GPT-5.2 Pro和GPT-5.2 Thinking是目前世界上最適合輔助科學(xué)家的模型。

在GPQA Diamond研究生水平的問(wèn)答評(píng)測(cè)上,GPT-5.2 Pro拿下93.2%,GPT-5.2 Thinking緊隨其后達(dá)到92.4%。



在專(zhuān)家級(jí)數(shù)學(xué)評(píng)測(cè)FrontierMath(Tier 1-3)上,GPT-5.2 Thinking以40.3%的解題率創(chuàng)下新紀(jì)錄。



官方還透露了一個(gè)實(shí)際案例:

研究人員使用GPT-5.2 Pro探索了統(tǒng)計(jì)學(xué)習(xí)理論中的一個(gè)開(kāi)放問(wèn)題,在一個(gè)狹窄、明確的設(shè)定下,模型提出了一個(gè)證明,隨后被作者驗(yàn)證并經(jīng)過(guò)同行評(píng)審。



事實(shí)準(zhǔn)確性方面,GPT-5.2 Thinking的幻覺(jué)問(wèn)題相比GPT-5.1從8.8%減少到6.2%。

不過(guò)OpenAI也提示模型仍不完美,關(guān)鍵內(nèi)容還是需要人工復(fù)核。



One More Thing

自從Meta瘋狂挖人以來(lái),OpenAI都很少在研究進(jìn)展文章后面附上貢獻(xiàn)者列表了,直接統(tǒng)一署名OpenAI了事。



不過(guò)從開(kāi)發(fā)者相互祝賀的推文中,還是可以挖出GPT-5.2的幾位核心團(tuán)隊(duì)成員:多為2024年之后加入OpenAI的新面孔,而且多是數(shù)學(xué)專(zhuān)業(yè)出身。

Yu Bai:北大數(shù)院校友、斯坦福統(tǒng)計(jì)學(xué)博士,2024年5月加入OpenAI。



Yaodong Yu:UC伯克利博士畢業(yè),2024年9月加入OpenAI。



Yufeng Zhang:本科中科大數(shù)學(xué)系、西北大學(xué)博士、字節(jié)前研究員,2024年底加入OpenAI



梅松:北大數(shù)院校友、斯坦福計(jì)算與數(shù)學(xué)工程博士、UC伯克利助理教授,2025年5月暫離學(xué)校加入OpenAI。



Ofir Nachum:MIT CS碩士畢業(yè),前谷歌大腦研究員,2023年加入OpenAI。



每當(dāng)外界覺(jué)得OpenAI進(jìn)展不及預(yù)期的時(shí)候,總有新的人才帶來(lái)新的驚喜。

參考鏈接:
[1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“滾回自己的國(guó)家!”近日,陜西西安,4名印度留學(xué)生去吃飯,

“滾回自己的國(guó)家!”近日,陜西西安,4名印度留學(xué)生去吃飯,

忠于法紀(jì)
2025-12-19 18:27:15
A股:大家做好心理準(zhǔn)備,不出意外,12月22日,下周一可能這樣走

A股:大家做好心理準(zhǔn)備,不出意外,12月22日,下周一可能這樣走

振華觀史
2025-12-19 16:14:33
13次錯(cuò)漏判正式出爐!楊鳴不裝攤牌了,必須嚴(yán)懲99號(hào)裁判

13次錯(cuò)漏判正式出爐!楊鳴不裝攤牌了,必須嚴(yán)懲99號(hào)裁判

幫主砍球
2025-12-19 16:01:24
曾凡博確定重返北京!專(zhuān)家分析這就是唯一選擇 4巨合體沖冠穩(wěn)了?

曾凡博確定重返北京!專(zhuān)家分析這就是唯一選擇 4巨合體沖冠穩(wěn)了?

顏小白的籃球夢(mèng)
2025-12-19 10:04:42
官宣!國(guó)乒接下來(lái)2站賽事的名單出爐,王楚欽輪休,陳俊菘在列!

官宣!國(guó)乒接下來(lái)2站賽事的名單出爐,王楚欽輪休,陳俊菘在列!

齊帥
2025-12-18 22:53:17
許亞軍也沒(méi)想到,何晴留給他的24歲兒子,如今卻成了他的“噩夢(mèng)”

許亞軍也沒(méi)想到,何晴留給他的24歲兒子,如今卻成了他的“噩夢(mèng)”

洲洲影視娛評(píng)
2025-12-17 20:19:07
以色列暗殺伊朗核科學(xué)家細(xì)節(jié)曝光:和美國(guó)反復(fù)磋商,暗殺名單從100人縮減至12人

以色列暗殺伊朗核科學(xué)家細(xì)節(jié)曝光:和美國(guó)反復(fù)磋商,暗殺名單從100人縮減至12人

爆角追蹤
2025-12-18 19:38:52
山東省煙臺(tái)萊州市發(fā)現(xiàn)亞洲最大海底巨型金礦

山東省煙臺(tái)萊州市發(fā)現(xiàn)亞洲最大海底巨型金礦

財(cái)聯(lián)社
2025-12-18 10:32:05
開(kāi)380億美元罰單,印度吃準(zhǔn)蘋(píng)果要從中國(guó)跑路,連裝都不裝了

開(kāi)380億美元罰單,印度吃準(zhǔn)蘋(píng)果要從中國(guó)跑路,連裝都不裝了

壹知眠羊
2025-12-19 07:25:41
大鳥(niǎo)傷情更新!北控遭晴天霹靂,還有2壞消息,讓張慶鵬更加心累

大鳥(niǎo)傷情更新!北控遭晴天霹靂,還有2壞消息,讓張慶鵬更加心累

后仰大風(fēng)車(chē)
2025-12-19 06:30:05
小區(qū)發(fā)生持刀傷人案致3死1傷,警方通報(bào)

小區(qū)發(fā)生持刀傷人案致3死1傷,警方通報(bào)

澎湃新聞
2025-12-19 12:04:07
麥克朗25中15轟41分10助攻!末節(jié)22分+超遠(yuǎn)三分絕殺 現(xiàn)役第一人。

麥克朗25中15轟41分10助攻!末節(jié)22分+超遠(yuǎn)三分絕殺 現(xiàn)役第一人。

徐幫陽(yáng)
2025-12-19 16:57:04
新一批中國(guó)愛(ài)心包裹和單車(chē)移交柬埔寨

新一批中國(guó)愛(ài)心包裹和單車(chē)移交柬埔寨

人民網(wǎng)
2025-12-19 16:23:42
特朗普再度轉(zhuǎn)向,不要求烏克蘭割土,反而要求俄割讓庫(kù)爾斯克

特朗普再度轉(zhuǎn)向,不要求烏克蘭割土,反而要求俄割讓庫(kù)爾斯克

高博新視野
2025-12-18 15:56:08
拉扯升級(jí)!知情人爆陳妍希爸爸送陳曉二手衣服,網(wǎng)友:太膈應(yīng)

拉扯升級(jí)!知情人爆陳妍希爸爸送陳曉二手衣服,網(wǎng)友:太膈應(yīng)

大眼妹妹
2025-12-19 16:02:29
比剪刀手更可怕的是“中國(guó)式大媽姿勢(shì)”,以為上鏡,實(shí)際又裝又土

比剪刀手更可怕的是“中國(guó)式大媽姿勢(shì)”,以為上鏡,實(shí)際又裝又土

生活新鮮市
2025-12-11 12:32:21
最后倒計(jì)時(shí),澤連斯基體面妥協(xié)?11國(guó)發(fā)聯(lián)合聲明,特朗普終于改口

最后倒計(jì)時(shí),澤連斯基體面妥協(xié)?11國(guó)發(fā)聯(lián)合聲明,特朗普終于改口

鐵血論古今
2025-12-19 19:01:17
李提香剛官宣離開(kāi)浙江隊(duì)!就被新東家火線招入到俱樂(lè)部,引發(fā)熱議

李提香剛官宣離開(kāi)浙江隊(duì)!就被新東家火線招入到俱樂(lè)部,引發(fā)熱議

張麗說(shuō)足球
2025-12-19 16:47:54
記者:玉昆聯(lián)系的上海希望之星不是蒯紀(jì)聞,而是一位國(guó)產(chǎn)中鋒

記者:玉昆聯(lián)系的上海希望之星不是蒯紀(jì)聞,而是一位國(guó)產(chǎn)中鋒

懂球帝
2025-12-19 16:01:08
羽毛球總決賽:男單4強(qiáng)出爐3席!石宇奇2:0日本名將,豪奪3連勝

羽毛球總決賽:男單4強(qiáng)出爐3席!石宇奇2:0日本名將,豪奪3連勝

國(guó)乒二三事
2025-12-19 19:22:25
2025-12-19 20:43:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11883文章數(shù) 176340關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

美方"國(guó)防授權(quán)法案"塞入涉臺(tái)錯(cuò)誤內(nèi)容 國(guó)臺(tái)辦回應(yīng)

頭條要聞

美方"國(guó)防授權(quán)法案"塞入涉臺(tái)錯(cuò)誤內(nèi)容 國(guó)臺(tái)辦回應(yīng)

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

日元加息,恐慌來(lái)了?貨幣三國(guó)殺

汽車(chē)要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

手機(jī)
藝術(shù)
數(shù)碼
親子
房產(chǎn)

手機(jī)要聞

華為Mate 80首銷(xiāo)數(shù)據(jù)出爐:約為前代的115%,基礎(chǔ)版占比75%

藝術(shù)要聞

諸樂(lè)三的寫(xiě)意花鳥(niǎo)

數(shù)碼要聞

宏碁暗影騎士?龍7游戲本發(fā)布:銳龍7 260 + RTX 5060

親子要聞

幼師專(zhuān)業(yè)大幅縮招,去年幼兒園教師減少超24萬(wàn)

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版