国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.2果然反超谷歌Gemini 3 Pro!北大數(shù)院校友核心貢獻

0
分享至

紅色警報拉響,OpenAI是真急了:

30天,GPT-5.2系列緊接著GPT-5.1而來,這次還專門強化了打工能力。

這是GPT-5.1 Thinking和GPT-5.2 Thinking做人力資源表格的對比:


雖然版本號只加了0.1,但是在多個實用領域都更強了:做表格、做PPT、寫代碼、理解長文檔、調(diào)用工具、處理復雜多步驟項目……

視覺理解能力也大幅提升,GPT-5.2能準確標記出更多主板上的元件。


這是GPT-5.2做的網(wǎng)頁版波浪模擬器:


如果你遇到航班延誤、又錯過轉機、需要當?shù)剡^夜以及需要特殊醫(yī)療座位,聽起來就很頭疼。

但GPT-5.2安排好了一切:重新訂機票、安排特殊座位和賠償。


ARC-AGI也在第一時間發(fā)布了測試結果。

一年前的o3 (High) 在ARC-AGI-1測試中得分88%,平均每項任務成本為4500美元

今天的GPT-5.2 Pro (X-High) ,最新SOTA得分為90.5%,平均任務成本僅為11.64美元,在一年內(nèi)效率提高了約390倍。

同時超過了谷歌Gemini 3 Pro的對應版本(綠色點),也算扳回一局。


GPT5.2發(fā)布的這一天,也是OpenAI成立十周年,官方還做了個小視頻來回顧10年來的進展。


拆解GPT-5.2各項能力 高經(jīng)濟價值任務

在GDPval測試中,涵蓋美國GDP前九大產(chǎn)業(yè)中的44個職業(yè)領域,完成人類需要4-8小時才能完成的任務。

在人類評委打分下,GPT-5.2 Thinking與人類專家相比有71%的勝率,GPT-5.2 Pro還能更高一些。

而且速度是人類專家的11倍以上,成本不到人類專家的1%。


在投行分析師的電子表格建模任務上,GPT-5.2 Thinking平均每項任務得分相比GPT-5.1提升了9.3%,從59.1%上升到68.4%。這些任務包括為財富500強公司搭建三表聯(lián)動模型、構建杠桿收購模型等。


提示:您是一名投資銀行分析師,剛剛接到一項任務,需要完成一份瀑布式分析,以了解創(chuàng)始人及現(xiàn)有投資者的所有權和回報情況。您的客戶是一家正在考慮 C 輪融資的初創(chuàng)公司。

請查收附件中的模板,您需要對其進行修改。我在 G 列中添加了必要的假設。C 列的名稱在普通股部分重復出現(xiàn),以便于索引。假設包括退出時的股權、系列投資金額、基金所有權、認股權證、清算優(yōu)先權、轉換價格、普通股稀釋后股份數(shù)和行權價格。假設種子輪、A 輪和 B 輪均為同等權益的非參與性優(yōu)先股(即,這些輪次的投資者享有同等待遇;對借款人的資產(chǎn)擁有同等的索償權)

在審查一份特別優(yōu)秀的成果時,一位GDPval評委表示:

在輸出質(zhì)量上令人興奮且顯著的飛躍……[它]看起來像是由一家專業(yè)公司的員工完成的,兩份交付成果的布局設計和建議都出人意料地出色,盡管其中一份仍存在一些小錯誤需要糾正。

要在ChatGPT中使用新的做表格和PPT能力,需要充值Plus、Pro、Business或 Enterprise套餐,選擇GPT-5.2 Thinking或Pro版本 。生成復雜的內(nèi)容可能需要幾分鐘時間。

代碼能力

GPT-5.2代碼能力同樣刷新紀錄,在SWE-bench Verified上,得分達到80%。

在SWE-Bench Pro這個更難的軟件工程評測上,GPT-5.2 Thinking拿下55.6%的新高。

這個評測不止測Python,還包括JavaScript、TypeScript和Go,更貼近真實工業(yè)場景。

早期測試者特別提到,GPT-5.2在前端開發(fā)和復雜UI工作上明顯更強,尤其是涉及3D元素的場景。


長上下文

長文檔處理是這次升級的重頭戲。

在OpenAI自制的大海撈針MRCRv2評測中,GPT-5.2 Thinking成為首個在256k 上下文長的4針版(4-needle variant)上達到接近100%準確率的模型。


不過8針版性能還是會隨上下文長度明顯下降。


對于需要超越最大上下文窗口進行思考的任務,GPT-5.2 Thinking兼容簡潔回復模式,能夠處理更多工具密集型、長時間運行的工作流。

視覺理解

視覺能力的提升同樣顯著。

在科學論文圖表理解上,GPT-5.2 Thinking的錯誤率大約降低了一半。


更關鍵的是,它對圖像中元素的空間位置有了更強的把握。

在高分辨率圖形面屏幕截圖推理測試中,配合Python工具得分達到86.3%。


如果禁用Python工具得分會低很多,OpenAI建議在這樣的視覺任務中通通啟用工具。

工具調(diào)用

工具調(diào)用能力同樣達到新高度,在Tau2-bench Telecom多輪交互電話客服場景評測上,GPT-5.2 Thinking取得98.7%的成績。

Tau2-bench Retail零售場景也達到82%。


這些成績意味著更強大的端到端工作流程,例如解決客戶支持案例、從多個系統(tǒng)中提取數(shù)據(jù)、運行分析以及生成最終輸出,且各步驟之間的故障更少。

科學能力

OpenAI一直希望AI能加速科學研究,這次他們相信GPT-5.2 Pro和GPT-5.2 Thinking是目前世界上最適合輔助科學家的模型。

在GPQA Diamond研究生水平的問答評測上,GPT-5.2 Pro拿下93.2%,GPT-5.2 Thinking緊隨其后達到92.4%。


在專家級數(shù)學評測FrontierMath(Tier 1-3)上,GPT-5.2 Thinking以40.3%的解題率創(chuàng)下新紀錄。


官方還透露了一個實際案例:

研究人員使用GPT-5.2 Pro探索了統(tǒng)計學習理論中的一個開放問題,在一個狹窄、明確的設定下,模型提出了一個證明,隨后被作者驗證并經(jīng)過同行評審。


事實準確性方面,GPT-5.2 Thinking的幻覺問題相比GPT-5.1從8.8%減少到6.2%。

不過OpenAI也提示模型仍不完美,關鍵內(nèi)容還是需要人工復核。


One More Thing

自從Meta瘋狂挖人以來,OpenAI都很少在研究進展文章后面附上貢獻者列表了,直接統(tǒng)一署名OpenAI了事。


不過從開發(fā)者相互祝賀的推文中,還是可以挖出GPT-5.2的幾位核心團隊成員:多為2024年之后加入OpenAI的新面孔,而且多是數(shù)學專業(yè)出身。

Yu Bai:北大數(shù)院校友、斯坦福統(tǒng)計學博士,2024年5月加入OpenAI。


Yaodong Yu:UC伯克利博士畢業(yè),2024年9月加入OpenAI。


Yufeng Zhang:本科中科大數(shù)學系、西北大學博士、字節(jié)前研究員,2024年底加入OpenAI


梅松:北大數(shù)院校友、斯坦福計算與數(shù)學工程博士、UC伯克利助理教授,2025年5月暫離學校加入OpenAI。


Ofir Nachum:MIT CS碩士畢業(yè),前谷歌大腦研究員,2023年加入OpenAI。


每當外界覺得OpenAI進展不及預期的時候,總有新的人才帶來新的驚喜。

參考鏈接:
[1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
魯比奧:歐洲正在切斷與美國的文化聯(lián)系

魯比奧:歐洲正在切斷與美國的文化聯(lián)系

參考消息
2025-12-20 21:14:05
臀大腰粗不用愁,粉色吊帶搭灰色瑜伽褲,透露著野性的時尚感

臀大腰粗不用愁,粉色吊帶搭灰色瑜伽褲,透露著野性的時尚感

小喬古裝漢服
2025-12-21 12:10:43
《體壇周報》記者披露曾凡博回歸內(nèi)幕,首鋼謝遼,細節(jié)耐人尋味

《體壇周報》記者披露曾凡博回歸內(nèi)幕,首鋼謝遼,細節(jié)耐人尋味

林子說事
2025-12-21 14:47:44
49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

阿纂看事
2025-12-12 09:18:29
小洛熙尸檢報告:不必要的手術和未縫合手術切口,主刀醫(yī)生在謀殺

小洛熙尸檢報告:不必要的手術和未縫合手術切口,主刀醫(yī)生在謀殺

不與世俗同
2025-12-20 16:42:11
吹楊被擺上交易貨架 亞特蘭大新的鷹王已振翅翱翔

吹楊被擺上交易貨架 亞特蘭大新的鷹王已振翅翱翔

體壇周報
2025-12-21 18:36:11
建議大家:這6樣“廚房產(chǎn)物”,已經(jīng)被中國家庭拉黑,可亂用了!

建議大家:這6樣“廚房產(chǎn)物”,已經(jīng)被中國家庭拉黑,可亂用了!

家居設計師蘇哥
2025-12-21 14:16:28
為什么抑郁率最低的是廣西?評論區(qū)笑翻天了

為什么抑郁率最低的是廣西?評論區(qū)笑翻天了

另子維愛讀史
2025-12-16 21:25:55
16年了,不顧所有人反對,嫁大20歲徐威的張怡寧,得到幸福了嗎?

16年了,不顧所有人反對,嫁大20歲徐威的張怡寧,得到幸福了嗎?

妙知
2025-11-25 17:17:45
年末再現(xiàn)“瘋狂的電池”:原材料價格翻倍漲!新能源車企老板們“堵門”搶單

年末再現(xiàn)“瘋狂的電池”:原材料價格翻倍漲!新能源車企老板們“堵門”搶單

時代周報
2025-12-19 14:09:22
3+1準絕殺遇上反絕殺!貝恩32分6板,班凱羅23+9+9,喬治空砍27+9

3+1準絕殺遇上反絕殺!貝恩32分6板,班凱羅23+9+9,喬治空砍27+9

無術不學
2025-12-21 13:58:49
“不敢去泰國怕被賣掉”中國男演員的這句話,讓泰國網(wǎng)友“炸了”

“不敢去泰國怕被賣掉”中國男演員的這句話,讓泰國網(wǎng)友“炸了”

大國紀錄
2025-12-19 23:44:31
香港宏福苑大火殉職消防員戴婚戒下葬,相戀10年女友親自戴上

香港宏福苑大火殉職消防員戴婚戒下葬,相戀10年女友親自戴上

九方魚論
2025-12-21 10:47:14
宋徽宗用瘦金體寫的圣旨,幾經(jīng)戰(zhàn)亂而流傳至今,乃真正的國寶

宋徽宗用瘦金體寫的圣旨,幾經(jīng)戰(zhàn)亂而流傳至今,乃真正的國寶

幸福娃3790
2025-12-11 11:34:53
南京博物館:捐贈已歸國家,無義務返還

南京博物館:捐贈已歸國家,無義務返還

映射生活的身影
2025-12-19 17:13:17
龐萊臣及虛齋收藏的名畫

龐萊臣及虛齋收藏的名畫

方待夜半聽君語
2025-12-20 14:04:24
馬斯克看呆! 宇樹機器人炸場王力宏演唱會,大秀空翻熱舞,4000萬海外網(wǎng)友圍觀

馬斯克看呆! 宇樹機器人炸場王力宏演唱會,大秀空翻熱舞,4000萬海外網(wǎng)友圍觀

AppSo
2025-12-20 17:50:47
三亞警方通報一起涉黃案:一私人影院經(jīng)營者被刑拘,三名員工被行政處罰

三亞警方通報一起涉黃案:一私人影院經(jīng)營者被刑拘,三名員工被行政處罰

界面新聞
2025-12-21 11:29:02
中國發(fā)展到了什么程度?

中國發(fā)展到了什么程度?

忠于法紀
2025-12-21 19:13:05
北美首日2.6億,全球14億,中國票房縮水,觀眾給好萊塢上了一課

北美首日2.6億,全球14億,中國票房縮水,觀眾給好萊塢上了一課

感影的世界
2025-12-21 14:28:48
2025-12-21 20:36:49
算法與數(shù)學之美 incentive-icons
算法與數(shù)學之美
分享知識,交流思想
5273文章數(shù) 64595關注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關:十萬個應用

頭條要聞

美國外交系統(tǒng)現(xiàn)重大調(diào)整 約有24名駐外大使被要求離任

頭條要聞

美國外交系統(tǒng)現(xiàn)重大調(diào)整 約有24名駐外大使被要求離任

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場地還小

財經(jīng)要聞

老房子“強制體檢”,政府出手了

汽車要聞

-30℃,標致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

房產(chǎn)
游戲
本地
公開課
軍事航空

房產(chǎn)要聞

中交·藍色港灣一周年暨藍調(diào)生活沙龍圓滿舉行

《輻射》聯(lián)合創(chuàng)作者試圖闡釋沉浸式模擬游戲的定義

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風骨

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

石破茂:擁核絕不會給日本帶來正面影響

無障礙瀏覽 進入關懷版