国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,OpenAI迎10周年,發(fā)GPT-5.2,重點(diǎn)是和白領(lǐng)搶工作

0
分享至


智東西
作者|江宇
編輯|漠影

智東西12月12日?qǐng)?bào)道,今日凌晨,正值OpenAI十周年生日,OpenAI正式推出其迄今最強(qiáng)模型GPT-5.2,并同步上線ChatGPT與API體系。

本次更新包含GPT-5.2 Instant、Thinking與Pro三個(gè)版本,將從今日起陸續(xù)向Plus、Pro、Business與Enterprise等付費(fèi)方案用戶開放,Free與Go用戶預(yù)計(jì)將于明日獲得訪問權(quán)限。同時(shí),GPT-5.2也已納入API與Codex中供開發(fā)者調(diào)用。


▲圖源:X平臺(tái)

現(xiàn)有的GPT-5.1將在ChatGPT中繼續(xù)作為過渡版本向付費(fèi)用戶提供三個(gè)月,之后將正式下線。OpenAI官方稱,GPT-5.2屬于其持續(xù)改進(jìn)模型系列的一部分,后續(xù)仍將圍繞過度拒絕、響應(yīng)延遲等已知問題進(jìn)行迭代優(yōu)化。

在API端,GPT-5.2 Thinking對(duì)應(yīng)gpt-5.2,Instant對(duì)應(yīng)gpt-5.2-chat-latest,Pro對(duì)應(yīng)gpt-5.2-pro,開發(fā)者可直接調(diào)用。


▲圖源:OpenAI官方博客

在價(jià)格方面,GPT-5.2的調(diào)用價(jià)格較上一代上調(diào),輸入端1.75美元/百萬tokens(約合人民幣12.35元/百萬tokens)、輸出端14美元/百萬tokens(約合人民幣98.81元/百萬tokens)。GPT-5.2 Pro的定價(jià)為21美元與168美元/百萬tokens(約合人民幣148元與1185元/百萬tokens),并首次支持第五檔推理強(qiáng)度xhigh。


▲圖源:OpenAI官方博客

OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman在社交平臺(tái)X上公布了GPT-5.2在多項(xiàng)前沿基準(zhǔn)上的成績:SWE-Bench Pro達(dá)到55.6%,ARC-AGI-2為52.9%,F(xiàn)rontier Math為40.3%。


▲圖源:X平臺(tái)

這些基準(zhǔn)主要用于衡量模型在復(fù)雜代碼修復(fù)、通用推理與高難度數(shù)學(xué)任務(wù)中的表現(xiàn),GPT-5.2在高階任務(wù)上的穩(wěn)定性進(jìn)一步提升。

根據(jù)OpenAI官方博客,GPT-5.2在涵蓋44個(gè)職業(yè)的明確知識(shí)工作任務(wù)中,表現(xiàn)均優(yōu)于行業(yè)專業(yè)人士。相比GPT-5.1 Thinking,GPT-5.2 Thinking在應(yīng)對(duì)知識(shí)型任務(wù)、編程、科學(xué)問題、數(shù)學(xué)、抽象推理的多項(xiàng)能力均大幅提升,尤其是在頂尖數(shù)學(xué)競賽AIME 2025拿到滿分成績,在OpenAI專業(yè)工作基準(zhǔn)測試GDPval中戰(zhàn)勝或打平70.9%的人類專家。


▲圖源:OpenAI官方博客

OpenAI團(tuán)隊(duì)成員Yann Dubois也在社交平臺(tái)X平臺(tái)上發(fā)帖稱,GPT-5.2 Thinking的設(shè)計(jì)重點(diǎn)放在“經(jīng)濟(jì)價(jià)值較高的任務(wù)”(如編碼、表格與演示文檔)。


▲圖源:X平臺(tái)

此外,在SWE-Bench Pro、GPQA Diamond等8項(xiàng)基準(zhǔn)測試中,GPT-5.2 Thinking的分?jǐn)?shù)均超過谷歌Gemini 3 Pro和Anthropic Claude Opus 4.5。


▲圖源:OpenAI

值得一提的是,GPT-5.2在處理多模態(tài)任務(wù)方面的能力明顯提升,大有追上Gemini的架勢,“頂流”AI編程助手Cursor第一時(shí)間宣布上新GPT-5.2。

與此同時(shí),微軟董事長兼CEO Satya Nadella宣布,GPT-5.2將全面進(jìn)入Microsoft 365 Copilot、GitHub Copilot與Foundry等產(chǎn)品體系


▲圖源:X平臺(tái)

在GPT-5.2的發(fā)布會(huì)上,OpenAI應(yīng)用業(yè)務(wù)負(fù)責(zé)人Fidji Simo也確認(rèn),外界關(guān)注已久的ChatGPT“成人模式(adult mode)”預(yù)計(jì)將在2026年第一季度上線。Fidji Simo稱,在推出該模式前,OpenAI希望確保年齡預(yù)測模型足夠成熟,能夠準(zhǔn)確識(shí)別未成年用戶,同時(shí)避免誤判成年人。

目前,該年齡預(yù)測模型已在部分國家進(jìn)行早期測試,主要用于自動(dòng)應(yīng)用不同的內(nèi)容限制與安全策略。

一、專業(yè)任務(wù)能力躍升,首次達(dá)到“專家級(jí)”評(píng)分

根據(jù)OpenAI官方披露,GPT-5.2 Thinking在覆蓋44類職業(yè)任務(wù)的GDPval評(píng)測中,首次達(dá)到“專家級(jí)”表現(xiàn)——在70.9%的對(duì)比中戰(zhàn)勝或持平行業(yè)專業(yè)人士。GPT-5.2 Pro進(jìn)一步提升至74.1%。在僅統(tǒng)計(jì)“明確勝出”的任務(wù)中,GPT-5.2 Thinking為49.8%,Pro則達(dá)到60%。

這一評(píng)測覆蓋銷售演示、預(yù)算模型、運(yùn)營排班、制造流程圖等多類真實(shí)業(yè)務(wù)成果。GPT-5.2在這些任務(wù)的生成速度約為人工專家的11倍,成本為其1%以下。

在投研類任務(wù)中,GPT-5.2 Thinking在內(nèi)部評(píng)測的投行三表模型與杠桿收購模型等場景中的平均得分為68.4%,較GPT-5.1 Thinking的59.1%有明確提升,GPT-5.2 Pro得分進(jìn)一步增長至71.7%。


▲圖源:OpenAI官方博客


▲GPT-5.1 Thinking與GPT-5.2 Thinking效果對(duì)比

二、代碼、工具調(diào)用與長鏈路任務(wù)全面升級(jí)

在代碼能力方面,GPT-5.2 Thinking在更嚴(yán)格的SWE-bench Pro(跨四種語言、強(qiáng)調(diào)真實(shí)工程難度)中取得55.6%,在SWE-bench Verified中更是達(dá)到80%,均顯著領(lǐng)先GPT-5.1的50.8%與76.3%。在SWE-Lancer IC Diamond任務(wù)中,GPT-5.2 Thinking取得74.6%(GPT-5.1為69.7%)。


▲圖源:OpenAI官方博客

與此同時(shí),GPT-5.2出現(xiàn)在AI基準(zhǔn)平臺(tái)Imarena.ai(Arena)排行榜中,并在WebDev測試中取得1486分,位列第二,僅落后榜首3分,領(lǐng)先Claude-opus-4-5與Gemini-3-pro等主流模型。另一個(gè)版本GPT-5.2則以1399分排在第六。

根據(jù)Arena說明,GPT-5.2此前在內(nèi)部以“robin”和“robin-high”為代號(hào)進(jìn)行測試,其分?jǐn)?shù)與GPT-5-medium僅相差1分,目前仍為初步結(jié)果,未來有望隨著測試量積累而進(jìn)一步穩(wěn)定。


從評(píng)測維度來看,Arena主要衡量模型在可部署Web應(yīng)用情境下的端到端編碼能力,GPT-5.2已反映出其在復(fù)雜任務(wù)鏈條上的實(shí)用性。

在事實(shí)準(zhǔn)確性方面,GPT-5.2 Thinking在基于ChatGPT查詢的無錯(cuò)誤回答率(開啟搜索模式下)達(dá)到93.9%,較GPT-5.1的91.2%有所改善,在無搜索情況下也從87.3%提升至88%。


▲圖源:OpenAI官方博客

另一個(gè)關(guān)鍵變化來自工具調(diào)用與長鏈路任務(wù)的可靠性提升

GPT-5.2 Thinking在Tau-2 Bench Telecom中達(dá)到98.7%的最高得分,在零推理模式下也大幅領(lǐng)先上一代,在更高噪聲的Retail場景中準(zhǔn)確率從77.9%提升至82%。在更通用的工具鏈評(píng)估BrowseComp中,GPT-5.2 Thinking達(dá)到65.8%,Pro版本達(dá)到77.9%,亦高于GPT-5.1的50.8%。


▲圖源:OpenAI官方博客

OpenAI提到,GPT-5.2 Thinking和Pro均支持第五檔推理強(qiáng)度xhigh,適用于長流程、多步驟、高精度的專業(yè)任務(wù)場景。

三、在長上下文與視覺理解,GPT-5.2全面增強(qiáng)

在長上下文能力上,GPT-5.2 Thinking在OpenAI MRCRv2中全面領(lǐng)先上一代,在8 needles測試中從4k到256k的范圍內(nèi)均保持遠(yuǎn)高于GPT-5.1的表現(xiàn),其中在4k–8k長度下達(dá)98.2%,在128k–256k長度下仍保持77.0%,而GPT-5.1同期為29.6%–47.8%區(qū)間。

在其他長文場景中,BrowseComp Long Context(128k/256k)中,GPT-5.2 Thinking分別達(dá)到92.0%與89.8%。GraphWalks任務(wù)中,GPT-5.2 Thinking在bfs與parents子集分別達(dá)到94.0%與89.0%,相比GPT-5.1的76.8%與71.5%顯著提升。


▲圖源:OpenAI官方博客

在視覺理解上,GPT-5.2 Thinking在CharXiv科學(xué)圖表推理任務(wù)中無工具模式下為82.1%,開啟Python工具后進(jìn)一步提升至88.7%。在ScreenSpot-Pro界面理解中,GPT-5.2 Thinking取得86.3%,遠(yuǎn)高于GPT-5.1的64.2%。在視頻類、多模態(tài)綜合難度更高的Video MMMU中,也從82.9%提升至85.9%。

在視覺能力上,GPT-5.2在ScreenSpot-Pro(界面理解)中達(dá)到86.3%的準(zhǔn)確率,相比GPT-5.1有明顯提升。在CharXiv科學(xué)圖表推理任務(wù)中,也實(shí)現(xiàn)了準(zhǔn)確率的大幅增長。這使其在處理科研圖表、運(yùn)營儀表盤、產(chǎn)品界面截圖等專業(yè)視覺輸入時(shí)更加可靠。


▲圖源:OpenAI官方博客

四、微軟全家桶同步升級(jí),GPT-5.2成為新一代“生產(chǎn)力模型”

隨著GPT-5.2發(fā)布,微軟董事長兼CEO Satya Nadella也在社交平臺(tái)X平臺(tái)上宣布,GPT-5.2將全面進(jìn)入Microsoft 365 Copilot、GitHub Copilot與Foundry等產(chǎn)品體系,并作為新的“默認(rèn)推理模型”服務(wù)更多工作流場景。

在Microsoft 365 Copilot中,用戶已經(jīng)可以通過模型選擇器啟用GPT-5.2,用于會(huì)議記錄分析、文檔推理、市場研究與戰(zhàn)略規(guī)劃等高復(fù)雜度任務(wù)。Nadella稱,將模型與用戶工作數(shù)據(jù)結(jié)合后,GPT-5.2能夠更充分發(fā)揮推理優(yōu)勢。

在GitHub Copilot中,GPT-5.2適用于長上下文推理與復(fù)雜代碼庫審查,重點(diǎn)覆蓋跨文件關(guān)系分析、依賴追蹤與重構(gòu)建議等工程類使用場景。

此外,GPT-5.2還同步進(jìn)入Microsoft Foundry與Copilot Studio,開發(fā)者可在構(gòu)建自動(dòng)化流程、企業(yè)內(nèi)部Agent或自主開發(fā)時(shí)直接調(diào)用GPT-5.2模型。面向消費(fèi)者端的Copilot也將隨后啟動(dòng)分階段更新,逐步替換當(dāng)前版本。


▲圖源:X平臺(tái)

從微軟生態(tài)的覆蓋面來看,GPT-5.2已被定位為“默認(rèn)生產(chǎn)力模型”,在不同產(chǎn)品線之間以自動(dòng)模型選擇的方式服務(wù)更廣泛的開發(fā)、寫作與分析任務(wù)。

此外,頂流AI編程助手Cursor也已第一時(shí)間火速上線GPT-5.2,并同步沿用OpenAI官方API價(jià)格。


▲圖源:Cursor

結(jié)語:GPT-5.2的能力邊界正向“穩(wěn)定、實(shí)用”收攏

從多項(xiàng)公開基準(zhǔn)測試到Arena針對(duì)Web應(yīng)用端到端能力的評(píng)測結(jié)果,GPT-5.2展現(xiàn)出的整體能力向穩(wěn)定可用和任務(wù)完成度方向收攏。

隨著Instant、Thinking與Pro組成的多檔能力體系的開放,GPT-5.2在不同工作流中被切分為更清晰的使用場景。而在微軟生態(tài)中的全面接入,也進(jìn)一步強(qiáng)化了這一變化的方向。無論是在M365 Copilot中承擔(dān)跨文檔推理,還是在GitHub Copilot中處理長上下文代碼鏈路,GPT-5.2都開始參與到更高頻、更具體的任務(wù)流程中。

除了推出面向?qū)I(yè)工作和智能體的前沿模型外,OpenAI還宣布已經(jīng)與迪士尼達(dá)成授權(quán)協(xié)議,允許Sora 2用戶在生成并分享的圖片中使用迪士尼角色。迪士尼將向OpenAI投資10億美元(約合人民幣71億元),并擁有未來增持股份的選擇權(quán)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蕭子升:建黨后與毛主席決裂,49年后流亡海外,晚年在烏拉圭去世

蕭子升:建黨后與毛主席決裂,49年后流亡海外,晚年在烏拉圭去世

老范談史
2025-12-01 21:19:07
42歲沈佳妮健身照,腰臀比封神,終于懂朱亞文為啥說生理性喜歡

42歲沈佳妮健身照,腰臀比封神,終于懂朱亞文為啥說生理性喜歡

瓜農(nóng)娟姐
2025-12-12 20:46:55
美航母艦隊(duì)進(jìn)戰(zhàn)位,委電話打到北京,救不救馬杜羅?王毅斬釘截鐵

美航母艦隊(duì)進(jìn)戰(zhàn)位,委電話打到北京,救不救馬杜羅?王毅斬釘截鐵

芊芊子吟
2025-12-19 10:40:13
馬斯克反對(duì)可控核聚變。實(shí)際上,等中國的釷基熔鹽堆成功商用,

馬斯克反對(duì)可控核聚變。實(shí)際上,等中國的釷基熔鹽堆成功商用,

忠于法紀(jì)
2025-12-19 18:31:25
網(wǎng)友在餐廳點(diǎn)了一只螃蟹引發(fā)熱議 專家:是正直愛潔蟹,有毒不能吃

網(wǎng)友在餐廳點(diǎn)了一只螃蟹引發(fā)熱議 專家:是正直愛潔蟹,有毒不能吃

封面新聞
2025-12-18 18:47:04
高速上轎車剎車失靈時(shí)速115狂奔490公里,化險(xiǎn)為夷后更應(yīng)查明原委

高速上轎車剎車失靈時(shí)速115狂奔490公里,化險(xiǎn)為夷后更應(yīng)查明原委

極目新聞
2025-12-19 11:20:16
日哈14項(xiàng)協(xié)議簽訂,高市早苗萬萬沒想到,托卡耶夫竟然還留了一手

日哈14項(xiàng)協(xié)議簽訂,高市早苗萬萬沒想到,托卡耶夫竟然還留了一手

凡知
2025-12-20 05:04:30
烏克蘭在地中海打擊影子油船;土、俄互相襲擊對(duì)方目標(biāo)

烏克蘭在地中海打擊影子油船;土、俄互相襲擊對(duì)方目標(biāo)

近距離
2025-12-20 10:15:45
湖北一知名景區(qū)宣布:更名!

湖北一知名景區(qū)宣布:更名!

極目新聞
2025-12-19 23:47:18
256GB 秒變 2TB,iPhone 17 Pro 最強(qiáng)外掛發(fā)布!

256GB 秒變 2TB,iPhone 17 Pro 最強(qiáng)外掛發(fā)布!

劉奔跑
2025-12-19 23:49:30
1953年,林彪支持高崗篡權(quán),毛主席派陳云警告他:不要上高崗的當(dāng)

1953年,林彪支持高崗篡權(quán),毛主席派陳云警告他:不要上高崗的當(dāng)

帝哥說史
2025-12-16 15:31:05
再見快船!三方史詩級(jí)交易方案,哈登聯(lián)手愛德華茲,又要沖冠了?

再見快船!三方史詩級(jí)交易方案,哈登聯(lián)手愛德華茲,又要沖冠了?

老侃侃球
2025-12-20 03:00:03
中方拋118億美債,逼出4接盤國,馬斯克已通知白宮:美基本沒救了

中方拋118億美債,逼出4接盤國,馬斯克已通知白宮:美基本沒救了

南宮一二
2025-12-19 17:35:12
1983年嚴(yán)打后,重刑犯都被遣送大西北,最終是什么結(jié)局?

1983年嚴(yán)打后,重刑犯都被遣送大西北,最終是什么結(jié)局?

觀史搜尋著
2025-12-03 22:30:28
實(shí)探廣州玩具城:李嘉誠15億投資,如今荒涼像“鬼城”

實(shí)探廣州玩具城:李嘉誠15億投資,如今荒涼像“鬼城”

樓市滅霸
2025-12-19 19:11:22
45歲謝霆鋒哈爾濱聚餐,梳油頭帥氣依舊!網(wǎng)友質(zhì)疑:真無油膩全靠自律

45歲謝霆鋒哈爾濱聚餐,梳油頭帥氣依舊!網(wǎng)友質(zhì)疑:真無油膩全靠自律

今古深日?qǐng)?bào)
2025-12-19 10:52:03
只有303萬退休老人的廣西,人均養(yǎng)老金達(dá)3873元?是怎樣計(jì)算的?

只有303萬退休老人的廣西,人均養(yǎng)老金達(dá)3873元?是怎樣計(jì)算的?

暖心人社
2025-12-19 22:54:51
意媒爆李盈瑩轉(zhuǎn)會(huì)失?。∞D(zhuǎn)戰(zhàn)土超還是回國參賽?休養(yǎng)是最佳選擇

意媒爆李盈瑩轉(zhuǎn)會(huì)失?。∞D(zhuǎn)戰(zhàn)土超還是回國參賽?休養(yǎng)是最佳選擇

排球黃金眼
2025-12-19 23:49:57
國家統(tǒng)計(jì)局原局長邱曉華:很多人按揭買的房子,房子的價(jià)格已經(jīng)比首付還要低!它給人帶來的心理沖擊是很大的

國家統(tǒng)計(jì)局原局長邱曉華:很多人按揭買的房子,房子的價(jià)格已經(jīng)比首付還要低!它給人帶來的心理沖擊是很大的

和訊網(wǎng)
2025-12-18 17:46:52
怪不得黃循財(cái)陰陽怪氣,海南封關(guān)結(jié)束了新加坡“躺贏”時(shí)代。

怪不得黃循財(cái)陰陽怪氣,海南封關(guān)結(jié)束了新加坡“躺贏”時(shí)代。

荊楚寰宇文樞
2025-12-19 22:48:00
2025-12-20 11:36:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
10946文章數(shù) 116929關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

媒體:日本惡意滋擾遼寧艦編隊(duì) 還挑撥中國與越南關(guān)系

頭條要聞

媒體:日本惡意滋擾遼寧艦編隊(duì) 還挑撥中國與越南關(guān)系

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

戚薇女兒大變樣,10歲就進(jìn)入“尷尬期”

財(cái)經(jīng)要聞

日本加息落地:暴跌沒有,麻煩在后頭

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

游戲
教育
旅游
手機(jī)
公開課

《料理模擬器2》延期至4月1日發(fā)售 好評(píng)烹飪模擬

教育要聞

“一塊正經(jīng)肉沒有”,母親嫌初中兒子太能吃,網(wǎng)友:你當(dāng)雞養(yǎng)呢?

旅游要聞

新聞1+1丨冰雪旅游,今冬如何添新意?

手機(jī)要聞

80天超260萬臺(tái),小米17系列最新銷量曝光

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版