国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI紅色警報(bào)下的反擊:發(fā)布GPT-5.2迎戰(zhàn)Gemini 3

0
分享至

當(dāng)谷歌的 Gemini 在各大 AI 排行榜上風(fēng)頭正勁時(shí),OpenAI 終于打出了新的王牌。

周四,這家 AI 巨頭發(fā)布了 GPT-5.2,稱其是迄今為止“最強(qiáng)大的模型”,專為開發(fā)者和職場(chǎng)人士打造。


(來(lái)源:OpenAI)

這場(chǎng)發(fā)布會(huì)的時(shí)機(jī)頗為微妙。

一個(gè)月前,OpenAI CEO 山姆·奧特曼(Sam Altman)向內(nèi)部發(fā)出“紅色警報(bào)”,承認(rèn) ChatGPT 面臨巨大競(jìng)爭(zhēng)壓力,正在輸?shù)粝M(fèi)市場(chǎng)份額。今天的 GPT-5.2 正是 OpenAI 試圖奪回領(lǐng)導(dǎo)地位的關(guān)鍵一步。

同時(shí),今天也是 OpenAI 官宣成立十周年的日子。

GPT-5.2 模型家族包括三個(gè)不同版本:Instant、Thinking 和 Pro。

Instant 是速度優(yōu)化版本,專門處理日常查詢,比如信息檢索、寫作和翻譯這類常規(guī)任務(wù)。

Thinking 則擅長(zhǎng)復(fù)雜的結(jié)構(gòu)化工作,在編程、分析長(zhǎng)文檔、數(shù)學(xué)計(jì)算和項(xiàng)目規(guī)劃方面表現(xiàn)突出。

Pro 則是頂級(jí)版本,旨在為最棘手的問(wèn)題提供最高精度和可靠性。它的運(yùn)行速度顯著慢于其他版本,且成本極其高昂,專為那些準(zhǔn)確性高于一切、成本退居其次的重要任務(wù)設(shè)計(jì)。

測(cè)試數(shù)據(jù)表明,Pro 版本是唯一在 ARC-AGI-1 推理基準(zhǔn)測(cè)試中突破 90% 大關(guān),并在 AIME 2025 數(shù)學(xué)競(jìng)賽中不使用工具就達(dá)到 100% 滿分的模型。

在 ChatGPT 中,GPT-5.2 的三個(gè)版本已經(jīng)上線,首先面向付費(fèi)用戶開放。OpenAI 表示將在未來(lái)幾天逐步部署 GPT-5.2,以保持 ChatGPT 盡可能流暢和可靠。

“我們?cè)O(shè)計(jì) GPT-5.2 就是為了給人們創(chuàng)造更多經(jīng)濟(jì)價(jià)值。”O(jiān)penAI 應(yīng)用業(yè)務(wù) CEO 菲吉·西莫(Fidji Simo)在發(fā)布會(huì)上表示。她強(qiáng)調(diào),新模型在創(chuàng)建電子表格、制作演示文稿、編寫代碼、圖像識(shí)別、理解長(zhǎng)文本、使用工具以及處理復(fù)雜多步驟項(xiàng)目方面都有顯著提升。


(來(lái)源:OpenAI)

據(jù)其介紹,ChatGPT 企業(yè)版的普通用戶表示“AI 每天為他們節(jié)省 40-60 分鐘”,而重度用戶每周節(jié)省時(shí)間“超過(guò)十小時(shí)”。GPT-5.2 的目標(biāo)就是進(jìn)一步擴(kuò)大這種價(jià)值。

OpenAI 表示,GPT-5.2 在多項(xiàng)行業(yè)基準(zhǔn)測(cè)試中創(chuàng)下新紀(jì)錄。


圖 | 多項(xiàng)基準(zhǔn)測(cè)試成績(jī)(來(lái)源:OpenAI)

在涵蓋 40 多種職業(yè)專業(yè)知識(shí)的 GDPval 測(cè)試中,GPT-5.2 Thinking 的表現(xiàn)達(dá)到了專家級(jí)水平。根據(jù)專業(yè)評(píng)審的判斷,在 70.9% 的情況下,GPT-5.2 Thinking 擊敗或打平了頂級(jí)行業(yè)專業(yè)人士。這些任務(wù)包括制作演示文稿、電子表格和其他各類工作成果。

更重要的是,GPT-5.2 完成這些任務(wù)的速度是專業(yè)人士的 11 倍以上,成本卻不到 1%,不過(guò) OpenAI 并未公布模型 VS 人類的成本是如何計(jì)算的。


(來(lái)源:OpenAI)

在軟件工程領(lǐng)域,GPT-5.2 Thinking 在 SWE-Bench Pro 測(cè)試中達(dá)到了 55.6% 的新高分。這個(gè)成績(jī)也是超過(guò)了 Claude 4.5 Sonnet 和 Gemini 3 Pro。在更基礎(chǔ)的 SWE-bench Verified 測(cè)試中,GPT-5.2 的得分更是達(dá)到了 80%。


(來(lái)源:資料圖)

OpenAI 研究主管艾丹·克拉克(Aidan Clark)解釋說(shuō),更強(qiáng)的數(shù)學(xué)能力不僅僅是解方程那么簡(jiǎn)單。數(shù)學(xué)推理能力是衡量模型能否遵循多步驟邏輯、保持?jǐn)?shù)字長(zhǎng)期一致性、避免可能隨時(shí)間累積的細(xì)微錯(cuò)誤的代理指標(biāo)。

在科學(xué)問(wèn)題方面,GPT-5.2 Pro 在 GPQA Diamond 測(cè)試中取得了 93.2% 成績(jī)。GPT-5.2 Thinking 也有 92.4% 的高分。雙雙打破了 Gemini 3 Pro 保持的紀(jì)錄。




圖 | GPQA Diamond 榜單(來(lái)源:OpenAI)

克拉克在發(fā)布會(huì)上分享了一個(gè)案例:團(tuán)隊(duì)讓一位資深免疫學(xué)研究員使用 GPT-5.2 Pro,當(dāng)研究員要求模型生成關(guān)于免疫系統(tǒng)最重要的未解問(wèn)題時(shí),模型產(chǎn)生了“更敏銳的問(wèn)題和更有力的解釋”,用于說(shuō)明這些問(wèn)題為何重要。該研究員認(rèn)為其表現(xiàn)超過(guò)了“所有其他前沿模型”。

在可靠性方面,GPT-5.2 也取得了重要進(jìn)展。OpenAI 后訓(xùn)練負(fù)責(zé)人馬克斯·施瓦策(Max Schwarzer)指出,在衡量對(duì)事實(shí)性問(wèn)題回答的基準(zhǔn)測(cè)試中,GPT-5.2 Thinking 的幻覺(jué)出現(xiàn)率比 GPT-5.1 降低了 38%。


(來(lái)源:OpenAI)

長(zhǎng)文本理解方面,GPT-5.2 Thinking 同樣創(chuàng)下了新紀(jì)錄。OpenAI 采用 MRCRv2 評(píng)估來(lái)衡量模型整合分散在長(zhǎng)文檔中信息的能力。

處理需要跨越數(shù)十萬(wàn) token 相關(guān)信息的真實(shí)任務(wù)時(shí),GPT-5.2 Thinking 的準(zhǔn)確性遠(yuǎn)超 GPT-5.1 Thinking。它是第一個(gè)在四針 MRCRv2 測(cè)試中(最多 256k token)實(shí)現(xiàn)接近 100% 準(zhǔn)確率的模型。


(來(lái)源:OpenAI)

這意味著專業(yè)人士可以更放心地使用 GPT-5.2 處理長(zhǎng)文檔,如報(bào)告、合同、研究論文、記錄和多文件項(xiàng)目,同時(shí)在數(shù)十萬(wàn) token 范圍內(nèi)保持連貫性和準(zhǔn)確性。

在視覺(jué)能力方面,GPT-5.2 Thinking 在圖表推理和軟件界面理解方面的準(zhǔn)確率提升近 50%。這意味著模型可以更準(zhǔn)確地解讀儀表板、產(chǎn)品截圖、技術(shù)圖表和可視化報(bào)告,支持更加依賴視覺(jué)信息的工作流。

相比之前的模型,GPT-5.2 Thinking 對(duì)圖像中元素位置的把握更強(qiáng)。例如,在識(shí)別主板圖像中的組件并返回大致邊界框的任務(wù)中,即使在低質(zhì)量圖像上,GPT-5.2 也能識(shí)別主要區(qū)域并放置與每個(gè)組件真實(shí)位置有時(shí)匹配的框,而 GPT-5.1 只能標(biāo)記少數(shù)部分,對(duì)空間排列的理解要弱得多。


(來(lái)源:OpenAI)

值得一提的是,OpenAI 的新圖像生成工具仍然缺位。據(jù)報(bào)道,奧特曼曾在內(nèi)部紅色警報(bào)備忘錄中表示,圖像生成將是未來(lái)的重點(diǎn),特別是在谷歌的新版 Nano Banana 發(fā)布之后。

據(jù)報(bào)道,OpenAI 計(jì)劃在明年一月發(fā)布另一款新模型,具有更好的圖像效果、更快的速度和更好的個(gè)性,但尚未得到官方確認(rèn)。

最后在發(fā)布會(huì)上,OpenAI 承認(rèn)在某些方面還有改進(jìn)空間。比如在 ChatGPT 中,公司正在努力解決過(guò)度拒絕等已知問(wèn)題,同時(shí)繼續(xù)提高回復(fù)的可靠性。此外,OpenAI 據(jù)傳正在考慮開放模型成人內(nèi)容限制。

對(duì)于 OpenAI 來(lái)說(shuō),GPT-5.2 能否幫助它重新奪回失去的領(lǐng)地,還需要時(shí)間來(lái)證明。

參考資料:

https://openai.com/index/introducing-gpt-5-2/

https://www.theverge.com/ai-artificial-intelligence/842529/openai-gpt-5-2-new-model-chatgpt

https://techcrunch.com/2025/12/11/openai-fires-back-at-google-with-gpt-5-2-after-code-red-memo/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
拔出蘿卜帶出泥,何猷君慘遭媒體爆料,揭開了賭王家里不倫的一面

拔出蘿卜帶出泥,何猷君慘遭媒體爆料,揭開了賭王家里不倫的一面

小嵩
2025-08-01 12:00:18
26歲小伙南太行墜亡!救援隊(duì)曝猛料,本來(lái)可以活,領(lǐng)隊(duì)被警方抓走

26歲小伙南太行墜亡!救援隊(duì)曝猛料,本來(lái)可以活,領(lǐng)隊(duì)被警方抓走

阿纂看事
2026-01-03 10:46:25
套人最多,跌得最慘的5只股票!

套人最多,跌得最慘的5只股票!

財(cái)經(jīng)智多星
2026-01-04 11:47:43
委內(nèi)瑞拉3000億桶石油的“詛咒”,連鎖反應(yīng)開始了

委內(nèi)瑞拉3000億桶石油的“詛咒”,連鎖反應(yīng)開始了

大貓財(cái)經(jīng)Pro
2026-01-04 11:30:29
醫(yī)生:脈壓差超過(guò)這個(gè)值,馬上管住嘴巴,血壓值再正常也不行

醫(yī)生:脈壓差超過(guò)這個(gè)值,馬上管住嘴巴,血壓值再正常也不行

健康之光
2026-01-03 15:15:03
美預(yù)言家朱迪再爆猛料:美日中命運(yùn)已定,此島將首遭災(zāi)

美預(yù)言家朱迪再爆猛料:美日中命運(yùn)已定,此島將首遭災(zāi)

心靈短笛
2025-11-14 09:28:10
腿粗屁股大的女生別亂穿衣服?灰色T恤搭配白色打底褲,魅力十足

腿粗屁股大的女生別亂穿衣服?灰色T恤搭配白色打底褲,魅力十足

朝史暮夕
2026-01-02 00:25:05
張小雷涉案1554億:為4個(gè)情婦揮霍2億元,他說(shuō)最狠的話挨最毒的打

張小雷涉案1554億:為4個(gè)情婦揮霍2億元,他說(shuō)最狠的話挨最毒的打

素衣讀史
2025-12-30 17:27:14
再度秒光!1499元飛天茅臺(tái)連續(xù)兩天上線即售罄,記者實(shí)測(cè):半小時(shí)內(nèi)6次放貨均被秒空

再度秒光!1499元飛天茅臺(tái)連續(xù)兩天上線即售罄,記者實(shí)測(cè):半小時(shí)內(nèi)6次放貨均被秒空

極目新聞
2026-01-02 10:01:58
斯諾克最新戰(zhàn)報(bào):兩場(chǎng)2-5,世界第3第4都輸了!墨菲又戰(zhàn)勝丁俊暉

斯諾克最新戰(zhàn)報(bào):兩場(chǎng)2-5,世界第3第4都輸了!墨菲又戰(zhàn)勝丁俊暉

球場(chǎng)沒(méi)跑道
2026-01-03 23:31:02
換個(gè)身份,上海男籃的功勛隊(duì)長(zhǎng)回來(lái)了!

換個(gè)身份,上海男籃的功勛隊(duì)長(zhǎng)回來(lái)了!

新民晚報(bào)
2026-01-04 09:49:39
天箭科技凈利潤(rùn)或減少超2億元,陷退市危機(jī)!股民可索賠

天箭科技凈利潤(rùn)或減少超2億元,陷退市危機(jī)!股民可索賠

揚(yáng)子晚報(bào)
2026-01-03 17:01:43
特朗普為什么要搞掉委內(nèi)瑞拉總統(tǒng),而當(dāng)初美國(guó)人沒(méi)對(duì)查韋斯下手

特朗普為什么要搞掉委內(nèi)瑞拉總統(tǒng),而當(dāng)初美國(guó)人沒(méi)對(duì)查韋斯下手

老土歷史
2026-01-03 20:46:45
“今日委內(nèi)瑞拉,明日任何一國(guó)”,智利總統(tǒng)譴責(zé)美軍事行動(dòng)

“今日委內(nèi)瑞拉,明日任何一國(guó)”,智利總統(tǒng)譴責(zé)美軍事行動(dòng)

界面新聞
2026-01-04 06:57:44
女王:一種關(guān)于清醒的隱喻

女王:一種關(guān)于清醒的隱喻

疾跑的小蝸牛
2026-01-03 15:15:36
宋慶齡不愿與孫中山合葬,直言緣由:“這個(gè)人陪了我 53年,我早就答應(yīng)過(guò),要和她葬在一起?!?>
    </a>
        <h3>
      <a href=史海孤雁
2025-12-27 20:40:17
方媛元旦曬三胎!笑稱女兒比自己還漂亮,承諾對(duì)三個(gè)寶貝一樣疼愛

方媛元旦曬三胎!笑稱女兒比自己還漂亮,承諾對(duì)三個(gè)寶貝一樣疼愛

娛圈小愚
2026-01-04 10:22:13
周深唱到零點(diǎn),香港人沒(méi)投訴,全球網(wǎng)友卻瘋了

周深唱到零點(diǎn),香港人沒(méi)投訴,全球網(wǎng)友卻瘋了

東方不敗然多多
2026-01-03 10:45:02
方媛上海購(gòu)物被偶遇!生圖個(gè)子矮小身形肥碩,溜肩駝背無(wú)名媛氣質(zhì)

方媛上海購(gòu)物被偶遇!生圖個(gè)子矮小身形肥碩,溜肩駝背無(wú)名媛氣質(zhì)

娛圈小愚
2026-01-04 11:01:31
全網(wǎng)嘲諷“丈夫因一臺(tái)電腦想離婚”事件:這種父母禍害了多少孩子

全網(wǎng)嘲諷“丈夫因一臺(tái)電腦想離婚”事件:這種父母禍害了多少孩子

凡知
2026-01-02 09:10:36
2026-01-04 13:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16072文章數(shù) 514446關(guān)注度
往期回顧 全部

科技要聞

雷軍:罵小米汽車有流量,但別故意抹黑

頭條要聞

男子在村口畫"天安門"墻繪爆火:因英語(yǔ)5考央美均落榜

頭條要聞

男子在村口畫"天安門"墻繪爆火:因英語(yǔ)5考央美均落榜

體育要聞

離開中超后,他成了足壇“倒鉤之王”

娛樂(lè)要聞

謝玲玲為101歲林老太慶生,四代同堂

財(cái)經(jīng)要聞

委內(nèi)瑞拉華商親歷:顧客排隊(duì)買生活物資

汽車要聞

最高續(xù)航310km 嵐圖泰山8或?qū)⑸习肽臧l(fā)布

態(tài)度原創(chuàng)

房產(chǎn)
旅游
家居
親子
手機(jī)

房產(chǎn)要聞

單盤最高狂賣64億!海南樓市2025年最全榜單發(fā)布!

旅游要聞

個(gè)性化旅游帶火中國(guó)服務(wù)業(yè)消費(fèi)

家居要聞

黑白碰撞 個(gè)性多元冷冽風(fēng)

親子要聞

憤怒!育兒嫂給9月大寶寶喂安眠藥,警方通報(bào)已拘留,絕不輕饒!

手機(jī)要聞

小迭代旗艦工程機(jī)影像配置曝光:3X±光學(xué)變焦、200Mp主攝

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版