網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5.2發(fā)布，真正的牛馬打工人專屬AI來(lái)了。

2025-12-12 11:06:08　來(lái)源: 數(shù)字生命卡茲克

北京舉報(bào)

分享至

在各種小道消息，各種預(yù)測(cè)之后。

終于，在OpenAI十周年的這一天。

也就是今天的凌晨2點(diǎn)，GPT-5.2終于跟大家見(jiàn)面了。

這是Gemini 3 Pro爆火，第一次讓OpenAI沒(méi)有領(lǐng)先優(yōu)勢(shì)，奧特曼在內(nèi)部官宣紅色警戒狀態(tài)之后，他們掏出的第一款模型。

也是OpenAI的十周年獻(xiàn)禮。

而這款模型的特點(diǎn)也非常有意思。

OpenAI的原話是：

We are introducing GPT?5.2, the most capable model series yet for professional knowledge work.（我們正式發(fā)布 GPT-5.2，這是迄今為止在專業(yè)知識(shí)工作方面能力最強(qiáng)的一代模型系列。）

專業(yè)知識(shí)工作，記住這個(gè)關(guān)鍵詞，后面要考。

我們先從各種跑分上看，其實(shí)能看到，一些跑分其實(shí)沒(méi)有質(zhì)的飛躍，有一種數(shù)碼廠開(kāi)始擠牙膏的感覺(jué)。。。

對(duì)比了GPT-5.2、GPT-5.1、Claude Opus 4.5和Gemini 3 Pro。

在軟件工程（SWE-Bench Pro）、科學(xué)問(wèn)題（GPQA Diamond）、數(shù)學(xué)競(jìng)賽（AIME 2025）這些傳統(tǒng)評(píng)測(cè)集上。

GPT-5.2確實(shí)又強(qiáng)了一些，也回到了第一的位置，全面領(lǐng)先。

在前端審美還有3D元素上，表現(xiàn)的更牛逼了。

在視覺(jué)理解能力上也更強(qiáng)了。

比如要求模型識(shí)別圖像輸入中的組件，并返回帶有近似邊界框的標(biāo)簽。

即使在低質(zhì)量的圖像上，GPT-5.2也能識(shí)別主要區(qū)域并放置與每個(gè)組件真實(shí)位置大致匹配的框，而GPT-5.1只標(biāo)注了幾個(gè)部分，對(duì)它們的空間排列理解不是很好。

但是這些東西，說(shuō)實(shí)話，確實(shí)也就那樣，大家很難體感上還覺(jué)得有多牛逼。

就像芯片廠子告訴你，我的手機(jī)芯片性能又提升了25%，你聽(tīng)了以后，哦確實(shí)強(qiáng)，但是完全不影響你繼續(xù)刷抖音和小紅書(shū)對(duì)吧。

不過(guò)有兩個(gè)評(píng)測(cè)集，是我覺(jué)得這次GPT-5.2最大的亮點(diǎn)，且一定要單拎出來(lái)，跟大家單獨(dú)聊一下的。

一個(gè)是ARC-AGI-2，一個(gè)是GDPval。

這兩個(gè)，非常有意思。

先說(shuō)ARC-AGI-2。

過(guò)去的AI評(píng)測(cè)，比如MMLU，考的主要是是知識(shí)。

比如它會(huì)問(wèn)你“美國(guó)第一任總統(tǒng)是誰(shuí)？”、“光合作用的化學(xué)方程式是什么？”。

這種評(píng)測(cè)呢，坦率的講，對(duì)于一個(gè)讀了半個(gè)互聯(lián)網(wǎng)的AI來(lái)說(shuō)，有點(diǎn)像開(kāi)卷考試，它有很大概率不是真的推理出來(lái)的，而是背出來(lái)的。

這就導(dǎo)致一個(gè)問(wèn)題，在實(shí)際的評(píng)測(cè)中，我們分不清AI是真的聰明，還是只是記性好。

于是，F(xiàn)ran?ois Chollet，就是那位Keras（一個(gè)著名的機(jī)器學(xué)習(xí)框架）之父，2019年第一次在論文《On the Measure of Intelligence》里，提出了ARC這個(gè)變態(tài)測(cè)試。

而這個(gè)測(cè)試，跟知識(shí)儲(chǔ)備一毛錢關(guān)系都沒(méi)有。

全名叫，Abstraction and Reasoning Corpus，抽象與推理語(yǔ)料庫(kù)。

設(shè)計(jì)目標(biāo)就是測(cè)模型的通用智能的能力。

大概就是，不看你在某一道題上有多熟練，而是是看你在沒(méi)見(jiàn)過(guò)的新題上，能不能自己推理出規(guī)則、舉一反三。

目前正式版發(fā)展到了第二代，也就是ARC-AGI-2，我給大家放一下，ARC-AGI-2里面的一些典型的題目，大家就懂了。

這種能力，現(xiàn)在稱為流體智力

（Fluid Intelligence），意思就是指不依賴于已有的知識(shí)，在全新情境下進(jìn)行邏輯推理、識(shí)別模式和解決問(wèn)題的能力。

悟性開(kāi)竅的能力。

說(shuō)白了，就是你的

這玩意兒對(duì)AI來(lái)說(shuō)，難于登天。

因?yàn)樗诨ヂ?lián)網(wǎng)上找不到任何現(xiàn)成的答案，它必須當(dāng)場(chǎng)理解、當(dāng)場(chǎng)推理

在很長(zhǎng)一段時(shí)間里，頂級(jí)AI的得分都低得可憐。

在ARC-AGI-2上，之前GPT-5.1的得分是17.6%，而GPT-5.2，直接飆到了52.9%。

直接翻了三倍。

這是一個(gè)很恐怖的數(shù)據(jù)。

GPT-5.2的模型，直接在排行榜上屠榜了。

而且，效率還很高。

基本都在同成本區(qū)間，能力做到了最高。

在真正的智力水平上，GPT-5.2確實(shí)達(dá)到了目前的最優(yōu)。

這就比較有意思了。

然后是第二個(gè)，也是我自己現(xiàn)在最關(guān)心、也是我認(rèn)為最重要的一個(gè)：

GDPval。

可能很多人沒(méi)聽(tīng)說(shuō)過(guò)這個(gè)評(píng)測(cè)集。

他是OpenAI自己在2個(gè)半月前新出的。

其實(shí)你看這個(gè)名字也能看出來(lái)一點(diǎn)端倪。

val，就是生產(chǎn)總值的那個(gè)GDP。

GDP

他們要用一個(gè)全新的標(biāo)準(zhǔn)，來(lái)衡量AI在上的表現(xiàn)。

真實(shí)世界中、具有經(jīng)濟(jì)價(jià)值的任務(wù)

過(guò)去，我們說(shuō)一個(gè)模型牛逼，是因?yàn)樗a寫(xiě)得好，或者知識(shí)答得準(zhǔn)，或者考試分?jǐn)?shù)高。

這當(dāng)然很重要，但就像我常說(shuō)的，這個(gè)世界不只有程序員和科學(xué)家。

還有律師、設(shè)計(jì)師、市場(chǎng)經(jīng)理、護(hù)士、建筑師、銷售……

無(wú)數(shù)專業(yè)知識(shí)工作者。

他們工作的價(jià)值，其實(shí)很難用一張考卷來(lái)衡量。

于是，OpenAI他們?cè)诿绹?guó)貢獻(xiàn)GDP最高的9個(gè)行業(yè)里，選取了44個(gè)核心職業(yè)，然后，他們找到了在這些行業(yè)里平均有14年工作經(jīng)驗(yàn)的資深專家，讓他們出了1320道專業(yè)知識(shí)任務(wù)，并且每一項(xiàng)，都基于真實(shí)工作成果。

比如，給律師的任務(wù)，可能就是一份真實(shí)的合同草案和客戶需求，讓他去審閱和修改。

給市場(chǎng)經(jīng)理的任務(wù)，可能就是一堆產(chǎn)品資料和市場(chǎng)數(shù)據(jù)，讓他寫(xiě)一份營(yíng)銷方案PPT。

給制造工程師的任務(wù)，可能就是一張產(chǎn)品設(shè)計(jì)圖，讓他優(yōu)化生產(chǎn)流程。

這些任務(wù)，不僅有文字，還可能包含PDF、Excel表格、圖片、PPT，是高度復(fù)雜的、多模態(tài)的、沒(méi)有標(biāo)準(zhǔn)答案的真實(shí)工作。

整套任務(wù)的平均用時(shí)，是人類專家要花 7 個(gè)小時(shí)才能做完，有些甚至是一兩周的活。

然后，模型和人類的成果，會(huì)被同領(lǐng)域的另一批專家進(jìn)行盲評(píng)。

他們也不知道誰(shuí)是AI，誰(shuí)是人類。

評(píng)委只需要回答一個(gè)問(wèn)題：你更愿意把哪份交給客戶？是這份，還是這份？

結(jié)果，GPT-5.2 Thinking在這套 GDPval 上，贏或打平行業(yè)專家的比例，達(dá)到了70.9%，而GPT-5.2Pro 模型是74.1%。

注意，這里的參照系不是普通實(shí)習(xí)生，而是行業(yè)專家。

也就是說(shuō)，在一個(gè)有著十幾年經(jīng)驗(yàn)的采購(gòu)經(jīng)理、或者審計(jì)師面前，GPT-5.2干出來(lái)的活兒，有七成的時(shí)候，比專家干得好，或者至少一樣好。

而 GPT-5，只有 38.8%。

這個(gè)進(jìn)步的速度，還有有一點(diǎn)快的。

看一下官方放的case的對(duì)比，還是比較直觀的。

我們過(guò)去的模型，都花過(guò)于著重的筆墨在編程開(kāi)發(fā)上了，我并不是說(shuō)編程開(kāi)發(fā)不重要，它很重要，很牛逼。

但，其他的領(lǐng)域的工作，我也覺(jué)得應(yīng)該被重視。

而GDPval，就是我認(rèn)為最重要的一個(gè)指標(biāo)。

而且這次GPT-5.2，在上下文上，也有大幅的加強(qiáng)。

用我們以前的大海撈針測(cè)試，在一個(gè)256K的巨型文檔里面埋四根針，讓AI來(lái)根據(jù)文檔內(nèi)容回答。

GPT-5.2干到了離譜的100%，這也是我印象中，唯一一個(gè)能干到100%的。

8根針的正確度會(huì)下降，但是這個(gè)衰減，已經(jīng)比GPT-5.1牛逼太多了。

而且，還有最新的知識(shí)庫(kù)截止日期：

牛逼的知識(shí)工作處理+最新的知識(shí)庫(kù)截止日期+更棒的智力+準(zhǔn)確性超高的上下文。

這簡(jiǎn)直，就是真正的天選牛馬搭子，對(duì)打工人的加持，實(shí)在是太強(qiáng)了。

這是真正，奔著大眾、奔著實(shí)用去的。

目前今天會(huì)開(kāi)放給ChatGPT付費(fèi)會(huì)員，明天會(huì)開(kāi)放給免費(fèi)會(huì)員，會(huì)直接替代GPT-5.1，但是如果你是付費(fèi)會(huì)員的話，還會(huì)在老模型中存續(xù)3個(gè)月。

就是這。

可惜截止到我發(fā)文的凌晨6點(diǎn)這一刻，作為尊貴的200刀的ChatGPT Pro會(huì)員，我還是沒(méi)有拿到GPT-5.2的體驗(yàn)資格。

一些所謂的ChatGPT上的為GPT-5.2專用的文件精修，也只能等拿到實(shí)測(cè)以后，再出一篇GPT-5.2的打工合集了。

然后開(kāi)發(fā)者的話，已經(jīng)可以通過(guò)API調(diào)用。

價(jià)格上，會(huì)比5.1貴一些。

整體上，GPT-5.2的所有消息差不多就這樣了。

而我自己一直期待的，成人模式。

還是沒(méi)有到來(lái)。

奧特曼自己這個(gè)龜兒子說(shuō)的是12月上線。

也不知道能不能等到。

反正他說(shuō)，下周還會(huì)再送一些小的圣誕禮物。

盲猜一手OpenAI家的生圖模型，或者成人模式。

對(duì)于一個(gè)創(chuàng)作者來(lái)說(shuō)，這兩玩意，真的很需要。。。

最后總結(jié)，GPT-5.2在我心中，是一個(gè)合格的迭代，并沒(méi)有跟很多模型一樣，專注于純粹的傳統(tǒng)刷分，而是聚焦在了廣大白領(lǐng)打工人身上，幫大家解決實(shí)際工作中的問(wèn)題。

這個(gè)點(diǎn)，我覺(jué)得就很酷，非常的剛需。

但是從路線上來(lái)說(shuō)，感覺(jué)GPT-5.2還是被原生多模態(tài)的Gemini 3 Pro壓了一頭，12月大概率還是要發(fā)個(gè)生圖模型出來(lái)的，不知道對(duì)標(biāo)Banana，會(huì)不會(huì)有新的驚喜。

總之，還是保持期待。

反正每一個(gè)新模型的發(fā)布，只要是我覺(jué)得有意思的。

也一定會(huì)熬夜給大家?guī)?lái)第一時(shí)間的解讀。

我們以后。

還是，不見(jiàn)不散~

晚安。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.