国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.2發(fā)布,真正的牛馬打工人專屬AI來(lái)了。

0
分享至

在各種小道消息,各種預(yù)測(cè)之后。

終于,在OpenAI十周年的這一天。



也就是今天的凌晨2點(diǎn),GPT-5.2終于跟大家見(jiàn)面了。



這是Gemini 3 Pro爆火,第一次讓OpenAI沒(méi)有領(lǐng)先優(yōu)勢(shì),奧特曼在內(nèi)部官宣紅色警戒狀態(tài)之后,他們掏出的第一款模型。

也是OpenAI的十周年獻(xiàn)禮。

而這款模型的特點(diǎn)也非常有意思。

OpenAI的原話是:

We are introducing GPT?5.2, the most capable model series yet for professional knowledge work.(我們正式發(fā)布 GPT-5.2,這是迄今為止在專業(yè)知識(shí)工作方面能力最強(qiáng)的一代模型系列。)

專業(yè)知識(shí)工作,記住這個(gè)關(guān)鍵詞,后面要考。

我們先從各種跑分上看,其實(shí)能看到,一些跑分其實(shí)沒(méi)有質(zhì)的飛躍,有一種數(shù)碼廠開(kāi)始擠牙膏的感覺(jué)。。。



對(duì)比了GPT-5.2、GPT-5.1、Claude Opus 4.5和Gemini 3 Pro。

在軟件工程(SWE-Bench Pro)、科學(xué)問(wèn)題(GPQA Diamond)、數(shù)學(xué)競(jìng)賽(AIME 2025)這些傳統(tǒng)評(píng)測(cè)集上。

GPT-5.2確實(shí)又強(qiáng)了一些,也回到了第一的位置,全面領(lǐng)先。

在前端審美還有3D元素上,表現(xiàn)的更牛逼了。



在視覺(jué)理解能力上也更強(qiáng)了。

比如要求模型識(shí)別圖像輸入中的組件,并返回帶有近似邊界框的標(biāo)簽。

即使在低質(zhì)量的圖像上,GPT-5.2也能識(shí)別主要區(qū)域并放置與每個(gè)組件真實(shí)位置大致匹配的框,而GPT-5.1只標(biāo)注了幾個(gè)部分,對(duì)它們的空間排列理解不是很好。



但是這些東西,說(shuō)實(shí)話,確實(shí)也就那樣,大家很難體感上還覺(jué)得有多牛逼。

就像芯片廠子告訴你,我的手機(jī)芯片性能又提升了25%,你聽(tīng)了以后,哦確實(shí)強(qiáng),但是完全不影響你繼續(xù)刷抖音和小紅書(shū)對(duì)吧。

不過(guò)有兩個(gè)評(píng)測(cè)集,是我覺(jué)得這次GPT-5.2最大的亮點(diǎn),且一定要單拎出來(lái),跟大家單獨(dú)聊一下的。

一個(gè)是ARC-AGI-2,一個(gè)是GDPval。

這兩個(gè),非常有意思。



先說(shuō)ARC-AGI-2。

過(guò)去的AI評(píng)測(cè),比如MMLU,考的主要是是知識(shí)。

比如它會(huì)問(wèn)你“美國(guó)第一任總統(tǒng)是誰(shuí)?”、“光合作用的化學(xué)方程式是什么?”。

這種評(píng)測(cè)呢,坦率的講,對(duì)于一個(gè)讀了半個(gè)互聯(lián)網(wǎng)的AI來(lái)說(shuō),有點(diǎn)像開(kāi)卷考試,它有很大概率不是真的推理出來(lái)的,而是背出來(lái)的。

這就導(dǎo)致一個(gè)問(wèn)題,在實(shí)際的評(píng)測(cè)中,我們分不清AI是真的聰明,還是只是記性好。

于是,F(xiàn)ran?ois Chollet,就是那位Keras(一個(gè)著名的機(jī)器學(xué)習(xí)框架)之父,2019年第一次在論文《On the Measure of Intelligence》里,提出了ARC這個(gè)變態(tài)測(cè)試。

而這個(gè)測(cè)試,跟知識(shí)儲(chǔ)備一毛錢關(guān)系都沒(méi)有。

全名叫,Abstraction and Reasoning Corpus,抽象與推理語(yǔ)料庫(kù)。

設(shè)計(jì)目標(biāo)就是測(cè)模型的通用智能的能力。

大概就是,不看你在某一道題上有多熟練,而是是看你在沒(méi)見(jiàn)過(guò)的新題上,能不能自己推理出規(guī)則、舉一反三。

目前正式版發(fā)展到了第二代,也就是ARC-AGI-2,我給大家放一下,ARC-AGI-2里面的一些典型的題目,大家就懂了。







這種能力,現(xiàn)在稱為流體智力

(Fluid Intelligence),意思就是指不依賴于已有的知識(shí),在全新情境下進(jìn)行邏輯推理、識(shí)別模式和解決問(wèn)題的能力。

悟性開(kāi)竅的能力。

說(shuō)白了,就是你的

這玩意兒對(duì)AI來(lái)說(shuō),難于登天。

因?yàn)樗诨ヂ?lián)網(wǎng)上找不到任何現(xiàn)成的答案,它必須當(dāng)場(chǎng)理解、當(dāng)場(chǎng)推理

在很長(zhǎng)一段時(shí)間里,頂級(jí)AI的得分都低得可憐。

在ARC-AGI-2上,之前GPT-5.1的得分是17.6%,而GPT-5.2,直接飆到了52.9%。

直接翻了三倍。

這是一個(gè)很恐怖的數(shù)據(jù)。

GPT-5.2的模型,直接在排行榜上屠榜了。



而且,效率還很高。



基本都在同成本區(qū)間,能力做到了最高。

在真正的智力水平上,GPT-5.2確實(shí)達(dá)到了目前的最優(yōu)。

這就比較有意思了。

然后是第二個(gè),也是我自己現(xiàn)在最關(guān)心、也是我認(rèn)為最重要的一個(gè):

GDPval。

可能很多人沒(méi)聽(tīng)說(shuō)過(guò)這個(gè)評(píng)測(cè)集。

他是OpenAI自己在2個(gè)半月前新出的。



其實(shí)你看這個(gè)名字也能看出來(lái)一點(diǎn)端倪。

val,就是生產(chǎn)總值的那個(gè)GDP。

GDP

他們要用一個(gè)全新的標(biāo)準(zhǔn),來(lái)衡量AI在上的表現(xiàn)。

真實(shí)世界中、具有經(jīng)濟(jì)價(jià)值的任務(wù)

過(guò)去,我們說(shuō)一個(gè)模型牛逼,是因?yàn)樗a寫(xiě)得好,或者知識(shí)答得準(zhǔn),或者考試分?jǐn)?shù)高。

這當(dāng)然很重要,但就像我常說(shuō)的,這個(gè)世界不只有程序員和科學(xué)家。

還有律師、設(shè)計(jì)師、市場(chǎng)經(jīng)理、護(hù)士、建筑師、銷售……

無(wú)數(shù)專業(yè)知識(shí)工作者。

他們工作的價(jià)值,其實(shí)很難用一張考卷來(lái)衡量。

于是,OpenAI他們?cè)诿绹?guó)貢獻(xiàn)GDP最高的9個(gè)行業(yè)里,選取了44個(gè)核心職業(yè),然后,他們找到了在這些行業(yè)里平均有14年工作經(jīng)驗(yàn)的資深專家,讓他們出了1320道專業(yè)知識(shí)任務(wù),并且每一項(xiàng),都基于真實(shí)工作成果。



比如,給律師的任務(wù),可能就是一份真實(shí)的合同草案和客戶需求,讓他去審閱和修改。

給市場(chǎng)經(jīng)理的任務(wù),可能就是一堆產(chǎn)品資料和市場(chǎng)數(shù)據(jù),讓他寫(xiě)一份營(yíng)銷方案PPT。

給制造工程師的任務(wù),可能就是一張產(chǎn)品設(shè)計(jì)圖,讓他優(yōu)化生產(chǎn)流程。

這些任務(wù),不僅有文字,還可能包含PDF、Excel表格、圖片、PPT,是高度復(fù)雜的、多模態(tài)的、沒(méi)有標(biāo)準(zhǔn)答案的真實(shí)工作。

整套任務(wù)的平均用時(shí),是人類專家要花 7 個(gè)小時(shí)才能做完,有些甚至是一兩周的活。

然后,模型和人類的成果,會(huì)被同領(lǐng)域的另一批專家進(jìn)行盲評(píng)。

他們也不知道誰(shuí)是AI,誰(shuí)是人類。

評(píng)委只需要回答一個(gè)問(wèn)題:你更愿意把哪份交給客戶?是這份,還是這份?

結(jié)果,GPT-5.2 Thinking在這套 GDPval 上,贏或打平行業(yè)專家的比例,達(dá)到了70.9%,而GPT-5.2Pro 模型是74.1%。

注意,這里的參照系不是普通實(shí)習(xí)生,而是行業(yè)專家。

也就是說(shuō),在一個(gè)有著十幾年經(jīng)驗(yàn)的采購(gòu)經(jīng)理、或者審計(jì)師面前,GPT-5.2干出來(lái)的活兒,有七成的時(shí)候,比專家干得好,或者至少一樣好。

而 GPT-5,只有 38.8%。



這個(gè)進(jìn)步的速度,還有有一點(diǎn)快的。

看一下官方放的case的對(duì)比,還是比較直觀的。





我們過(guò)去的模型,都花過(guò)于著重的筆墨在編程開(kāi)發(fā)上了,我并不是說(shuō)編程開(kāi)發(fā)不重要,它很重要,很牛逼。

但,其他的領(lǐng)域的工作,我也覺(jué)得應(yīng)該被重視。

而GDPval,就是我認(rèn)為最重要的一個(gè)指標(biāo)。

而且這次GPT-5.2,在上下文上,也有大幅的加強(qiáng)。

用我們以前的大海撈針測(cè)試,在一個(gè)256K的巨型文檔里面埋四根針,讓AI來(lái)根據(jù)文檔內(nèi)容回答。



GPT-5.2干到了離譜的100%,這也是我印象中,唯一一個(gè)能干到100%的。

8根針的正確度會(huì)下降,但是這個(gè)衰減,已經(jīng)比GPT-5.1牛逼太多了。



而且,還有最新的知識(shí)庫(kù)截止日期:



牛逼的知識(shí)工作處理+最新的知識(shí)庫(kù)截止日期+更棒的智力+準(zhǔn)確性超高的上下文。

這簡(jiǎn)直,就是真正的天選牛馬搭子,對(duì)打工人的加持,實(shí)在是太強(qiáng)了。

這是真正,奔著大眾、奔著實(shí)用去的。

目前今天會(huì)開(kāi)放給ChatGPT付費(fèi)會(huì)員,明天會(huì)開(kāi)放給免費(fèi)會(huì)員,會(huì)直接替代GPT-5.1,但是如果你是付費(fèi)會(huì)員的話,還會(huì)在老模型中存續(xù)3個(gè)月。

就是這。



可惜截止到我發(fā)文的凌晨6點(diǎn)這一刻,作為尊貴的200刀的ChatGPT Pro會(huì)員,我還是沒(méi)有拿到GPT-5.2的體驗(yàn)資格。



一些所謂的ChatGPT上的為GPT-5.2專用的文件精修,也只能等拿到實(shí)測(cè)以后,再出一篇GPT-5.2的打工合集了。

然后開(kāi)發(fā)者的話,已經(jīng)可以通過(guò)API調(diào)用。



價(jià)格上,會(huì)比5.1貴一些。



整體上,GPT-5.2的所有消息差不多就這樣了。

而我自己一直期待的,成人模式。

還是沒(méi)有到來(lái)。

奧特曼自己這個(gè)龜兒子說(shuō)的是12月上線。



也不知道能不能等到。

反正他說(shuō),下周還會(huì)再送一些小的圣誕禮物。



盲猜一手OpenAI家的生圖模型,或者成人模式。

對(duì)于一個(gè)創(chuàng)作者來(lái)說(shuō),這兩玩意,真的很需要。。。

最后總結(jié),GPT-5.2在我心中,是一個(gè)合格的迭代,并沒(méi)有跟很多模型一樣,專注于純粹的傳統(tǒng)刷分,而是聚焦在了廣大白領(lǐng)打工人身上,幫大家解決實(shí)際工作中的問(wèn)題。

這個(gè)點(diǎn),我覺(jué)得就很酷,非常的剛需。

但是從路線上來(lái)說(shuō),感覺(jué)GPT-5.2還是被原生多模態(tài)的Gemini 3 Pro壓了一頭,12月大概率還是要發(fā)個(gè)生圖模型出來(lái)的,不知道對(duì)標(biāo)Banana,會(huì)不會(huì)有新的驚喜。

總之,還是保持期待。

反正每一個(gè)新模型的發(fā)布,只要是我覺(jué)得有意思的。

也一定會(huì)熬夜給大家?guī)?lái)第一時(shí)間的解讀。

我們以后。

還是,不見(jiàn)不散~

晚安。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
純電新能源所剩無(wú)幾,其他集體塞回發(fā)動(dòng)機(jī),這事到底誰(shuí)在“打臉”

純電新能源所剩無(wú)幾,其他集體塞回發(fā)動(dòng)機(jī),這事到底誰(shuí)在“打臉”

過(guò)期少女致幻錄
2026-02-09 14:20:53
縣級(jí)媒體為何越難干?

縣級(jí)媒體為何越難干?

吳女士
2026-02-28 14:16:14
越南驚現(xiàn)“富婆專用男鴨”團(tuán)伙!每次250萬(wàn)越南盾,底層小哥月入過(guò)萬(wàn)刀

越南驚現(xiàn)“富婆專用男鴨”團(tuán)伙!每次250萬(wàn)越南盾,底層小哥月入過(guò)萬(wàn)刀

越南語(yǔ)學(xué)習(xí)平臺(tái)
2026-03-01 09:32:38
日本以為高市早苗連任,能讓中國(guó)吃下啞巴虧,沒(méi)想到結(jié)果會(huì)是這樣

日本以為高市早苗連任,能讓中國(guó)吃下啞巴虧,沒(méi)想到結(jié)果會(huì)是這樣

說(shuō)歷史的老牢
2026-03-01 11:53:09
高市早苗強(qiáng)硬挑釁,日本商店公然禁中國(guó)人入內(nèi),民間惡意愈演愈烈

高市早苗強(qiáng)硬挑釁,日本商店公然禁中國(guó)人入內(nèi),民間惡意愈演愈烈

東極妙嚴(yán)
2026-03-02 12:29:15
王晶沒(méi)撒謊!退出春晚、和沈騰決裂,性格大變的賈玲印證他說(shuō)的話

王晶沒(méi)撒謊!退出春晚、和沈騰決裂,性格大變的賈玲印證他說(shuō)的話

胡一舸南游y
2026-01-25 14:54:04
65歲公公投資失敗欠下180萬(wàn),女子還了整整10年,去銀行銷戶時(shí)才發(fā)現(xiàn),公公用她的名義存了350萬(wàn)定期

65歲公公投資失敗欠下180萬(wàn),女子還了整整10年,去銀行銷戶時(shí)才發(fā)現(xiàn),公公用她的名義存了350萬(wàn)定期

LULU生活家
2026-02-28 18:38:28
佩澤上位,塵埃落定,上兵伐謀,戰(zhàn)爭(zhēng)必須是政治戰(zhàn)

佩澤上位,塵埃落定,上兵伐謀,戰(zhàn)爭(zhēng)必須是政治戰(zhàn)

曉看說(shuō)
2026-03-01 14:00:47
中俄剛說(shuō)打通圖們江,第一個(gè)跳出來(lái)反對(duì)的,一點(diǎn)不讓人意外

中俄剛說(shuō)打通圖們江,第一個(gè)跳出來(lái)反對(duì)的,一點(diǎn)不讓人意外

聞香閣
2026-01-04 11:16:35
全面停止進(jìn)口,一票否決!日本徹底傻眼,三十五年布局白費(fèi)!

全面停止進(jìn)口,一票否決!日本徹底傻眼,三十五年布局白費(fèi)!

小曙說(shuō)娛
2025-11-30 01:23:05
青島地鐵在建最深車站在這里!地下57米!相當(dāng)于20層樓高

青島地鐵在建最深車站在這里!地下57米!相當(dāng)于20層樓高

黃河新聞網(wǎng)呂梁
2026-03-02 10:20:42
受中東局勢(shì)影響 國(guó)際油價(jià)大幅上漲

受中東局勢(shì)影響 國(guó)際油價(jià)大幅上漲

環(huán)球網(wǎng)資訊
2026-03-02 07:33:12
明星過(guò)年大型 “卸妝現(xiàn)場(chǎng)”!全員恢復(fù)出廠設(shè)置,最接地氣竟是他

明星過(guò)年大型 “卸妝現(xiàn)場(chǎng)”!全員恢復(fù)出廠設(shè)置,最接地氣竟是他

藝能八卦局
2026-03-01 09:00:30
“我恨不得丟了她”,寶媽公開(kāi)承認(rèn)厭惡10歲女兒,引數(shù)萬(wàn)網(wǎng)友共鳴

“我恨不得丟了她”,寶媽公開(kāi)承認(rèn)厭惡10歲女兒,引數(shù)萬(wàn)網(wǎng)友共鳴

溫讀史
2025-10-10 10:22:51
基辛格生前大膽預(yù)測(cè):第三次世界大戰(zhàn)爆發(fā),敢打美國(guó)的國(guó)家就3個(gè)

基辛格生前大膽預(yù)測(cè):第三次世界大戰(zhàn)爆發(fā),敢打美國(guó)的國(guó)家就3個(gè)

古史青云啊
2026-02-17 22:44:51
27+17+20!庫(kù)明加隔扣楊瀚森!謝謝你,勇士隊(duì)

27+17+20!庫(kù)明加隔扣楊瀚森!謝謝你,勇士隊(duì)

籃球教學(xué)論壇
2026-03-02 11:01:52
演都不演了!剛復(fù)出就開(kāi)演唱會(huì),票價(jià)賣到1280,到底誰(shuí)給的自信

演都不演了!剛復(fù)出就開(kāi)演唱會(huì),票價(jià)賣到1280,到底誰(shuí)給的自信

小椰的奶奶
2026-03-01 17:54:27
上海市氣功研究所招聘5人,部分崗位要求博士學(xué)歷,工作人員:有編制及五險(xiǎn)二金

上海市氣功研究所招聘5人,部分崗位要求博士學(xué)歷,工作人員:有編制及五險(xiǎn)二金

大象新聞
2026-02-28 14:45:02
她是撒貝寧的妹妹,46歲仍未婚單身,找對(duì)象有3個(gè)條件

她是撒貝寧的妹妹,46歲仍未婚單身,找對(duì)象有3個(gè)條件

細(xì)品名人
2026-02-28 05:55:07
中國(guó)不先使用核武器,如果美國(guó)炸毀北斗衛(wèi)星,中國(guó)是不是就輸了?

中國(guó)不先使用核武器,如果美國(guó)炸毀北斗衛(wèi)星,中國(guó)是不是就輸了?

暗香暗香
2026-02-24 01:54:48
2026-03-02 13:00:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
465文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場(chǎng)5連勝!隊(duì)史第2人通過(guò)最大考驗(yàn)

娛樂(lè)要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢(shì)影響如何?十大券商策略來(lái)了

汽車要聞

預(yù)售11.28萬(wàn)起 狐全新阿爾法S5標(biāo)配寧德時(shí)代

態(tài)度原創(chuàng)

本地
家居
房產(chǎn)
手機(jī)
公開(kāi)課

本地新聞

津南好·四時(shí)總相宜

家居要聞

萬(wàn)物互聯(lián) 享科技福祉

房產(chǎn)要聞

濱江九小也來(lái)了!集齊海僑北+哈羅、寰島...江東教育要炸了!

手機(jī)要聞

安卓小平板性能王!全新聯(lián)想拯救者Y700官宣搭載驍龍8E5 跑分破453萬(wàn)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版