国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.2發(fā)布,真正的牛馬打工人專(zhuān)屬AI來(lái)了。

0
分享至

在各種小道消息,各種預(yù)測(cè)之后。

終于,在OpenAI十周年的這一天。



也就是今天的凌晨2點(diǎn),GPT-5.2終于跟大家見(jiàn)面了。



這是Gemini 3 Pro爆火,第一次讓OpenAI沒(méi)有領(lǐng)先優(yōu)勢(shì),奧特曼在內(nèi)部官宣紅色警戒狀態(tài)之后,他們掏出的第一款模型。

也是OpenAI的十周年獻(xiàn)禮。

而這款模型的特點(diǎn)也非常有意思。

OpenAI的原話(huà)是:

We are introducing GPT?5.2, the most capable model series yet for professional knowledge work.(我們正式發(fā)布 GPT-5.2,這是迄今為止在專(zhuān)業(yè)知識(shí)工作方面能力最強(qiáng)的一代模型系列。)

專(zhuān)業(yè)知識(shí)工作,記住這個(gè)關(guān)鍵詞,后面要考。

我們先從各種跑分上看,其實(shí)能看到,一些跑分其實(shí)沒(méi)有質(zhì)的飛躍,有一種數(shù)碼廠(chǎng)開(kāi)始擠牙膏的感覺(jué)。。。



對(duì)比了GPT-5.2、GPT-5.1、Claude Opus 4.5和Gemini 3 Pro。

在軟件工程(SWE-Bench Pro)、科學(xué)問(wèn)題(GPQA Diamond)、數(shù)學(xué)競(jìng)賽(AIME 2025)這些傳統(tǒng)評(píng)測(cè)集上。

GPT-5.2確實(shí)又強(qiáng)了一些,也回到了第一的位置,全面領(lǐng)先。

在前端審美還有3D元素上,表現(xiàn)的更牛逼了。



在視覺(jué)理解能力上也更強(qiáng)了。

比如要求模型識(shí)別圖像輸入中的組件,并返回帶有近似邊界框的標(biāo)簽。

即使在低質(zhì)量的圖像上,GPT-5.2也能識(shí)別主要區(qū)域并放置與每個(gè)組件真實(shí)位置大致匹配的框,而GPT-5.1只標(biāo)注了幾個(gè)部分,對(duì)它們的空間排列理解不是很好。



但是這些東西,說(shuō)實(shí)話(huà),確實(shí)也就那樣,大家很難體感上還覺(jué)得有多牛逼。

就像芯片廠(chǎng)子告訴你,我的手機(jī)芯片性能又提升了25%,你聽(tīng)了以后,哦確實(shí)強(qiáng),但是完全不影響你繼續(xù)刷抖音和小紅書(shū)對(duì)吧。

不過(guò)有兩個(gè)評(píng)測(cè)集,是我覺(jué)得這次GPT-5.2最大的亮點(diǎn),且一定要單拎出來(lái),跟大家單獨(dú)聊一下的。

一個(gè)是ARC-AGI-2,一個(gè)是GDPval。

這兩個(gè),非常有意思。



先說(shuō)ARC-AGI-2。

過(guò)去的AI評(píng)測(cè),比如MMLU,考的主要是是知識(shí)。

比如它會(huì)問(wèn)你“美國(guó)第一任總統(tǒng)是誰(shuí)?”、“光合作用的化學(xué)方程式是什么?”。

這種評(píng)測(cè)呢,坦率的講,對(duì)于一個(gè)讀了半個(gè)互聯(lián)網(wǎng)的AI來(lái)說(shuō),有點(diǎn)像開(kāi)卷考試,它有很大概率不是真的推理出來(lái)的,而是背出來(lái)的。

這就導(dǎo)致一個(gè)問(wèn)題,在實(shí)際的評(píng)測(cè)中,我們分不清AI是真的聰明,還是只是記性好。

于是,F(xiàn)ran?ois Chollet,就是那位Keras(一個(gè)著名的機(jī)器學(xué)習(xí)框架)之父,2019年第一次在論文《On the Measure of Intelligence》里,提出了ARC這個(gè)變態(tài)測(cè)試。

而這個(gè)測(cè)試,跟知識(shí)儲(chǔ)備一毛錢(qián)關(guān)系都沒(méi)有。

全名叫,Abstraction and Reasoning Corpus,抽象與推理語(yǔ)料庫(kù)。

設(shè)計(jì)目標(biāo)就是測(cè)模型的通用智能的能力。

大概就是,不看你在某一道題上有多熟練,而是是看你在沒(méi)見(jiàn)過(guò)的新題上,能不能自己推理出規(guī)則、舉一反三。

目前正式版發(fā)展到了第二代,也就是ARC-AGI-2,我給大家放一下,ARC-AGI-2里面的一些典型的題目,大家就懂了。







這種能力,現(xiàn)在稱(chēng)為流體智力

(Fluid Intelligence),意思就是指不依賴(lài)于已有的知識(shí),在全新情境下進(jìn)行邏輯推理、識(shí)別模式和解決問(wèn)題的能力。

悟性開(kāi)竅的能力。

說(shuō)白了,就是你的

這玩意兒對(duì)AI來(lái)說(shuō),難于登天。

因?yàn)樗诨ヂ?lián)網(wǎng)上找不到任何現(xiàn)成的答案,它必須當(dāng)場(chǎng)理解、當(dāng)場(chǎng)推理

在很長(zhǎng)一段時(shí)間里,頂級(jí)AI的得分都低得可憐。

在ARC-AGI-2上,之前GPT-5.1的得分是17.6%,而GPT-5.2,直接飆到了52.9%。

直接翻了三倍。

這是一個(gè)很恐怖的數(shù)據(jù)。

GPT-5.2的模型,直接在排行榜上屠榜了。



而且,效率還很高。



基本都在同成本區(qū)間,能力做到了最高。

在真正的智力水平上,GPT-5.2確實(shí)達(dá)到了目前的最優(yōu)。

這就比較有意思了。

然后是第二個(gè),也是我自己現(xiàn)在最關(guān)心、也是我認(rèn)為最重要的一個(gè):

GDPval。

可能很多人沒(méi)聽(tīng)說(shuō)過(guò)這個(gè)評(píng)測(cè)集。

他是OpenAI自己在2個(gè)半月前新出的。



其實(shí)你看這個(gè)名字也能看出來(lái)一點(diǎn)端倪。

val,就是生產(chǎn)總值的那個(gè)GDP。

GDP

他們要用一個(gè)全新的標(biāo)準(zhǔn),來(lái)衡量AI在上的表現(xiàn)。

真實(shí)世界中、具有經(jīng)濟(jì)價(jià)值的任務(wù)

過(guò)去,我們說(shuō)一個(gè)模型牛逼,是因?yàn)樗a寫(xiě)得好,或者知識(shí)答得準(zhǔn),或者考試分?jǐn)?shù)高。

這當(dāng)然很重要,但就像我常說(shuō)的,這個(gè)世界不只有程序員和科學(xué)家。

還有律師、設(shè)計(jì)師、市場(chǎng)經(jīng)理、護(hù)士、建筑師、銷(xiāo)售……

無(wú)數(shù)專(zhuān)業(yè)知識(shí)工作者。

他們工作的價(jià)值,其實(shí)很難用一張考卷來(lái)衡量。

于是,OpenAI他們?cè)诿绹?guó)貢獻(xiàn)GDP最高的9個(gè)行業(yè)里,選取了44個(gè)核心職業(yè),然后,他們找到了在這些行業(yè)里平均有14年工作經(jīng)驗(yàn)的資深專(zhuān)家,讓他們出了1320道專(zhuān)業(yè)知識(shí)任務(wù),并且每一項(xiàng),都基于真實(shí)工作成果。



比如,給律師的任務(wù),可能就是一份真實(shí)的合同草案和客戶(hù)需求,讓他去審閱和修改。

給市場(chǎng)經(jīng)理的任務(wù),可能就是一堆產(chǎn)品資料和市場(chǎng)數(shù)據(jù),讓他寫(xiě)一份營(yíng)銷(xiāo)方案PPT。

給制造工程師的任務(wù),可能就是一張產(chǎn)品設(shè)計(jì)圖,讓他優(yōu)化生產(chǎn)流程。

這些任務(wù),不僅有文字,還可能包含PDF、Excel表格、圖片、PPT,是高度復(fù)雜的、多模態(tài)的、沒(méi)有標(biāo)準(zhǔn)答案的真實(shí)工作。

整套任務(wù)的平均用時(shí),是人類(lèi)專(zhuān)家要花 7 個(gè)小時(shí)才能做完,有些甚至是一兩周的活。

然后,模型和人類(lèi)的成果,會(huì)被同領(lǐng)域的另一批專(zhuān)家進(jìn)行盲評(píng)。

他們也不知道誰(shuí)是AI,誰(shuí)是人類(lèi)。

評(píng)委只需要回答一個(gè)問(wèn)題:你更愿意把哪份交給客戶(hù)?是這份,還是這份?

結(jié)果,GPT-5.2 Thinking在這套 GDPval 上,贏或打平行業(yè)專(zhuān)家的比例,達(dá)到了70.9%,而GPT-5.2Pro 模型是74.1%。

注意,這里的參照系不是普通實(shí)習(xí)生,而是行業(yè)專(zhuān)家。

也就是說(shuō),在一個(gè)有著十幾年經(jīng)驗(yàn)的采購(gòu)經(jīng)理、或者審計(jì)師面前,GPT-5.2干出來(lái)的活兒,有七成的時(shí)候,比專(zhuān)家干得好,或者至少一樣好。

而 GPT-5,只有 38.8%。



這個(gè)進(jìn)步的速度,還有有一點(diǎn)快的。

看一下官方放的case的對(duì)比,還是比較直觀(guān)的。





我們過(guò)去的模型,都花過(guò)于著重的筆墨在編程開(kāi)發(fā)上了,我并不是說(shuō)編程開(kāi)發(fā)不重要,它很重要,很牛逼。

但,其他的領(lǐng)域的工作,我也覺(jué)得應(yīng)該被重視。

而GDPval,就是我認(rèn)為最重要的一個(gè)指標(biāo)。

而且這次GPT-5.2,在上下文上,也有大幅的加強(qiáng)。

用我們以前的大海撈針測(cè)試,在一個(gè)256K的巨型文檔里面埋四根針,讓AI來(lái)根據(jù)文檔內(nèi)容回答。



GPT-5.2干到了離譜的100%,這也是我印象中,唯一一個(gè)能干到100%的。

8根針的正確度會(huì)下降,但是這個(gè)衰減,已經(jīng)比GPT-5.1牛逼太多了。



而且,還有最新的知識(shí)庫(kù)截止日期:



牛逼的知識(shí)工作處理+最新的知識(shí)庫(kù)截止日期+更棒的智力+準(zhǔn)確性超高的上下文。

這簡(jiǎn)直,就是真正的天選牛馬搭子,對(duì)打工人的加持,實(shí)在是太強(qiáng)了。

這是真正,奔著大眾、奔著實(shí)用去的。

目前今天會(huì)開(kāi)放給ChatGPT付費(fèi)會(huì)員,明天會(huì)開(kāi)放給免費(fèi)會(huì)員,會(huì)直接替代GPT-5.1,但是如果你是付費(fèi)會(huì)員的話(huà),還會(huì)在老模型中存續(xù)3個(gè)月。

就是這。



可惜截止到我發(fā)文的凌晨6點(diǎn)這一刻,作為尊貴的200刀的ChatGPT Pro會(huì)員,我還是沒(méi)有拿到GPT-5.2的體驗(yàn)資格。



一些所謂的ChatGPT上的為GPT-5.2專(zhuān)用的文件精修,也只能等拿到實(shí)測(cè)以后,再出一篇GPT-5.2的打工合集了。

然后開(kāi)發(fā)者的話(huà),已經(jīng)可以通過(guò)API調(diào)用。



價(jià)格上,會(huì)比5.1貴一些。



整體上,GPT-5.2的所有消息差不多就這樣了。

而我自己一直期待的,成人模式。

還是沒(méi)有到來(lái)。

奧特曼自己這個(gè)龜兒子說(shuō)的是12月上線(xiàn)。



也不知道能不能等到。

反正他說(shuō),下周還會(huì)再送一些小的圣誕禮物。



盲猜一手OpenAI家的生圖模型,或者成人模式。

對(duì)于一個(gè)創(chuàng)作者來(lái)說(shuō),這兩玩意,真的很需要。。。

最后總結(jié),GPT-5.2在我心中,是一個(gè)合格的迭代,并沒(méi)有跟很多模型一樣,專(zhuān)注于純粹的傳統(tǒng)刷分,而是聚焦在了廣大白領(lǐng)打工人身上,幫大家解決實(shí)際工作中的問(wèn)題。

這個(gè)點(diǎn),我覺(jué)得就很酷,非常的剛需。

但是從路線(xiàn)上來(lái)說(shuō),感覺(jué)GPT-5.2還是被原生多模態(tài)的Gemini 3 Pro壓了一頭,12月大概率還是要發(fā)個(gè)生圖模型出來(lái)的,不知道對(duì)標(biāo)Banana,會(huì)不會(huì)有新的驚喜。

總之,還是保持期待。

反正每一個(gè)新模型的發(fā)布,只要是我覺(jué)得有意思的。

也一定會(huì)熬夜給大家?guī)?lái)第一時(shí)間的解讀。

我們以后。

還是,不見(jiàn)不散~

晚安。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
徹底怒了,許利民怒批有隊(duì)員耍大牌,知名媒體人揭開(kāi)謎底

徹底怒了,許利民怒批有隊(duì)員耍大牌,知名媒體人揭開(kāi)謎底

鄒維體育
2026-01-11 23:02:38
平時(shí)熬的夜,周末竟能補(bǔ)回來(lái)!多項(xiàng)研究發(fā)現(xiàn),周末補(bǔ)覺(jué),顯著降低心臟病、糖尿病、抑郁癥風(fēng)險(xiǎn)

平時(shí)熬的夜,周末竟能補(bǔ)回來(lái)!多項(xiàng)研究發(fā)現(xiàn),周末補(bǔ)覺(jué),顯著降低心臟病、糖尿病、抑郁癥風(fēng)險(xiǎn)

醫(yī)諾維
2026-01-10 11:21:16
山河四省,三億人的悲哀

山河四省,三億人的悲哀

銀河系漫游客
2025-12-30 14:04:48
中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬(wàn)噸訂單

中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬(wàn)噸訂單

愛(ài)吃醋的貓咪
2025-12-27 16:24:13
60歲阿姨再嫁34歲小伙,阿姨:晚上太折騰,小伙:這是妻子的責(zé)任

60歲阿姨再嫁34歲小伙,阿姨:晚上太折騰,小伙:這是妻子的責(zé)任

烙任情感
2026-01-10 21:10:24
150-95!徹底開(kāi)擺了!俯沖大年?duì)钤?>
    </a>
        <h3>
      <a href=籃球?qū)崙?zhàn)寶典
2026-01-11 22:54:52
中東國(guó)家都意識(shí)到了:就算中國(guó)高端武器再多,也沒(méi)辦法保護(hù)他們

中東國(guó)家都意識(shí)到了:就算中國(guó)高端武器再多,也沒(méi)辦法保護(hù)他們

肖茲探秘說(shuō)
2026-01-01 20:16:34
山東大勝南京,輕松斬獲6連勝,高詩(shī)巖啞火,邱彪愛(ài)將爆發(fā)成奇兵

山東大勝南京,輕松斬獲6連勝,高詩(shī)巖啞火,邱彪愛(ài)將爆發(fā)成奇兵

萌蘭聊個(gè)球
2026-01-11 21:47:36
3外轟71廣東30分大勝遼寧!5人滿(mǎn)分徐胡躺贏,杜鋒讓楊鳴顏面盡失

3外轟71廣東30分大勝遼寧!5人滿(mǎn)分徐胡躺贏,杜鋒讓楊鳴顏面盡失

后仰大風(fēng)車(chē)
2026-01-11 21:36:56
金價(jià)飆升,多家銀行公告提醒

金價(jià)飆升,多家銀行公告提醒

澎湃新聞
2026-01-11 14:00:03
馬丁內(nèi)利戴帽!職業(yè)生涯首次,阿森納角球擋不住,單季已入17球

馬丁內(nèi)利戴帽!職業(yè)生涯首次,阿森納角球擋不住,單季已入17球

奧拜爾
2026-01-11 23:44:02
基恩:賴(lài)斯稱(chēng)得上世界頂級(jí)球員了,他也讓周?chē)那騿T變得更好

基恩:賴(lài)斯稱(chēng)得上世界頂級(jí)球員了,他也讓周?chē)那騿T變得更好

懂球帝
2026-01-12 00:07:16
新疆換帥立馬被盤(pán)活!進(jìn)攻全民皆兵,防守也被調(diào)動(dòng),楊芮打成奇兵

新疆換帥立馬被盤(pán)活!進(jìn)攻全民皆兵,防守也被調(diào)動(dòng),楊芮打成奇兵

籃球資訊達(dá)人
2026-01-11 22:19:44
WTT多哈冠軍賽今晚收官 國(guó)乒三人沖擊冠軍

WTT多哈冠軍賽今晚收官 國(guó)乒三人沖擊冠軍

齊魯壹點(diǎn)
2026-01-11 09:25:15
親眼目睹藏族少女天葬之行,參加全過(guò)程后心悸:顛覆我對(duì)生死的認(rèn)知

親眼目睹藏族少女天葬之行,參加全過(guò)程后心悸:顛覆我對(duì)生死的認(rèn)知

古怪奇談錄
2025-09-09 14:36:35
美俄!同時(shí)動(dòng)手了!

美俄!同時(shí)動(dòng)手了!

大嘴說(shuō)天下
2026-01-10 22:50:03
前國(guó)安主帥被評(píng)年度最佳!曾被批太保守,球隊(duì)年年換帥何時(shí)奪冠?

前國(guó)安主帥被評(píng)年度最佳!曾被批太保守,球隊(duì)年年換帥何時(shí)奪冠?

體壇鑒春秋
2026-01-11 22:37:15
1955年,一名身體強(qiáng)壯的日本女人赤裸上身背著黑色編織袋站在海邊

1955年,一名身體強(qiáng)壯的日本女人赤裸上身背著黑色編織袋站在海邊

忠于法紀(jì)
2026-01-07 17:46:09
如果3年內(nèi)沒(méi)有離開(kāi)股市的打算,那就買(mǎi)這一種股票,賺到盆滿(mǎn)缽滿(mǎn)

如果3年內(nèi)沒(méi)有離開(kāi)股市的打算,那就買(mǎi)這一種股票,賺到盆滿(mǎn)缽滿(mǎn)

股經(jīng)縱橫談
2026-01-09 17:42:31
曝許家印香港大宅挖出460平地牢,潛伏15年才被發(fā)現(xiàn),是為藏啥?

曝許家印香港大宅挖出460平地牢,潛伏15年才被發(fā)現(xiàn),是為藏啥?

小熊侃史
2026-01-05 10:43:25
2026-01-12 00:32:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
436文章數(shù) 490關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

特朗普就格陵蘭島下最后通牒 加拿大開(kāi)始行動(dòng)了

頭條要聞

特朗普就格陵蘭島下最后通牒 加拿大開(kāi)始行動(dòng)了

體育要聞

U23國(guó)足形勢(shì):末輪不負(fù)泰國(guó)即確保晉級(jí)

娛樂(lè)要聞

留幾手為閆學(xué)晶叫屈?稱(chēng)網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣(mài)平臺(tái)"燒錢(qián)搶存量市場(chǎng)"迎來(lái)終局?

汽車(chē)要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬(wàn)起

態(tài)度原創(chuàng)

教育
藝術(shù)
家居
時(shí)尚
數(shù)碼

教育要聞

官方發(fā)布:3370個(gè)志愿者服務(wù)名額!南京中小學(xué)生均可報(bào)名!

藝術(shù)要聞

2026年的中國(guó),4座超400米高摩天樓有望建成

家居要聞

木色留白 演繹現(xiàn)代自由

當(dāng)一個(gè)57歲的女人,決定從零開(kāi)始

數(shù)碼要聞

科技有AI,連接全球:海信家電參展CES 2026,定義智慧生活新圖景

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版