国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.2發(fā)布,能力超人類11倍!谷歌揭露一個(gè)致命弱點(diǎn),這才是普通人的活路

0
分享至

昨天,OpenAI憋了這么久,終于扔出新的重磅產(chǎn)品:GPT-5.2

在谷歌和其他競(jìng)爭(zhēng)對(duì)手的圍追堵截下,他們這次徹底盯上了打工人:

GPT-5.2官方文檔白紙黑字寫著:在涵蓋44個(gè)職業(yè)的專業(yè)知識(shí)工作測(cè)試中,GPT-5.2 Thinking完成任務(wù)的速度是人類專家的11倍以上,成本不到人類的1%。

更扎心的是:在這個(gè)名為GDPval的測(cè)試?yán)?,GPT-5.2 Thinking與頂級(jí)行業(yè)專家正面PK,70.9%的任務(wù)中,AI贏了或打平。

一位參與評(píng)測(cè)的評(píng)委看完AI的輸出后感嘆:"這像是一家有專業(yè)團(tuán)隊(duì)的公司做出來的……雖然還有些小錯(cuò)要改,但布局和建議都出奇地專業(yè)。"

紅色警報(bào),GPT5.2靠啥大幅改進(jìn)?

就在上個(gè)月,谷歌放出了Gemini 3,在多項(xiàng)基準(zhǔn)測(cè)試中全面領(lǐng)先,一度把OpenAI打得措手不及。

OpenAI的CEO山姆·奧特曼在內(nèi)部發(fā)了一封"Code Red"(紅色警報(bào))備忘錄,要求團(tuán)隊(duì)暫停其他項(xiàng)目,全力沖刺ChatGPT的下一次迭代。


GPT-5.2這個(gè)代號(hào)就能看出來,OpenAI現(xiàn)在是提前亮劍。

這次發(fā)布的GPT-5.2有三個(gè)版本:

Instant:快、穩(wěn),適合日常查資料、寫郵件;

Thinking:深度推理,適合編程、數(shù)據(jù)分析、長(zhǎng)文檔處理;

Pro:頂配,追求極致準(zhǔn)確率,適合高風(fēng)險(xiǎn)決策。

在編程基準(zhǔn)測(cè)試SWE-bench Verified上,GPT-5.2 Thinking拿下80%的成績(jī)。在數(shù)學(xué)競(jìng)賽題AIME 2025上,得分100%。

光看數(shù)字嚇人沒用,咱們得搞明白:這玩意兒到底是怎么突然變這么強(qiáng)的?

周四的前哨特訓(xùn)營(yíng)直播中,王煜全和大家分享了預(yù)訓(xùn)練放緩的真正原因,告訴大家底層芯片的算力和存儲(chǔ)沒有大更新的情況下,AI大模型接下來的進(jìn)步主要都會(huì)依靠后訓(xùn)練、強(qiáng)化學(xué)習(xí)和推理

知名的ARC測(cè)試中,領(lǐng)先模型主要都靠延長(zhǎng)推理提高成績(jī)


OpenAI這次發(fā)布驗(yàn)證了這個(gè)判斷。GPT-5.2官方文檔里有兩個(gè)關(guān)鍵點(diǎn):

第一,推理中糾錯(cuò)。 文檔中提到"通過訓(xùn)練,模型學(xué)會(huì)精煉自己的思考過程、嘗試不同策略、并識(shí)別自己的錯(cuò)誤。"

這背后大概率就是通過強(qiáng)化學(xué)習(xí),優(yōu)化了模型的推理過程,讓它學(xué)會(huì)了在內(nèi)部“打草稿”并在輸出前自我修正。

第二,通用推理反超垂直微調(diào)。 在模擬OpenAI內(nèi)部代碼工作的測(cè)試中,靠"思考"的通用版GPT-5.2,竟然擊敗了上一代專門針對(duì)代碼優(yōu)化的垂直模型(Codex Max)。

這證明了強(qiáng)化學(xué)習(xí)提升的邏輯推理能力,還能繼續(xù)提高模型在不同場(chǎng)景的泛用性,簡(jiǎn)單說就是讓模型能像人類工程師一樣分析問題,而不是死記硬背代碼庫(kù)。

說人話就是:GPT-5.2這一代,核心變成了用強(qiáng)化學(xué)習(xí)教AI怎么"想",這才是它能在專業(yè)任務(wù)上碾壓人類的底層原因。

死亡名單,哪些職業(yè)危險(xiǎn)了?

好了,技術(shù)講完了,咱們聊點(diǎn)更扎心的:哪些人的飯碗最危險(xiǎn)?

要回答這個(gè)問題,得先說說OpenAI發(fā)明的GDPval測(cè)試。

GDPval,全稱是"GDP Validation",是OpenAI在2025年9月發(fā)布的一套評(píng)測(cè)體系。

它的核心思路很直接:不跟AI比考試分?jǐn)?shù),直接比"干活"。

OpenAI找來了一批真正的專業(yè)人士,平均從業(yè)經(jīng)驗(yàn)14年,覆蓋美國(guó)GDP貢獻(xiàn)最大的9個(gè)行業(yè)、44個(gè)職業(yè)。

這些人出題,出的都是他們?nèi)粘9ぷ髦姓鎸?shí)會(huì)干的活兒:做銷售PPT、搭財(cái)務(wù)三表模型、排急診室值班表….

然后讓AI和人類專家各干一遍,再請(qǐng)專家盲評(píng):誰做得更好?

結(jié)果就是我們開頭說的:GPT-5.2 Thinking在70.9%的任務(wù)中,贏了或打平人類專家。

更恐怖的是:AI完成這些任務(wù)的速度是人類的11倍以上,成本不到人類的1%


那么問題來了:哪些崗位最危險(xiǎn)?

從GDPval測(cè)試覆蓋的44個(gè)職業(yè)來看,知識(shí)密集型白領(lǐng)崗位首當(dāng)其沖。

投行分析師:OpenAI內(nèi)部測(cè)試顯示,GPT-5.2在投行初級(jí)分析師的建模任務(wù)上,平均得分比GPT-5.1高出9.3%。

客服和售后:AI在工具調(diào)用測(cè)試Tau2-bench中拿下98.7%的準(zhǔn)確率,能協(xié)調(diào)航班改簽、行李追蹤、特殊座位安排等復(fù)雜流程。

程序員:編程能力繼續(xù)飆升,Windsurf已經(jīng)把GPT-5.2當(dāng)成默認(rèn)底座。

你的新角色:從"執(zhí)行者"變成"審核員"

好在,AI雖然很厲害,但絕非萬能。

這幾天谷歌DeepMind聯(lián)合Kaggle,正式發(fā)布了一個(gè)名為"FACTS Grounding"的測(cè)試榜單。

FACTS是什么?說白了,就是專門測(cè)AI"有沒有在一本正經(jīng)地胡說八道"。

測(cè)試方法很直接:給AI一份長(zhǎng)文檔(最長(zhǎng)32000個(gè)token),讓它基于文檔生成回答,然后檢查它說的每一句話是不是都有據(jù)可查、沒有編造。

結(jié)果呢?

目前市面上最強(qiáng)的AI模型,在這個(gè)測(cè)試?yán)铮瑴?zhǔn)確率普遍卡在70%上下。

包括谷歌自家的Gemini系列,OpenAI的GPT系列,沒有任何一個(gè)模型能保證100%的事實(shí)準(zhǔn)確性。

這就好比,你招了一個(gè)效率極高的員工,干活速度是別人的十倍,工資只要?jiǎng)e人的零頭。

但果這個(gè)員工有30%的概率會(huì)"信口開河",合同金額寫錯(cuò)、法規(guī)條款引用錯(cuò)誤、客戶信息張冠李戴。

現(xiàn)在你敢讓他獨(dú)立負(fù)責(zé)重要項(xiàng)目嗎?

AI的缺陷,恰恰是普通人最大的機(jī)會(huì)。

OpenAI自己也說了,GPT-5.2的定位是"在人類監(jiān)督下協(xié)助專業(yè)工作"(when paired with human oversight)。

以前的打工人是什么?執(zhí)行者。 老板說寫個(gè)方案,你就寫;說做個(gè)表,你就做。

以后的你必須成為AI的老板,要想清楚哪些事是有價(jià)值的,哪些事該安排給哪個(gè)AI干,干完如何判斷靠不靠譜、有沒有價(jià)值。

未來職場(chǎng),不會(huì)淘汰"用AI的人",一定會(huì)淘汰"試圖和AI競(jìng)爭(zhēng)的人"。

給家長(zhǎng)的話:與其焦慮,不如讓孩子提前準(zhǔn)備

我們這代人還在適應(yīng)AI,但下一代可以從小學(xué)會(huì)"和AI協(xié)作"。

就像計(jì)算機(jī)、互聯(lián)網(wǎng)成為今天必不可少的職場(chǎng)工具,AI未來也會(huì)如此。

【前哨AI冬令營(yíng)】 專為8-16歲設(shè)計(jì),7天讓孩子親手做出自己的小游戲和微信小程序,邊玩邊學(xué),作品還能發(fā)給同學(xué)一起玩。

零基礎(chǔ)也能上手:從"玩游戲"到"做游戲"

抓住核心競(jìng)爭(zhēng)力:培養(yǎng)和AI協(xié)作的能力

收獲硬成果:可上線的作品,實(shí)打?qū)嵉姆e累

? 名額有限,先到先得,掃碼報(bào)名 ↓


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
長(zhǎng)度27萬公里,厚度卻只有10米,土星環(huán)究竟是個(gè)什么怪物?

長(zhǎng)度27萬公里,厚度卻只有10米,土星環(huán)究竟是個(gè)什么怪物?

觀察宇宙
2026-03-08 18:19:50
演員牛莉:結(jié)婚26年不做飯,連生3個(gè)孩子后,被丈夫一家寵成寶

演員牛莉:結(jié)婚26年不做飯,連生3個(gè)孩子后,被丈夫一家寵成寶

洲洲影視娛評(píng)
2026-03-09 13:18:49
以為越南是小中華?北越罵南越是印度種,這才是真實(shí)的撕裂感啊

以為越南是小中華?北越罵南越是印度種,這才是真實(shí)的撕裂感啊

丁丁鯉史紀(jì)
2026-03-03 11:33:48
中方最擔(dān)心的事情發(fā)生了,伊朗越過紅線,秘密武器直逼以方心臟

中方最擔(dān)心的事情發(fā)生了,伊朗越過紅線,秘密武器直逼以方心臟

南宗歷史
2026-03-08 10:21:14
淪為共享單車的女色虎

淪為共享單車的女色虎

深度報(bào)
2026-03-05 22:39:27
哈登21+5+5一戰(zhàn)造三大神跡!米切爾17分落選秀暴走,騎士橫掃76人

哈登21+5+5一戰(zhàn)造三大神跡!米切爾17分落選秀暴走,騎士橫掃76人

釘釘陌上花開
2026-03-10 09:23:36
新加坡急了,外長(zhǎng)幾乎是拍著桌子,讓中國(guó)“尊重”馬六甲的地位。

新加坡急了,外長(zhǎng)幾乎是拍著桌子,讓中國(guó)“尊重”馬六甲的地位。

南權(quán)先生
2026-01-26 15:41:26
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
世界第一不遙遠(yuǎn)!趙心童再奪兩冠手握主動(dòng)權(quán),小特75萬積分將到期

世界第一不遙遠(yuǎn)!趙心童再奪兩冠手握主動(dòng)權(quán),小特75萬積分將到期

劉哥談體育
2026-03-10 08:50:18
“以前你們要她‘滾回中國(guó)’,真回去又罵,虛偽”

“以前你們要她‘滾回中國(guó)’,真回去又罵,虛偽”

觀察者網(wǎng)
2026-03-09 12:13:34
75歲姜昆:如今和他46歲的女兒江珊一起生活,安穩(wěn)度日

75歲姜昆:如今和他46歲的女兒江珊一起生活,安穩(wěn)度日

照亮你的前行之路
2026-03-08 20:31:18
何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

何潔自曝養(yǎng)家艱難,40歲斷崖式衰老?明明一手好牌,為何被打爛

扒點(diǎn)半吃瓜
2026-03-10 07:00:13
79年討論對(duì)越作戰(zhàn),有3位主要人物提出反對(duì),鄧小平強(qiáng)硬拍板:打

79年討論對(duì)越作戰(zhàn),有3位主要人物提出反對(duì),鄧小平強(qiáng)硬拍板:打

歷史龍?jiān)w
2026-01-24 12:25:12
女子車禍癱瘓男友發(fā)聲:三觀不合,她為錢無所不用其極,接受判決

女子車禍癱瘓男友發(fā)聲:三觀不合,她為錢無所不用其極,接受判決

娛樂看阿敞
2025-07-11 09:15:04
為何要增加高中學(xué)位?因?yàn)椴桓默F(xiàn)狀,五五分流根本撐不住

為何要增加高中學(xué)位?因?yàn)椴桓默F(xiàn)狀,五五分流根本撐不住

老特有話說
2026-03-07 16:16:46
美國(guó)唯一用粵語命名的山,為什么叫做屌你媽山?

美國(guó)唯一用粵語命名的山,為什么叫做屌你媽山?

beebee
2026-03-09 11:00:56
亞視一哥陳啟泰崩了:日賺斗金到靠老婆續(xù)命,20樓窗邊的絕望誰懂

亞視一哥陳啟泰崩了:日賺斗金到靠老婆續(xù)命,20樓窗邊的絕望誰懂

東方不敗然多多
2026-03-09 20:44:02
國(guó)安部:重要崗位離職人員企圖用國(guó)家秘密換綠卡,出境前被抓獲

國(guó)安部:重要崗位離職人員企圖用國(guó)家秘密換綠卡,出境前被抓獲

澎湃新聞
2026-03-10 08:33:15
封神一戰(zhàn)!伊朗導(dǎo)彈把以色列命脈炸成火海,特朗普語無倫次露底牌

封神一戰(zhàn)!伊朗導(dǎo)彈把以色列命脈炸成火海,特朗普語無倫次露底牌

李健政觀察
2026-03-09 17:31:41
上海前首富,海外投資虧慘了…

上海前首富,海外投資虧慘了…

大嘴説
2026-03-09 15:54:23
2026-03-10 11:04:49
王煜全 incentive-icons
王煜全
王煜全帶你一起看創(chuàng)新
1047文章數(shù) 769關(guān)注度
往期回顧 全部

科技要聞

“龍蝦”狂歡,賣“飼料”的先掙錢了

頭條要聞

應(yīng)對(duì)來自伊朗的無人機(jī) 澤連斯基稱已有11國(guó)向?yàn)醴角笾?/h3>

頭條要聞

應(yīng)對(duì)來自伊朗的無人機(jī) 澤連斯基稱已有11國(guó)向?yàn)醴角笾?/h3>

體育要聞

韓國(guó)女足羨慕的奢侈品,為何選擇中國(guó)女足

娛樂要聞

肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

財(cái)經(jīng)要聞

全民"養(yǎng)龍蝦"背后 第一批受害者浮現(xiàn)

汽車要聞

蔚來換電和理想5C,誰能硬剛,比亞迪兆瓦閃充?

態(tài)度原創(chuàng)

游戲
數(shù)碼
藝術(shù)
家居
公開課

外網(wǎng)吐槽《殺戮尖塔2》角色失衡:獵人必須削

數(shù)碼要聞

國(guó)補(bǔ)疊加38節(jié)福利!當(dāng)貝三款激光投影,從入門到旗艦按需選不踩雷

藝術(shù)要聞

30000畝杏花開了,新疆的春天這么美!

家居要聞

自然肌理 溫度質(zhì)感婚房

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版