網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5.2發(fā)布，能力超人類11倍！谷歌揭露一個(gè)致命弱點(diǎn)，這才是普通人的活路

2025-12-13 06:38:24　來源: 王煜全

北京舉報(bào)

分享至

昨天，OpenAI憋了這么久，終于扔出新的重磅產(chǎn)品：GPT-5.2

在谷歌和其他競(jìng)爭(zhēng)對(duì)手的圍追堵截下，他們這次徹底盯上了打工人：

GPT-5.2官方文檔白紙黑字寫著：在涵蓋44個(gè)職業(yè)的專業(yè)知識(shí)工作測(cè)試中，GPT-5.2 Thinking完成任務(wù)的速度是人類專家的11倍以上，成本不到人類的1%。

更扎心的是：在這個(gè)名為GDPval的測(cè)試?yán)?，GPT-5.2 Thinking與頂級(jí)行業(yè)專家正面PK，70.9%的任務(wù)中，AI贏了或打平。

一位參與評(píng)測(cè)的評(píng)委看完AI的輸出后感嘆："這像是一家有專業(yè)團(tuán)隊(duì)的公司做出來的……雖然還有些小錯(cuò)要改，但布局和建議都出奇地專業(yè)。"

紅色警報(bào)，GPT5.2靠啥大幅改進(jìn)？

就在上個(gè)月，谷歌放出了Gemini 3，在多項(xiàng)基準(zhǔn)測(cè)試中全面領(lǐng)先，一度把OpenAI打得措手不及。

OpenAI的CEO山姆·奧特曼在內(nèi)部發(fā)了一封"Code Red"（紅色警報(bào)）備忘錄，要求團(tuán)隊(duì)暫停其他項(xiàng)目，全力沖刺ChatGPT的下一次迭代。

GPT-5.2這個(gè)代號(hào)就能看出來，OpenAI現(xiàn)在是提前亮劍。

這次發(fā)布的GPT-5.2有三個(gè)版本：

Instant：快、穩(wěn)，適合日常查資料、寫郵件；

Thinking：深度推理，適合編程、數(shù)據(jù)分析、長(zhǎng)文檔處理；

Pro：頂配，追求極致準(zhǔn)確率，適合高風(fēng)險(xiǎn)決策。

在編程基準(zhǔn)測(cè)試SWE-bench Verified上，GPT-5.2 Thinking拿下80%的成績(jī)。在數(shù)學(xué)競(jìng)賽題AIME 2025上，得分100%。

光看數(shù)字嚇人沒用，咱們得搞明白：這玩意兒到底是怎么突然變這么強(qiáng)的？

周四的前哨特訓(xùn)營(yíng)直播中，王煜全和大家分享了預(yù)訓(xùn)練放緩的真正原因，告訴大家底層芯片的算力和存儲(chǔ)沒有大更新的情況下，AI大模型接下來的進(jìn)步主要都會(huì)依靠后訓(xùn)練、強(qiáng)化學(xué)習(xí)和推理。

知名的ARC測(cè)試中，領(lǐng)先模型主要都靠延長(zhǎng)推理提高成績(jī)

OpenAI這次發(fā)布驗(yàn)證了這個(gè)判斷。GPT-5.2官方文檔里有兩個(gè)關(guān)鍵點(diǎn)：

第一，推理中糾錯(cuò)。 文檔中提到"通過訓(xùn)練，模型學(xué)會(huì)精煉自己的思考過程、嘗試不同策略、并識(shí)別自己的錯(cuò)誤。"

這背后大概率就是通過強(qiáng)化學(xué)習(xí)，優(yōu)化了模型的推理過程，讓它學(xué)會(huì)了在內(nèi)部“打草稿”并在輸出前自我修正。

第二，通用推理反超垂直微調(diào)。 在模擬OpenAI內(nèi)部代碼工作的測(cè)試中，靠"思考"的通用版GPT-5.2，竟然擊敗了上一代專門針對(duì)代碼優(yōu)化的垂直模型（Codex Max）。

這證明了強(qiáng)化學(xué)習(xí)提升的邏輯推理能力，還能繼續(xù)提高模型在不同場(chǎng)景的泛用性，簡(jiǎn)單說就是讓模型能像人類工程師一樣分析問題，而不是死記硬背代碼庫(kù)。

說人話就是：GPT-5.2這一代，核心變成了用強(qiáng)化學(xué)習(xí)教AI怎么"想"，這才是它能在專業(yè)任務(wù)上碾壓人類的底層原因。

死亡名單，哪些職業(yè)危險(xiǎn)了？

好了，技術(shù)講完了，咱們聊點(diǎn)更扎心的：哪些人的飯碗最危險(xiǎn)？

要回答這個(gè)問題，得先說說OpenAI發(fā)明的GDPval測(cè)試。

GDPval，全稱是"GDP Validation"，是OpenAI在2025年9月發(fā)布的一套評(píng)測(cè)體系。

它的核心思路很直接：不跟AI比考試分?jǐn)?shù)，直接比"干活"。

OpenAI找來了一批真正的專業(yè)人士，平均從業(yè)經(jīng)驗(yàn)14年，覆蓋美國(guó)GDP貢獻(xiàn)最大的9個(gè)行業(yè)、44個(gè)職業(yè)。

這些人出題，出的都是他們?nèi)粘９ぷ髦姓鎸?shí)會(huì)干的活兒：做銷售PPT、搭財(cái)務(wù)三表模型、排急診室值班表….

然后讓AI和人類專家各干一遍，再請(qǐng)專家盲評(píng)：誰做得更好？

結(jié)果就是我們開頭說的：GPT-5.2 Thinking在70.9%的任務(wù)中，贏了或打平人類專家。

更恐怖的是：AI完成這些任務(wù)的速度是人類的11倍以上，成本不到人類的1%。

那么問題來了：哪些崗位最危險(xiǎn)？

從GDPval測(cè)試覆蓋的44個(gè)職業(yè)來看，知識(shí)密集型白領(lǐng)崗位首當(dāng)其沖。

投行分析師：OpenAI內(nèi)部測(cè)試顯示，GPT-5.2在投行初級(jí)分析師的建模任務(wù)上，平均得分比GPT-5.1高出9.3%。

客服和售后：AI在工具調(diào)用測(cè)試Tau2-bench中拿下98.7%的準(zhǔn)確率，能協(xié)調(diào)航班改簽、行李追蹤、特殊座位安排等復(fù)雜流程。

程序員：編程能力繼續(xù)飆升，Windsurf已經(jīng)把GPT-5.2當(dāng)成默認(rèn)底座。

你的新角色：從"執(zhí)行者"變成"審核員"

好在，AI雖然很厲害，但絕非萬能。

這幾天谷歌DeepMind聯(lián)合Kaggle，正式發(fā)布了一個(gè)名為"FACTS Grounding"的測(cè)試榜單。

FACTS是什么？說白了，就是專門測(cè)AI"有沒有在一本正經(jīng)地胡說八道"。

測(cè)試方法很直接：給AI一份長(zhǎng)文檔（最長(zhǎng)32000個(gè)token），讓它基于文檔生成回答，然后檢查它說的每一句話是不是都有據(jù)可查、沒有編造。

結(jié)果呢？

目前市面上最強(qiáng)的AI模型，在這個(gè)測(cè)試?yán)铮瑴?zhǔn)確率普遍卡在70%上下。

包括谷歌自家的Gemini系列，OpenAI的GPT系列，沒有任何一個(gè)模型能保證100%的事實(shí)準(zhǔn)確性。

這就好比，你招了一個(gè)效率極高的員工，干活速度是別人的十倍，工資只要?jiǎng)e人的零頭。

但果這個(gè)員工有30%的概率會(huì)"信口開河"，合同金額寫錯(cuò)、法規(guī)條款引用錯(cuò)誤、客戶信息張冠李戴。

現(xiàn)在你敢讓他獨(dú)立負(fù)責(zé)重要項(xiàng)目嗎？

AI的缺陷，恰恰是普通人最大的機(jī)會(huì)。

OpenAI自己也說了，GPT-5.2的定位是"在人類監(jiān)督下協(xié)助專業(yè)工作"（when paired with human oversight）。

以前的打工人是什么？執(zhí)行者。 老板說寫個(gè)方案，你就寫；說做個(gè)表，你就做。

以后的你必須成為AI的老板，要想清楚哪些事是有價(jià)值的，哪些事該安排給哪個(gè)AI干，干完如何判斷靠不靠譜、有沒有價(jià)值。

未來職場(chǎng)，不會(huì)淘汰"用AI的人"，一定會(huì)淘汰"試圖和AI競(jìng)爭(zhēng)的人"。

給家長(zhǎng)的話：與其焦慮，不如讓孩子提前準(zhǔn)備

我們這代人還在適應(yīng)AI，但下一代可以從小學(xué)會(huì)"和AI協(xié)作"。

就像計(jì)算機(jī)、互聯(lián)網(wǎng)成為今天必不可少的職場(chǎng)工具，AI未來也會(huì)如此。

【前哨AI冬令營(yíng)】 專為8-16歲設(shè)計(jì)，7天讓孩子親手做出自己的小游戲和微信小程序，邊玩邊學(xué)，作品還能發(fā)給同學(xué)一起玩。

零基礎(chǔ)也能上手：從"玩游戲"到"做游戲"

抓住核心競(jìng)爭(zhēng)力：培養(yǎng)和AI協(xié)作的能力

收獲硬成果：可上線的作品，實(shí)打?qū)嵉姆e累

? 名額有限，先到先得，掃碼報(bào)名 ↓

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

OpenAI測(cè)謊13款大模型：Claude 3.7封神，GPT-5.2近乎失控！

新智元 2026-03-09 09:36:47
0 跟貼 0
具身數(shù)據(jù)戰(zhàn)開打！普通人都能上手，邊采邊篩，只喂機(jī)器人愛吃的

量子位 2026-01-12 12:20:02
0 跟貼 0

AI自主提交35%代碼！Cursor CEO重磅宣言：第三AI編程時(shí)代已至

新智元 2026-03-08 12:31:07
9 跟貼 9

2026年，大模型訓(xùn)練的下半場(chǎng)屬于「強(qiáng)化學(xué)習(xí)云」

機(jī)器之心Pro 2026-01-12 14:03:47
0 跟貼 0
訓(xùn)練到推理「瘦身」演進(jìn)：首篇高效擴(kuò)散語言模型（dLLM）深度綜述

機(jī)器之心Pro 2026-03-10 10:00:07
0 跟貼 0

李曼玲、李飛飛團(tuán)隊(duì)頂會(huì)新作：給大模型測(cè)「空間智商」

機(jī)器之心Pro 2026-03-09 13:21:34
0 跟貼 0

1美元Token撬動(dòng)4800美元收益!百萬美元級(jí)基準(zhǔn),最賺錢Agent出現(xiàn)了

機(jī)器之心Pro 2026-03-10 10:06:03
0 跟貼 0
周鴻祎談“龍蝦”爆火：很快就能“一鍵安裝”

大象新聞 2026-03-09 11:37:43
260 跟貼 260

大模型的下半場(chǎng)，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
人活著的唯一理由是善良

葉檀財(cái)經(jīng) 2026-02-01 17:07:04
0 跟貼 0
荒野求生（機(jī)器狗全自主版），2025ATEC挑戰(zhàn)真實(shí)戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
行業(yè)最大規(guī)模具身數(shù)據(jù)集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
高通萬衛(wèi)星談終端大模型優(yōu)勢(shì)：個(gè)性化與數(shù)據(jù)推理

量子位 2025-12-11 03:38:41
0 跟貼 0
陶哲軒：AI看似在推理，其實(shí)是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
行業(yè)最大規(guī)模具身數(shù)據(jù)集！出自簡(jiǎn)智機(jī)器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
別被忽悠了！Openclaw取代打工人？我搭了一次發(fā)現(xiàn)驚人真相

雷科技 2026-03-10 10:55:29
0 跟貼 0
3800億美元獨(dú)角獸起訴五角大樓 OpenAI和谷歌員工支持競(jìng)爭(zhēng)對(duì)手

每日經(jīng)濟(jì)新聞 2026-03-10 09:35:01
0 跟貼 0
未來的“蘋果”“谷歌”等萬億級(jí)企業(yè)將誕生在何處？

秦朔朋友圈 2026-02-28 00:12:13
0 跟貼 0
一鍵接入OpenClaw,谷歌CLI狂攬15k Stars,Agent開始接管Workspace

機(jī)器之心Pro 2026-03-09 11:47:49
1 跟貼 1
DeepMind負(fù)責(zé)人：2036 AI意識(shí)覺醒？LeCun怒懟：LLM路線全錯(cuò)！

新智元 2025-12-16 16:55:25
0 跟貼 0
3B打32B？海外病毒式傳播的小模型，竟然來自BOSS直聘

機(jī)器之心Pro 2026-03-09 14:09:17
1 跟貼 1
機(jī)器人進(jìn)汽車廠，給波士頓動(dòng)力，裝上谷歌最強(qiáng)大腦

機(jī)器之心Pro 2026-01-06 19:02:05
0 跟貼 0
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
AI龍蝦全民爆火，灣區(qū)上門一次收4.2萬！養(yǎng)蝦狂登熱搜，華強(qiáng)北下場(chǎng)了

新智元 2026-03-08 19:05:09
50 跟貼 50
編程已死，鍵盤長(zhǎng)草！Claude Code之父對(duì)談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
71 跟貼 71
華為推出軟工代碼智能體SWE-Lego，解鎖SFT訓(xùn)練極致性能

機(jī)器之心Pro 2026-01-13 14:54:45
0 跟貼 0
女生與程序員男友吵架，男友改體重器神操作，網(wǎng)友調(diào)侃自站也挨罵

搞笑小搗蛋 2026-03-09 00:00:00
0 跟貼 0
難道這扮演的不是普通人嘛

牛?？从耙?2026-03-08 10:59:48
1 跟貼 1
普通人一輩子存款的天花板，你知道是多少嗎？

相和舟 2026-03-08 05:57:35
0 跟貼 0
龍蝦最佳適配模型，OpenClaw之父給出了推薦

量子位 2026-03-09 12:18:35
33 跟貼 33
英偉達(dá)巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
73 跟貼 73
大風(fēng)315 | 游客稱飛3000公里在西雙版納一景區(qū)游玩，因明星錄制綜藝節(jié)目被清場(chǎng)；景區(qū)：具體情況需由游客回應(yīng)

大風(fēng)新聞 2026-03-09 17:06:09
5747 跟貼 5747
谷歌地圖突發(fā)故障，大海中央驚現(xiàn)神秘山脈，信息未知引瘋傳

搞笑小掌門 2026-03-09 10:34:30
4 跟貼 4
從匹配困境到推理突破：阿里REG4Rec 激活生成式推薦的個(gè)性化潛力

機(jī)器之心Pro 2026-03-02 16:10:32
0 跟貼 0
43天寒假無休送外賣掙萬元，財(cái)務(wù)管理專業(yè)大三學(xué)生收獲人生“第一桶金”

封面新聞 2026-03-09 13:14:08
6484 跟貼 6484
只要1分鐘！電腦裝滿血龍蝦，現(xiàn)在跟下載APP似的

量子位 2026-03-10 10:23:41
0 跟貼 0
充氣模型如何騙取導(dǎo)彈

純白的夢(mèng)j 2026-03-07 07:35:38
0 跟貼 0
全國(guó)兩會(huì)普通人的機(jī)會(huì)指南

富媽曉慶 2026-03-09 18:36:11
0 跟貼 0
找到弱點(diǎn)一擊就夠

嘟嘟剪影 2026-03-08 08:52:59
1 跟貼 1
伊朗導(dǎo)彈打擊損失慘重，五日損失超八成，關(guān)鍵弱點(diǎn)非彈藥短缺

陽春三月天晴 2026-03-09 10:12:12
0 跟貼 0

長(zhǎng)度27萬公里，厚度卻只有10米，土星環(huán)究竟是個(gè)什么怪物？

王煜全

王煜全帶你一起看創(chuàng)新

1047文章數(shù) 769關(guān)注度

往期回顧全部

G7稱暫不釋放油儲(chǔ) 但"隨時(shí)準(zhǔn)備"采取必要措施

汽車要聞

蔚來換電和理想5C，誰能硬剛，比亞迪兆瓦閃充？

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

數(shù)碼

藝術(shù)

家居

公開課

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會(huì)要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

GPT-5.2發(fā)布，能力超人類11倍！谷歌揭露一個(gè)致命弱點(diǎn)，這才是普通人的活路

“龍蝦”狂歡，賣“飼料”的先掙錢了

韓國(guó)女足羨慕的奢侈品，為何選擇中國(guó)女足

肖戰(zhàn)首奪SMG視帝，孫儷四封視后創(chuàng)歷史

全民"養(yǎng)龍蝦"背后 第一批受害者浮現(xiàn)

蔚來換電和理想5C，誰能硬剛，比亞迪兆瓦閃充？

態(tài)度原創(chuàng)

外網(wǎng)吐槽《殺戮尖塔2》角色失衡：獵人必須削

國(guó)補(bǔ)疊加38節(jié)福利！當(dāng)貝三款激光投影，從入門到旗艦按需選不踩雷

30000畝杏花開了，新疆的春天這么美！

自然肌理 溫度質(zhì)感婚房

GPT-5.2發(fā)布，能力超人類11倍！谷歌揭露一個(gè)致命弱點(diǎn)，這才是普通人的活路

“龍蝦”狂歡，賣“飼料”的先掙錢了

韓國(guó)女足羨慕的奢侈品，為何選擇中國(guó)女足

肖戰(zhàn)首奪SMG視帝，孫儷四封視后創(chuàng)歷史

全民"養(yǎng)龍蝦"背后第一批受害者浮現(xiàn)

蔚來換電和理想5C，誰能硬剛，比亞迪兆瓦閃充？

國(guó)補(bǔ)疊加38節(jié)福利！當(dāng)貝三款激光投影，從入門到旗艦按需選不踩雷

30000畝杏花開了，新疆的春天這么美！

自然肌理溫度質(zhì)感婚房