国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.2發(fā)布,能力超人類11倍!谷歌揭露一個致命弱點,這才是普通人的活路

0
分享至

昨天,OpenAI憋了這么久,終于扔出新的重磅產(chǎn)品:GPT-5.2

在谷歌和其他競爭對手的圍追堵截下,他們這次徹底盯上了打工人:

GPT-5.2官方文檔白紙黑字寫著:在涵蓋44個職業(yè)的專業(yè)知識工作測試中,GPT-5.2 Thinking完成任務的速度是人類專家的11倍以上,成本不到人類的1%。

更扎心的是:在這個名為GDPval的測試里,GPT-5.2 Thinking與頂級行業(yè)專家正面PK,70.9%的任務中,AI贏了或打平。

一位參與評測的評委看完AI的輸出后感嘆:"這像是一家有專業(yè)團隊的公司做出來的……雖然還有些小錯要改,但布局和建議都出奇地專業(yè)。"

紅色警報,GPT5.2靠啥大幅改進?

就在上個月,谷歌放出了Gemini 3,在多項基準測試中全面領先,一度把OpenAI打得措手不及。

OpenAI的CEO山姆·奧特曼在內(nèi)部發(fā)了一封"Code Red"(紅色警報)備忘錄,要求團隊暫停其他項目,全力沖刺ChatGPT的下一次迭代。


GPT-5.2這個代號就能看出來,OpenAI現(xiàn)在是提前亮劍。

這次發(fā)布的GPT-5.2有三個版本:

Instant:快、穩(wěn),適合日常查資料、寫郵件;

Thinking:深度推理,適合編程、數(shù)據(jù)分析、長文檔處理;

Pro:頂配,追求極致準確率,適合高風險決策。

在編程基準測試SWE-bench Verified上,GPT-5.2 Thinking拿下80%的成績。在數(shù)學競賽題AIME 2025上,得分100%

光看數(shù)字嚇人沒用,咱們得搞明白:這玩意兒到底是怎么突然變這么強的?

周四的前哨特訓營直播中,王煜全和大家分享了預訓練放緩的真正原因,告訴大家底層芯片的算力和存儲沒有大更新的情況下,AI大模型接下來的進步主要都會依靠后訓練、強化學習和推理。

知名的ARC測試中,領先模型主要都靠延長推理提高成績


OpenAI這次發(fā)布驗證了這個判斷。GPT-5.2官方文檔里有兩個關鍵點:

第一,推理中糾錯。 文檔中提到"通過訓練,模型學會精煉自己的思考過程、嘗試不同策略、并識別自己的錯誤。"

這背后大概率就是通過強化學習,優(yōu)化了模型的推理過程,讓它學會了在內(nèi)部“打草稿”并在輸出前自我修正。

第二,通用推理反超垂直微調(diào)。 在模擬OpenAI內(nèi)部代碼工作的測試中,靠"思考"的通用版GPT-5.2,竟然擊敗了上一代專門針對代碼優(yōu)化的垂直模型(Codex Max)。

這證明了強化學習提升的邏輯推理能力,還能繼續(xù)提高模型在不同場景的泛用性,簡單說就是讓模型能像人類工程師一樣分析問題,而不是死記硬背代碼庫。

說人話就是:GPT-5.2這一代,核心變成了用強化學習教AI怎么"想",這才是它能在專業(yè)任務上碾壓人類的底層原因。

死亡名單,哪些職業(yè)危險了?

好了,技術講完了,咱們聊點更扎心的:哪些人的飯碗最危險?

要回答這個問題,得先說說OpenAI發(fā)明的GDPval測試。

GDPval,全稱是"GDP Validation",是OpenAI在2025年9月發(fā)布的一套評測體系。

它的核心思路很直接:不跟AI比考試分數(shù),直接比"干活"。

OpenAI找來了一批真正的專業(yè)人士,平均從業(yè)經(jīng)驗14年,覆蓋美國GDP貢獻最大的9個行業(yè)、44個職業(yè)。

這些人出題,出的都是他們?nèi)粘9ぷ髦姓鎸崟傻幕顑海鹤鲣N售PPT、搭財務三表模型、排急診室值班表….

然后讓AI和人類專家各干一遍,再請專家盲評:誰做得更好?

結(jié)果就是我們開頭說的:GPT-5.2 Thinking在70.9%的任務中,贏了或打平人類專家。

更恐怖的是:AI完成這些任務的速度是人類的11倍以上,成本不到人類的1%。


那么問題來了:哪些崗位最危險?

從GDPval測試覆蓋的44個職業(yè)來看,知識密集型白領崗位首當其沖。

投行分析師:OpenAI內(nèi)部測試顯示,GPT-5.2在投行初級分析師的建模任務上,平均得分比GPT-5.1高出9.3%。

客服和售后:AI在工具調(diào)用測試Tau2-bench中拿下98.7%的準確率,能協(xié)調(diào)航班改簽、行李追蹤、特殊座位安排等復雜流程。

程序員:編程能力繼續(xù)飆升,Windsurf已經(jīng)把GPT-5.2當成默認底座。

你的新角色:從"執(zhí)行者"變成"審核員"

好在,AI雖然很厲害,但絕非萬能。

這幾天谷歌DeepMind聯(lián)合Kaggle,正式發(fā)布了一個名為"FACTS Grounding"的測試榜單。

FACTS是什么?說白了,就是專門測AI"有沒有在一本正經(jīng)地胡說八道"。

測試方法很直接:給AI一份長文檔(最長32000個token),讓它基于文檔生成回答,然后檢查它說的每一句話是不是都有據(jù)可查、沒有編造。

結(jié)果呢?

目前市面上最強的AI模型,在這個測試里,準確率普遍卡在70%上下。

包括谷歌自家的Gemini系列,OpenAI的GPT系列,沒有任何一個模型能保證100%的事實準確性。

這就好比,你招了一個效率極高的員工,干活速度是別人的十倍,工資只要別人的零頭。

但果這個員工有30%的概率會"信口開河",合同金額寫錯、法規(guī)條款引用錯誤、客戶信息張冠李戴。

現(xiàn)在你敢讓他獨立負責重要項目嗎?

AI的缺陷,恰恰是普通人最大的機會。

OpenAI自己也說了,GPT-5.2的定位是"在人類監(jiān)督下協(xié)助專業(yè)工作"(when paired with human oversight)。

以前的打工人是什么?執(zhí)行者。 老板說寫個方案,你就寫;說做個表,你就做。

以后的你必須成為AI的老板,要想清楚哪些事是有價值的,哪些事該安排給哪個AI干,干完如何判斷靠不靠譜、有沒有價值。

未來職場,不會淘汰"用AI的人",一定會淘汰"試圖和AI競爭的人"。

給家長的話:與其焦慮,不如讓孩子提前準備

我們這代人還在適應AI,但下一代可以從小學會"和AI協(xié)作"

就像計算機、互聯(lián)網(wǎng)成為今天必不可少的職場工具,AI未來也會如此。

【前哨AI冬令營】 專為8-16歲設計,7天讓孩子親手做出自己的小游戲和微信小程序,邊玩邊學,作品還能發(fā)給同學一起玩。

零基礎也能上手:從"玩游戲"到"做游戲"

抓住核心競爭力:培養(yǎng)和AI協(xié)作的能力

收獲硬成果:可上線的作品,實打?qū)嵉姆e累

? 名額有限,先到先得,掃碼報名 ↓


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女子被閨蜜“搶走”老公后續(xù):閨蜜多張照片遭曝光,不如原配好看

女子被閨蜜“搶走”老公后續(xù):閨蜜多張照片遭曝光,不如原配好看

文雅筆墨
2025-12-27 09:54:22
61歲奧巴馬夫人暴瘦后“逆生長”,與前總統(tǒng)丈夫合照笑開了花

61歲奧巴馬夫人暴瘦后“逆生長”,與前總統(tǒng)丈夫合照笑開了花

艷兒說電影
2025-12-27 21:11:14
中國體壇最偉大10名運動員,林丹上榜,第一名堪稱亞洲榮耀

中國體壇最偉大10名運動員,林丹上榜,第一名堪稱亞洲榮耀

不寫散文詩
2025-12-27 14:59:44
遇到橫的,美國就軟了!“貝拉1號”油輪宣布:美軍就是紙老虎

遇到橫的,美國就軟了!“貝拉1號”油輪宣布:美軍就是紙老虎

我心縱橫天地間
2025-12-27 12:56:14
有性生活的注意!男人感染HPV后,身體有2個表現(xiàn),教你一眼看出來

有性生活的注意!男人感染HPV后,身體有2個表現(xiàn),教你一眼看出來

健康科普365
2025-12-15 09:50:47
比亞迪法務部重拳出擊,“龍哥講電車”被判賠償200萬元并消除影響

比亞迪法務部重拳出擊,“龍哥講電車”被判賠償200萬元并消除影響

金融界
2025-12-25 16:13:22
為什么我們不再熱衷過圣誕節(jié)了?

為什么我們不再熱衷過圣誕節(jié)了?

小卿情感說
2025-12-24 21:16:17
本菲卡聯(lián)手經(jīng)紀人,推薦三名球員給西超,穆里尼奧制造加西媒吹捧

本菲卡聯(lián)手經(jīng)紀人,推薦三名球員給西超,穆里尼奧制造加西媒吹捧

穆里尼奧主義者
2025-12-27 23:53:04
袁詠儀曬聚會照,頭發(fā)花白純素顏!54歲張智霖比46歲吳卓羲還年輕

袁詠儀曬聚會照,頭發(fā)花白純素顏!54歲張智霖比46歲吳卓羲還年輕

樂悠悠娛樂
2025-12-27 11:33:52
周冬雨近照曝光!臉部發(fā)胖被質(zhì)疑醫(yī)美,一年多未進組淪為綜藝咖?

周冬雨近照曝光!臉部發(fā)胖被質(zhì)疑醫(yī)美,一年多未進組淪為綜藝咖?

萌神木木
2025-12-25 14:28:02
謝春濤率中共代表團赴柬埔寨、老撾宣介中共二十屆四中全會精神

謝春濤率中共代表團赴柬埔寨、老撾宣介中共二十屆四中全會精神

新華社
2025-12-26 17:00:06
2026年春節(jié)將取消“禁放令”,煙花爆竹重新上崗,究竟靠不靠譜?

2026年春節(jié)將取消“禁放令”,煙花爆竹重新上崗,究竟靠不靠譜?

復轉(zhuǎn)這些年
2025-12-27 23:33:24
天降大喜2026年,財神最偏愛的生肖,有橫財入宅

天降大喜2026年,財神最偏愛的生肖,有橫財入宅

人閒情事
2025-12-27 17:13:54
日本天皇急召高市早苗,有要事交代!美國提醒日本:小心被中國揍

日本天皇急召高市早苗,有要事交代!美國提醒日本:小心被中國揍

文史旺旺旺
2025-12-26 20:06:05
迪麗熱巴“天使蹲”火出圈,顏值驚艷全網(wǎng),醫(yī)生:無基礎者慎入

迪麗熱巴“天使蹲”火出圈,顏值驚艷全網(wǎng),醫(yī)生:無基礎者慎入

悠悠說世界
2025-12-21 08:34:39
宋朝有一首千古奇詩,男人可以順著讀,女人卻必須倒著讀

宋朝有一首千古奇詩,男人可以順著讀,女人卻必須倒著讀

長風文史
2025-12-22 15:48:16
換帥即封神!28分狂勝同曦終結(jié)5連敗 浙江沒做到的他做到了?

換帥即封神!28分狂勝同曦終結(jié)5連敗 浙江沒做到的他做到了?

你看球呢
2025-12-27 08:40:06
CBA第6輪最佳陣容:徐杰林庭謙全能領銜 賀希寧連續(xù)兩輪入選

CBA第6輪最佳陣容:徐杰林庭謙全能領銜 賀希寧連續(xù)兩輪入選

醉臥浮生
2025-12-27 12:10:30
河南南陽一佳人好漂亮, 身高169cm,體重50kg 美的讓人移不開眼

河南南陽一佳人好漂亮, 身高169cm,體重50kg 美的讓人移不開眼

東方不敗然多多
2025-12-25 07:00:37
濟南地鐵三線齊發(fā),市委書記等領導與市民代表共乘地鐵調(diào)研

濟南地鐵三線齊發(fā),市委書記等領導與市民代表共乘地鐵調(diào)研

澎湃新聞
2025-12-27 20:28:27
2025-12-28 01:03:00
王煜全 incentive-icons
王煜全
王煜全帶你一起看創(chuàng)新
964文章數(shù) 751關注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

家居
藝術
健康
教育
數(shù)碼

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

藝術要聞

驚艷!這件木雕美得讓人心動,絕對不容錯過!

這些新療法,讓化療不再那么痛苦

教育要聞

南京市首創(chuàng)杯金屬機器人系列交流展示活動

數(shù)碼要聞

最高5.19 萬!小米新品火熱開賣,“價格屠夫”徹底不裝了

無障礙瀏覽 進入關懷版