国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

GPT-5.2,對Gemini-3反手一掌,2026做牛馬比當(dāng)學(xué)霸重要

0
分享至

你方唱罷我登場,各領(lǐng)風(fēng)騷十幾天。

GPT-5.2出來了,它實(shí)現(xiàn)了對Gemini-3和Claude-4.5的部分反超,在多個(gè)實(shí)用領(lǐng)域都更強(qiáng)了:做表格、弄PPT、寫代碼、理解長文檔、調(diào)用工具、處理復(fù)雜多步驟項(xiàng)目……視覺理解能力也大幅提升,能辨別出板卡上的螺絲釘。


(來源OpenAI)

從5.1到5.2,僅用了30天,OpenAI回答了市場上對其前景的質(zhì)疑,證明了團(tuán)隊(duì)實(shí)力,預(yù)示了2026年,擴(kuò)展定律依然是前沿大模型的競爭的最重要法寶,基礎(chǔ)設(shè)施將起到更重要的作用。

OpenAI首次引入了它自己開發(fā)的打工能力的測評基準(zhǔn)GDPval,要證明它既會(huì)做學(xué)霸,也能當(dāng)牛馬。

結(jié)果5.2成為首個(gè)達(dá)到或超過人類專家水平的模型。根據(jù)人類專家評審的結(jié)果,5.2 Thinking 在 GDPval 的知識(shí)型任務(wù)中,有 70.9% 的項(xiàng)目表現(xiàn)優(yōu)于頂尖行業(yè)專業(yè)人士或持平。這些任務(wù)包括那些白領(lǐng)打工基本技能,如制作演示文稿、電子表格以及其他活兒。5.2 Thinking 的輸出速度在 GDPval 任務(wù)中比專家快 11 倍以上,成本卻不到其 1%。這表明,在有人類監(jiān)督的情況下,GPT?5.2 能有效輔助專業(yè)工作。


(在 GDPval 測試中,模型嘗試完成定義明確的知識(shí)型工作,內(nèi)容涵蓋美國 GDP 貢獻(xiàn)度最高的 9 個(gè)行業(yè)中的 44 種職業(yè)。任務(wù)要求生成真實(shí)的工作成果。)

兩個(gè)半月前,OpenAI公布這個(gè)測評體系時(shí),GPT-5的得分,不及當(dāng)時(shí)的Claude最高版本Opus 4.1,但是勝過Gemini 2.5和Grok-4。如今,5.2得分幾乎翻倍。


(來源OpenAI)

盡管如此,GPT?5.2 Thinking想要在實(shí)際工作中替代OpenAI的員工仍然相當(dāng)遙遠(yuǎn)。在最新系統(tǒng)卡(system-card)的AI自我改進(jìn)(Self-Improvement)能力測評中,GPT?5.2 Thinking并沒有未達(dá)到一名表現(xiàn)優(yōu)秀的中等資歷(mid-career)研究工程師的水平。OpenAI 基于20個(gè)曾導(dǎo)致重大項(xiàng)目至少延遲一天的真實(shí)研發(fā)瓶頸問題,構(gòu)建了OPQA 測試基準(zhǔn)。結(jié)果,即使在可訪問歷史代碼、日志和實(shí)驗(yàn)數(shù)據(jù)的條件下,GPT-5.2 Thinking仍缺乏有效診斷問題根源并提出合理解釋的能力,它做得比GPT-5.1 Codex Max更差一點(diǎn)。不能自主發(fā)現(xiàn)、分析、解決新問題,意味著AI距離“自我改進(jìn)”所需的能力仍有巨大差距。


(來源OpenAI)

也就是說,大模型仍然是“高分低能”,干活出活能力,還沒有擺脫最初級(jí)的水平。

但我們也不得不服前沿大模型的學(xué)霸級(jí)考試水平。ARC-AGI也在第一時(shí)間發(fā)布了測試結(jié)果。5.2的準(zhǔn)確率高達(dá) 90.5%,每個(gè)任務(wù)的成本僅為 11.64 美元,一年內(nèi)效率提升了約 390 倍。回顧過去 12 個(gè)月,在 ARC-AGI 測試中,任何超過 85% 的準(zhǔn)確率都需要近乎瘋狂的計(jì)算資源。早期對 o3-preview 的估算顯示,每個(gè)任務(wù)的成本在 3000 美元到 3 萬美元之間;旧,每次想要得到一個(gè)答案,你消耗的算力成本相當(dāng)于一輛汽車。現(xiàn)在GPT-5.2 Pro 登場,取得了 90.5% 的準(zhǔn)確率,而價(jià)格卻只相當(dāng)于幾杯咖啡。已經(jīng)相當(dāng)接近人類95%的水平了。


(來源ARC-AGI)

讓智能體干活,我們正悄無聲息地跨越與人工成本持平的界限,幾乎無人察覺。整個(gè)推理的經(jīng)濟(jì)格局正在發(fā)生翻天覆地的變化。我們才剛剛開始,接下來會(huì)有更快的優(yōu)化。

谷歌用TPU-6集群首次訓(xùn)練出最領(lǐng)先的前沿大模型Gemini-3,動(dòng)搖了英偉達(dá)GPU一統(tǒng)天下的格局。Anthropic與谷歌TPU和亞馬遜Trainium的合作,明年分別都達(dá)到了百萬卡級(jí)。

OpenAI與xAI主要依靠英偉達(dá)GPU。這次OpenAI還披露,5.2 是其與長期合作伙伴英偉達(dá)和微軟共同打造的成果。Azure 數(shù)據(jù)中心與 英偉達(dá)的 H100、H200、GB200-NVL72 等 GPU 構(gòu)成了 OpenAI 大規(guī)模訓(xùn)練的核心基礎(chǔ)設(shè)施,為模型智能帶來了顯著提升。“正是這種合作,使我們能夠更有信心地?cái)U(kuò)展算力,并更快速地將新模型推向市場。”

這預(yù)示著到了2026年的大模型之爭,也將是一場基礎(chǔ)設(shè)施之爭。今年砸下的數(shù)千億美元,明年將實(shí)現(xiàn)滾滾算力。一代GPU,一代大模型。B200和B300的全面擔(dān)當(dāng)主力,英偉達(dá)Rubin CPX預(yù)計(jì)年底上市,專為長上下文推理和視頻生成應(yīng)用設(shè)計(jì)。還有TPU-7、Trainium-3的上市。大模型新一波擴(kuò)展,值得期待。

小結(jié)一下,5.2對于明年意味著什么:

1,前沿大模型將會(huì)繼續(xù)拼擴(kuò)展定律,也就是拼基礎(chǔ)設(shè)施。明年的下一代模型競爭值得期待。在基礎(chǔ)設(shè)施門檻顯著提升的情況下,明年中國的DeepSeek-3.x或4用什么基礎(chǔ)設(shè)施預(yù)訓(xùn)練?

2,在這樣的大模型競爭升級(jí)態(tài)勢下,美國已經(jīng)放開對中國H200的出口,它用來訓(xùn)練GPT-5,仍然起到了主力作用。這樣,中國領(lǐng)先的開源模型,在訓(xùn)練階段是否需要H200?

3,面向真實(shí)工作場景,擴(kuò)展可驗(yàn)證性,建立相應(yīng)測評基準(zhǔn),加快大模型的實(shí)際使用,實(shí)現(xiàn)其經(jīng)濟(jì)性,智能體完成復(fù)雜真實(shí)任務(wù),將是明年一個(gè)競爭重點(diǎn);也就是說,AI大模型公司拼ARR,比爭當(dāng)學(xué)霸更重要了。這也是中國快速學(xué)習(xí)、打分優(yōu)異的開源模型需要直面的價(jià)值變現(xiàn)問題。

5.2各項(xiàng)能力的得分,最權(quán)威和最詳細(xì)的,以及它的系統(tǒng)卡,可以看OpenAI官網(wǎng)的公布:

https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不戰(zhàn)而勝!對手門希克因傷退賽,德約生涯第65次躋身大滿貫八強(qiáng)

不戰(zhàn)而勝!對手門?艘騻速,德約生涯第65次躋身大滿貫八強(qiáng)

全景體育V
2026-01-25 17:37:59
“美國斬殺線”事件詳細(xì)梳理:最新爆料美女留學(xué)生當(dāng)“狗”太辣眼

“美國斬殺線”事件詳細(xì)梳理:最新爆料美女留學(xué)生當(dāng)“狗”太辣眼

聽風(fēng)聽你
2026-01-24 20:54:06
替補(bǔ)出場2分鐘染黃!拜合拉木賽后手指著裁判說話 39度高燒仍拼命

替補(bǔ)出場2分鐘染黃!拜合拉木賽后手指著裁判說話 39度高燒仍拼命

風(fēng)過鄉(xiāng)
2026-01-25 10:59:52
國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

霹靂炮
2026-01-19 22:24:13
雷軍無奈宣布:全部下架!

雷軍無奈宣布:全部下架!

電動(dòng)知家
2026-01-25 15:31:25
記者:徐彬與中國U23在吉達(dá)告別,已正式啟程前往英國迎接新挑戰(zhàn)

記者:徐彬與中國U23在吉達(dá)告別,已正式啟程前往英國迎接新挑戰(zhàn)

懂球帝
2026-01-25 16:26:22
58歲那英改走顏值路線?過度醫(yī)美變化大到認(rèn)不出,這是要鬧哪出?

58歲那英改走顏值路線?過度醫(yī)美變化大到認(rèn)不出,這是要鬧哪出?

鋒哥與八卦哥
2026-01-25 13:26:51
出大事了!中國收到“戰(zhàn)書”,這次不是美國,中方已經(jīng)做好準(zhǔn)備

出大事了!中國收到“戰(zhàn)書”,這次不是美國,中方已經(jīng)做好準(zhǔn)備

愛吃醋的貓咪
2026-01-23 20:27:00
武漢理工畢業(yè)做保安!男子被學(xué)校約談后,稱保安比送外賣掙得多…

武漢理工畢業(yè)做保安!男子被學(xué)校約談后,稱保安比送外賣掙得多…

火山詩話
2026-01-25 09:02:44
一語道破女留學(xué)生的牢A,親眼目睹陪讀媽媽的悲哀,到底真還是假

一語道破女留學(xué)生的牢A,親眼目睹陪讀媽媽的悲哀,到底真還是假

每日一見
2026-01-23 15:07:50
云南毒紅薯升級(jí)!調(diào)查組介入,網(wǎng)友扒出黑幕,難怪商戶敢主動(dòng)投毒

云南毒紅薯升級(jí)!調(diào)查組介入,網(wǎng)友扒出黑幕,難怪商戶敢主動(dòng)投毒

云舟史策
2026-01-24 16:14:54
李亞鵬曝光捐贈(zèng)名單,向太發(fā)聲:我捐了幾百萬,王菲默默支持了幾千萬,也是不夠的……

李亞鵬曝光捐贈(zèng)名單,向太發(fā)聲:我捐了幾百萬,王菲默默支持了幾千萬,也是不夠的……

都市快報(bào)橙柿互動(dòng)
2026-01-24 19:48:42
首映僅150萬,《舒克貝塔》票房撲街,鄭淵潔父子虧到懷疑人生

首映僅150萬,《舒克貝塔》票房撲街,鄭淵潔父子虧到懷疑人生

電影票房預(yù)告片
2026-01-25 00:00:56
個(gè)稅降了,2026年1月15日起執(zhí)行

個(gè)稅降了,2026年1月15日起執(zhí)行

會(huì)計(jì)人
2026-01-25 12:03:57
女友懷孕收15萬元彩禮,被退婚后控告男友強(qiáng)奸,男方起訴退還全部彩禮,法院判了

女友懷孕收15萬元彩禮,被退婚后控告男友強(qiáng)奸,男方起訴退還全部彩禮,法院判了

南國今報(bào)
2026-01-25 17:09:35
安東尼奧即將成為國奧主帥,兩年后將挑戰(zhàn)40年魔咒

安東尼奧即將成為國奧主帥,兩年后將挑戰(zhàn)40年魔咒

澎湃新聞
2026-01-25 14:07:05
好消息!鐵路新規(guī):60歲以上老人乘坐高鐵火車,可享受5大福利

好消息!鐵路新規(guī):60歲以上老人乘坐高鐵火車,可享受5大福利

巢客HOME
2026-01-25 06:50:03
青島回應(yīng)“學(xué)生械斗”:系A(chǔ)I生成的不實(shí)信息

青島回應(yīng)“學(xué)生械斗”:系A(chǔ)I生成的不實(shí)信息

極目新聞
2026-01-24 23:30:18
株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

以茶帶書
2026-01-24 23:18:39
1550億美元身家的黃仁勛現(xiàn)身上海一菜場,商戶:他在我的栗子店消費(fèi)65元,還給我簽名紅包

1550億美元身家的黃仁勛現(xiàn)身上海一菜場,商戶:他在我的栗子店消費(fèi)65元,還給我簽名紅包

極目新聞
2026-01-25 15:58:12
2026-01-25 19:08:49
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
292文章數(shù) 61關(guān)注度
往期回顧 全部

科技要聞

黃仁勛在上海逛菜市場,可能惦記著三件事

頭條要聞

游客自稱爬衡山時(shí)掛脖子上80克金牌遺失 價(jià)值超10萬元

頭條要聞

游客自稱爬衡山時(shí)掛脖子上80克金牌遺失 價(jià)值超10萬元

體育要聞

中國足球不會(huì)一夜變強(qiáng),但他們已經(jīng)創(chuàng)造歷史

娛樂要聞

王玉雯方嚴(yán)正聲明 劇方回應(yīng):涉事人員已被開除

財(cái)經(jīng)要聞

隋廣義等80人被公訴 千億騙局進(jìn)入末路

汽車要聞

別克至境E7內(nèi)飾圖曝光 新車將于一季度正式發(fā)布

態(tài)度原創(chuàng)

手機(jī)
藝術(shù)
數(shù)碼
本地
公開課

手機(jī)要聞

榮耀泡泡瑪特聯(lián)名手機(jī)今日開售:首銷即引爆,線下再現(xiàn)排隊(duì)熱潮

藝術(shù)要聞

當(dāng)代唯一能稱為“大師”的人,他的字普通人看不懂,啟功跟他比,就像小學(xué)生!

數(shù)碼要聞

AMD核顯規(guī)劃分化,中端APU將沿用RDNA3.5舊架構(gòu)直至2029年

本地新聞

云游中國|格爾木的四季朋友圈,張張值得你點(diǎn)贊

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版