国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.2考贏人類!OpenAI警告:大模型能力已過剩,AGI天花板不是AI

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】如同智能手機(jī)一樣,大模型也進(jìn)入了一個「能力過剩」時代,即大模型本身的能力與人類使用方式之間存在著巨大斷層。

剛剛,GPT-5.2刷新了一項(xiàng)新紀(jì)錄!


OpenAI聯(lián)合創(chuàng)始人Greg Brockman發(fā)帖稱使用GPT-5.2在ARC-AGI-2基準(zhǔn)測試上,表現(xiàn)超過了人類基線水平。

在基準(zhǔn)測試時技能爆表,但一到實(shí)際應(yīng)用就「掉鏈子」,OpenAI前首席科學(xué)家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。

這也是AGI評估領(lǐng)域一個長期存在的難題——如何區(qū)分大模型「真正的推理能力」與「刷題型能力」。

而ARC-AGI-2的出現(xiàn)正好打破了這一難題。

ARC-AGI-2的全稱為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」,是ARC系列基準(zhǔn)的最新升級版本。

該基準(zhǔn)由Fran?ois Chollet(Keras之父、前Google Brain研究員)及其團(tuán)隊(duì)在2025年推出,其設(shè)計(jì)初衷十分明確:

測試AI是否具備AGI所必需的抽象、歸納與遷移推理能力,而非記憶或統(tǒng)計(jì)模式匹配。

ARC系列與傳統(tǒng)NLP或多模態(tài)benchmark最大的不同在于:它沒有大規(guī)模訓(xùn)練集,每道題目都是從未見過的新任務(wù),因此不存在通過「刷數(shù)據(jù)」獲得高分的可能。

它要求AI像人類一樣具備真正的推理和舉一反三的能力。

Chollet曾多次公開表示,如果一個系統(tǒng)只能在見過的數(shù)據(jù)分布上表現(xiàn)良好,那它并不具備AGI所需的能力。

因此,ARC基準(zhǔn)測試剛好直擊大模型的「軟肋」。

從「及格」到「優(yōu)等生」

一次關(guān)鍵跨越


新紀(jì)錄的刷新者,并非單一模型,而是一個名為Poetiq(GPT-5.2X-High)的系統(tǒng)。

Poetiq是一家專注于元系統(tǒng)(Meta-System)架構(gòu)的AI公司。

其核心理念并不是訓(xùn)練一個更大的模型,而是通過軟件層面的系統(tǒng)設(shè)計(jì),自動構(gòu)建「會調(diào)用模型的系統(tǒng)」。

Poetiq(GPT-5.2X-High)在ARC-AGI-2數(shù)據(jù)集上實(shí)現(xiàn)了75%準(zhǔn)確率,每問題成本不到8美元,超越前SOTA 15個百分點(diǎn)。

在Poetiq(GPT-5.2X-High)系統(tǒng)出現(xiàn)之前,GPT-5.2(X-High)已經(jīng)非常接近人類平均水平。

ARC-AGI-2榜單中,人類平均準(zhǔn)確率約為60%,GPT-5.2X-High的成績與之幾乎持平,代表了當(dāng)時AI在該基準(zhǔn)上的最強(qiáng)推理能力。

但Poetiq的加入,使GPT-5.2(X-High)的得分從60%直接拉升到了75%,從勉強(qiáng)及格(人類平均水平)邁入了優(yōu)等生的行列(顯著超越人類平均水平)。

在同一榜單上,還能看到Gemini 3 Deep Think(Preview)的身影。

該模型主打「深度思考(Deep Think)」技術(shù),在ARC-AGI-2上的成績約為46%,明顯落后于GPT-5.2系列,并且成本相對后者也略高。


Poetiq表示,整個過程沒有對GPT-5.2進(jìn)行任何訓(xùn)練或者特定優(yōu)化。

這正是Poetiq元系統(tǒng)的初衷,旨在自動構(gòu)建完整的系統(tǒng),通過調(diào)用任何現(xiàn)有的前沿模型來解決特定任務(wù)。


從15%的提升數(shù)據(jù)來看,Poetiq對于基礎(chǔ)模型性能的提升幅度還是非常明顯的。

它的存在證明了不需要堆算力,通過優(yōu)秀的軟件架構(gòu)也能大幅提升AI性能。

從這個角度上,它也驗(yàn)證了接下來OpenAI的一個判斷——

當(dāng)前大模型,正逐漸進(jìn)入「能力過!闺A段。

大模型「能力過!箷r代


就在同一天,OpenAI官方也在X平臺發(fā)布了一項(xiàng)關(guān)于2026年的預(yù)測。

在這條推文中,OpenAI明確提到一個關(guān)鍵詞:Capability Overhang(能力過剩)。

核心意思是:

當(dāng)前模型「能夠做到的事情」,與人們「實(shí)際使用AI的方式」(產(chǎn)生效果)之間,存在巨大的斷層。

OpenAI認(rèn)為,未來AGI的進(jìn)展將不再僅取決于模型本身的突破,還將取決于:

  • 人們是否知道如何有效使用AI

  • AI是否真正融入現(xiàn)實(shí)工作與生活

  • 系統(tǒng)是否能將模型能力轉(zhuǎn)化為實(shí)際價(jià)值

因此,在2026年,OpenAI將繼續(xù)前沿研究,同時重點(diǎn)投入于應(yīng)用層、系統(tǒng)層、人機(jī)協(xié)同,尤其強(qiáng)調(diào)醫(yī)療、商業(yè)和日常生活場景。

人機(jī)協(xié)同

AGI的另一半拼圖

OpenAI這篇官方推文涉及一個人機(jī)協(xié)同的問題。

實(shí)現(xiàn)AGI,是需要模型和人協(xié)同發(fā)揮作用:AGI不只靠模型升級,更要「教人用AI」。

通過正確的使用AI,充分發(fā)揮出AI的潛能,這樣才能讓AI開始從「炫技」轉(zhuǎn)向「普惠」,真正影響億萬人生活。

這一觀點(diǎn)也得到了社區(qū)的強(qiáng)烈回應(yīng)。

于是,樂觀的網(wǎng)友稱「直接把我整個人自動化吧」!


也有網(wǎng)友提到,真正的挑戰(zhàn)在于如何將AI融入工作流程中:見過太多組織買了「AI」,卻從未改變?nèi)魏我粋流程。


大模型真的「能力過剩」了嗎?

那么,是不是真如OpenAI所說的,大模型的能力已經(jīng)過剩了呢?

通過上面Poetiq所公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表現(xiàn),75%的得分超過了人類平均水平(60%)15個百分點(diǎn)。

此前OpenAI官方在介紹GPT-5時強(qiáng)調(diào)其在解決復(fù)雜跨學(xué)科問題上達(dá)到了專家級基準(zhǔn),后被外界引申為「博士級智能」。

這說明GPT-5等大模型在某些專業(yè)任務(wù)中表現(xiàn)類似于人類博士的專業(yè)水平。

從模型本身來說,也許并未完全過剩,但從「未被充分釋放的能力」角度來看,已經(jīng)嚴(yán)重過剩。

其中,有模型設(shè)計(jì)者方的原因,比如他們沒有緊跟用戶的使用場景,「不再與用戶并肩同行了」。


也可能由于前沿模型在推理和創(chuàng)新上缺乏根本性的突破。


還有模型本身迭代得太快,用戶不得不在日常生活中不斷棄用已經(jīng)「成功上手」的模型。


Poetiq 的出現(xiàn),以及OpenAI對「能力過!沟呐袛,共同指向了未來AI領(lǐng)域的一個新方向:

下一階段的AI競爭,不再只是模型參數(shù)之爭,而是系統(tǒng)、流程與人機(jī)協(xié)同的競爭。

參考資料:

https://x.com/poetiq_ai/status/2003546910427361402

https://x.com/OpenAI/status/2003594025098785145

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
北京“刻小貓章的大爺”火了,但他有點(diǎn)茫然……

北京“刻小貓章的大爺”火了,但他有點(diǎn)茫然……

環(huán)球網(wǎng)資訊
2026-01-10 09:42:53
這下麻煩大了!不到48小時,閆學(xué)晶再迎2大噩耗,何慶魁也被牽連

這下麻煩大了!不到48小時,閆學(xué)晶再迎2大噩耗,何慶魁也被牽連

阿纂看事
2026-01-07 12:16:27
快船力克活塞,但賽后還有3個壞消息,球隊(duì)管理層該交易了!

快船力克活塞,但賽后還有3個壞消息,球隊(duì)管理層該交易了!

小潌拍客在北漂
2026-01-11 11:14:17
太突然!李晨官宣結(jié)婚,夫妻合照曝光,全網(wǎng)恭喜,終于等到這一天

太突然!李晨官宣結(jié)婚,夫妻合照曝光,全網(wǎng)恭喜,終于等到這一天

老吳教育課堂
2026-01-11 11:50:49
內(nèi)存太貴了?國產(chǎn)手機(jī)從淘汰8GB到重回8GB

內(nèi)存太貴了?國產(chǎn)手機(jī)從淘汰8GB到重回8GB

觀察者網(wǎng)
2026-01-10 16:41:04
臺海還沒開戰(zhàn),另一場惡仗已逼近中國,美撕下偽裝,基辛格沒說錯

臺海還沒開戰(zhàn),另一場惡仗已逼近中國,美撕下偽裝,基辛格沒說錯

霽寒飄雪
2026-01-10 16:12:58
1.6萬億消費(fèi)大遷徙!商場空到只剩導(dǎo)購,中產(chǎn)的錢都流向了這里

1.6萬億消費(fèi)大遷徙!商場空到只剩導(dǎo)購,中產(chǎn)的錢都流向了這里

墨印齋
2026-01-10 21:32:39
新冠病毒3大結(jié)局已經(jīng)不可避免,60歲以上的老年人尤其要注意

新冠病毒3大結(jié)局已經(jīng)不可避免,60歲以上的老年人尤其要注意

醫(yī)護(hù)健康科普
2025-08-31 17:07:58
真正忽悠具俊曄的是大S!大S去世后,具俊曄表現(xiàn)深情也是無奈之舉

真正忽悠具俊曄的是大S!大S去世后,具俊曄表現(xiàn)深情也是無奈之舉

小娛樂悠悠
2025-12-21 10:10:12
劉亦菲天仙寫真合集(31)

劉亦菲天仙寫真合集(31)

手工制作阿殲
2026-01-11 13:36:11
米哈游,投出3個IPO

米哈游,投出3個IPO

融資中國
2026-01-11 10:40:31
從上;氐娇h城,落差感讓我整夜睡不著

從上;氐娇h城,落差感讓我整夜睡不著

詩意世界
2025-11-25 21:46:09
事業(yè)巔峰遠(yuǎn)赴美國,被老外“玩膩”后晚年回國,如今變成了這樣!

事業(yè)巔峰遠(yuǎn)赴美國,被老外“玩膩”后晚年回國,如今變成了這樣!

歸史
2025-12-09 11:10:44
喀麥隆永遠(yuǎn)是第一位!恩比德回應(yīng)全明星代表隊(duì)選擇

喀麥隆永遠(yuǎn)是第一位!恩比德回應(yīng)全明星代表隊(duì)選擇

大眼瞄世界
2026-01-11 00:31:12
陳幸同4-3險(xiǎn)勝張本美和,女單四強(qiáng)產(chǎn)生,國乒占兩席,失守上半?yún)^(qū)

陳幸同4-3險(xiǎn)勝張本美和,女單四強(qiáng)產(chǎn)生,國乒占兩席,失守上半?yún)^(qū)

湘楚風(fēng)云
2026-01-11 03:02:10
高市早苗放下中國不管,準(zhǔn)備解散國會?一旦事成,她將大權(quán)獨(dú)攬

高市早苗放下中國不管,準(zhǔn)備解散國會?一旦事成,她將大權(quán)獨(dú)攬

娛樂督察中
2026-01-11 11:36:56
傅作義拎著三斤黃金去面見毛澤東,主席說:“金子你拿回去,槍交出來!”

傅作義拎著三斤黃金去面見毛澤東,主席說:“金子你拿回去,槍交出來!”

老杉說歷史
2025-12-17 19:19:12
1999年四星隕落:北京301醫(yī)院送走四位開國虎將,前三位備極哀榮,唯獨(dú)最后一位戰(zhàn)神走得太凄涼,連個黨籍都沒留下,這結(jié)局讓人唏噓不已

1999年四星隕落:北京301醫(yī)院送走四位開國虎將,前三位備極哀榮,唯獨(dú)最后一位戰(zhàn)神走得太凄涼,連個黨籍都沒留下,這結(jié)局讓人唏噓不已

源溯歷史
2025-12-11 15:27:09
還有大動作?最近都在說這個事

還有大動作?最近都在說這個事

中產(chǎn)先生
2026-01-10 12:12:52
2025年中國正風(fēng)反腐“成績單”:“打虎”“拍蠅”“獵狐”不止步!

2025年中國正風(fēng)反腐“成績單”:“打虎”“拍蠅”“獵狐”不止步!

澎湃新聞
2025-12-29 18:48:03
2026-01-11 14:15:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14309文章數(shù) 66452關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

丹麥尷尬:抵制美國代價(jià)高昂 卻眼睜睜看著格陵蘭離開

頭條要聞

丹麥尷尬:抵制美國代價(jià)高昂 卻眼睜睜看著格陵蘭離開

體育要聞

詹皇曬照不滿打手沒哨 裁判報(bào)告最后兩分鐘無誤判

娛樂要聞

網(wǎng)友偶遇賈玲張小斐崇禮滑雪

財(cái)經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

數(shù)碼
游戲
藝術(shù)
公開課
軍事航空

數(shù)碼要聞

山西發(fā)放2026年家電及數(shù)碼智能產(chǎn)品消費(fèi)補(bǔ)貼

主播預(yù)測NS2今年走勢:老任即將拋出多款游戲大作

藝術(shù)要聞

福布斯最佳CEO榜單!馬化騰第一!東哥呢?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄大使:馬杜羅夫婦被控制時身邊沒人

無障礙瀏覽 進(jìn)入關(guān)懷版