国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5被吐槽沒進(jìn)步?Epoch年終報(bào)告打臉:AI在飛速狂飆,ASI更近了!

0
分享至


新智元報(bào)道

編輯:Aeneas

【新智元導(dǎo)讀】Epoch AI年終大盤點(diǎn)來了!出乎意料的是,AI沒有停滯,反而變快了。

最近,Epoch AI又發(fā)了不少東西。

他們?cè)贔rontierMath上測(cè)試了幾個(gè)開源權(quán)重的中文模型。

結(jié)果是,它們?cè)?-3級(jí)的最高得分,要落后于全球頂尖AI模型大約七個(gè)月。


而在較難的第四級(jí),幾乎所有開源中文大模型都掛了零蛋。

唯一得分的選手,只有DeepSeek-V3.2 (Thinking)。它回答對(duì)了一道題,取得了1/48 ≈ 2%的分?jǐn)?shù)。



當(dāng)然,雖然這些中文開源大模型掛蛋了,外國(guó)模型們表現(xiàn)也很差。

GPT、Gemini這些頂尖模型,在傳統(tǒng)的數(shù)學(xué)測(cè)試(比如 GSM-8k、MATH)上簡(jiǎn)直一路飆分。然而在FrontierMath上,它們的正確率也并不高。

不過從表中可以看出,它們的表現(xiàn)至少要比中文開源模型好一些。原因是為什么呢?暫時(shí)沒找到。

而所有AI模型都考不好,是因?yàn)镕rontierMath不是普通的benchmark,而是由60+名數(shù)學(xué)界頂尖專家聯(lián)手出題,更有菲爾茲獎(jiǎng)得主背書 。

它是一套真正的數(shù)學(xué)大考卷,不是那種簡(jiǎn)單的公式代入、算算微積分的小測(cè)驗(yàn),而是專家級(jí)的原創(chuàng)難題,覆蓋數(shù)論、實(shí)分析、代數(shù)幾何、范疇論等,甚至是科研級(jí)別、要花數(shù)小時(shí)甚至數(shù)天才能解開的難題。

這也證明了,在真正難的數(shù)學(xué)問題 上,AI 現(xiàn)在還不是「做題機(jī)器」,更像是偶爾翻到答案的小學(xué)生。

AI進(jìn)化,又加速了

此外,他們還出了一份最新數(shù)據(jù)洞察,結(jié)論令人驚喜——

AI的能力增長(zhǎng),比以前更快了!


他們用一個(gè)叫Epoch Capabilities Index(ECI)的綜合指標(biāo),追蹤了前沿 AI 模型能力的發(fā)展趨勢(shì)。

結(jié)果顯示:自2024年4月開始,AI 能力增長(zhǎng)速度明顯加快——比之前的增長(zhǎng)速度快了近一倍!

也就是說,在過去的幾年里,AI的能力不是一條穩(wěn)定的上升線——而是在某個(gè)時(shí)間點(diǎn)突然開始更快地往上沖刺。

背后原因就是這兩個(gè):推理模型更強(qiáng)了,強(qiáng)化學(xué)習(xí)更受重視了。


很多人會(huì)覺得,如今的AI進(jìn)展變慢了,因?yàn)镚PT-4發(fā)布后,就再?zèng)]看到巨大的飛躍。

但數(shù)據(jù)顯示,其實(shí)AI的進(jìn)步從來沒停過,只是方向和節(jié)奏變了。它一直在某些核心技能上加速,比如推理能力,而不是靠「更大模型 + 更多參數(shù)」。



年度TOP十大洞察

并且,就在剛剛,Epoch AI出了一篇硬核年終回顧。


在整個(gè)2025年,他們發(fā)布了36篇數(shù)據(jù)洞察和37篇通訊。

在這70短篇關(guān)于AI的短調(diào)查中,哪些是最受歡迎的?

Epoch AI給我們來了個(gè)年終盤點(diǎn)。

以下這10個(gè)調(diào)查,是最受讀者歡迎的。

前5個(gè),是最受歡迎的數(shù)據(jù)洞察。

1.AI推理成本瘋狂降價(jià)

嚴(yán)謹(jǐn)一點(diǎn)說,就是LLM推理價(jià)格在不同任務(wù)中迅速但不均衡地下降。

在2023年4月至2025年3月期間,Epoch AI觀察到在同等性能水平下,每枚token的價(jià)格下降了10倍以上。

也就是說,AI每一次推理(輸出回答)的價(jià)格都下降了10倍以上。


越來越便宜,就意味著AI的普及會(huì)更加無門檻:從此,它不再是「大廠拿得起」的技術(shù),而是人人都能用得起的工具!

2.AI「大腦」正跑到你的電腦里

短短一年內(nèi),前沿AI性能就已在消費(fèi)級(jí)硬件上實(shí)現(xiàn)。

目前能在消費(fèi)級(jí)GPU上運(yùn)行的頂級(jí)開源模型,在GPQA、MMLU、AA Intelligence和 LMArena等多項(xiàng)性能指標(biāo)上,并且與頂尖AI的差距不到一年,甚至更短。


既然最強(qiáng)開源模型能在普通的消費(fèi)級(jí)顯卡上運(yùn)行,那么在不久的將來,你的筆記本可能就能跑AI大模型了!

而且任何最前沿的AI能力,都可能在不到一年內(nèi)被公眾廣泛獲取。

3. OpenAI 2024的大多數(shù)算力,其實(shí)都用在了試驗(yàn)上

媒體報(bào)道顯示,2024年OpenAI的大部分計(jì)算資源并未用于推理或訓(xùn)練,而是用于做實(shí)驗(yàn),以支持進(jìn)一步開發(fā)。


是的,不是你想的那樣:不是訓(xùn)練就是24/7為用戶提供服務(wù),它更多是在試錯(cuò)、探索、實(shí)驗(yàn)。

這說明,目前的AI研發(fā)仍然非常依賴大量實(shí)驗(yàn),而不只是跑幾個(gè)benchmark就完事。

同時(shí),當(dāng)前AI的成本也大多來自于實(shí)驗(yàn),而非訓(xùn)練和部署。

4. 英偉達(dá)芯片算力,每10個(gè)月翻一倍!

自2020年以來,英偉達(dá)芯片的已部署AI計(jì)算量每年增長(zhǎng)超過一倍。

每發(fā)布一款旗艦芯片,它在三年內(nèi)就會(huì)占據(jù)現(xiàn)有計(jì)算量的絕大部分。


所以可以說,GPU仍然是AI運(yùn)算的核心燃料,而且增長(zhǎng)速度快得飛起。

而為了維持當(dāng)前AI發(fā)展的腳步,計(jì)算資源還需要再成倍增加,老黃和其他芯片商還有的賺!

5. GPT-4和GPT-5,都是大飛躍

盡管有人吐槽OpenAI更新太快看不出進(jìn)步,但不要信他們的!

無論是GPT-4還是GPT-5,都在基準(zhǔn)測(cè)試中都實(shí)現(xiàn)了重大飛躍,大大超越了它們前代產(chǎn)品的性能。


所以,今年的AI不是微創(chuàng)新的堆疊,而是真正的能力躍遷。

那為什么GPT-5發(fā)布后,許多人感覺很失望?

這是因?yàn)?,過去兩年新模型發(fā)布的頻率更高了,而非能力放緩了。

Gradient最熱TOP 5:洞見背后的思考

接下來5個(gè),是最受歡迎的Gradient專欄文章。

Gradient是Epoch AI的專欄,專門發(fā)表簡(jiǎn)短的快訊。

6. ChatGPT耗電驚人?并不是

GPT-4o的每次推理,平均耗能究竟是多少?

答案是,比點(diǎn)亮一個(gè)燈泡五分鐘的耗電量還要少。

這個(gè)結(jié)論,也得到了奧特曼的證實(shí),和谷歌報(bào)告的每條Gemini prompt的能量成本相似。


也就是說,外界對(duì)于AI消耗能源的擔(dān)憂,其實(shí)比實(shí)際情況要夸張了。

當(dāng)然,AI的能源消耗一直在指數(shù)級(jí)增長(zhǎng),未來可能會(huì)成為大問題。

7. DeepSeek如何改進(jìn)了Transformer架構(gòu)?

一文講清了DeepSeek v3用哪三項(xiàng)核心技巧,在算力更低的情況下拿下了當(dāng)時(shí)最強(qiáng)開源模型的位置。

三個(gè)技術(shù)是,多頭潛在注意力(MLA)、混合專家(MoE)架構(gòu)的改進(jìn),以及多token預(yù)測(cè)機(jī)制。


就在這篇文章發(fā)布后三天,DeepSeek發(fā)布了R1,引起了全球AI圈的大地震。它的性能跟OpenAI o1相當(dāng),但開發(fā)成本卻是幾分之一。

整個(gè)AI圈都被上了一課:精妙的架構(gòu)創(chuàng)新 = 更低的研發(fā)成本 + 更快的落地速度。

8. 推理模型能走多遠(yuǎn)?局限在哪?

作者分析了推理訓(xùn)練的增長(zhǎng)模式和上限。結(jié)論是:推理確實(shí)重要,但增長(zhǎng)不會(huì)無限爆炸。


OpenAI、Anthropic在2025年初就曾表示,它們當(dāng)前的RL擴(kuò)展速度最多只能維持1–2年,很快就會(huì)觸及自身算力基礎(chǔ)設(shè)施的上限。

推理能力已經(jīng)成為模型訓(xùn)練中一個(gè)極其重要的擴(kuò)展維度,并在數(shù)學(xué)、軟件工程上帶來了非常亮眼的效果。

然而,這一方向的增長(zhǎng)存在明顯邊界,這也意味著,2024–2025年模型能力的爆發(fā)式提升,可能很快就會(huì)放緩。

對(duì)研發(fā)規(guī)劃來說,這是重要的現(xiàn)實(shí)提醒。

9. 「AI曼哈頓計(jì)劃」有多大?

Epoch AI用曼哈頓計(jì)劃、阿波羅計(jì)劃做對(duì)比,估算出一個(gè)美國(guó)國(guó)家級(jí)AI項(xiàng)目可能達(dá)到的規(guī)模。

他們的結(jié)論是:這個(gè)項(xiàng)目足以支撐一次規(guī)模達(dá)到GPT-4的1萬倍的訓(xùn)練任務(wù)。


也就是說,當(dāng)AI被視為國(guó)家戰(zhàn)略級(jí)科技項(xiàng)目時(shí),它的級(jí)別真能放大很多倍!

10.AI的最大價(jià)值,并不來自搞科研?

最后這一篇,十分有趣。

我們常常聽到一種敘事:AI一旦能自動(dòng)做科研,技術(shù)就會(huì)指數(shù)級(jí)爆炸,人類生產(chǎn)力就會(huì)迎來史詩級(jí)躍遷。

但Epoch AI給出了一個(gè)更冷靜的判斷——

AI創(chuàng)造的大部分價(jià)值,可能并不是來自加速研發(fā)(R&D),而是來自對(duì)整個(gè)經(jīng)濟(jì)體系中大量工作的廣泛自動(dòng)化。

這是因?yàn)椋瑥臍v史數(shù)據(jù)看,在1988–2020年這三十多年里,研發(fā)活動(dòng)對(duì)整體生產(chǎn)率的貢獻(xiàn)其實(shí)相當(dāng)有限。

就算AI把「科研效率」拉滿,真正撬動(dòng)經(jīng)濟(jì)的,未必是實(shí)驗(yàn)室里的突破,而是日常工作方式的改變。


這里,就存在一個(gè)關(guān)鍵分歧!

要知道,像奧特曼、Demis Hassabis、Dario Amodei這些領(lǐng)軍人物,論調(diào)都是「AI自動(dòng)化研發(fā),是通向爆發(fā)式增長(zhǎng)的關(guān)鍵」。

如果這個(gè)判斷成立,那么AI的影響就會(huì)很迅猛,很劇烈。它會(huì)突然跨過「科研自動(dòng)化的最后一道門檻」,在少數(shù)AI公司內(nèi)部實(shí)現(xiàn)巨大飛躍。

但Epoch AI提出的,卻是另一種可能性,也是更「社會(huì)學(xué)」的版本。

AI更可能通過一個(gè)緩慢而分散的過程,來改變世界。

不是一夜之間,而是幾年甚至幾十年,AI會(huì)逐步被不同行業(yè)、不同組織吸收,替代重復(fù)勞動(dòng)。

如果真是這樣,AI的革命不會(huì)是一聲巨響,而是一場(chǎng)長(zhǎng)時(shí)間的潮水。

參考資料:

https://x.com/EpochAIResearch/status/2003510001277747518

https://x.com/EpochAIResearch/status/2003559099867496872

https://epoch.ai/data-insights/ai-capabilities-progress-has-sped-up

https://x.com/EpochAIResearch/status/2003178174310678644

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
京東宣布加薪!2025年終獎(jiǎng)投入同比漲幅超70%,采銷平均25薪,上不封頂

京東宣布加薪!2025年終獎(jiǎng)投入同比漲幅超70%,采銷平均25薪,上不封頂

澎湃新聞
2025-12-25 16:20:26
準(zhǔn)新車竟出“心臟病”,沃爾沃凸輪軸被控故障大爆發(fā),只修不召回?!

準(zhǔn)新車竟出“心臟病”,沃爾沃凸輪軸被控故障大爆發(fā),只修不召回?!

新民周刊
2025-12-25 08:25:19
陳書平任成都市代市長(zhǎng)

陳書平任成都市代市長(zhǎng)

新京報(bào)政事兒
2025-12-25 17:23:01
瘋了?朱孝天舉報(bào)五月天勾結(jié)黃牛洗錢、假唱?還曝F4合體背后隱情

瘋了?朱孝天舉報(bào)五月天勾結(jié)黃牛洗錢、假唱?還曝F4合體背后隱情

烏娛子醬
2025-12-25 14:32:18
一車企海報(bào)被指“用粵語不雅詞匯”引爭(zhēng)議,廣東網(wǎng)友:有被冒犯到,數(shù)字“7”因發(fā)音問題,在日常交流中需謹(jǐn)慎避諱;當(dāng)前爭(zhēng)議海報(bào)已被撤換

一車企海報(bào)被指“用粵語不雅詞匯”引爭(zhēng)議,廣東網(wǎng)友:有被冒犯到,數(shù)字“7”因發(fā)音問題,在日常交流中需謹(jǐn)慎避諱;當(dāng)前爭(zhēng)議海報(bào)已被撤換

揚(yáng)子晚報(bào)
2025-12-25 18:00:21
官媒對(duì)劉強(qiáng)東的稱呼變了,3字之差釋放強(qiáng)烈信號(hào),雷軍真沒說錯(cuò)

官媒對(duì)劉強(qiáng)東的稱呼變了,3字之差釋放強(qiáng)烈信號(hào),雷軍真沒說錯(cuò)

風(fēng)月得自難尋
2025-12-25 08:12:20
直接跌停!套利失敗,快樂消失了...

直接跌停!套利失敗,快樂消失了...

中國(guó)基金報(bào)
2025-12-25 16:33:27
952名緬甸妙瓦底地區(qū)涉電詐犯罪嫌疑人被押解回國(guó)

952名緬甸妙瓦底地區(qū)涉電詐犯罪嫌疑人被押解回國(guó)

新京報(bào)
2025-12-25 19:33:22
汪文斌最新署名文章

汪文斌最新署名文章

新京報(bào)
2025-12-25 15:06:10
談及馮玉祥,張學(xué)良晚年給出這樣的評(píng)價(jià):“馮很殘忍,手上沾有不少人命,我這輩子向來不碰這種事”

談及馮玉祥,張學(xué)良晚年給出這樣的評(píng)價(jià):“馮很殘忍,手上沾有不少人命,我這輩子向來不碰這種事”

源溯歷史
2025-12-23 12:37:10
李弘權(quán)18+8上海大勝8連殺江蘇 洛夫頓14+8吃T龐崢麟9中2

李弘權(quán)18+8上海大勝8連殺江蘇 洛夫頓14+8吃T龐崢麟9中2

醉臥浮生
2025-12-25 21:21:29
系好安全帶!美國(guó)經(jīng)濟(jì)學(xué)家預(yù)測(cè):2026年將出現(xiàn)“史上最嚴(yán)重的市場(chǎng)崩盤”!已持續(xù)近17年的市場(chǎng)泡沫將會(huì)破裂,導(dǎo)致股市下跌90%

系好安全帶!美國(guó)經(jīng)濟(jì)學(xué)家預(yù)測(cè):2026年將出現(xiàn)“史上最嚴(yán)重的市場(chǎng)崩盤”!已持續(xù)近17年的市場(chǎng)泡沫將會(huì)破裂,導(dǎo)致股市下跌90%

和訊網(wǎng)
2025-12-25 16:45:04
“孩子都腺樣體了,還吃烤腸呢?”廉價(jià)早餐,暴露家長(zhǎng)的認(rèn)知低下

“孩子都腺樣體了,還吃烤腸呢?”廉價(jià)早餐,暴露家長(zhǎng)的認(rèn)知低下

妍妍教育日記
2025-12-25 19:02:14
震驚!網(wǎng)傳廣東某醫(yī)院因業(yè)績(jī)下滑,全員工資6折發(fā),不低于2450元

震驚!網(wǎng)傳廣東某醫(yī)院因業(yè)績(jī)下滑,全員工資6折發(fā),不低于2450元

火山詩話
2025-12-25 18:04:47
大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺(tái)灣籍犯罪嫌疑人

大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺(tái)灣籍犯罪嫌疑人

科技處長(zhǎng)
2025-12-24 14:51:42
【國(guó)際3分鐘】高市早苗勿闖紅線!若參拜靖國(guó)神社,就是與歷史正義為敵

【國(guó)際3分鐘】高市早苗勿闖紅線!若參拜靖國(guó)神社,就是與歷史正義為敵

環(huán)球網(wǎng)資訊
2025-12-25 17:15:59
F-16擊落全部34枚導(dǎo)彈,“匕首”沒擊中目標(biāo)!確認(rèn)犧牲英雄身份

F-16擊落全部34枚導(dǎo)彈,“匕首”沒擊中目標(biāo)!確認(rèn)犧牲英雄身份

鷹眼Defence
2025-12-24 16:17:27
日本首相高市早苗:將通過推動(dòng)工資、消費(fèi)和企業(yè)利潤(rùn)的良性循環(huán) 實(shí)現(xiàn)財(cái)政可持續(xù)性

日本首相高市早苗:將通過推動(dòng)工資、消費(fèi)和企業(yè)利潤(rùn)的良性循環(huán) 實(shí)現(xiàn)財(cái)政可持續(xù)性

財(cái)聯(lián)社
2025-12-25 13:00:06
獨(dú)居老人凌晨去世,消失的手機(jī)在冰箱里,“臥室整潔”的細(xì)節(jié)引起家人懷疑……

獨(dú)居老人凌晨去世,消失的手機(jī)在冰箱里,“臥室整潔”的細(xì)節(jié)引起家人懷疑……

方圓
2025-12-22 16:30:46
特斯拉:未來無法實(shí)現(xiàn)自動(dòng)駕駛的車將像“大哥大”

特斯拉:未來無法實(shí)現(xiàn)自動(dòng)駕駛的車將像“大哥大”

三言科技
2025-12-25 17:10:05
2025-12-25 21:40:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14181文章數(shù) 66397關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

韓國(guó)"最毒"財(cái)閥千金被捕 韓國(guó)人稱"經(jīng)過她身邊就會(huì)死"

頭條要聞

韓國(guó)"最毒"財(cái)閥千金被捕 韓國(guó)人稱"經(jīng)過她身邊就會(huì)死"

體育要聞

單賽季11冠,羽壇“安洗瑩時(shí)代”真的來了

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

時(shí)隔15月,人民幣升破7,三大推手曝光

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

藝術(shù)
教育
游戲
數(shù)碼
公開課

藝術(shù)要聞

緬懷 | 著名油畫家宮立龍逝世,享年73歲

教育要聞

韓國(guó)免費(fèi)留學(xué),父母不用掏學(xué)費(fèi)!

2025年國(guó)產(chǎn)過審大作匯總!王者榮耀世界等

數(shù)碼要聞

小米Buds 6耳機(jī)發(fā)布 支持智能錄音翻譯功能 售價(jià)699元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版