国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

狂奔AGI,Claude年終封王!自主編碼近5小時(shí)震驚全網(wǎng)

0
分享至


新智元報(bào)道

編輯:KingHZ

【新智元導(dǎo)讀】AI是否已撞上天花板?這份「最重要的圖表」直擊靈魂:2019-2025年任務(wù)時(shí)長(zhǎng)每幾個(gè)月翻倍,揭示編碼智能體從「短跑選手」向「馬拉松冠軍」的華麗蛻變。AGI不是夢(mèng),而是觸手可及的現(xiàn)實(shí)!

2025年就要結(jié)束了,原來(lái)真正的高手,隱藏在「民間」!

不是谷歌、不是OpenAI,是Anthropic王者編程模型Claude Opus 4.5。


在METR最新公布報(bào)告稱,Claude Opus 4.5已能夠持續(xù)自主編碼「長(zhǎng)達(dá)5小時(shí)不崩」。

就連OpenAI最強(qiáng)編程模型——GPT-5.1-Codex-Max也甘拜下風(fēng)。


現(xiàn)如今,全網(wǎng)都在為Claude Opus 4.5編碼實(shí)力震撼。




AI編碼智能體能處理的任務(wù)時(shí)長(zhǎng)不僅在指數(shù)級(jí)增長(zhǎng)——其增速還在持續(xù)提升!

2019-2024年:任務(wù)時(shí)長(zhǎng)每7個(gè)月翻一倍

2024-2025年:任務(wù)時(shí)長(zhǎng)每4個(gè)月翻一倍


很多人第一次看到這條曲線,會(huì)本能地?fù)u頭。

有人不理解。有人不愿意接受。

但一個(gè)事實(shí)越來(lái)越清晰:AI編碼智能體能連續(xù)完成的任務(wù),正在從「分鐘級(jí)」沖向「小時(shí)級(jí)」,并且加速度還在上升。

網(wǎng)友認(rèn)為這是關(guān)于AI最重要的圖表:


這張圖為什么被稱為「最重要的圖表」?

因?yàn)樗诨貞?yīng)一個(gè)關(guān)鍵的問(wèn)題:

AI是否撞墻了?AGI是不是另一個(gè)烏托邦?2025年,AI到底進(jìn)步了多少?

普通用戶感知不強(qiáng),很正常。對(duì)大多數(shù)人來(lái)說(shuō),模型早就能應(yīng)付日常提問(wèn):

「推薦部電影」「解釋這個(gè)概念」「寫(xiě)段文案」。

但真正的變化發(fā)生在另一條戰(zhàn)線上:編碼智能體。

而這恰恰是多數(shù)人(包括記者與政策制定者)難以觸及的形態(tài)。

這些進(jìn)展看似微小,但累積起來(lái)卻意義非凡。


2026年4月,首批AI智能體將能獨(dú)立完成一個(gè)完整的人類工作日;

2026年底,AI能完成半周的任務(wù)量;

2027年底,AI能完成2個(gè)月的任務(wù)量;

2028年底,AI能完成人類好幾個(gè)月的工作量;

到2030年,AI能承擔(dān)一些小型企業(yè)或組織的大部分管理工作。

AI指數(shù)級(jí)增長(zhǎng)

智能體時(shí)代已來(lái)

為了量化比較AI與人類能力,今年3月METR提出了一個(gè)新指標(biāo):50%任務(wù)完成時(shí)間跨度(50%-task-completion time horizon)。

換句話,把AI當(dāng)新人:給它一項(xiàng)工作,看它做到「50%的概率能做成」時(shí),這項(xiàng)工作的人類平均耗時(shí)有多久。

GPT-5.1-Codex-Max,已能完成長(zhǎng)達(dá)2小時(shí)53分鐘的軟件工程任務(wù)(成功率50%),能力較o1提升4倍。

Claude Opus 4.5的50%時(shí)間跨度約為4小時(shí)49分鐘。這已是迄今為止公布的最長(zhǎng)的時(shí)間跨度。


盡管50%任務(wù)完成時(shí)間跨度較長(zhǎng),但Opus 4.5模型的80%時(shí)間跨度僅為27分鐘,與過(guò)往模型表現(xiàn)相當(dāng),且低于GPT-5.1-Codex-Max模型的32分鐘。


但Opus 4.5在50%與80%時(shí)間跨度之間的差距,反映出它的邏輯成功率曲線更為平緩,這意味著Opus模型在耗時(shí)較長(zhǎng)的任務(wù)上具有差異化優(yōu)勢(shì)。

甚至有人認(rèn)為,Claude Code已足夠接近通用人工智能的定義。


最后這個(gè)說(shuō)法或許夸張——卻折射出某種現(xiàn)實(shí)。

2025年堪稱AI討論最混沌的一年,實(shí)際進(jìn)展與輿論焦點(diǎn)之間的裂痕從未如此巨大。

但明年或?qū)⒂瓉?lái)轉(zhuǎn)變——當(dāng)編碼智能體的影響力滲透至社會(huì)經(jīng)濟(jì)各個(gè)角落時(shí),人們終將目睹它的威力。但愿到那時(shí),我們還能來(lái)得及做好充分準(zhǔn)備。

AGI逼近

記憶成最后關(guān)卡

智能體能把任務(wù)做得越來(lái)越久,并不奇怪。

此前的研究普遍指向四大原因:

  1. 推理更強(qiáng):能把大任務(wù)拆成小任務(wù)

  2. 工具更熟:會(huì)寫(xiě)代碼、會(huì)查網(wǎng)頁(yè)、會(huì)跑腳本

  3. 自糾錯(cuò)更穩(wěn):出錯(cuò)后能回滾、能重試、能繼續(xù)推進(jìn)

  4. 收益非遞減:變準(zhǔn)一點(diǎn)點(diǎn),能做的任務(wù)跨度會(huì)暴增


例如,新一代模型能更好地規(guī)劃子任務(wù)、調(diào)用外部工具(如代碼編寫(xiě)、網(wǎng)頁(yè)瀏覽)并在出錯(cuò)時(shí)自我糾正,從而在長(zhǎng)達(dá)數(shù)小時(shí)的任務(wù)鏈條中保持高成功率。

當(dāng)然,在暢想美好前景的同時(shí),我們也要看到目前的局限。

但當(dāng)任務(wù)跨度從「小時(shí)」走向「工作日」,新的麻煩會(huì)冒出來(lái):

  • 上下文會(huì)丟:越做越忘前面說(shuō)過(guò)什么

  • 偏差會(huì)積累:小錯(cuò)誤滾成大災(zāi)難

  • 目標(biāo)會(huì)漂移:做著做著就跑題

說(shuō)到底,它們都指向同一個(gè)核心:長(zhǎng)期記憶。


記憶:通往AGI的最后難題

AI幾乎所有能力短板,最后都會(huì)牽扯到記憶。

你可以把當(dāng)前大模型想成:一個(gè)極聰明、反應(yīng)極快,但「下班就失憶」的新人。

它能寫(xiě)代碼、能推理、能寫(xiě)文章。 但會(huì)話一結(jié)束,它幾乎不記得自己做過(guò)什么。

現(xiàn)在很多智能體的「記憶」,主要靠?jī)煞N拼裝:

  • 強(qiáng)檢索工具:需要時(shí)去搜(像在代碼庫(kù)里 grep)

  • 總結(jié)壓縮塞進(jìn)上下文:把過(guò)去內(nèi)容壓成幾段話,再喂回去

雖然信息檢索技術(shù)已有不小進(jìn)展,但即便是當(dāng)前最優(yōu)秀的RAG(檢索增強(qiáng)生成)系統(tǒng),其準(zhǔn)確率也只有約90%。

不斷擴(kuò)大的上下文窗口,確實(shí)在改善這個(gè)問(wèn)題:更大的窗口意味著可以將更多數(shù)據(jù)同時(shí)輸入模型,從而支持模型更有效地在龐大的記憶索引中「閱讀」。

但即便如此,要達(dá)到AGI級(jí)別的「細(xì)致入微」的記憶水平,仍然需要在底層架構(gòu)上突破。

而且,更大的問(wèn)題是:沒(méi)有任何系統(tǒng)真正實(shí)現(xiàn)了「自我學(xué)習(xí)。


沒(méi)有長(zhǎng)期記憶,AI就無(wú)法像人一樣「越用越聰明」,無(wú)法從錯(cuò)誤中學(xué)習(xí),更談不上積累「常識(shí)」和「智慧」。

僅僅「記住」還不夠,智能體必須能從經(jīng)驗(yàn)中主動(dòng)「學(xué)習(xí)」。

與智能體不同,人類大腦擅長(zhǎng)將短期經(jīng)歷轉(zhuǎn)化為長(zhǎng)期記憶,在日積月累中形成知識(shí)網(wǎng)絡(luò)和經(jīng)驗(yàn)教訓(xùn)。


AGI若想達(dá)到人類智能的廣度與深度,同樣需要這樣的記憶系統(tǒng)

業(yè)界普遍認(rèn)為,記憶是通用智能最后但最關(guān)鍵的一塊拼圖。

換言之,AI現(xiàn)有的「算力」和「智力」,或許已逼近AGI所需,唯一欠缺的是像人一樣擁有持久而豐富的記憶。

誰(shuí)能最先破解「記憶難題」,誰(shuí)就將在這場(chǎng)AGI競(jìng)賽中占據(jù)決定性優(yōu)勢(shì)。

明年的突破

長(zhǎng)期被動(dòng)記憶

現(xiàn)在的智能體擁有非常強(qiáng)大的「搜索」,比如使用Cursor時(shí),你會(huì)發(fā)現(xiàn)它幾乎能完美從整個(gè)代碼庫(kù)中檢索信息。

但它們用的依然是「主動(dòng)記憶」機(jī)制:智能體需要自己去「找」記憶,而不是這些記憶自然存在于它的思維中。

這遠(yuǎn)遠(yuǎn)不夠。

一個(gè)運(yùn)行文本搜索工具grep的智能體,不等于擁有有效記憶的智能體。就像一個(gè)計(jì)算器并不等于一個(gè)數(shù)學(xué)家。


給智能體一個(gè)「搜索記憶工具」不是解決方案。

那么,真正強(qiáng)大的AI記憶系統(tǒng)需要具備什么?

真正的記憶,必須是像人類一樣,無(wú)需檢索、直接知道。

而目前的被動(dòng)記憶機(jī)制還非常原始,一旦任務(wù)復(fù)雜度稍微提升,就會(huì)徹底崩塌,智能體又回到「全靠搜索」的狀態(tài)。

紐約通用智能公司創(chuàng)始人Andrew Pignanelli預(yù)期,未來(lái)12個(gè)月AI行業(yè)會(huì)在「被動(dòng)記憶系統(tǒng)」上取得顯著進(jìn)展。


在接下來(lái)的一年中,記憶系統(tǒng)(尤其是智能體的學(xué)習(xí)能力)將成為AI世界的核心議題,并被正式確認(rèn)為通向AGI的最后一步

OpenAI成功推出ChatGPT記憶功能后,Claude近期已跟進(jìn),而其他各大模型公司也將紛紛完善自家記憶系統(tǒng)。

  • 長(zhǎng)期記憶工具的接入體驗(yàn)將顯著提升,尤其隨著上下文窗口的持續(xù)擴(kuò)展;

  • 睡眠時(shí)間智能體」會(huì)在你不知情的情況下,閱讀你的郵件、文件和表格,構(gòu)建背景知識(shí)和個(gè)性化記憶;

  • 實(shí)時(shí)智能體」將在檢索信息方面趨近完美,你的偏好、語(yǔ)言風(fēng)格、行為習(xí)慣都會(huì)被快速融入其中。

短期內(nèi),自動(dòng)注入上下文的方式還不會(huì)特別自然,為了更準(zhǔn)確的記憶檢索,大家普遍都會(huì)接受「響應(yīng)更慢」的現(xiàn)實(shí)。

但隨著AI變得越來(lái)越「懂你」,你對(duì)AI的依賴也會(huì)越來(lái)越強(qiáng)。

在消費(fèi)者端,人們可能注意到「對(duì)話開(kāi)始前有點(diǎn)卡」,但不知道背后是一個(gè)龐大的記憶系統(tǒng)在默默運(yùn)行。

到今年年底,「上下文腐爛」問(wèn)題(context rot)也將被攻克,方式包括:

  • 啟用「遺忘機(jī)制」;

  • 專為長(zhǎng)期對(duì)話設(shè)計(jì)的上下文清理系統(tǒng);

  • 更先進(jìn)的「上下文檢索」技術(shù)(能從巨大信息堆中精準(zhǔn)抽出關(guān)鍵內(nèi)容)

未來(lái),用戶將不再通過(guò)文件樹(shù)導(dǎo)航信息,而是由AI智能體直接幫你檢索和訪問(wèn)所需數(shù)據(jù)。像Replit和Lovable這樣的代碼生成平臺(tái)已經(jīng)在這方面先行一步。

明年春天(2026年)很可能出現(xiàn)由「新一代多模態(tài)大模型」與「注意力機(jī)制之外的記憶系統(tǒng)」結(jié)合帶來(lái)的突破。

未來(lái)12個(gè)月內(nèi),「記憶+學(xué)習(xí)」領(lǐng)域可能會(huì)出現(xiàn)突破性進(jìn)展。

OpenAI等領(lǐng)軍團(tuán)隊(duì)都在全力攻關(guān)持續(xù)學(xué)習(xí)和自我記憶技術(shù);一旦他們?nèi)〉猛黄?,并將其?yīng)用在頂尖模型上,我們也許會(huì)驚呼:AGI已經(jīng)出現(xiàn)了。

AGI曙光已現(xiàn)

綜合當(dāng)前的發(fā)展態(tài)勢(shì),可以說(shuō):AGI已不再是遙不可及的科幻夢(mèng)想,而可能近在咫尺。

這種預(yù)測(cè)并非無(wú)穴來(lái)風(fēng)。

回顧過(guò)去一年,我們多次低估了AI進(jìn)化的速度。

GPT-5雖然發(fā)布時(shí)評(píng)價(jià)褒貶不一,但其實(shí)在長(zhǎng)任務(wù)執(zhí)行方面比前代有了大幅提高;Claude 4.5的驚艷表現(xiàn),更是證明了進(jìn)步的非線性:當(dāng)關(guān)鍵技術(shù)取得突破時(shí),曲線會(huì)突然躍升。

如今,你可以在網(wǎng)上了解到,隨著機(jī)器智能成為首要的生產(chǎn)要素,正在涌現(xiàn)出新型組織。

這是首次,這一新要素為我們?nèi)祟愄峁┝烁倪M(jìn)流程本身的思路。依靠AI,微型團(tuán)隊(duì),竟能產(chǎn)出超越過(guò)去數(shù)十人甚至上百人團(tuán)隊(duì)的工作成果,尤其是在某些專注的軟件領(lǐng)域,生產(chǎn)力增長(zhǎng)令人震驚。

這種爆發(fā)式的效率,真的很難不讓人感到興奮。

這是某種意義上的「阿特拉斯卸下重?fù)?dān)」的時(shí)刻,是智能生產(chǎn)力「起飛」的征兆。

與2023年那種詩(shī)意盎然的「AI覺(jué)醒敘事」相比,如今的這一切,顯得更平實(shí)務(wù)實(shí),但更加震撼,更加真實(shí)。

如果記憶問(wèn)題迎來(lái)解決,AI能力或?qū)⒃俅伪l(fā)。


屆時(shí),AI智能體將不僅僅是無(wú)休止重復(fù)勞作的「工具」,而會(huì)變成越用越聰明、與您一同成長(zhǎng)的「數(shù)字同事」。

它能記住你的偏好。

它能記住你踩過(guò)的坑。

它能從項(xiàng)目里提煉經(jīng)驗(yàn)。

然后在下一次合作里,主動(dòng)幫你把效率再推高一截。

這正是許多人對(duì)AGI在人類社會(huì)角色的愿景。

參考資料:

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

https://www.generalintelligencecompany.com/writing/memory-is-the-last-problem-to-solve-to-reach-agi

https://www.shippingapps.dev/writings/memory-last-problem

https://x.com/tszzl/status/2002488418887168297

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
最新披露:1.5萬(wàn)億航天龍頭上市,又有龍頭沖刺IPO,受益名單出爐

最新披露:1.5萬(wàn)億航天龍頭上市,又有龍頭沖刺IPO,受益名單出爐

鵬哥投研
2025-12-24 14:47:45
園長(zhǎng)開(kāi)車送幼兒回家,汽車墜入池塘8人遇難

園長(zhǎng)開(kāi)車送幼兒回家,汽車墜入池塘8人遇難

新京報(bào)
2025-12-24 19:44:13
臉都打腫了!新華社這回算是直接把那個(gè)遮羞布給掀開(kāi)了。

臉都打腫了!新華社這回算是直接把那個(gè)遮羞布給掀開(kāi)了。

忠于法紀(jì)
2025-12-24 21:27:55
車上不太會(huì)壞的ACC,為啥每年都會(huì)“失靈”?

車上不太會(huì)壞的ACC,為啥每年都會(huì)“失靈”?

差評(píng)XPIN
2025-12-24 00:10:17
大陸公安局正式向全球通告:懸賞25萬(wàn)元追捕兩名臺(tái)灣籍犯罪嫌疑人

大陸公安局正式向全球通告:懸賞25萬(wàn)元追捕兩名臺(tái)灣籍犯罪嫌疑人

科技處長(zhǎng)
2025-12-24 14:51:42
曝徐湖平已被帶走,前一天晚開(kāi)了一夜燈,更多謊言被戳穿

曝徐湖平已被帶走,前一天晚開(kāi)了一夜燈,更多謊言被戳穿

古希臘掌管松餅的神
2025-12-24 13:29:23
昨天進(jìn)去的虧慘了,上市兩天大跌50%,扛不住了虧13萬(wàn)賣了!

昨天進(jìn)去的虧慘了,上市兩天大跌50%,扛不住了虧13萬(wàn)賣了!

財(cái)經(jīng)智多星
2025-12-24 16:51:49
8人死亡,接送幼兒車輛墜入池塘

8人死亡,接送幼兒車輛墜入池塘

中國(guó)新聞周刊
2025-12-24 18:14:25
泰軍突襲柬電詐園區(qū)!現(xiàn)場(chǎng)中文標(biāo)語(yǔ)曝光,字字扎心引眾怒

泰軍突襲柬電詐園區(qū)!現(xiàn)場(chǎng)中文標(biāo)語(yǔ)曝光,字字扎心引眾怒

胡嚴(yán)亂語(yǔ)
2025-12-23 19:13:59
賣了1000萬(wàn)件的極寒羽絨服,把全球最冷的角落都占領(lǐng)了。

賣了1000萬(wàn)件的極寒羽絨服,把全球最冷的角落都占領(lǐng)了。

差評(píng)XPIN
2025-12-24 00:07:59
特朗普為何罕見(jiàn)強(qiáng)調(diào)新型戰(zhàn)列艦“不針對(duì)中國(guó)”?

特朗普為何罕見(jiàn)強(qiáng)調(diào)新型戰(zhàn)列艦“不針對(duì)中國(guó)”?

看看新聞Knews
2025-12-24 18:01:02
搞笑釣魚(yú)經(jīng)典爆笑笑話,昨天一個(gè)魚(yú)塘新開(kāi)張釣費(fèi)100塊,釣了一整天沒(méi)釣到魚(yú)老板說(shuō)!

搞笑釣魚(yú)經(jīng)典爆笑笑話,昨天一個(gè)魚(yú)塘新開(kāi)張釣費(fèi)100塊,釣了一整天沒(méi)釣到魚(yú)老板說(shuō)!

天天明星
2025-12-22 20:44:33
警惕!為擁核日本開(kāi)始碰瓷中國(guó)和美國(guó)了

警惕!為擁核日本開(kāi)始碰瓷中國(guó)和美國(guó)了

環(huán)球時(shí)報(bào)國(guó)際
2025-12-25 00:13:34
事實(shí)證明,67歲最風(fēng)光的廣東臺(tái)主持人鄭達(dá),已經(jīng)走上另一條道路

事實(shí)證明,67歲最風(fēng)光的廣東臺(tái)主持人鄭達(dá),已經(jīng)走上另一條道路

阿訊說(shuō)天下
2025-12-24 15:36:11
F-16擊落全部34枚導(dǎo)彈,“匕首”沒(méi)擊中目標(biāo)!確認(rèn)犧牲英雄身份

F-16擊落全部34枚導(dǎo)彈,“匕首”沒(méi)擊中目標(biāo)!確認(rèn)犧牲英雄身份

鷹眼Defence
2025-12-24 16:17:27
海南“零關(guān)稅”豪車真相:寶馬X5、保時(shí)捷卡宴鮮有符合要求車型,免稅進(jìn)口車僅限企業(yè)營(yíng)運(yùn)

海南“零關(guān)稅”豪車真相:寶馬X5、保時(shí)捷卡宴鮮有符合要求車型,免稅進(jìn)口車僅限企業(yè)營(yíng)運(yùn)

每日經(jīng)濟(jì)新聞
2025-12-23 16:32:04
如何看待發(fā)送淫穢信息違法?再也看不到院長(zhǎng)、主任們的桃色新聞了

如何看待發(fā)送淫穢信息違法?再也看不到院長(zhǎng)、主任們的桃色新聞了

爆角追蹤
2025-12-24 12:37:06
55歲吳奇隆染一頭黃毛!嘴角歪斜明顯,顏值下滑不回春!

55歲吳奇隆染一頭黃毛!嘴角歪斜明顯,顏值下滑不回春!

心靜物娛
2025-12-23 13:32:29
167票當(dāng)選!聯(lián)合國(guó)變天,新主席對(duì)華態(tài)度不一般?中方提出4個(gè)要求

167票當(dāng)選!聯(lián)合國(guó)變天,新主席對(duì)華態(tài)度不一般?中方提出4個(gè)要求

廣電新視網(wǎng)
2025-12-24 12:37:35
烏克蘭完全收復(fù)庫(kù)皮揚(yáng)斯克,某人的臉燙不燙?

烏克蘭完全收復(fù)庫(kù)皮揚(yáng)斯克,某人的臉燙不燙?

名人茍或
2025-12-24 14:44:43
2025-12-25 01:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14175文章數(shù) 66395關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難學(xué)生家屬:女兒4歲 今年9月才入讀

頭條要聞

幼兒園8人遇難學(xué)生家屬:女兒4歲 今年9月才入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂(lè)要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購(gòu) 滬深是否會(huì)跟進(jìn)?

汽車要聞

“運(yùn)動(dòng)版庫(kù)里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

藝術(shù)
本地
時(shí)尚
家居
公開(kāi)課

藝術(shù)要聞

巨星劉德華1000萬(wàn)善款建村,為何如今竟成山間“空心村”?

本地新聞

云游安徽|一川江水潤(rùn)安慶,一塔一戲一城史

對(duì)不起周柯宇,是陳靖可先來(lái)的

家居要聞

法式大平層 智能家居添彩

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版