国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Sonnet 4.5 上手:一個(gè)未來 Agent 的雛形出現(xiàn)了

0
分享至


作者 | 董道力
郵箱 | dongdaoli@pingwest.com

9月30日,Anthropic 發(fā)布了新的編程模型 Claude Sonnet 4.5,在新聞稿的第一句就寫到:Claude Sonnet 4.5 is the best coding model in the world.

換做別的公司我們可能會(huì)吐槽“又瘋一個(gè)”,但 Anthropic 在 AI 編程上的能力大家有目共睹,無論是大家搶著用的 Claude Sonnet 4 還是引領(lǐng)編程 Agent 的 Claude Code,換句話說 AI 編程的上限全靠 Anthropic 來突破。

那 Claude Sonnet 4.5 到底更新了什么東西,值不值得best coding model的稱號?

提高跑分不是最大的變化

在最新的基準(zhǔn)測試中,Claude Sonnet 4.5 展現(xiàn)了全面領(lǐng)先的實(shí)力。

具體來看,Claude Sonnet 4.5 在 OSWorld 電腦使用測試中拿下 61.4%,成為最會(huì)“用電腦”的 AI。在工具調(diào)用上,Claude Sonnet 4.5 的表現(xiàn)尤為突出,它能真正調(diào)動(dòng)系統(tǒng)與工具,智能體能力更進(jìn)一步。它在金融、法律、醫(yī)學(xué)和STEM等專業(yè)領(lǐng)域的知識與推理上,遠(yuǎn)超此前的 Opus 4.1。


然而,相比前一代,它最大的變化不在于跑分,而是功能上的全面升級。

開發(fā)體驗(yàn)上,Claude Code 增加了檢查點(diǎn)功能,支持隨時(shí)保存和回滾,降低出錯(cuò)成本;同時(shí)推出原生 VS Code 插件和全新終端界面,把模型能力直接嵌入工程師最常用的環(huán)境。在長任務(wù)處理上,它引入上下文編輯和記憶工具,能保持長時(shí)間連貫思路,據(jù)稱可穩(wěn)定執(zhí)行超過 30 小時(shí)的復(fù)雜任務(wù)。

辦公應(yīng)用上,它通過 Chrome 插件完成網(wǎng)頁導(dǎo)航、表格填寫和文檔處理,并在 Claude 應(yīng)用中直接運(yùn)行代碼、生成表格、幻燈片和文檔,讓對話真正成為工作的入口。而對開發(fā)者來說,最重磅的更新是Claude Agent SDK,Anthropic 首次開放自家底層基礎(chǔ)設(shè)施,讓外部開發(fā)者也能基于 Claude 構(gòu)建屬于自己的 Agent。

實(shí)測Claude Sonnet 4.5 編程能力,新特征想要 AI IDE 的命?

Devin 團(tuán)隊(duì)在測試 Claude Sonnet 4.5 時(shí),概括了三個(gè)明顯變化:一是更快更穩(wěn),運(yùn)行速度提升約兩倍,“初級開發(fā)者評估”得分提高 12%。二是出現(xiàn)了外化記憶的傾向,模型會(huì)主動(dòng)生成總結(jié)或筆記文件來維持長任務(wù)的連貫性;三是更積極地自我驗(yàn)證,會(huì)寫小腳本或抓取頁面 HTML 來測試和修正方案。

不過,冷靜來看,這些特征其實(shí)在許多 AI IDE 中早已有跡可循:Cursor、Windsurf、Replit Ghostwriter 早就能幫用戶生成文檔、維護(hù)項(xiàng)目記憶,甚至在改動(dòng)后自動(dòng)運(yùn)行測試。

差別在于,IDE 的功能是工程師預(yù)設(shè)的“外掛模塊”,而在 Claude Sonnet 4.5 身上,這些行為更像是模型自發(fā)形成的工作習(xí)慣,它會(huì)主動(dòng)寫 SUMMARY.md 給自己留后路,也會(huì)在必要時(shí)自動(dòng)生成小腳本來驗(yàn)證結(jié)果。換句話說,區(qū)別不在“有沒有”,而在于是外掛功能,還是模型的內(nèi)驅(qū)習(xí)慣。

從長遠(yuǎn)來看,這種差別可能會(huì)決定未來開發(fā)體驗(yàn)的走向:是繼續(xù)依賴 IDE 提供的功能拼裝,還是讓大模型 Agent 自己演化出工作風(fēng)格。如果后者不斷成熟,Cursor 等 AI IDE 的優(yōu)勢,或許真的會(huì)逐漸被大模型侵蝕。

我們讓 Claude Sonnet 4.5 寫個(gè)小游戲項(xiàng)目。

prompts:基于Three.js制作一個(gè)3d賽車游戲

最直觀的感受就是快,生成網(wǎng)頁游戲時(shí)間不超過1分鐘。其次,Claude 不僅能聽懂非常粗糙的指令,在第一輪對話中就生成一個(gè)可以直接運(yùn)行的游戲原型。后續(xù)的修改也非常順暢,只需一句簡單的提示,比如調(diào)整速度、賽道寬度或添加箭頭標(biāo)識,它都能迅速完成。而同樣的提示詞放在 Codex 中,初始階段并沒有直接生成完整的游戲框架。

首先是第一輪對話,Claude 輸出了一個(gè)基礎(chǔ)版本:玩家可以操控賽車前進(jìn)、后退和轉(zhuǎn)向,但車輛很容易沖出畫面。


經(jīng)過幾輪微調(diào)如控制轉(zhuǎn)彎幅度等,我進(jìn)一步要求 Claude 參考 F1 賽車的風(fēng)格,讓賽道更復(fù)雜。這是一個(gè)比較大幅度的修改,而 Claude 不僅增加了彎道,還在指示牌上進(jìn)行了美化,并且之前修改的內(nèi)容都沒有崩。


最后,為了提升可玩性,我提出希望在賽道上增加箭頭指示方向。Claude 起初生成的箭頭方向有些混亂,但只經(jīng)過一輪對話,它就完成了修正,使箭頭方向與跑道完美貼合。


Claude Sonnet 4.5 項(xiàng)目預(yù)覽:https://claude.ai/public/artifacts/037aac3a-c790-4dfa-bf69-baf3825d97d7

從這次小游戲?qū)嶒?yàn)可以看出,Claude Sonnet 4.5 的強(qiáng)大并不只體現(xiàn)在基準(zhǔn)測試的分?jǐn)?shù)上,而在于它能把自然語言轉(zhuǎn)換成可運(yùn)行項(xiàng)目的過程變得前所未有的流暢。

在以往,提示詞生成游戲代碼通常意味著大量返工:模型給出一個(gè)半成品,用戶要反復(fù)調(diào)試,甚至需要具備相當(dāng)?shù)木幊袒A(chǔ)。但在 Claude Sonnet 4.5 這里,非常流暢。

然而,上面的實(shí)測案例只是一個(gè)小玩具,真正的生產(chǎn)力還是要看具體的生產(chǎn)環(huán)境。

在 Reddit 上,一位開發(fā)者用同樣的復(fù)雜前端 Bug 并排測試 Claude Sonnet 4.5 與 Codex,結(jié)果顯示:Codex 更善于定位根因,而 Claude Sonnet 4.5 經(jīng)常跑偏,甚至修復(fù)“已經(jīng)好的部分”。

評論區(qū)觀點(diǎn)分化,有人認(rèn)同 Claude Sonnet 4.5 在復(fù)雜調(diào)試?yán)锶菀酌月罚]有宣傳的那么好。也有人強(qiáng)調(diào)它在前端問題上比 Codex 更快。還有人認(rèn)為 Codex 更深度,但代價(jià)是更慢、更貴。

唯一的共識是:把 Claude 當(dāng)高產(chǎn)起草者,把 Codex 當(dāng)審校者,再配合日志和可觀測性工具,才是當(dāng)前更穩(wěn)妥的用法。


Claude 是如何控制電腦的?

除了編程能力,Claude Sonnet 4.5 在 OSWorld 電腦使用測試中拿下 61.4%,這一點(diǎn)對于普通用戶來說,比編程能力更加有吸引力。

打開桌面端 Claude(Mac),可以看到它有非常多的功能,控制谷歌瀏覽器、讀取記事本、操作Mac、Figma、PDF、Spotify等。


我們先用 Claude 來操控一下瀏覽器。

prompts:在chrome中打開谷歌主頁,搜索china daily,采集9月30日的最新新聞

Claude Sonnet 4.5 在控制 Chrome 時(shí),并非直接“跳到答案”,而是像用戶一樣逐步操作、并調(diào)用工具完成鏈路:先用 Open URL 打開 Google 首頁,再用 Execute JavaScript 在搜索框輸入“china daily”并進(jìn)入官網(wǎng);隨后調(diào)用 Get Page Content 提取頁面內(nèi)容,若遇到報(bào)錯(cuò)則切換至官網(wǎng) Latest News 作為容錯(cuò)路徑,確保數(shù)據(jù)可得;最后通過內(nèi)部整理流程做時(shí)間過濾(僅保留 9 月 30 日)與版塊分類(政治/經(jīng)濟(jì)/社會(huì)/國際)。


在詳情頁中可以看到,Claude Sonnet 4.5 為 Chrome 提供了一整套工具:既能打開或關(guān)閉網(wǎng)頁,也能刷新、后退、前進(jìn);還可以執(zhí)行 JavaScript 代碼來完成點(diǎn)擊、滑動(dòng)等操作,并直接提取網(wǎng)頁內(nèi)容。


我們再來實(shí)踐一個(gè)與電腦文件交互的案例。

prompts:在桌面搜索名字里帶Claude的文件夾,看看里面有哪些png文件,并把他們的文件名列出來

在配置好權(quán)限和路徑后,和控制 Chrome 一樣,Claude Sonnet 4.5 會(huì)調(diào)用擁有的文件處理工具,像人類一樣思考一步一步完成上述的任務(wù)。

Claude 先從桌面路徑 /Users/ddlpc/Desktop 開始,搜索所有名字里包含Claude的文件夾,一共找到四個(gè)。隨后逐一檢查這些文件夾的內(nèi)容。


從詳情頁中可以看到,該工具既能讀取單個(gè)或多個(gè)文件內(nèi)容,也能新建、編輯和寫入文件,還可以創(chuàng)建目錄、列出目錄、查看目錄樹結(jié)構(gòu),甚至移動(dòng)文件、搜索文件、獲取文件信息,并管理可訪問的目錄范圍。

而這樣的工具,Claude 還有很多。

Claude Sonnet 4.5 的出現(xiàn),不只是跑分上的勝利。它正在模糊一條界限:大模型到底是一個(gè)生成器,還是一個(gè)能動(dòng)的智能體?檢查點(diǎn)、長程記憶、Agent SDK、對 Chrome 的直接操控,這些都讓它越來越像一個(gè)能自己處理任務(wù)的數(shù)字同事。

當(dāng)然,它依舊不完美:調(diào)試會(huì)迷路,執(zhí)行會(huì)跑偏。但這恰恰說明,它不是一把無所不能的工具,而是一個(gè)需要協(xié)作、需要工程化約束的伙伴。而且過幾個(gè)月,Anthropic 會(huì)不會(huì)偷偷砍 Claude Sonnet 4.5 一刀,強(qiáng)行降智,誰也不知道。

但有一點(diǎn)可以肯定,這可能是我們最后一次用這些曾經(jīng)難以想象但今天正變得“小兒科”的測試案例來評測Claude以及緊追它其后的各種模型。這就是今天AI Coding從模型到產(chǎn)品的狂奔速度,接下來只會(huì)更瘋狂。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
笑死!爸爸和孩子能不熟到什么地步?網(wǎng)友:存在感這么低

笑死!爸爸和孩子能不熟到什么地步?網(wǎng)友:存在感這么低

夜深愛雜談
2026-02-28 23:22:47
伊朗外交部發(fā)言人稱伊朗最高領(lǐng)袖和總統(tǒng)“安然無恙”

伊朗外交部發(fā)言人稱伊朗最高領(lǐng)袖和總統(tǒng)“安然無恙”

澎湃新聞
2026-03-01 05:25:03
溫州知名醫(yī)院被查!1名醫(yī)生被罰

溫州知名醫(yī)院被查!1名醫(yī)生被罰

住溫網(wǎng)
2026-02-28 10:16:15
伊朗發(fā)射法塔赫高超音速導(dǎo)彈

伊朗發(fā)射法塔赫高超音速導(dǎo)彈

界面新聞
2026-02-28 23:51:14
近4戰(zhàn)場均25分!普爾的交易添頭打成鵜鶘核心,大傷沒能毀掉他

近4戰(zhàn)場均25分!普爾的交易添頭打成鵜鶘核心,大傷沒能毀掉他

你的籃球頻道
2026-03-01 13:36:40
過去30年,中國三次忍辱負(fù)重“裝孫子”躲過美國阻擊,終迎大發(fā)展

過去30年,中國三次忍辱負(fù)重“裝孫子”躲過美國阻擊,終迎大發(fā)展

阿胡
2024-06-13 14:25:16
換心風(fēng)波僅1個(gè)月,李連杰再傳噩耗,淪落到如今的下場怪不了別人

換心風(fēng)波僅1個(gè)月,李連杰再傳噩耗,淪落到如今的下場怪不了別人

鄉(xiāng)野小珥
2026-02-05 15:03:34
外交部副部長孫衛(wèi)東禮節(jié)性會(huì)見菲律賓外交部部長助理兼亞太司司長

外交部副部長孫衛(wèi)東禮節(jié)性會(huì)見菲律賓外交部部長助理兼亞太司司長

證券時(shí)報(bào)
2026-02-28 19:03:03
伊朗巴斯基民兵組織就哈梅內(nèi)伊身亡發(fā)表聲明

伊朗巴斯基民兵組織就哈梅內(nèi)伊身亡發(fā)表聲明

界面新聞
2026-03-01 21:44:59
75歲老人全新養(yǎng)老方式:不請保姆不去養(yǎng)老院,成本小老人舒心

75歲老人全新養(yǎng)老方式:不請保姆不去養(yǎng)老院,成本小老人舒心

孢木情感
2026-02-21 12:15:25
90年代蔣方良希望葬在蔣經(jīng)國旁邊,方智怡:沒地方讓你葬在他旁邊

90年代蔣方良希望葬在蔣經(jīng)國旁邊,方智怡:沒地方讓你葬在他旁邊

近史談
2026-03-01 11:05:01
美國終于回過味來了:這個(gè)世界上,不會(huì)再有第二個(gè)“中國”了

美國終于回過味來了:這個(gè)世界上,不會(huì)再有第二個(gè)“中國”了

忠于法紀(jì)
2026-01-16 21:06:27
王曼昱奪冠后,緊緊抱住那個(gè)已經(jīng)退役七年、專程從香港飛來的女人

王曼昱奪冠后,緊緊抱住那個(gè)已經(jīng)退役七年、專程從香港飛來的女人

百態(tài)人間
2025-12-29 16:43:18
72歲潘虹:我以晚年托起耄耋母親的晚年

72歲潘虹:我以晚年托起耄耋母親的晚年

細(xì)品名人
2026-02-27 05:51:54
全網(wǎng)被萌翻!汪小菲家小七寶成馬年第一團(tuán)寵,玥兒抱弟弟畫面太暖

全網(wǎng)被萌翻!汪小菲家小七寶成馬年第一團(tuán)寵,玥兒抱弟弟畫面太暖

扒星人
2026-02-28 20:35:02
王一博風(fēng)波升級!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對上,爆料者被扒!

王一博風(fēng)波升級!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對上,爆料者被扒!

古希臘掌管月桂的神
2026-02-28 09:35:27
特朗普苦等4天中方終于回信,對美開出兩大條件,做不到訪華免談

特朗普苦等4天中方終于回信,對美開出兩大條件,做不到訪華免談

安珈使者啊
2026-03-01 12:15:35
溫州這4名干部,獲提拔

溫州這4名干部,獲提拔

溫州草根
2026-03-01 21:29:35
搶了中國港口,巴拿馬總統(tǒng)放話“敢反制就回?fù)簟?,中方一句話回?yīng)

搶了中國港口,巴拿馬總統(tǒng)放話“敢反制就回?fù)簟?,中方一句話回?yīng)

環(huán)球Talk
2026-03-01 22:41:23
男籃世預(yù)賽晉級形勢分析!中國隊(duì)1戰(zhàn)定生死:韓國或被聯(lián)手踢出局

男籃世預(yù)賽晉級形勢分析!中國隊(duì)1戰(zhàn)定生死:韓國或被聯(lián)手踢出局

籃球快餐車
2026-03-01 00:42:22
2026-03-02 00:03:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
243文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

媒體:美以能精準(zhǔn)"斬首"背后 摩薩德的"手筆"令人咋舌

頭條要聞

媒體:美以能精準(zhǔn)"斬首"背后 摩薩德的"手筆"令人咋舌

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財(cái)經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬輛

態(tài)度原創(chuàng)

家居
游戲
健康
房產(chǎn)
軍事航空

家居要聞

素色肌理 品意式格調(diào)

《寶可夢》新游熱銷登頂!模擬建造休閑風(fēng)

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

軍事要聞

伊朗前總統(tǒng)內(nèi)賈德遇襲身亡

無障礙瀏覽 進(jìn)入關(guān)懷版