国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Anthropic發(fā)布Claude Sonnet 4.5:編程能力再登頂,新產(chǎn)品試圖顛覆Windows操作系統(tǒng)

0
分享至


今天凌晨,Anthropic毫無征兆地突然發(fā)布了Claude Sonnet 4.5,從版本號(hào)、發(fā)布的文章以及隨之而來的產(chǎn)品功能更新看,這是個(gè)相當(dāng)大的值得關(guān)注的版本。

核心要點(diǎn)

  • Claude Sonnet 4.5在SWE-bench Verified基準(zhǔn)測試中達(dá)到行業(yè)最高水平,可持續(xù)專注超30小時(shí)處理復(fù)雜任務(wù),定價(jià)維持不變($3/$15每百萬tokens)

  • 計(jì)算機(jī)使用能力大幅提升,OSWorld基準(zhǔn)從4個(gè)月前的42.2%躍升至61.4%

  • Anthropic首次開放Claude Agent SDK,將支撐Claude Code的基礎(chǔ)設(shè)施向開發(fā)者開放

  • 推出"Imagine with Claude"研究預(yù)覽,展示實(shí)時(shí)軟件生成能力(非常有趣,文章中有實(shí)測案例)


模型性能又又又突破了

根據(jù)官方披露的數(shù)據(jù),Claude Sonnet 4.5模型在多項(xiàng)關(guān)鍵指標(biāo)上實(shí)現(xiàn)顯著提升。


當(dāng)然,我們最最關(guān)心的還是編程能力。Claude Sonnet 4.5在SWE-bench Verified評(píng)估中繼續(xù)突破自己,超越了死貴死貴的Claude Opus 4.1達(dá)到當(dāng)前最高水平(而價(jià)格則是維持和Claude Sonnet 4一樣的水平)。SWE-bench Verified算是衡量AI模型解決真實(shí)世界軟件編程問題的最重要的能力指標(biāo)。Anthropic表示,在實(shí)際應(yīng)用中觀察到該模型能夠在復(fù)雜多步驟任務(wù)上保持超過30小時(shí)的持續(xù)專注。聽起來有點(diǎn)針對(duì)OpenAI CodeX的7小時(shí)了。


計(jì)算機(jī)使用能力方面的進(jìn)步尤為明顯。在測試AI模型執(zhí)行真實(shí)計(jì)算機(jī)任務(wù)的OSWorld基準(zhǔn)測試中,Sonnet 4.5取得61.4%的成績,相比四個(gè)月前Sonnet 4的42.2%提升約45%。

Claude 官方用來展示的例子是他們做的瀏覽器插件——Claude for Chrome,演示的這個(gè)例子涉及表格、郵件、數(shù)字計(jì)算等,任務(wù)還算挺復(fù)雜的,效果看起來不錯(cuò)。

前幾天,我發(fā)過一個(gè)用Claude Code+Chrome Devtools MCP當(dāng)我的B站/油管運(yùn)營實(shí)習(xí)生,自動(dòng)給評(píng)論區(qū)回復(fù)內(nèi)容的嘗試,看起來這套組合所擁有的潛力還能繼續(xù)挖掘。

除編程能力外,該模型在推理和數(shù)學(xué)相關(guān)的多項(xiàng)評(píng)估中也顯示出改進(jìn)。來自金融、法律、醫(yī)學(xué)和STEM領(lǐng)域的專家評(píng)估顯示,Sonnet 4.5在特定領(lǐng)域的知識(shí)深度和推理能力上相比早期模型(包括Opus 4.1)有顯著提升。


注:STEM是四個(gè)學(xué)科領(lǐng)域英文首字母的縮寫:

-Science(科學(xué))

-Technology(技術(shù))

-Engineering(工程)

-Mathematics(數(shù)學(xué))

對(duì)齊與安全性改進(jìn)

Anthropic強(qiáng)調(diào),Claude Sonnet 4.5是該公司迄今為止"對(duì)齊度最高的前沿模型"。在自動(dòng)化行為審計(jì)測試中,該模型在多個(gè)維度上的不良行為得分顯著降低,包括奉承、欺騙、權(quán)力尋求以及鼓勵(lì)妄想性思維等傾向。

針對(duì)AI代理和計(jì)算機(jī)使用場景中最嚴(yán)重的風(fēng)險(xiǎn)之一——提示注入攻擊,Anthropic表示已取得重大進(jìn)展。根據(jù)其發(fā)布的系統(tǒng)卡(system card):https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf,該模型的安全評(píng)估首次納入了機(jī)械可解釋性(mechanistic interpretability)技術(shù)。

該模型按照Anthropic的AI安全等級(jí)3(ASL-3)框架發(fā)布,配備了專門的分類器用于檢測潛在危險(xiǎn)的輸入和輸出,特別是涉及化學(xué)、生物、放射性和核武器(CBRN)相關(guān)內(nèi)容。Anthropic表示,自該系統(tǒng)首次描述以來,誤報(bào)率已降低十倍,自5月Claude Opus 4發(fā)布以來降低了一半。



Claude Agent SDK開放

深入用過Claude Code的人應(yīng)該都會(huì)認(rèn)同,盡管有很多產(chǎn)品都在稱自己是通用型AI Agent,但真正在能力上做到又強(qiáng)又通用的,還真就是Claude Code。而在這次的發(fā)布里,Claude把他們用來構(gòu)建Claude Code的所有基建,都作為Agent SDK開放了。

該SDK解決了構(gòu)建AI代理過程中的幾個(gè)核心難題:長時(shí)間運(yùn)行任務(wù)中的內(nèi)存管理、平衡自主性與用戶控制的權(quán)限系統(tǒng)、以及協(xié)調(diào)多個(gè)子代理朝向共同目標(biāo)工作的機(jī)制。

Anthropic表示,雖然該SDK是為Claude Code開發(fā)的,但其適用范圍遠(yuǎn)超編程領(lǐng)域。從今日起,開發(fā)者可以使用這一SDK構(gòu)建自己的AI代理應(yīng)用。

產(chǎn)品生態(tài)系統(tǒng)更新

配合模型發(fā)布,Anthropic同步推出了多項(xiàng)產(chǎn)品功能更新:

Claude Code獲得了用戶呼聲最高的"檢查點(diǎn)"(checkpoints)功能,允許保存進(jìn)度并即時(shí)回滾到之前狀態(tài)。終端界面經(jīng)過重新設(shè)計(jì),并推出了原生VS Code擴(kuò)展。


哈哈哈,“推出了原生VS Code擴(kuò)展”這一點(diǎn)很有趣,說明Claude的AI編程產(chǎn)品形態(tài)不止于CLI,而是要開始進(jìn)入IDE形態(tài)了。其實(shí)也很像我前段時(shí)間所吐槽的那樣

Claude Code推出后,國內(nèi)大廠也一窩蜂去做CLI形態(tài)的AI編程產(chǎn)品,但是Claude Code強(qiáng)并不代表CLI形態(tài)的天然正確。拋棄圖形界面增加了用戶使用門檻,但并沒有真正絕對(duì)的先進(jìn)性,這不,Claude 也要開始重新覆蓋具備圖形界面的IDE插件這種產(chǎn)品形態(tài),我估計(jì)離Claude原生AI IDE也不遠(yuǎn)了。

ClaudeAPI新增了上下文編輯功能和內(nèi)存工具,使代理能夠運(yùn)行更長時(shí)間并處理更高復(fù)雜度的任務(wù)。

Claude應(yīng)用中直接集成了代碼執(zhí)行和文件創(chuàng)建能力,支持電子表格、幻燈片和文檔的生成。

Claude for Chrome擴(kuò)展向上月加入等候名單的Max用戶開放。該擴(kuò)展利用了模型升級(jí)后的計(jì)算機(jī)使用能力,可以直接在瀏覽器中導(dǎo)航網(wǎng)站、填寫表格并完成任務(wù)。

"Imagine with Claude"研究預(yù)覽

"Imagine with Claude",Anthropic稱之為臨時(shí)研究預(yù)覽,用來展示實(shí)時(shí)軟件生成能力。我覺得算是這次發(fā)布里最有趣也最有野心的一個(gè)產(chǎn)品了。該實(shí)驗(yàn)中的功能并非預(yù)先確定,代碼也非預(yù)先編寫,而是由Claude實(shí)時(shí)創(chuàng)建,根據(jù)用戶交互進(jìn)行響應(yīng)和適應(yīng)。

它提供了一個(gè)類似帶輸入框的桌面界面,你可以通過自然語言去生成各類應(yīng)用。

比如我試了天氣預(yù)報(bào)、計(jì)算器、游戲、足球比賽實(shí)時(shí)比分看板等,很特別的是所有功能和界面都是流式生成,在你面前實(shí)時(shí)展現(xiàn)的。

而且,很多界面展示還沒功能,會(huì)在你點(diǎn)擊操作后,Claude會(huì)預(yù)測你下一步需要的功能和界面,再做后續(xù)的內(nèi)容/功能生成。我看到了Anthropic有種想再建一個(gè)AI native的操作系統(tǒng)的想法。

這是個(gè)很有趣的開始。

功能鏈接在此,需要Max會(huì)員才能用:https://claude.ai/imagine/

雖然Anthropic這家公司,以及他們的CEO在對(duì)華政策上有各種愚蠢的問題。但不得不承認(rèn)他們的模型在Coding、Agent上的領(lǐng)先性,這次的更新又將會(huì)是對(duì)AI編程產(chǎn)品和Agent產(chǎn)品不小的洗牌。

誰對(duì)Claude Sonnet 4.5模型的能力有最強(qiáng)的認(rèn)知,誰能用工程能力把這個(gè)模型的能力壓榨透,誰又能在這個(gè)新智能的基礎(chǔ)上構(gòu)建出新形態(tài)的產(chǎn)品,還真是無比值得期待。

而像“Imagine with Claude”這個(gè)功能實(shí)在是個(gè)初級(jí)得不能再初級(jí)的初代產(chǎn)品,但是它背后又隱藏著顛覆Windows的可能性,我覺得這會(huì)是個(gè)被重新開拓的新戰(zhàn)場,很高興身處在一個(gè)這么有趣的變化時(shí)代。

如果你覺得內(nèi)容對(duì)你有幫助,歡迎點(diǎn)贊、收藏、轉(zhuǎn)發(fā),這都是我最大的支持~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
來聚餐還補(bǔ)工資!東莞一工廠年底聚餐,當(dāng)晚按工時(shí)3.5小時(shí)核工資

來聚餐還補(bǔ)工資!東莞一工廠年底聚餐,當(dāng)晚按工時(shí)3.5小時(shí)核工資

火山詩話
2025-12-28 11:03:19
內(nèi)訌了?洛夫頓發(fā)文:都不相信我,我要回母校,網(wǎng)友: 趕緊滾吧!

內(nèi)訌了?洛夫頓發(fā)文:都不相信我,我要回母校,網(wǎng)友: 趕緊滾吧!

南海浪花
2025-12-28 12:32:59
女子分享10年前火車上偶遇的唱歌小男孩,竟被當(dāng)事人刷到:互聯(lián)網(wǎng)讓10年前的“一面之緣”有了續(xù)集

女子分享10年前火車上偶遇的唱歌小男孩,竟被當(dāng)事人刷到:互聯(lián)網(wǎng)讓10年前的“一面之緣”有了續(xù)集

環(huán)球網(wǎng)資訊
2025-12-28 10:11:35
民族英雄從課本移除,“民族英雄”卻受到吹捧,這事該反思嗎

民族英雄從課本移除,“民族英雄”卻受到吹捧,這事該反思嗎

何氽簡史
2025-12-27 13:45:11
美國經(jīng)濟(jì)難于擺脫嚴(yán)重衰退 1975年11月19日《人民日?qǐng)?bào)》

美國經(jīng)濟(jì)難于擺脫嚴(yán)重衰退 1975年11月19日《人民日?qǐng)?bào)》

那些看得見的老照片
2025-12-17 17:13:44
董明珠零下三十度蹲守黑瞎子島,盯著空調(diào)連續(xù)燒了一百小時(shí)

董明珠零下三十度蹲守黑瞎子島,盯著空調(diào)連續(xù)燒了一百小時(shí)

百態(tài)人間
2025-12-28 05:20:05
中國不跟美國談判?特朗普以最高統(tǒng)帥的身份,下令美軍造更多航母

中國不跟美國談判?特朗普以最高統(tǒng)帥的身份,下令美軍造更多航母

議紀(jì)史
2025-12-27 17:25:02
極品領(lǐng)導(dǎo)人高市早苗,創(chuàng)下十年最快紀(jì)錄

極品領(lǐng)導(dǎo)人高市早苗,創(chuàng)下十年最快紀(jì)錄

陸棄
2025-11-12 08:55:03
攤牌了!72歲唐國強(qiáng)終于承認(rèn)與劉曉慶的真實(shí)關(guān)系,曾志偉當(dāng)場傻眼

攤牌了!72歲唐國強(qiáng)終于承認(rèn)與劉曉慶的真實(shí)關(guān)系,曾志偉當(dāng)場傻眼

觀察鑒娛
2025-12-28 09:51:57
掃地機(jī)器人巨頭給全員發(fā)金子,或共超37斤

掃地機(jī)器人巨頭給全員發(fā)金子,或共超37斤

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-12-28 17:13:20
俄國防部前副部長薩多文科上將在莫斯科突然去世,享年56歲

俄國防部前副部長薩多文科上將在莫斯科突然去世,享年56歲

山河路口
2025-12-26 19:47:21
43歲男保姆哭訴:大媽每月給我10000工資,卻讓我每天做這樣的事

43歲男保姆哭訴:大媽每月給我10000工資,卻讓我每天做這樣的事

孢木情感
2025-11-25 07:55:53
腦!捌珢邸敝袊?80%患者都缺一種維生素!

腦!捌珢邸敝袊?80%患者都缺一種維生素!

孟大夫之家1
2025-12-02 19:46:07
俱樂部對(duì)主帥失控,邱彪對(duì)球員失控,球隊(duì)對(duì)輿論失控,山東隊(duì)真亂

俱樂部對(duì)主帥失控,邱彪對(duì)球員失控,球隊(duì)對(duì)輿論失控,山東隊(duì)真亂

姜大叔侃球
2025-12-27 19:46:34
烏專家:中國“榨干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們?cè)斐?.0

烏專家:中國“榨干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們?cè)斐?.0

混沌錄
2025-12-27 21:33:28
分手后“60后”男子起訴“90后”女友,開庭前在法院門口捅刺女方致重傷二級(jí),法院判了

分手后“60后”男子起訴“90后”女友,開庭前在法院門口捅刺女方致重傷二級(jí),法院判了

大象新聞
2025-12-28 16:53:04
馬斯克語出驚人:“日本若繼續(xù)這樣下去,遲早會(huì)從世界上消失!”

馬斯克語出驚人:“日本若繼續(xù)這樣下去,遲早會(huì)從世界上消失!”

忠于法紀(jì)
2025-11-29 22:02:53
1977 年李敏見親姐楊月花,姐姐提特殊要求,舅舅嘆如母性格

1977 年李敏見親姐楊月花,姐姐提特殊要求,舅舅嘆如母性格

嘮叨說歷史
2025-12-24 09:40:23
河北:降雪時(shí)間確定!

河北:降雪時(shí)間確定!

掌中邯鄲
2025-12-28 11:07:50
1952 年鄭洞國進(jìn)京任職,妻嫌薪低改嫁,20 年后哭著找上門

1952 年鄭洞國進(jìn)京任職,妻嫌薪低改嫁,20 年后哭著找上門

嘮叨說歷史
2025-12-24 14:47:32
2025-12-28 19:07:00
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
102文章數(shù) 46關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

本地
時(shí)尚
健康
游戲
公開課

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

瑞典拉普蘭:凜冽北境的萬物平衡之道

這些新療法,讓化療不再那么痛苦

PS5到底還能戰(zhàn)幾年?外媒解析“買或等PS6”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版