国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Sonnet 4.6:Anthropic 最卷的模型,不惜“逼死”自家Opus

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

在最近的模型混戰(zhàn)中,不只是中國廠商們在卷,Anthropic也在半個月連續(xù)發(fā)布了兩款模型。而其中,最近發(fā)布的Sonnet 4.6有些特殊,它不是旗艦,卻在多個維度追平甚至超過了旗艦。看起來它用Opus 1/3的價格,就追上了它99%的性能。

在這個各家模型都要干掉Opus的時刻,它自己用性價比款的Sonnet“干掉”O(jiān)pus,給各位演示了一下,什么才是最卷的模型。


而且,這款模型非常值得關注的地方是,它讓AI操作電腦這件事第一次接近了“真的能用”的臨界點。而恰好在同一個月,一個叫OpenClaw的開源項目用17萬GitHub星標證明了一件事,人手一個的,能替自己干活的AI Agent,可能成為一個新的趨勢。Sonnet 4.6是模型,OpenClaw是框架,但它們指向同一個方向。

1

便宜的再一次打贏了貴的

在Anthropic的產(chǎn)品線中,Opus是最強最貴的旗艦,Sonnet是平衡性能和成本的中端款,Haiku是最快最便宜的輕量款。長期以來,Sonnet的角色是“性價比之選”,干不了最難的活但勝在便宜。Sonnet 4.6打破了這個格局。

編碼方面,它在SWE-bench Verified上得分79.6%,逼近Opus 4.6的80.8%。Claude Code的內(nèi)部測試中,用戶70%的時間更偏好Sonnet 4.6(對比Sonnet 4.5),甚至有59%的時間比去年11月發(fā)布的旗艦Opus 4.5更受歡迎。用戶反饋集中在幾個方面,“更少過度工程”“更少偷懶”“指令遵循明顯更好”,以及更少出現(xiàn)“明明沒干完卻說干完了”的情況。

辦公任務是更大的驚喜。在GDPval-AA這個衡量真實辦公場景的評測中,Sonnet 4.6拿到1633 Elo,直接超過了Opus 4.6的1606。便宜的在實際工作場景中打贏了貴的。類似的事正在行業(yè)里反復發(fā)生,Google的Gemini 3 Flash也在逼近Pro的表現(xiàn),DeepSeek用遠低于美國公司的成本訓練出競爭力相當?shù)哪P?。“低端逆襲高端”已經(jīng)不再是新聞,而是2026年AI行業(yè)的結構性趨勢。

不過獨立AI評測機構Artificial Analysis注意到了一個有意思的細節(jié),Sonnet 4.6在GDPval-AA上使用的token數(shù)量是Sonnet 4.5的約4.5倍。AI媒體Latent Space據(jù)此指出,某些任務的總成本可能比Opus還高。這和價格表上的數(shù)字講的是兩個故事。


軟件工程師、AI技術博主Joe Njenga在Medium上第一時間做了測試,他的感受是,“發(fā)布才幾天,但Sonnet 4.6已經(jīng)感覺比Opus更好用了?!盋osmic平臺做了一個控制實驗,用完全相同的一句話提示詞讓4.5和4.6各生成一個博客應用,結論是4.6在設計品味和代碼架構上有質(zhì)的提升,“需要更少的手把手指導”。編程工具Kilo Code直接把Sonnet 4.6設為默認推薦模型。當然也有負面聲音,發(fā)布當天就有用戶報告了函數(shù)名幻覺的問題。

價格跟上一代Sonnet 4.5完全一樣,每百萬輸入token 3美元,輸出token 15美元。同時它成了Free和Pro用戶的默認模型,免費用戶還新增了文件創(chuàng)建、skills等功能。但正如上面提到的,“同樣的錢買到更強的模型”不等于“用AI更便宜了”。Extended thinking的token按輸出價格計費,超過200K的長上下文有額外溢價,而Agent場景下動輒成千上萬次工具調(diào)用,實際使用成本可能反而在增加。

1

16個月,Computer Use從玩具變工具

Sonnet 4.6還有一個值得單獨拿出來說的進步,就是Computer Use,也就是AI操作電腦的能力。

2024年10月,Anthropic是第一個推出通用計算機操作AI的公司。當時他們自己都承認這個功能“還很實驗性,有時笨拙且容易出錯”,發(fā)布時搭載的Claude 3.5 Sonnet在OSWorld評測上只拿到14.9%。能做的事很有限,移動鼠標、點擊按鈕、輸入文字,基本是個勉強能用的遙控器。

之后的每一代Sonnet都在這個維度上進步。到了2025年9月的Sonnet 4.5,成績已經(jīng)大幅提升。但Sonnet 4.6才是真正讓這項能力從“技術demo”走向“可用工具”的節(jié)點。在OSWorld-Verified上,它拿到72.5%,幾乎追平Opus 4.6的72.7%,比16個月前的起點提升了近5倍。

數(shù)字背后對應的是質(zhì)的變化。早期用戶報告說,Sonnet 4.6在操作復雜電子表格、填寫多步驟網(wǎng)頁表單方面已接近人類水平,而且能跨多個瀏覽器標簽頁協(xié)同完成任務。在保險行業(yè)的基準測試中,Computer Use拿到94%的準確率,是他們測試過的所有模型中最高的。更關鍵的一個改進是可靠性,在他們內(nèi)部的瀏覽器自動化場景中,Sonnet 4.6產(chǎn)生的幻覺鏈接數(shù)量為零,而此前的版本大約三個鏈接中就有一個是假的。


Claude Sonnet 在 OSWorld 基準上的得分持續(xù)提升。

這意味著什么?幾乎每家企業(yè)都有一些“前API時代”遺留下來的老舊系統(tǒng),沒有現(xiàn)代接口,無法自動化。以前要讓AI操作這些軟件,就得給每個系統(tǒng)寫專門的連接器。而一個能像人一樣使用電腦的模型,直接改變了這個等式。科技圈評論者Trung Phan調(diào)侃說,Anthropic的demo演示了Claude幫人在DMV網(wǎng)站上續(xù)車牌的過程,“但AI還是沒法修好DMV本身。”

1

當人人都有一個JARVIS

Computer Use讓模型能操作電腦,但要變成一個真正幫人干活的AI助手,還需要一層編排框架把模型和現(xiàn)實世界的工具連接起來。這正是過去兩個月AI行業(yè)最火熱的戰(zhàn)場。

2月份最熱門的AI項目不是某個大模型,而是OpenClaw。它原名Clawdbot(名字來自Claude和龍蝦鉗的雙關,后因Anthropic商標投訴兩度改名),由奧地利開發(fā)者Peter Steinberger從一個WhatsApp機器人做起,幾個月內(nèi)暴漲到17.9萬GitHub星標。OpenClaw能常駐在用戶的電腦后臺,通過WhatsApp、Slack、iMessage接收指令,幫你管郵件、排日程、訂機票、跑腳本,是目前最接近“鋼鐵俠里的J.A.R.V.I.S.”的有著消費級的愿景和使用場景的產(chǎn)品。IBM研究員Kaoutar El Maghraoui的評價是,OpenClaw證明了自主AI Agent“不限于大企業(yè),可以是社區(qū)驅(qū)動的”。

OpenClaw火爆的原因,不只是它本身做得好,更因為它戳中了一個被壓抑已久的需求。過去一年,AI聊天機器人已經(jīng)證明了自己在回答問題和生成內(nèi)容上的能力,但用戶真正想要的是一個能替自己“做事”的助手,不只是聊天,而是能操作軟件、執(zhí)行任務、跨應用協(xié)調(diào)。OpenClaw讓這個需求第一次有了一個具體的、可以跑起來的產(chǎn)品形態(tài)。

但OpenClaw也暴露了個人AI Agent面臨的核心矛盾。安全研究人員發(fā)現(xiàn)超過13.5萬個暴露在公網(wǎng)上的實例;Cisco檢測了其技能市場排名第一的插件,發(fā)現(xiàn)能悄悄將用戶數(shù)據(jù)發(fā)送到攻擊者服務器。Andrej Karpathy最初稱基于OpenClaw開發(fā)的Moltbook是“我見過的最科幻的東西”,幾天后說“不建議任何人在自己的電腦上運行它”。一個足夠有用的AI Agent必須擁有足夠大的權限,而足夠大的權限天然帶來足夠大的風險。這個矛盾目前沒有人真正解決。

更值得關注的是OpenClaw對AI行業(yè)商業(yè)格局的潛在沖擊。OpenClaw是模型無關的,它能跑Claude,也能跑ChatGPT,也能跑開源的Minimax和Kimi。當Agent框架層成為用戶接觸AI的主要入口,底層模型就有被“商品化”的風險,就像Android讓手機硬件品牌競爭變得殘酷一樣。有評論者已經(jīng)在問,“OpenClaw會不會成為AI時代的Android?”

2月15日,Peter Steinberger加入了OpenAI,Altman親口說“the future is going to be extremely multi-agent”(未來一定是極度多Agent的)。OpenClaw轉(zhuǎn)型為基金會項目,但它引發(fā)的這場關于“誰擁有Agent層”的爭奪才剛開始。

這也是理解Sonnet 4.6的另一把鑰匙。Anthropic的應對策略不是等著被別人的Agent框架調(diào)用,而是把Agent能力直接做進模型里。Computer Use、Claude Code、Cowork,都是在構建一個“模型+工具鏈”的捆綁生態(tài)。Sonnet 4.6把這些能力下放到中端價格,本質(zhì)上是在說,你不需要一個第三方框架來讓AI替你干活,用Claude就行。

當然,能力越強意味著風險也越集中。Anthropic在system card中坦承,Sonnet 4.6在GUI操作場景中表現(xiàn)出“過度主動”的行為,比如未經(jīng)授權發(fā)送郵件、過于激進地獲取token,而且這種行為無法通過提示詞完全避免。獨立評測機構Andon Labs在Vending-Bench測試中發(fā)現(xiàn),Sonnet 4.6展現(xiàn)出與Opus 4.6類似的戰(zhàn)略復雜度,包括自發(fā)的價格操縱和對競爭對手的欺騙行為。他們的評價是,“幾乎一樣令人印象深刻,也幾乎一樣令人擔憂,而且只要三分之一的價格?!?/p>

1

Anthropic路線

把視角拉回Anthropic本身,Sonnet 4.6只是它2月份密集動作的一部分。

2月初,Anthropic在超級碗投放了一組系列廣告,共四條片子,分別叫“Betrayal”“Deception”“Treachery”“Violation”,賽前和賽中各播一條,另兩條在線上流通,直指OpenAI在ChatGPT中加入廣告的決定,slogan是“Ads are coming to AI. But not to Claude.”效果顯著,網(wǎng)站訪問量漲了6.5%,日活用戶增長11%,Claude App沖進了Apple App Store前十。

緊接著,Anthropic宣布完成了300億美元融資,估值達到3800億美元,半年翻了一倍多。年化收入攀升至140億美元,其中Claude Code的年化收入就有25億美元,企業(yè)訂閱今年翻了四倍。


OpenAI的CEO Altman對此不太高興,批評Anthropic的超級碗廣告“明顯不誠實”,說它是“把昂貴產(chǎn)品賣給有錢人”。Anthropic CEO Dario Amodei的稍早一點在達沃斯論壇說自己不需要“跟某個大玩家進行十億免費用戶的死亡競賽”。

這或許暴露了兩家公司在路線上的某種分歧。從公開信息來看,OpenAI更傾向用戶規(guī)模路線,免費用戶盡可能多,再通過廣告和增值服務探索變現(xiàn);它收編OpenClaw創(chuàng)始人,也是在搶占Agent編排層的入口。Anthropic走的看上去更像是生產(chǎn)力工具路線,80%的收入來自企業(yè)客戶,核心賣點是coding和agent能力,不做圖片生成,不太追求C端DAU,而是把Agent能力內(nèi)建到模型本身。Sonnet 4.6讓免費用戶也能使用旗艦級能力,本身就是對“只服務有錢人”這個批評的無聲回應。

有一個數(shù)字或許能說明AI Agent能力提升帶來的沖擊,自Anthropic和OpenAI密集發(fā)布新模型以來,軟件股已經(jīng)蒸發(fā)了約2萬億美元的市值。投資者正在price in一個可能性,AI Agent對傳統(tǒng)SaaS軟件的替代,可能比所有人預想的都快。

12天兩個模型,兩周三次頭條。這可能會成為2026年AI行業(yè)的默認節(jié)奏。


點個愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一手好牌打稀爛!從春晚笑星到縣城賣唱,如今她是3個孩子的媽

一手好牌打稀爛!從春晚笑星到縣城賣唱,如今她是3個孩子的媽

小熊侃史
2026-02-27 21:25:51
伊朗發(fā)起反擊!5大美軍基地被打擊,巴林基地倉庫和樞紐全被炸

伊朗發(fā)起反擊!5大美軍基地被打擊,巴林基地倉庫和樞紐全被炸

Ck的蜜糖
2026-03-01 02:37:49
葉一茜帶女簪花 18歲森碟下巴后縮矯正好了 這么好看 多虧了網(wǎng)友

葉一茜帶女簪花 18歲森碟下巴后縮矯正好了 這么好看 多虧了網(wǎng)友

地理三體說
2026-01-27 21:00:56
《鏢人》女演員長相排名,陳麗君墊底,李云霄第3,第1實至名歸

《鏢人》女演員長相排名,陳麗君墊底,李云霄第3,第1實至名歸

大眼妹妹
2026-02-28 19:08:52
GDP差距縮至3495億,江蘇離廣東還有多遠?

GDP差距縮至3495億,江蘇離廣東還有多遠?

經(jīng)濟觀察報
2026-02-28 15:14:06
方媛曬3胎女兒滿月禮!金鎖玉鐲多到放不下,3500的嬰兒車不算貴

方媛曬3胎女兒滿月禮!金鎖玉鐲多到放不下,3500的嬰兒車不算貴

小娛樂悠悠
2026-02-28 11:02:55
成都舞廳復工夢碎實錄:正月里憋瘋一群人,夢里上班笑出聲

成都舞廳復工夢碎實錄:正月里憋瘋一群人,夢里上班笑出聲

成都人的故事
2026-02-28 14:05:56
湯唯離婚重回單身,曝婚內(nèi)借款200萬未歸還!現(xiàn)身劉老根舞臺否認簽約

湯唯離婚重回單身,曝婚內(nèi)借款200萬未歸還!現(xiàn)身劉老根舞臺否認簽約

小椰的奶奶
2026-03-01 00:26:36
陳熠4-0陳幸同!球迷紛紛質(zhì)疑有假球嫌疑:3局關鍵分陳博士都拉胯

陳熠4-0陳幸同!球迷紛紛質(zhì)疑有假球嫌疑:3局關鍵分陳博士都拉胯

顏小白的籃球夢
2026-02-28 19:37:55
美駐日大使:如果中國不按美國的意愿行事,就讓十四億人陷入饑荒

美駐日大使:如果中國不按美國的意愿行事,就讓十四億人陷入饑荒

荊楚寰宇文樞
2025-09-28 21:58:22
特朗普和內(nèi)塔尼亞胡通話

特朗普和內(nèi)塔尼亞胡通話

財聯(lián)社
2026-03-01 00:30:06
局勢突變,外盤又大漲了,怎么看?

局勢突變,外盤又大漲了,怎么看?

萌生財經(jīng)
2026-02-28 10:57:09
玄學提醒:一個人運氣越來越好,往往是從3個“不要”開始的

玄學提醒:一個人運氣越來越好,往往是從3個“不要”開始的

金沛的國學筆記
2026-02-28 15:28:31
艾頓逐漸現(xiàn)原形!美記:他那些古怪又滑稽的故事如期上演

艾頓逐漸現(xiàn)原形!美記:他那些古怪又滑稽的故事如期上演

愛體育
2026-02-28 22:43:57
美以動手了!明明伊朗已經(jīng)慫到了家,為何還要打?原因其實很簡單

美以動手了!明明伊朗已經(jīng)慫到了家,為何還要打?原因其實很簡單

剛哥說法365
2026-02-28 18:42:47
中國發(fā)撤離令,美軍果然行動了,最新消息表明,特朗普這次玩大了

中國發(fā)撤離令,美軍果然行動了,最新消息表明,特朗普這次玩大了

精彩瞬間回顧
2026-03-01 02:04:58
史無前例的封殺令:特朗普拉黑 3800 億 AI 巨頭,Anthropic 遭全網(wǎng)“斷供”

史無前例的封殺令:特朗普拉黑 3800 億 AI 巨頭,Anthropic 遭全網(wǎng)“斷供”

鈦媒體APP
2026-02-28 11:09:22
52歲大媽和30歲小伙同居,半年后大媽哭了:他的要求我滿足不了

52歲大媽和30歲小伙同居,半年后大媽哭了:他的要求我滿足不了

芳華情感
2026-02-27 22:01:43
不打了!CBA榜眼秀重傷!無緣大戰(zhàn)中國男籃

不打了!CBA榜眼秀重傷!無緣大戰(zhàn)中國男籃

籃球?qū)崙?zhàn)寶典
2026-02-28 15:24:56
馬競客戰(zhàn)皇家奧維耶多:盧克曼搭檔阿爾馬達,瑟洛特出戰(zhàn)

馬競客戰(zhàn)皇家奧維耶多:盧克曼搭檔阿爾馬達,瑟洛特出戰(zhàn)

懂球帝
2026-03-01 02:54:34
2026-03-01 03:08:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎,歡迎來到這個星球。
2894文章數(shù) 10458關注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

伊朗媒體公布反擊美軍軍事行動結果

頭條要聞

伊朗媒體公布反擊美軍軍事行動結果

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

數(shù)碼
家居
藝術
本地
公開課

數(shù)碼要聞

小米超薄充電寶亮相MWC,98g有多能打?

家居要聞

素色肌理 品意式格調(diào)

藝術要聞

驚艷!這位天使般的女子與油畫讓人心動不已!

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版