Claude Sonnet 4.6空降！Office性能干翻旗艦模型，軟件股哀嚎一片

2026-02-18 10:54:43　來源: 智東西

北京舉報

分享至

智東西
編譯李水青程茜
編輯心緣

智東西2月18日報道，今日凌晨，Anthropic推出史上最強Sonnet模型——Claude Sonnet 4.6來了，新模型在編程、計算機使用、長上下文推理、Agent規(guī)劃、知識工作和設計工作上全面進化。

從Anthropic公布的基準測試結果來看，Claude Sonnet 4.6的智能水平已接近Opus級別，在Agent金融分析、辦公任務、視覺推理幾項測評中甚至超過在2月6日剛剛發(fā)布的Opus 4.6，但成本更親民。在Claude系列模型中，最小的模型通常稱為Haiku，中型模型稱為Sonnet，最大、智能水平最高的模型是Opus。

在Sonnet 4.6發(fā)布后，美股軟件股哀嚎一片。截至美東時間周二收盤，Intuit跌超5%，甲骨文、Applovin跌超3%，Salesforce、Atlassian、Palo Alto Networks、Autodesk跌超2%，Adobe、ServiceNow跌超1%。

一位開發(fā)者在社交平臺X上公布了其試用體驗，亮出了Claude Sonnet 4.6與Claude Opus 4.6的游戲生成對比，他稱兩者效果不相上下，而Claude Sonnet 4.6價格卻便宜了近一半。

▲社交平臺X上Claude Sonnet 4.6的體驗實例

Sonnet 4.6測試版擁有100萬token上下文窗口。對于免費和Pro訂閱用戶，Claude Sonnet 4.6已成為claude.ai和Claude Cowork的默認模型，現(xiàn)已支持文件創(chuàng)建、連接器、專業(yè)技能與內(nèi)容壓縮等功能。該模型的價格與Sonnet 4.5一致，每百萬token的輸入價格為3美元（約合人民幣21元），輸出價格為15美元（約合人民幣104元）。

AWS第一時間宣布Sonnet 4.6已在Amazon Bedrock上架。AWS稱，這是Anthropic的最強計算機使用模型，對于正在擴展AI工作流程的企業(yè)而言，這意味著在不犧牲質(zhì)量的前提下獲得更高的投資回報率。

這也是Anthropic成為萬億獨角獸后，首次亮相新模型。2月13日，Anthropic宣布完成300億美元（約合人民幣2072.61億元）G輪融資，估值一舉躍升至3800億美元（約合人民幣2.63萬億元）。

一、效果接近Opus 4.6、成本更低，搜索操作、百萬token上下文是亮點

Claude Sonnet 4.6一經(jīng)發(fā)布就在開發(fā)者圈引起了關注和討論。

一位海外開發(fā)者稱：“Claude Sonnet 4.6以更低的成本實現(xiàn)了接近Opus的智能水平，這意義非凡，適用于預算有限的團隊。”另一位網(wǎng)友稱：“Anthropic的真正策略已顯露：Opus爭奪王座，Sonnet蠶食市場。”

100萬token上下文窗口被多位開發(fā)者提及為最大亮點。“100萬個token？終于找到一個能讀取我整個混亂代碼庫而不評判我的模型了?！币晃痪W(wǎng)友稱。另一位網(wǎng)友也將模型運行了一整天，提到智能編碼方面的改進明顯：“多文件修改時不再需要過多干預，而且能夠記住長時間會話中的上下文。不過，100萬個token窗口才是真正的亮點，你可以導出整個代碼庫，它也不會丟失任何信息。”

另一位網(wǎng)友展示了他的試用案例，Claude Sonnet 4.6只用一次調(diào)用就重構了他的整個代碼庫。25次工具調(diào)用，新增了3000多行代碼，創(chuàng)建了12個全新的文件。它實現(xiàn)了模塊化，拆分了單體應用，清理了混亂的代碼?！半m然所有功能還沒運行，但效果真是太棒了?！?/p>

▲社交平臺X上Claude Sonnet 4.6的體驗實例

Claude Sonnet 4.6的視覺推理能力有所提升，這一能力之前與Gemini和ChatGPT相比更遜色。一位開發(fā)者展示出了Grok 4.20 beta和Claude Sonnet 4.6的SVG生成效果，提示詞是“編寫SVG代碼以創(chuàng)建一個詳細的Xbox控制器”?？梢钥吹剑珻laude Sonnet 4.6生成的圖像具有更強的立體感。

“在Agent編程方面表現(xiàn)出色”是值得關注的關鍵點。一位開發(fā)者稱，Agent編程需要模型一直以來都難以做到的兩件事：保持在模型范圍內(nèi)以及不偏離地執(zhí)行多步驟指令。如果4.6版本確實改進了這兩點，那么它就能改變模型的交付方式。

有的開發(fā)者則關注“專注于搜索操作”，稱這意味著其正在超越自動補全，轉(zhuǎn)而理解代碼庫之間的連接方式，它將成為復雜系統(tǒng)的導航工具。一位網(wǎng)友稱：“搜索功能的改進確實有效，它大大節(jié)省了在大型代碼庫中查找所需函數(shù)的時間。”

不過也有人擔心Copilot Agent模式的代碼安全問題。一位網(wǎng)友稱，擅長搜索和代碼編寫的Agent與聊天助手的影響范圍截然不同，如果它擁有生產(chǎn)環(huán)境提交權限，那么一旦工作流程遭到破壞，就會對供應鏈構成風險。

盡管好評如潮，但也有開發(fā)者認為Sonnet 4.6沒有達到期待?！拔覀冊绢A期Sonnet 4.6在編程方面會勝過Opus 4.5，但結果表明它只是在Cowork方面進行了升級?！庇芯W(wǎng)友甚至稱“Sonnet 4.6=Opus 4.5”，也有多位網(wǎng)友提到Sonnet 4.6不僅沒有超過GPT-5.2，而且沒有對比Codex 5.3的效果，對模型能力天花板表示質(zhì)疑。

二、多項能力超GPT-5.2，處理復雜表格、填寫多步驟網(wǎng)頁表單能力接近人類

在整體的基準測試中，Claude Sonnet 4.6的表現(xiàn)在多個項目中表現(xiàn)都超過自家的Opus 4.6，以及Gemini 3 Pro、GPT-5.2。

GDPval-AA是一個獨立的評估框架，用于測試模型在具有經(jīng)濟價值的真實世界專業(yè)任務上的表現(xiàn)，Claude Sonnet 4.6在Claude Opus 4.6、GPT-5.2等所有比較模型中排名第一。

對于真實世界的軟件工程任務測試SWE-bench、衡量Agent交互能力的τ2-bench、多選題測試GPQA Diamond等測試，Claude Sonnet 4.6的表現(xiàn)接近或已超過Claude Opus 4.6。

值得一提的是，OSWorld是衡量AI計算機使用的標準基準，其在模擬計算機環(huán)境中，基于真實軟件Chrome、LibreOffice、VS Code等設置了數(shù)百項任務，不提供任何專用API或定制連接器。在完成任務時，模型就像人類一樣看屏幕、操作電腦，如通過點擊虛擬鼠標、敲擊虛擬鍵盤完成交互。

2024年10月，Anthropic率先推出一款通用計算機使用模型，但當時，這一模型仍處于實驗階段，容易出錯。經(jīng)過16個月時間，其Sonnet模型在OSWorld基準測試上的成績逐漸提升。

并且其博客提到，這些進步不僅體現(xiàn)在測試指標上，早期使用Sonnet 4.6的用戶還發(fā)現(xiàn)，在處理復雜表格、填寫多步驟網(wǎng)頁表單以及在多個瀏覽器標簽頁之間協(xié)同操作等任務中，該模型已具備接近人類水平的能力。

在Claude Code中，Anthropic在早期測試中發(fā)現(xiàn)，用戶大約有70%的時間更喜歡Sonnet 4.6而不是Sonnet 4.5。其原因是，Sonnet 4.6在修改代碼之前能更有效地讀取上下文，并整合共享邏輯而不是重復它。

此外，更偏愛Sonnet 4.6而非Opus 4.5的用戶占到了59%，他們認為Sonnet 4.6不會把問題搞得太復雜，也不會偷懶敷衍，并且在指令遵循方面有顯著提升。這些用戶報告稱，Sonnet 4.6產(chǎn)生的成功假象更少、幻覺更少，在多步任務上的執(zhí)行也更一致。

三、模擬商業(yè)運營盈利能力超對手，深度推理Opus 4.6依然是最強

Claude Sonnet 4.6提供兩種模式：一種是“擴展思維模式”，在此模式下，模型會花費更多時間進行推理；另一種是“自適應思維模式”，在此模式下，模型會根據(jù)任務的難度，靈活調(diào)整在擴展思維模式下花費的時間。開發(fā)者可以根據(jù)具體任務，自主控制Sonnet 4.6以哪種模式執(zhí)行任務。

Sonnet 4.6擁有100萬token的上下文窗口，研究人員在Vending-Bench Arena評測中看到了這一點，這一基準測試考驗的是模型模擬商業(yè)運營中的表現(xiàn)，并包含競爭機制，不同AI模型需要相互對抗以獲取最大利潤。

Sonnet 4.6在這個測試中開發(fā)了新策略，它在最初的十個月模擬期間大量投資于能力建設，花費顯著高于競爭對手，然后在最后階段迅速轉(zhuǎn)向?qū)Ｗ⒂谟?。這使得它在最后的盈利結果遠遠領先于競爭對手。

開發(fā)者還發(fā)現(xiàn)，Sonnet 4.6在前端代碼、財務分析上的改進尤為突出，并且其視覺輸出更加精致，布局、動畫和設計感均優(yōu)于之前的模型，僅需要更少的迭代輪次即可達到生產(chǎn)質(zhì)量的結果。

Anthropic在博客中還公布了其他具體的產(chǎn)品更新：

在Claude開發(fā)者平臺上，Sonnet 4.6支持自適應思考和擴展思考，以及處于測試階段的上下文壓縮功能。在API中，Claude的網(wǎng)頁搜索與內(nèi)容獲取工具可以自動編寫并運行代碼，對搜索結果進行篩選和處理。

Sonnet 4.6無論思考強度高低，表現(xiàn)都很穩(wěn)定。相比之下，對于需要深度推理的任務，Opus 4.6依然是最佳選擇，例如代碼庫重構、工作流中多Agent協(xié)同，以及精準度至關重要的復雜問題。

在安全評估方面，研究人員評估了Claude Sonnet 4.6在單回合對話場景中提供信息的意愿，并測試了預期Claude會做出無害回應的違規(guī)請求，以及涉及敏感話題的良性請求。該評估使用了普通話、阿拉伯語、英語、法語、印地語、韓語和俄語。

結語：高性價比、會用電腦，讓AI加速進入真實工作流

Anthropic的模型布局分為Haiku、Sonnet、Opus系列，這些模型對應著不同的價格和智能水平。此次其Sonnet模型的大幅躍升，部分場景可對標甚至超越Opus系列模型，再加上價格親民、免費版直接可用，都表明大模型高端性能與高成本的強綁定正在被逐步打破。

從具體的性能升級來看，Sonnet 4.6的實際任務執(zhí)行、幻覺緩解、指令遵循能力上大幅提升，尤其在“像人一樣使用電腦”上，其交互更加自然，這也進一步模型深度融入用戶在辦公、研發(fā)、金融、數(shù)據(jù)分析場景真實工作潛力大幅提升。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.