国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Sonnet 4.6空降!Office性能干翻旗艦模型,軟件股哀嚎一片

0
分享至


智東西
編譯 李水青 程茜
編輯 心緣

智東西2月18日報道,今日凌晨,Anthropic推出史上最強Sonnet模型——Claude Sonnet 4.6來了,新模型在編程、計算機使用、長上下文推理、Agent規(guī)劃、知識工作和設計工作上全面進化。

從Anthropic公布的基準測試結果來看,Claude Sonnet 4.6的智能水平已接近Opus級別,在Agent金融分析、辦公任務、視覺推理幾項測評中甚至超過在2月6日剛剛發(fā)布的Opus 4.6,但成本更親民。在Claude系列模型中,最小的模型通常稱為Haiku,中型模型稱為Sonnet,最大、智能水平最高的模型是Opus。


在Sonnet 4.6發(fā)布后,美股軟件股哀嚎一片。截至美東時間周二收盤,Intuit跌超5%,甲骨文、Applovin跌超3%,Salesforce、Atlassian、Palo Alto Networks、Autodesk跌超2%,Adobe、ServiceNow跌超1%。

一位開發(fā)者在社交平臺X上公布了其試用體驗,亮出了Claude Sonnet 4.6與Claude Opus 4.6的游戲生成對比,他稱兩者效果不相上下,而Claude Sonnet 4.6價格卻便宜了近一半



▲社交平臺X上Claude Sonnet 4.6的體驗實例

Sonnet 4.6測試版擁有100萬token上下文窗口。對于免費和Pro訂閱用戶,Claude Sonnet 4.6已成為claude.ai和Claude Cowork的默認模型,現(xiàn)已支持文件創(chuàng)建、連接器、專業(yè)技能與內(nèi)容壓縮等功能。該模型的價格與Sonnet 4.5一致,每百萬token的輸入價格為3美元(約合人民幣21元),輸出價格為15美元(約合人民幣104元)。


AWS第一時間宣布Sonnet 4.6已在Amazon Bedrock上架。AWS稱,這是Anthropic的最強計算機使用模型,對于正在擴展AI工作流程的企業(yè)而言,這意味著在不犧牲質(zhì)量的前提下獲得更高的投資回報率。


這也是Anthropic成為萬億獨角獸后,首次亮相新模型。2月13日,Anthropic宣布完成300億美元(約合人民幣2072.61億元)G輪融資,估值一舉躍升至3800億美元(約合人民幣2.63萬億元)。

在Sonnet 4.6發(fā)布后,美股軟件股哀嚎一片。截至美東時間周二收盤,Intuit跌超5%,甲骨文、Applovin跌超3%,Salesforce、Atlassian、Palo Alto Networks、Autodesk跌超2%,Adobe、ServiceNow跌超1%。

一、效果接近Opus 4.6、成本更低,搜索操作、百萬token上下文是亮點

Claude Sonnet 4.6一經(jīng)發(fā)布就在開發(fā)者圈引起了關注和討論。

一位海外開發(fā)者稱:“Claude Sonnet 4.6以更低的成本實現(xiàn)了接近Opus的智能水平,這意義非凡,適用于預算有限的團隊。”另一位網(wǎng)友稱:“Anthropic的真正策略已顯露:Opus爭奪王座,Sonnet蠶食市場。


100萬token上下文窗口被多位開發(fā)者提及為最大亮點。“100萬個token?終于找到一個能讀取我整個混亂代碼庫而不評判我的模型了?!币晃痪W(wǎng)友稱。另一位網(wǎng)友也將模型運行了一整天,提到智能編碼方面的改進明顯:“多文件修改時不再需要過多干預,而且能夠記住長時間會話中的上下文。不過,100萬個token窗口才是真正的亮點,你可以導出整個代碼庫,它也不會丟失任何信息。



另一位網(wǎng)友展示了他的試用案例,Claude Sonnet 4.6只用一次調(diào)用就重構了他的整個代碼庫。25次工具調(diào)用,新增了3000多行代碼,創(chuàng)建了12個全新的文件。它實現(xiàn)了模塊化,拆分了單體應用,清理了混亂的代碼?!半m然所有功能還沒運行,但效果真是太棒了?!?/p>


▲社交平臺X上Claude Sonnet 4.6的體驗實例

Claude Sonnet 4.6的視覺推理能力有所提升,這一能力之前與Gemini和ChatGPT相比更遜色。一位開發(fā)者展示出了Grok 4.20 beta和Claude Sonnet 4.6的SVG生成效果,提示詞是“編寫SVG代碼以創(chuàng)建一個詳細的Xbox控制器”??梢钥吹剑珻laude Sonnet 4.6生成的圖像具有更強的立體感。


在Agent編程方面表現(xiàn)出色”是值得關注的關鍵點。一位開發(fā)者稱,Agent編程需要模型一直以來都難以做到的兩件事:保持在模型范圍內(nèi)以及不偏離地執(zhí)行多步驟指令。如果4.6版本確實改進了這兩點,那么它就能改變模型的交付方式。


有的開發(fā)者則關注“專注于搜索操作”,稱這意味著其正在超越自動補全,轉(zhuǎn)而理解代碼庫之間的連接方式,它將成為復雜系統(tǒng)的導航工具。一位網(wǎng)友稱:“搜索功能的改進確實有效,它大大節(jié)省了在大型代碼庫中查找所需函數(shù)的時間。

不過也有人擔心Copilot Agent模式的代碼安全問題。一位網(wǎng)友稱,擅長搜索和代碼編寫的Agent與聊天助手的影響范圍截然不同,如果它擁有生產(chǎn)環(huán)境提交權限,那么一旦工作流程遭到破壞,就會對供應鏈構成風險。


盡管好評如潮,但也有開發(fā)者認為Sonnet 4.6沒有達到期待?!拔覀冊绢A期Sonnet 4.6在編程方面會勝過Opus 4.5,但結果表明它只是在Cowork方面進行了升級?!庇芯W(wǎng)友甚至稱“Sonnet 4.6=Opus 4.5”,也有多位網(wǎng)友提到Sonnet 4.6不僅沒有超過GPT-5.2,而且沒有對比Codex 5.3的效果,對模型能力天花板表示質(zhì)疑。



二、多項能力超GPT-5.2,處理復雜表格、填寫多步驟網(wǎng)頁表單能力接近人類

在整體的基準測試中,Claude Sonnet 4.6的表現(xiàn)在多個項目中表現(xiàn)都超過自家的Opus 4.6,以及Gemini 3 Pro、GPT-5.2。

GDPval-AA是一個獨立的評估框架,用于測試模型在具有經(jīng)濟價值的真實世界專業(yè)任務上的表現(xiàn),Claude Sonnet 4.6在Claude Opus 4.6、GPT-5.2等所有比較模型中排名第一。


對于真實世界的軟件工程任務測試SWE-bench、衡量Agent交互能力的τ2-bench、多選題測試GPQA Diamond等測試,Claude Sonnet 4.6的表現(xiàn)接近或已超過Claude Opus 4.6。

值得一提的是,OSWorld是衡量AI計算機使用的標準基準,其在模擬計算機環(huán)境中,基于真實軟件Chrome、LibreOffice、VS Code等設置了數(shù)百項任務,不提供任何專用API或定制連接器。在完成任務時,模型就像人類一樣看屏幕、操作電腦,如通過點擊虛擬鼠標、敲擊虛擬鍵盤完成交互。

2024年10月,Anthropic率先推出一款通用計算機使用模型,但當時,這一模型仍處于實驗階段,容易出錯。經(jīng)過16個月時間,其Sonnet模型在OSWorld基準測試上的成績逐漸提升。


并且其博客提到,這些進步不僅體現(xiàn)在測試指標上,早期使用Sonnet 4.6的用戶還發(fā)現(xiàn),在處理復雜表格、填寫多步驟網(wǎng)頁表單以及在多個瀏覽器標簽頁之間協(xié)同操作等任務中,該模型已具備接近人類水平的能力。

在Claude Code中,Anthropic在早期測試中發(fā)現(xiàn),用戶大約有70%的時間更喜歡Sonnet 4.6而不是Sonnet 4.5。其原因是,Sonnet 4.6在修改代碼之前能更有效地讀取上下文,并整合共享邏輯而不是重復它。

此外,更偏愛Sonnet 4.6而非Opus 4.5的用戶占到了59%,他們認為Sonnet 4.6不會把問題搞得太復雜,也不會偷懶敷衍,并且在指令遵循方面有顯著提升。這些用戶報告稱,Sonnet 4.6產(chǎn)生的成功假象更少、幻覺更少,在多步任務上的執(zhí)行也更一致。

三、模擬商業(yè)運營盈利能力超對手,深度推理Opus 4.6依然是最強

Claude Sonnet 4.6提供兩種模式:一種是“擴展思維模式”,在此模式下,模型會花費更多時間進行推理;另一種是“自適應思維模式”,在此模式下,模型會根據(jù)任務的難度,靈活調(diào)整在擴展思維模式下花費的時間。開發(fā)者可以根據(jù)具體任務,自主控制Sonnet 4.6以哪種模式執(zhí)行任務。

Sonnet 4.6擁有100萬token的上下文窗口,研究人員在Vending-Bench Arena評測中看到了這一點,這一基準測試考驗的是模型模擬商業(yè)運營中的表現(xiàn),并包含競爭機制,不同AI模型需要相互對抗以獲取最大利潤。

Sonnet 4.6在這個測試中開發(fā)了新策略,它在最初的十個月模擬期間大量投資于能力建設,花費顯著高于競爭對手,然后在最后階段迅速轉(zhuǎn)向?qū)W⒂谟?。這使得它在最后的盈利結果遠遠領先于競爭對手。


開發(fā)者還發(fā)現(xiàn),Sonnet 4.6在前端代碼、財務分析上的改進尤為突出,并且其視覺輸出更加精致,布局、動畫和設計感均優(yōu)于之前的模型,僅需要更少的迭代輪次即可達到生產(chǎn)質(zhì)量的結果。

Anthropic在博客中還公布了其他具體的產(chǎn)品更新:

在Claude開發(fā)者平臺上,Sonnet 4.6支持自適應思考和擴展思考,以及處于測試階段的上下文壓縮功能。在API中,Claude的網(wǎng)頁搜索與內(nèi)容獲取工具可以自動編寫并運行代碼,對搜索結果進行篩選和處理。

Sonnet 4.6無論思考強度高低,表現(xiàn)都很穩(wěn)定。相比之下,對于需要深度推理的任務,Opus 4.6依然是最佳選擇,例如代碼庫重構、工作流中多Agent協(xié)同,以及精準度至關重要的復雜問題。

在安全評估方面,研究人員評估了Claude Sonnet 4.6在單回合對話場景中提供信息的意愿,并測試了預期Claude會做出無害回應的違規(guī)請求,以及涉及敏感話題的良性請求。該評估使用了普通話、阿拉伯語、英語、法語、印地語、韓語和俄語。

結語:高性價比、會用電腦,讓AI加速進入真實工作流

Anthropic的模型布局分為Haiku、Sonnet、Opus系列,這些模型對應著不同的價格和智能水平。此次其Sonnet模型的大幅躍升,部分場景可對標甚至超越Opus系列模型,再加上價格親民、免費版直接可用,都表明大模型高端性能與高成本的強綁定正在被逐步打破。

從具體的性能升級來看,Sonnet 4.6的實際任務執(zhí)行、幻覺緩解、指令遵循能力上大幅提升,尤其在“像人一樣使用電腦”上,其交互更加自然,這也進一步模型深度融入用戶在辦公、研發(fā)、金融、數(shù)據(jù)分析場景真實工作潛力大幅提升。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
廣東男籃簽約新大外,CBA官方取消兩外援注冊,山東新外援二選一

廣東男籃簽約新大外,CBA官方取消兩外援注冊,山東新外援二選一

中國籃壇快訊
2026-02-25 17:08:40
2-3敗早田希娜,國乒已有6人遭淘汰!世界第二爆冷出局,止步16強

2-3敗早田希娜,國乒已有6人遭淘汰!世界第二爆冷出局,止步16強

慢歌輕步謠
2026-02-25 19:57:57
【獨家】魅族手機或?qū)⒊蔀闅v史:業(yè)務實質(zhì)性停擺,3月正式退市

【獨家】魅族手機或?qū)⒊蔀闅v史:業(yè)務實質(zhì)性停擺,3月正式退市

界面新聞
2026-02-25 18:25:25
301057,603966!籌劃控制權變更!明起停牌!

301057,603966!籌劃控制權變更!明起停牌!

證券時報e公司
2026-02-25 19:32:51
傅彪兒子近照曝光,和張一山過年聚餐,34歲已滿頭白發(fā)神色滄桑

傅彪兒子近照曝光,和張一山過年聚餐,34歲已滿頭白發(fā)神色滄桑

以茶帶書
2026-02-25 19:36:42
11比1!云南玉昆撿到寶了,冬窗新援上演大四喜,中超射手王穩(wěn)了

11比1!云南玉昆撿到寶了,冬窗新援上演大四喜,中超射手王穩(wěn)了

羅掌柜體育
2026-02-25 09:52:40
海歸光環(huán)徹底消失?49.5萬留學生涌回國,殘酷真相:企業(yè)只認這個

海歸光環(huán)徹底消失?49.5萬留學生涌回國,殘酷真相:企業(yè)只認這個

南權先生
2025-12-23 16:16:33
西方媒體想不通:為什么美國都快贏麻了,世界愛上的卻是中國呢?

西方媒體想不通:為什么美國都快贏麻了,世界愛上的卻是中國呢?

小蜜情感說
2026-02-25 19:05:45
一顆榴蓮,把東南亞卷成“晉西北”,我全程看傻了!

一顆榴蓮,把東南亞卷成“晉西北”,我全程看傻了!

番外行
2026-02-25 19:41:21
送他走吧!湖人109-110惜敗魔術,詹姆斯砍21+6+4,東契奇22+9+15

送他走吧!湖人109-110惜敗魔術,詹姆斯砍21+6+4,東契奇22+9+15

星Xin辰大海
2026-02-25 15:10:22
年過完了,北京一家三口2026春節(jié)真實開銷,真是萬萬沒想到!

年過完了,北京一家三口2026春節(jié)真實開銷,真是萬萬沒想到!

三農(nóng)老歷
2026-02-25 11:46:40
職稱倒查,專門針對這3種“不老實”的正副高人員,你準備好了嗎

職稱倒查,專門針對這3種“不老實”的正副高人員,你準備好了嗎

公路養(yǎng)護
2026-02-25 10:43:52
從王濛蒙冤到米蘭冬奧慘?。壕W(wǎng)友為何死咬王春露不放?這才是真相

從王濛蒙冤到米蘭冬奧慘?。壕W(wǎng)友為何死咬王春露不放?這才是真相

老馬拉車莫少裝
2026-02-22 12:19:12
“人老兩個坎,熬過就長壽”?“兩坎”是哪年?

“人老兩個坎,熬過就長壽”?“兩坎”是哪年?

華人星光
2026-02-25 11:50:06
65-75歲老人,如果你堅持“八個一”,那么活到百歲絕對不是夢

65-75歲老人,如果你堅持“八個一”,那么活到百歲絕對不是夢

暖風吹過竹林
2026-02-23 13:22:19
直到看見蔣萬安給兒子們起的名字,就知道他骨子里的身份瞞不住

直到看見蔣萬安給兒子們起的名字,就知道他骨子里的身份瞞不住

小熊侃史
2026-02-23 13:00:17
央行宣布6000億元大動作

央行宣布6000億元大動作

澎湃新聞
2026-02-24 23:07:04
劉少昂女友發(fā)文:人們看到了結果,我目睹了那些努力

劉少昂女友發(fā)文:人們看到了結果,我目睹了那些努力

懂球帝
2026-02-25 13:42:11
16強賽踢槍手還是拜仁?霍夫曼:我選阿森納,會更有意思一些

16強賽踢槍手還是拜仁?霍夫曼:我選阿森納,會更有意思一些

懂球帝
2026-02-25 16:02:12
一路走好!2026春節(jié)才過7天,已有5位明星離世,最年輕的才53歲

一路走好!2026春節(jié)才過7天,已有5位明星離世,最年輕的才53歲

卷史
2026-02-24 11:35:08
2026-02-25 20:56:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產(chǎn)業(yè)升級。
11254文章數(shù) 116980關注度
往期回顧 全部

科技要聞

“機器人只跳舞,沒什么用”

頭條要聞

近百萬元存款被送快遞小伙悄悄轉(zhuǎn)走 獨居老太毫無察覺

頭條要聞

近百萬元存款被送快遞小伙悄悄轉(zhuǎn)走 獨居老太毫無察覺

體育要聞

曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經(jīng)要聞

上海樓市放大招,地產(chǎn)預期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

教育
本地
房產(chǎn)
手機
公開課

教育要聞

教育部:學生每天體育2小時、課間15分鐘已在全國所有省份部署推開

本地新聞

津南好·四時總相宜

房產(chǎn)要聞

海南樓市春節(jié)熱銷地圖曝光!三亞、陵水又殺瘋了!

手機要聞

國產(chǎn)雙雄交卷了!華為Mate80銷量311萬、小米17系列超350萬

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版