国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

性能持平價(jià)格大降80%,Anthropic新模型殺瘋了

0
分享至



距離ClaudeOpus 4.6的發(fā)布僅過去12天,Anthropic就發(fā)布了新的中檔模型Claude Sonnet 4.6。

這次發(fā)布的核心不在于技術(shù)突破本身,而在于它以低得多的價(jià)格,達(dá)到了與競(jìng)品齊平的性能。。

Sonnet 4.6的定價(jià)保持在每百萬token輸入3美元、輸出15美元,與前代 Sonnet 4.5相同。

然而在多項(xiàng)基準(zhǔn)測(cè)試中,Sonnet 4.6接近甚至超越了價(jià)格高出五倍的Opus 4.6。

Anthropic表示,便宜不一定就沒有好貨。

當(dāng)然了,在一些關(guān)鍵的測(cè)試?yán)?,仍然還是Opus 4.6領(lǐng)先。

具體表現(xiàn)如何呢?

01

Sonnet 4.6究竟有多驚艷?

在SWE-bench Verified這個(gè)衡量真實(shí)軟件編碼能力的基準(zhǔn)測(cè)試中,Sonnet 4.6得分79.6%,幾乎追平Opus 4.6的 80.8%,同時(shí)略微領(lǐng)先于OpenAI的GPT-5.2。

在代理式金融分析任務(wù)中,Sonnet 4.6以63.3%的成績領(lǐng)先所有競(jìng)爭對(duì)手,包括Opus 4.6的60.1%和GPT-5.2的59.0%。

在辦公任務(wù)的GDPval-AA Elo評(píng)分中,Sonnet 4.6達(dá)到 1633 分,超過Opus 4.6的1606分和GPT-5.2的1462分。

過去需要旗艦?zāi)P筒拍芡瓿傻娜蝿?wù),現(xiàn)在用Sonnet 4.6這種中檔模型就能做到。

對(duì)于每天需要處理數(shù)百萬token的企業(yè)來說,這意味著可以大幅節(jié)省成本。

Opus 4.6仍然在某些高復(fù)雜度領(lǐng)域保持優(yōu)勢(shì)。

在終端編碼任務(wù)Terminal-Bench 2.0中,Opus 4.6得分65.4%,Sonnet 4.6為59.1%。

在代理式搜索BrowseComp中,Opus 4.6達(dá)到84.0%, Sonnet 4.6為74.7%。

在新穎問題解決測(cè)試ARC-AGI-2中,Opus 4.6得分68.8%,Sonnet 4.6為58.3%。



這些差距表明,對(duì)于前沿研究和需要頂級(jí)準(zhǔn)確度的場(chǎng)景,Opus 4.6仍是最好的模型。但對(duì)于大多數(shù)生產(chǎn)環(huán)境,這個(gè)差距已經(jīng)縮小到可以接受的程度。

Sonnet 4.6最引人注目的進(jìn)步出現(xiàn)在計(jì)算機(jī)使用能力上。在OSWorld-Verified基準(zhǔn)測(cè)試中,它得分72.5%,高于Sonnet 4.5的61.4%,遠(yuǎn)超GPT-5.2的38.2%。

計(jì)算機(jī)使用能力指的是AI像人類一樣操作計(jì)算機(jī)的能力,通過鼠標(biāo)點(diǎn)擊、鍵盤輸入來與軟件交互,而不依賴API接口。

前一陣引發(fā)熱議的豆包手機(jī)助手,其底層的UI-TARS模型,就是在OSWorld基準(zhǔn)上完成了權(quán)威測(cè)試,取得了47.5%的成績。

豆包手機(jī)助手的表現(xiàn)是非常出色的,已經(jīng)能夠完成除了支付以外所有的操作。

那么以此作為判斷依據(jù),進(jìn)而不難推測(cè),Sonnet 4.6的實(shí)際表現(xiàn)將會(huì)非常驚艷。

這項(xiàng)能力之所以重要,是因?yàn)樗蜷_了最廣泛的企業(yè)應(yīng)用場(chǎng)景。

一個(gè)能夠直接看屏幕并與之交互的模型,可以在不構(gòu)建定制連接器的情況下,自動(dòng)操作將所有可交互的系統(tǒng)。

Anthropic在發(fā)布時(shí)提到,早期用戶已經(jīng)看到接近人類水平的表現(xiàn),能夠完成復(fù)雜的電子表格任務(wù)和多步驟網(wǎng)頁表單。

保險(xiǎn)科技公司Pace的CEO賈米·考夫(Jamie Cuffe)表示,Sonnet 4.6在他們復(fù)雜的保險(xiǎn)計(jì)算機(jī)使用基準(zhǔn)測(cè)試中達(dá)到94%的成績,是所有測(cè)試過的Claude模型中最高的。

他說:“它以我們之前未見過的方式推理失敗原因并自我糾正?!?/p>

惡意行為者可能在網(wǎng)頁中隱藏指令來劫持模型,這被稱為提示注入攻擊。

Anthropic在公告中表示,Sonnet 4.6在抵御此類攻擊方面比Sonnet 4.5有重大改進(jìn)。

對(duì)于部署需要瀏覽網(wǎng)頁和與外部系統(tǒng)交互的代理的企業(yè)來說,這種安全防護(hù)是必須的。

02

價(jià)格只要五分之一

那么Sonnet 4.6到底有多便宜呢?

外媒報(bào)道,一些早期的Sonnet 4.6用戶表示,原本企業(yè)需要花五倍的錢才能買到的能力,現(xiàn)在用Sonnet 4.6就能獲得差不多的效果。

這意味著運(yùn)營成本可能直接降到原來的五分之一,而工作質(zhì)量幾乎不受影響。

數(shù)據(jù)分析平臺(tái)Hex Technologies的CTO,同時(shí)也是Anthropic聯(lián)合創(chuàng)始人、首席產(chǎn)品官的凱特琳-科爾格羅夫 (Caitlin Colgrove)說,公司正在將大部分流量遷移到Sonnet 4.6。

她指出通過自適應(yīng)思考和高努力模式(high effort mode),“除了最困難的分析任務(wù)外,我們?cè)谒腥蝿?wù)上都看到了Opus級(jí)別的性能,且配置更高效靈活。以Sonnet的價(jià)格,這將降低工作成本?!?/p>

云存儲(chǔ)公司Box的CTO本·喀什(Ben Kus)表示,Sonnet 4.6在真實(shí)企業(yè)文檔的重度推理問答中,比Sonnet 4.5的表現(xiàn)提高了15個(gè)百分點(diǎn)。

Sonnet 4.6配備了100萬token的超長上下文窗口,以容納整個(gè)代碼庫、法律文件或數(shù)十篇研究論文。

Anthropic聲稱模型能夠在整個(gè)上下文中有效推理,并通過Vending-Bench Arena這個(gè)基準(zhǔn)測(cè)試來表現(xiàn)出Sonnet 4.6的有效推理。

Vending-Bench Arena測(cè)試的是模型運(yùn)營模擬企業(yè)的能力,不同AI模型相互競(jìng)爭以獲得最大利潤。



在沒有人類提示的情況下,Sonnet 4.6發(fā)展出一種新穎策略:在前十個(gè)模擬月份中大量投資產(chǎn)能,支出遠(yuǎn)超競(jìng)爭對(duì)手,然后在最后階段急轉(zhuǎn)彎專注于盈利能力。

模型在365天模擬結(jié)束時(shí)的余額約為5700美元,而Sonnet 4.5約為2100美元。

03

Anthropic開啟印度市場(chǎng)

Anthropic正處于上市前最關(guān)鍵的階段,因此他們不止要發(fā)布模型,還要借著模型去擴(kuò)張業(yè)務(wù)。

在Sonnet 4.6發(fā)布當(dāng)天,印度IT巨頭Infosys宣布與Anthropic合作,構(gòu)建企業(yè)級(jí)agent,將Claude模型集成到Infosys的Topaz AI平臺(tái)中,服務(wù)于銀行、電信和制造業(yè)。

與此同時(shí),Anthropic也在印度的班加羅爾開設(shè)了首個(gè)印度辦事處,印度現(xiàn)在占全球Claude使用量的約6%,僅次于美國。

Anthropic的進(jìn)步也導(dǎo)致了最近幾天軟件股的大規(guī)模拋售,就連業(yè)績大漲的微軟,也經(jīng)歷了股價(jià)暴跌。

投資者越來越擔(dān)心AI對(duì)這些業(yè)務(wù)的潛在顛覆,Sonnet 4.6可能會(huì)加劇這種不安的氛圍。

也不知道是不是Anthropic飄了,他們還將其免費(fèi)層級(jí)默認(rèn)升級(jí)到了Sonnet 4.6,開發(fā)者可以通過Claude API直接調(diào)用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“買得起,用不起”的8種電器,誰買誰難受,千萬不要再亂花錢了

“買得起,用不起”的8種電器,誰買誰難受,千萬不要再亂花錢了

優(yōu)活Life
2026-02-24 23:00:03
《鏢人》逆跌,4人零差評(píng),4人升咖,2人翻紅,只有他被罵慘!

《鏢人》逆跌,4人零差評(píng),4人升咖,2人翻紅,只有他被罵慘!

白日追夢(mèng)人
2026-02-24 04:04:34
村里最后餓死的那個(gè)人,只有九歲

村里最后餓死的那個(gè)人,只有九歲

霹靂炮
2026-02-22 20:24:41
濟(jì)南領(lǐng)秀城,房價(jià)從2015年9200漲到39600,如今回落樓市真實(shí)價(jià)位

濟(jì)南領(lǐng)秀城,房價(jià)從2015年9200漲到39600,如今回落樓市真實(shí)價(jià)位

阿離家居
2026-02-25 11:34:16
為什么財(cái)產(chǎn)都是留給兒子?網(wǎng)友的回復(fù)引起萬千共鳴!

為什么財(cái)產(chǎn)都是留給兒子?網(wǎng)友的回復(fù)引起萬千共鳴!

阿凱銷售場(chǎng)
2026-02-25 14:56:33
看完三亞春節(jié)賬單,我徹底沉默:普通家庭真不敢去

看完三亞春節(jié)賬單,我徹底沉默:普通家庭真不敢去

荷蘭豆愛健康
2026-02-24 16:25:00
“緊湊哥”向皇馬中衛(wèi)下通牒:3天內(nèi)必須道歉!中國人不是好惹的

“緊湊哥”向皇馬中衛(wèi)下通牒:3天內(nèi)必須道歉!中國人不是好惹的

我愛英超
2026-02-24 21:52:04
Stein:獨(dú)行俠將讓米德爾頓自己決定買斷或留隊(duì)

Stein:獨(dú)行俠將讓米德爾頓自己決定買斷或留隊(duì)

北青網(wǎng)-北京青年報(bào)
2026-02-25 08:40:02
從45.4億跌至12億,我感慨:張藝謀這塊金字招牌算是砸了!

從45.4億跌至12億,我感慨:張藝謀這塊金字招牌算是砸了!

糊咖娛樂
2026-02-25 14:42:55
孫立人遺骸將遷回大陸,國臺(tái)辦未作表態(tài),其中究竟有何隱情?

孫立人遺骸將遷回大陸,國臺(tái)辦未作表態(tài),其中究竟有何隱情?

文史明鑒
2026-02-15 10:45:17
不延期!2月28日前必須完成!稅局已明確!

不延期!2月28日前必須完成!稅局已明確!

祥順財(cái)稅俱樂部
2026-02-25 09:11:06
一年流出視頻294部的小寶到底探過多少朵花?

一年流出視頻294部的小寶到底探過多少朵花?

挪威森林
2026-01-25 17:18:42
中俄朝結(jié)盟引美48小時(shí)兩警告,石破茂批高市毀日本

中俄朝結(jié)盟引美48小時(shí)兩警告,石破茂批高市毀日本

阿淫記錄生活日常
2026-02-25 13:59:23
春晚“十二月花神”驚艷全網(wǎng)!大合照排位,王楚然美貌殺出重圍!

春晚“十二月花神”驚艷全網(wǎng)!大合照排位,王楚然美貌殺出重圍!

誰將笑到最后
2026-02-17 03:29:06
預(yù)測(cè)升到13億!《鏢人》逆襲續(xù)訂第二部,吳京還有3部大片待上映

預(yù)測(cè)升到13億!《鏢人》逆襲續(xù)訂第二部,吳京還有3部大片待上映

得得電影
2026-02-24 17:11:06
旅客稱檢票進(jìn)站后列車已開走 車站已道歉并報(bào)銷相關(guān)費(fèi)用

旅客稱檢票進(jìn)站后列車已開走 車站已道歉并報(bào)銷相關(guān)費(fèi)用

閃電新聞
2026-02-24 14:17:15
歐冠綜述:國米出局+遭挪超黑馬雙殺 馬競(jìng)藥廠過關(guān) 英超6隊(duì)進(jìn)16強(qiáng)

歐冠綜述:國米出局+遭挪超黑馬雙殺 馬競(jìng)藥廠過關(guān) 英超6隊(duì)進(jìn)16強(qiáng)

我愛英超
2026-02-25 06:02:07
100%進(jìn)球成功率!曾在成都蟄伏的常冰玉,打出“斯諾克史上最佳表現(xiàn)”

100%進(jìn)球成功率!曾在成都蟄伏的常冰玉,打出“斯諾克史上最佳表現(xiàn)”

紅星新聞
2026-02-25 14:11:36
48小時(shí)內(nèi)特朗普見識(shí)了:賴清德的奸,日本的癲,大陸的絕

48小時(shí)內(nèi)特朗普見識(shí)了:賴清德的奸,日本的癲,大陸的絕

忠于法紀(jì)
2026-02-25 14:15:51
中央紀(jì)委國家監(jiān)委:53家中管企業(yè)派駐紀(jì)檢監(jiān)察組均已全面履職

中央紀(jì)委國家監(jiān)委:53家中管企業(yè)派駐紀(jì)檢監(jiān)察組均已全面履職

澎湃新聞
2026-02-24 20:50:09
2026-02-25 15:44:49
字母榜 incentive-icons
字母榜
讓未來不止于大。
2246文章數(shù) 8043關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財(cái)經(jīng)要聞

GEO亂象:誰為AI營銷的泡沫買單?

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

旅游
數(shù)碼
親子
公開課
軍事航空

旅游要聞

櫻桃花開了!來烏當(dāng)赴一場(chǎng)春暖花開之約

數(shù)碼要聞

當(dāng)耳機(jī)帶了AMOLED屏 當(dāng)貝Air1深度評(píng)測(cè):是時(shí)尚耳飾 更是地表最強(qiáng) AI 耳機(jī)

親子要聞

拇指發(fā)育不良是懷孕吃了雞爪?無理取鬧,無中生有,無稽之談

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進(jìn)入關(guān)懷版