網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Claude Opus 4.5來了：谷歌把Anthropic逼到了墻角

2025-11-25 13:08:43　來源: AI進(jìn)化論花生

北京舉報

分享至

上周，Google實(shí)在是太猛了，拳打OpenAI，腳踢Anthropic。Gemini 3 Pro模型在編程、數(shù)學(xué)、推理等能力上都達(dá)到了當(dāng)之無愧的SOTA級別。

被逼到墻角之后，就看誰先有能力掀桌坐不住了。

于是，就在今天，Anthropic發(fā)布了Claude Opus 4.5。

Opus 4.5的核心還是聚焦在編程能力，可以說很炸裂：SWE-bench Verified達(dá)到80.9%，首次突破80%，超越Gemini 3 Pro的76.2%。

以及，很少見的是，他們甚至降價了！價格從之前的貴得離譜的$15/$75直接降到$5/$25 per million tokens，直降66%??！

Opus 4.5的發(fā)布，說明Anthropic是真的急了——或者說，終于認(rèn)真了。

Opus 4.5到底有多強(qiáng)？

先說benchmark數(shù)據(jù)。

SWE-bench Verified：80.9%

這是業(yè)界公認(rèn)的編程能力測試標(biāo)準(zhǔn)。Opus 4.5是第一個突破80%的模型。

對比一下：

- Gemini 3 Pro：76.2%

- Claude Sonnet 4.5：77.2%

- GPT-5.1：76.3%/77.9%

80.9%是什么概念？Anthropic內(nèi)部拿性能工程師的面試題測試，Opus 4.5的得分超過了所有人類候選人。

Terminal-bench 2.0：59.3%

這個測試主要看模型在終端環(huán)境下的編程能力。Opus 4.5比Gemini 3 Pro高了5個百分點(diǎn)（54.2%），比自家的Sonnet 4.5高了近10個百分點(diǎn)（50.0%）。

這個差距說明一個事實(shí)：Claude在真實(shí)開發(fā)環(huán)境下，就是比其他模型強(qiáng)。

GPQA Diamond：87.0%

這是研究生級別的推理測試，涵蓋物理、化學(xué)、生物。Opus 4.5在這個測試上落后于Gemini 3 Pro（91.9%），但87%的成績也不差。

總結(jié)一下：編程能力世界第一，推理能力也不弱。

價格策略的巨大轉(zhuǎn)變

Opus 4.5最讓人意外的，是在性能提升的同時，價格還暴降了。

新定價：

- 輸入：$5 / million tokens

- 輸出：$25 / million tokens

Anthropic的官方說法是："making Opus-level capabilities accessible to even more users, teams, and enterprises"（讓更多用戶、團(tuán)隊(duì)和企業(yè)能用上Opus級別的能力）。

邏輯很明顯：Anthropic需要更多人用Opus。

之前Opus的定位是"高端用戶"，但高端市場就那么大?，F(xiàn)在降價，是要搶占"中端市場"——那些之前用Sonnet，但其實(shí)需要更強(qiáng)能力的開發(fā)者。

不到一周，正面交鋒

11月18日，Google發(fā)布Gemini 3 Pro。

11月24日，Anthropic發(fā)布Claude Opus 4.5。

不到一周，兩個頂級模型連續(xù)發(fā)布。

這不是巧合。

Gemini 3 Pro發(fā)布時，各種benchmark數(shù)據(jù)都很炸裂，尤其是GPQA Diamond的91.9%，直接刷新了推理能力的記錄。當(dāng)時AI圈的共識是：Google這次真的起來了。

Anthropic當(dāng)然不會讓Google獨(dú)占風(fēng)頭。

Opus 4.5的發(fā)布時機(jī)，明顯是沖著Gemini 3來的。而且，Anthropic選擇的戰(zhàn)場很聰明：不和你比推理，和你比編程。

Gemini 3 Pro在推理上確實(shí)強(qiáng)（91.9% vs 87.0%），但在編程上，Claude Opus 4.5領(lǐng)先了近5個百分點(diǎn)（80.9% vs 76.2%）。

更關(guān)鍵的是，編程能力是開發(fā)者最關(guān)心的指標(biāo)。推理能力再強(qiáng)，如果寫不出好代碼，開發(fā)者也不會買單。

這就是Anthropic的策略：在自己最擅長的領(lǐng)域，做到絕對領(lǐng)先。

為什么Anthropic能在編程上這么強(qiáng)？

之前我在測試Claude Code時，有個很深的感受：

Claude Code好用的邏輯，不是因?yàn)樗墙K端工具，而是因?yàn)锳nthropic有模型成本和模型認(rèn)知的優(yōu)勢。

他們可以更無所畏懼地投喂代碼上下文燒token，能知道如何擠壓模型Agentic的能力實(shí)現(xiàn)更長步驟的推理，可以用agentic search而非RAG的方式處理上下文。

這些優(yōu)勢，說白了就一個原因：Anthropic從一開始就是奔著編程和Agent去優(yōu)化模型的。

我之前評價Claude 4時說：最強(qiáng)編程模型 + 最強(qiáng)Agent基建。

Anthropic對模型的所有優(yōu)化，都是奔著To B做AI coding和讓開發(fā)者建agent而去的。他們主要做了這幾個方面的優(yōu)化：

1. 擴(kuò)展思維與工具使用：允許模型在思考和使用工具之間來回切換，形成"思考-執(zhí)行-再思考"的循環(huán)

2. 改進(jìn)的記憶能力：可以創(chuàng)建和維護(hù)"記憶文件"來存儲關(guān)鍵信息，支持長時間任務(wù)

3. 更強(qiáng)的指令遵循能力：可以處理超過10000個token的系統(tǒng)提示

4. 減少獎勵黑客行為：模型為了達(dá)到目標(biāo)而走捷徑的傾向降低了80%以上

這些優(yōu)化，放在Opus 4.5上，效果更明顯了。

相比之下，Gemini 3的優(yōu)勢在于多模態(tài)。如果你的任務(wù)涉及視覺、圖片、視頻，Gemini 3會更強(qiáng)。但如果是純編程任務(wù)，Claude Opus 4.5幾乎沒有對手。

產(chǎn)品層面的配合

Opus 4.5的發(fā)布，不是孤立的。

Anthropic同時推出了幾個重要的產(chǎn)品更新：

1. Claude Code進(jìn)入桌面端：支持并行運(yùn)行多個本地和遠(yuǎn)程會話，長對話自動總結(jié)早期上下文

2. Claude for Chrome：擴(kuò)展至所有Max用戶

3. Claude for Excel：面向所有Max、Team和Enterprise用戶正式發(fā)布

這些產(chǎn)品更新，都是在強(qiáng)化一個信號：Claude不只是一個聊天模型，它是一個生產(chǎn)力工具。

尤其是Claude Code。

我之前說過，從工具層面來說，從Cursor這種IDE圖形界面退回到Claude Code這種終端命令行工具，其實(shí)是個挺大的退步。但Claude Code之所以還是比Cursor好用，就是因?yàn)樗澈蟮哪Ｐ湍芰μ珡?qiáng)了。

現(xiàn)在Opus 4.5出來了，Claude Code的優(yōu)勢會更明顯。

而且，Anthropic還宣布了和Microsoft、NVIDIA的戰(zhàn)略合作：Claude擴(kuò)展至Azure平臺，由NVIDIA提供算力支持。這意味著，Claude的To B布局在快速推進(jìn)。

開發(fā)者該怎么選？

最后說點(diǎn)實(shí)際的：如果你是開發(fā)者，該選Claude還是Gemini？

我的建議是：

選Claude Opus 4.5，如果你的任務(wù)主要是：

純代碼編寫和調(diào)試
后端邏輯和復(fù)雜推理
長時間的編程任務(wù)（需要記憶和上下文管理）

選Gemini 3 Pro，如果你的任務(wù)主要是：

多模態(tài)任務(wù)（涉及圖片、視頻、視覺）
前端、UI設(shè)計
需要超強(qiáng)推理能力的研究級任務(wù) 如果預(yù)算夠，最好的辦法是：兩個都用。

Claude處理編程，Gemini處理多模態(tài)。各取所長。

我前兩天剛剛同時用Claude Code+Gemini 3 Pro，開發(fā)了一個有儀式感地記錄日常生活和靈感碎片的app「小票筆記 - Thermal」，在開發(fā)這款app時，我的工作步驟和體驗(yàn)是：

1）Gemini 3在生成和復(fù)刻前端效果上明顯表現(xiàn)更優(yōu)

2）實(shí)際的開發(fā)和解決bug的過程，Claude Code還是比Cursor + Gemini 3 Pro，或者使用Antigravity的體驗(yàn)，因?yàn)殚L程的編程能力還需要工具更好的工程化能力，以及模型更底層的編程能力。

最后

Opus 4.5的發(fā)布，不是孤立事件。

它是Anthropic在編程和Agent這條路上的又一次發(fā)力，是對Gemini 3的正面回應(yīng)，也是對自己商業(yè)化策略的調(diào)整。

Anthropic這么跳，說明AI大模型的競爭進(jìn)入白熱化了。

對開發(fā)者來說，這是好事。模型越來越強(qiáng)，價格越來越低，工具越來越好用。

接下來，看OpenAI怎么接招。

當(dāng)然，如果你因?yàn)橛嗛喕蛘呔W(wǎng)絡(luò)問題不方便使用原版Claude Code的話，也歡迎試試我前段時間開發(fā)的GLM Code：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

寧波一旅游團(tuán)所乘郵輪滯留迪拜，船上有約200名中國游客

上觀新聞 2026-03-02 16:05:11
1530 跟貼 1530
上海多個售樓處人氣爆棚，豪宅項(xiàng)目認(rèn)購翻倍增長

究竟視頻 2026-03-03 07:31:32
17 跟貼 17

福州海天盛宴mini自助火鍋宣布暫停營業(yè)

海峽網(wǎng) 2026-03-03 07:25:00
26 跟貼 26

男子爬到何仙姑雕像頭頂拍照，山東蓬萊閣景區(qū)回應(yīng)：“八仙過?！笔駥儆诠矃^(qū)域無人值守，后續(xù)會加強(qiáng)巡邏

三湘都市報 2026-02-28 13:37:39
822 跟貼 822
剛下飛機(jī)行李就沒了！杭州姑娘花10多萬去南極旅游卻崩潰：衣物全靠借

環(huán)球網(wǎng)資訊 2026-03-03 08:53:57
6 跟貼 6

山東省濟(jì)南市政府黨組成員、副市長謝堃接受紀(jì)律審查和監(jiān)察調(diào)查

中央紀(jì)委國家監(jiān)委網(wǎng)站 2026-03-02 10:06:45
30 跟貼 30

歐洲天然氣價格漲幅擴(kuò)大至42%，創(chuàng)2022年3月以來最大漲幅

每日經(jīng)濟(jì)新聞 2026-03-02 20:22:09
467 跟貼 467
最新！油價調(diào)整通知

大象新聞 2026-03-03 00:50:03
234 跟貼 234

日經(jīng)225指數(shù)跌幅擴(kuò)大，現(xiàn)跌2.0%

每日經(jīng)濟(jì)新聞 2026-03-03 10:08:25
2 跟貼 2
正式開工！長張高速益陽段新增赫山服務(wù)區(qū)

益陽廣電 2026-03-03 10:42:36
4 跟貼 4
95后小伙贏得廣東首屆“拖鞋王爭霸賽”冠軍：曾穿著拖鞋徒步574公里回老家，全程用時28天

瀟湘晨報 2026-03-03 10:30:12
0 跟貼 0
鈞正平：暗戰(zhàn)無聲，每個人都有必要保持警惕

揚(yáng)子晚報 2026-03-03 07:07:53
48 跟貼 48
新學(xué)期多地中小學(xué)校推進(jìn)“午睡工程”

環(huán)球網(wǎng)資訊 2026-03-03 11:10:42
1 跟貼 1
50歲男子阿聯(lián)酋旅游失聯(lián)11天又逢戰(zhàn)亂，妻子急瘋：“他是窮游又不會外語”！目前阿聯(lián)酋少量航班已開始恢復(fù)

大象新聞 2026-03-03 10:47:10
0 跟貼 0
中消協(xié)發(fā)布春節(jié)消費(fèi)維權(quán)報告：9天收集信息超1400萬條，交通、景區(qū)投訴居首

北京商報 2026-03-03 11:52:04
0 跟貼 0
豫韻飄香莫斯科文明互鑒譜新篇——2026“歡樂春節(jié)·感知中原”活動在俄成功舉辦

中國日報網(wǎng) 2026-03-03 11:26:19
0 跟貼 0
河南店主在上海賣早餐被催開門！一天接到200多個陌生電話

大象新聞 2026-03-03 07:02:10
0 跟貼 0
河南姑娘曝光丈夫的過往，每月500元不是必須給的

九方魚論 2026-03-03 11:46:38
0 跟貼 0
“三桶油”再度全線漲停中國石化創(chuàng)近18年新高

財聯(lián)社 2026-03-03 11:31:25
0 跟貼 0

利馬有望復(fù)出戰(zhàn)紐卡！曼聯(lián)若贏球有望鎖定前五，卡里克或調(diào)整首發(fā)

快科技

2026-03-03 10:26:10

染發(fā)致癌是真的嗎？哈佛大學(xué)調(diào)查11萬人長達(dá)36年，結(jié)論終于出來了

AI進(jìn)化論花生

AI博主，AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者

148文章數(shù) 66關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數(shù)碼

旅游

健康

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

Claude Opus 4.5來了：谷歌把Anthropic逼到了墻角

手機(jī)AI在MWC上卷出了新高度

牛彈琴：多國對轟炸保持沉默 西班牙首相確實(shí)是條漢子

牛彈琴：多國對轟炸保持沉默 西班牙首相確實(shí)是條漢子

35輪后積分-7，他們遭遇史上最早的降級

謝娜霸氣護(hù)夫：喊話薛之謙給張杰道歉

霍爾木茲海峽近乎停擺 布油直逼80美元

長安汽車2月銷量151922輛 環(huán)比逆勢增長12.8%

態(tài)度原創(chuàng)

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？

美國中央司令部透露對伊朗動武全部武器裝備清單

牛彈琴：多國對轟炸保持沉默西班牙首相確實(shí)是條漢子

牛彈琴：多國對轟炸保持沉默西班牙首相確實(shí)是條漢子

35輪后積分-7，他們遭遇史上最早的降級

霍爾木茲海峽近乎停擺布油直逼80美元

長安汽車2月銷量151922輛環(huán)比逆勢增長12.8%

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？