国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Opus 4.5來了:谷歌把Anthropic逼到了墻角

0
分享至

上周,Google實(shí)在是太猛了,拳打OpenAI,腳踢Anthropic。Gemini 3 Pro模型在編程、數(shù)學(xué)、推理等能力上都達(dá)到了當(dāng)之無愧的SOTA級別。


被逼到墻角之后,就看誰先有能力掀桌坐不住了。

于是,就在今天,Anthropic發(fā)布了Claude Opus 4.5。


Opus 4.5的核心還是聚焦在編程能力,可以說很炸裂:SWE-bench Verified達(dá)到80.9%,首次突破80%,超越Gemini 3 Pro的76.2%。


以及,很少見的是,他們甚至降價了!價格從之前的貴得離譜的$15/$75直接降到$5/$25 per million tokens,直降66%??!

Opus 4.5的發(fā)布,說明Anthropic是真的急了——或者說,終于認(rèn)真了。

Opus 4.5到底有多強(qiáng)?

先說benchmark數(shù)據(jù)。

SWE-bench Verified:80.9%

這是業(yè)界公認(rèn)的編程能力測試標(biāo)準(zhǔn)。Opus 4.5是第一個突破80%的模型。

對比一下:

- Gemini 3 Pro:76.2%

- Claude Sonnet 4.5:77.2%

- GPT-5.1:76.3%/77.9%

80.9%是什么概念?Anthropic內(nèi)部拿性能工程師的面試題測試,Opus 4.5的得分超過了所有人類候選人。


Terminal-bench 2.0:59.3%

這個測試主要看模型在終端環(huán)境下的編程能力。Opus 4.5比Gemini 3 Pro高了5個百分點(diǎn)(54.2%),比自家的Sonnet 4.5高了近10個百分點(diǎn)(50.0%)。

這個差距說明一個事實(shí):Claude在真實(shí)開發(fā)環(huán)境下,就是比其他模型強(qiáng)。

GPQA Diamond:87.0%

這是研究生級別的推理測試,涵蓋物理、化學(xué)、生物。Opus 4.5在這個測試上落后于Gemini 3 Pro(91.9%),但87%的成績也不差。

總結(jié)一下:編程能力世界第一,推理能力也不弱。

價格策略的巨大轉(zhuǎn)變

Opus 4.5最讓人意外的,是在性能提升的同時,價格還暴降了。

新定價:

- 輸入:$5 / million tokens

- 輸出:$25 / million tokens

Anthropic的官方說法是:"making Opus-level capabilities accessible to even more users, teams, and enterprises"(讓更多用戶、團(tuán)隊(duì)和企業(yè)能用上Opus級別的能力)。

邏輯很明顯:Anthropic需要更多人用Opus。

之前Opus的定位是"高端用戶",但高端市場就那么大?,F(xiàn)在降價,是要搶占"中端市場"——那些之前用Sonnet,但其實(shí)需要更強(qiáng)能力的開發(fā)者。

不到一周,正面交鋒

11月18日,Google發(fā)布Gemini 3 Pro。

11月24日,Anthropic發(fā)布Claude Opus 4.5。

不到一周,兩個頂級模型連續(xù)發(fā)布。

這不是巧合。

Gemini 3 Pro發(fā)布時,各種benchmark數(shù)據(jù)都很炸裂,尤其是GPQA Diamond的91.9%,直接刷新了推理能力的記錄。當(dāng)時AI圈的共識是:Google這次真的起來了。


Anthropic當(dāng)然不會讓Google獨(dú)占風(fēng)頭。

Opus 4.5的發(fā)布時機(jī),明顯是沖著Gemini 3來的。而且,Anthropic選擇的戰(zhàn)場很聰明:不和你比推理,和你比編程。

Gemini 3 Pro在推理上確實(shí)強(qiáng)(91.9% vs 87.0%),但在編程上,Claude Opus 4.5領(lǐng)先了近5個百分點(diǎn)(80.9% vs 76.2%)。

更關(guān)鍵的是,編程能力是開發(fā)者最關(guān)心的指標(biāo)。推理能力再強(qiáng),如果寫不出好代碼,開發(fā)者也不會買單。

這就是Anthropic的策略:在自己最擅長的領(lǐng)域,做到絕對領(lǐng)先。

為什么Anthropic能在編程上這么強(qiáng)?

之前我在測試Claude Code時,有個很深的感受:

Claude Code好用的邏輯,不是因?yàn)樗墙K端工具,而是因?yàn)锳nthropic有模型成本和模型認(rèn)知的優(yōu)勢。

他們可以更無所畏懼地投喂代碼上下文燒token,能知道如何擠壓模型Agentic的能力實(shí)現(xiàn)更長步驟的推理,可以用agentic search而非RAG的方式處理上下文。

這些優(yōu)勢,說白了就一個原因:Anthropic從一開始就是奔著編程和Agent去優(yōu)化模型的。

我之前評價Claude 4時說:最強(qiáng)編程模型 + 最強(qiáng)Agent基建。

Anthropic對模型的所有優(yōu)化,都是奔著To B做AI coding和讓開發(fā)者建agent而去的。他們主要做了這幾個方面的優(yōu)化:

1. 擴(kuò)展思維與工具使用:允許模型在思考和使用工具之間來回切換,形成"思考-執(zhí)行-再思考"的循環(huán)

2. 改進(jìn)的記憶能力:可以創(chuàng)建和維護(hù)"記憶文件"來存儲關(guān)鍵信息,支持長時間任務(wù)

3. 更強(qiáng)的指令遵循能力:可以處理超過10000個token的系統(tǒng)提示

4. 減少獎勵黑客行為:模型為了達(dá)到目標(biāo)而走捷徑的傾向降低了80%以上

這些優(yōu)化,放在Opus 4.5上,效果更明顯了。

相比之下,Gemini 3的優(yōu)勢在于多模態(tài)。如果你的任務(wù)涉及視覺、圖片、視頻,Gemini 3會更強(qiáng)。但如果是純編程任務(wù),Claude Opus 4.5幾乎沒有對手。

產(chǎn)品層面的配合

Opus 4.5的發(fā)布,不是孤立的。

Anthropic同時推出了幾個重要的產(chǎn)品更新:

1. Claude Code進(jìn)入桌面端:支持并行運(yùn)行多個本地和遠(yuǎn)程會話,長對話自動總結(jié)早期上下文

2. Claude for Chrome:擴(kuò)展至所有Max用戶

3. Claude for Excel:面向所有Max、Team和Enterprise用戶正式發(fā)布

這些產(chǎn)品更新,都是在強(qiáng)化一個信號:Claude不只是一個聊天模型,它是一個生產(chǎn)力工具。

尤其是Claude Code。

我之前說過,從工具層面來說,從Cursor這種IDE圖形界面退回到Claude Code這種終端命令行工具,其實(shí)是個挺大的退步。但Claude Code之所以還是比Cursor好用,就是因?yàn)樗澈蟮哪P湍芰μ珡?qiáng)了。

現(xiàn)在Opus 4.5出來了,Claude Code的優(yōu)勢會更明顯。

而且,Anthropic還宣布了和Microsoft、NVIDIA的戰(zhàn)略合作:Claude擴(kuò)展至Azure平臺,由NVIDIA提供算力支持。這意味著,Claude的To B布局在快速推進(jìn)。

開發(fā)者該怎么選?

最后說點(diǎn)實(shí)際的:如果你是開發(fā)者,該選Claude還是Gemini?

我的建議是:

選Claude Opus 4.5,如果你的任務(wù)主要是:

  • 純代碼編寫和調(diào)試

  • 后端邏輯和復(fù)雜推理

  • 長時間的編程任務(wù)(需要記憶和上下文管理)

選Gemini 3 Pro,如果你的任務(wù)主要是:

  • 多模態(tài)任務(wù)(涉及圖片、視頻、視覺)

  • 前端、UI設(shè)計

  • 需要超強(qiáng)推理能力的研究級任務(wù) 如果預(yù)算夠,最好的辦法是:兩個都用。

Claude處理編程,Gemini處理多模態(tài)。各取所長。

我前兩天剛剛同時用Claude Code+Gemini 3 Pro,開發(fā)了一個有儀式感地記錄日常生活和靈感碎片的app「小票筆記 - Thermal」,在開發(fā)這款app時,我的工作步驟和體驗(yàn)是:

1)Gemini 3在生成和復(fù)刻前端效果上明顯表現(xiàn)更優(yōu)

2)實(shí)際的開發(fā)和解決bug的過程,Claude Code還是比Cursor + Gemini 3 Pro,或者使用Antigravity的體驗(yàn),因?yàn)殚L程的編程能力還需要工具更好的工程化能力,以及模型更底層的編程能力。




最后

Opus 4.5的發(fā)布,不是孤立事件。

它是Anthropic在編程和Agent這條路上的又一次發(fā)力,是對Gemini 3的正面回應(yīng),也是對自己商業(yè)化策略的調(diào)整。

Anthropic這么跳,說明AI大模型的競爭進(jìn)入白熱化了。

對開發(fā)者來說,這是好事。模型越來越強(qiáng),價格越來越低,工具越來越好用。

接下來,看OpenAI怎么接招。

當(dāng)然,如果你因?yàn)橛嗛喕蛘呔W(wǎng)絡(luò)問題不方便使用原版Claude Code的話,也歡迎試試我前段時間開發(fā)的GLM Code:

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
利馬有望復(fù)出戰(zhàn)紐卡!曼聯(lián)若贏球有望鎖定前五,卡里克或調(diào)整首發(fā)

利馬有望復(fù)出戰(zhàn)紐卡!曼聯(lián)若贏球有望鎖定前五,卡里克或調(diào)整首發(fā)

羅米的曼聯(lián)博客
2026-03-03 11:47:15
破解霹靂-15后,印度空空導(dǎo)彈射程超過160千米,正積極向多國推銷

破解霹靂-15后,印度空空導(dǎo)彈射程超過160千米,正積極向多國推銷

利刃號
2026-03-02 16:28:51
真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

老吳教育課堂
2026-03-03 07:52:30
老媽要到迪拜旅游遭女兒勸阻!旅行社:目前暫無大連旅客滯留中東

老媽要到迪拜旅游遭女兒勸阻!旅行社:目前暫無大連旅客滯留中東

半島晨報
2026-03-02 17:16:12
蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

蘇聯(lián)“人猿雜交”實(shí)驗(yàn):5名女孩與11只猩猩參與,結(jié)局如何?

談史論天地
2026-02-28 13:35:18
A股:緊急提醒2.5億股民!從今天周二起,歷史或許總是驚人的相似!

A股:緊急提醒2.5億股民!從今天周二起,歷史或許總是驚人的相似!

股市皆大事
2026-03-03 09:10:04
幫助中國人撤離的伊朗民眾:我們走不了的,希望你可以到安全的地方

幫助中國人撤離的伊朗民眾:我們走不了的,希望你可以到安全的地方

南方都市報
2026-03-02 18:51:01
為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

帶你領(lǐng)略快樂真諦
2026-03-03 03:40:28
3月30日全國執(zhí)行新殯葬制度!死不起、葬不起的時代終于要結(jié)束了

3月30日全國執(zhí)行新殯葬制度!死不起、葬不起的時代終于要結(jié)束了

南權(quán)先生
2026-03-02 15:29:15
78:72爆冷!世預(yù)賽B組大亂,中國男籃自挖苦坑,日本隊(duì)坐收漁利

78:72爆冷!世預(yù)賽B組大亂,中國男籃自挖苦坑,日本隊(duì)坐收漁利

行舟問茶
2026-03-02 12:06:53
香港的士提供掃碼支付4月起執(zhí)行,違者最高罰5000港元及監(jiān)禁6個月

香港的士提供掃碼支付4月起執(zhí)行,違者最高罰5000港元及監(jiān)禁6個月

IT之家
2026-03-03 09:58:34
紅軍長征,項(xiàng)英為何喜形于色地留下,陳毅:他的想法讓人哭笑不得

紅軍長征,項(xiàng)英為何喜形于色地留下,陳毅:他的想法讓人哭笑不得

秀心文雅
2026-03-03 09:59:27
8小時撤離德黑蘭,沈陽男子講述離開伊朗細(xì)節(jié):當(dāng)?shù)貙χ袊擞押茫?次盤問都順利放行

8小時撤離德黑蘭,沈陽男子講述離開伊朗細(xì)節(jié):當(dāng)?shù)貙χ袊擞押茫?次盤問都順利放行

瀟湘晨報
2026-03-02 19:49:19
歸化誰最適合男籃?布朗要價高+時間緊 郭士強(qiáng)召回此人才有大用

歸化誰最適合男籃?布朗要價高+時間緊 郭士強(qiáng)召回此人才有大用

大嘴爵爺侃球
2026-03-03 09:46:52
我每月補(bǔ)貼兒子8000,過年意外看到兒媳的iPad,我取消了定期轉(zhuǎn)賬

我每月補(bǔ)貼兒子8000,過年意外看到兒媳的iPad,我取消了定期轉(zhuǎn)賬

堇色夜行
2025-06-18 19:18:33
長期吸煙卻又堅持喝茶的人,后來都怎么樣了?醫(yī)生說出實(shí)話

長期吸煙卻又堅持喝茶的人,后來都怎么樣了?醫(yī)生說出實(shí)話

展望云霄
2026-03-03 10:13:53
比亞迪元Plus在以色列貼身挨了一發(fā)導(dǎo)彈:生生扛下 護(hù)住車?yán)锶?>
    </a>
        <h3>
      <a href=快科技
2026-03-03 10:26:10
染發(fā)致癌是真的嗎?哈佛大學(xué)調(diào)查11萬人長達(dá)36年,結(jié)論終于出來了

染發(fā)致癌是真的嗎?哈佛大學(xué)調(diào)查11萬人長達(dá)36年,結(jié)論終于出來了

讀懂世界歷史
2026-03-03 09:44:35
最新:烏克蘭突破紅軍村方向防線!曝俄軍被迫撤退

最新:烏克蘭突破紅軍村方向防線!曝俄軍被迫撤退

項(xiàng)鵬飛
2026-03-02 21:32:29
第13波打擊,伊朗關(guān)閉霍爾木茲海峽,第五國參戰(zhàn),特朗普拒絕收兵

第13波打擊,伊朗關(guān)閉霍爾木茲海峽,第五國參戰(zhàn),特朗普拒絕收兵

東極妙嚴(yán)
2026-03-03 11:07:28
2026-03-03 12:12:49
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
148文章數(shù) 66關(guān)注度
往期回顧 全部

科技要聞

手機(jī)AI在MWC上卷出了新高度

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實(shí)是條漢子

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實(shí)是條漢子

體育要聞

35輪后積分-7,他們遭遇史上最早的降級

娛樂要聞

謝娜霸氣護(hù)夫:喊話薛之謙給張杰道歉

財經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

長安汽車2月銷量151922輛 環(huán)比逆勢增長12.8%

態(tài)度原創(chuàng)

數(shù)碼
旅游
健康
公開課
軍事航空

數(shù)碼要聞

小米Xiaomi Tag防丟器國內(nèi)開售:僅重10克續(xù)航一年,69元起

旅游要聞

青海海西州:文旅市場“業(yè)態(tài)更新”現(xiàn)活力

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進(jìn)入關(guān)懷版