国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

編程測(cè)試碾壓人類!Claude Opus 4.5 深夜突襲,AI 編程進(jìn)入「超人時(shí)代」

0
分享至

最近這段時(shí)間,大模型發(fā)布就跟下餃子似的,一個(gè)接一個(gè)往外冒。

前腳 Gemini 3 Pro 剛搶了兩周風(fēng)頭,后腳 Claude Opus 4.5 剛剛就正式發(fā)布,還是主打編程,還是那個(gè)熟悉的味道。

Anthropic 官方宣稱 Opus 4.5 整體更聰明、更省心。遇到編程、搭 agents、操控電腦這些「系統(tǒng)級(jí)任務(wù)」依然是全球數(shù)一數(shù)二的水平。日常的研究、做 PPT、處理表格這些案頭活,也都明顯變強(qiáng)了。

今天起,Opus 4.5 已經(jīng)全面開(kāi)放,可以通過(guò)應(yīng)用、API,還有三大主流云平臺(tái)用起來(lái)。開(kāi)發(fā)者只要在 Claude API 里調(diào)用 claude-opus-4-5-20251101 就行。

隨發(fā)布而來(lái)的,是一整個(gè)工具鏈升級(jí)。開(kāi)發(fā)者平臺(tái)、Claude Code、Chrome 插件、Excel、桌面端改造,還有「長(zhǎng)對(duì)話不卡頓」。從應(yīng)用到 API,再到云平臺(tái),這次是真的全線鋪開(kāi)。


大模型集體「上新季」,Opus 4.5 強(qiáng)勢(shì)壓軸

從官方和測(cè)試者的反饋看,Claude Opus 4.5 對(duì)「模糊需求」的理解力得到了明顯提升,復(fù)雜 bug 自行定位也更穩(wěn),不少提前試用的客戶覺(jué)得 Opus 4.5 是真的能「理解」他們想要啥。


在真實(shí)場(chǎng)景的軟件工程測(cè)試 SWE-Bench Verified 里,它是頭一個(gè)拿到 80% 以上分?jǐn)?shù)的模型。


Opus 4.5 的代碼質(zhì)量全面升級(jí),在 SWE-bench Multilingual 涵蓋的八種編程語(yǔ)言里,它在其中七種都拔得頭籌,表現(xiàn)相當(dāng)亮眼。





向左滑動(dòng)查看更多基準(zhǔn)測(cè)試

而舉例而言,Anthropic 團(tuán)隊(duì)把 Opus 4.5 扔進(jìn)了公司招性能工程師時(shí)用的高難度測(cè)試題里,結(jié)果在規(guī)定的兩小時(shí)內(nèi),Claude Opus 4.5 的得分超過(guò)了所有人類候選人。

雖然編程測(cè)試只能衡量技術(shù)能力和時(shí)間壓力下的判斷力,那些多年經(jīng)驗(yàn)積累出來(lái)的直覺(jué)、溝通協(xié)作能力,這些同樣重要的素質(zhì)并不在考察范圍內(nèi)。

除卻軟件工程,Claude Opus 4.5 的整體能力也迎來(lái)了全面開(kāi)花,在視覺(jué)、推理和數(shù)學(xué)方面都比前代模型強(qiáng),并且在多個(gè)重要領(lǐng)域都達(dá)到了業(yè)界領(lǐng)先水平:


更關(guān)鍵的是,模型的能力甚至開(kāi)始超越現(xiàn)有的一些評(píng)測(cè)標(biāo)準(zhǔn)了。

在智能體能力測(cè)試 τ2-bench 里就出現(xiàn)了這么個(gè)場(chǎng)景:測(cè)試設(shè)定模型扮演航空公司客服,幫一位焦慮的乘客。

按照規(guī)則,基礎(chǔ)經(jīng)濟(jì)艙機(jī)票是不能改的,所以測(cè)試預(yù)期模型會(huì)拒絕乘客的請(qǐng)求。結(jié)果 Opus 4.5 想出了一個(gè)巧妙方案:先把艙位從基礎(chǔ)經(jīng)濟(jì)艙升級(jí)到普通經(jīng)濟(jì)艙,然后再改航班。

這辦法完全符合航空公司政策,卻不在測(cè)試的預(yù)期答案范圍內(nèi)。從技術(shù)角度說(shuō),這算是測(cè)試失敗了,但這種創(chuàng)造性解決問(wèn)題的方式,恰恰展現(xiàn)了 Opus 4.5 的獨(dú)特之處。


當(dāng)然了,在另一些場(chǎng)景下,這種「鉆規(guī)則空子」的行為可能就不那么受歡迎了。如何防止模型以非預(yù)期方式偏離目標(biāo),這是 Anthropic 安全測(cè)試重點(diǎn)關(guān)注的方向。

Claude 無(wú)處不在,桌面、瀏覽器、Excel 全接入

隨著 Opus 4.5 的推出,Claude Code 獲得了兩項(xiàng)重大更新。

計(jì)劃模式(Plan Mode)現(xiàn)在能生成更精確的執(zhí)行計(jì)劃了,Claude 會(huì)在操作前主動(dòng)提澄清性問(wèn)題,然后生成一個(gè)用戶可編輯的 plan.md 文件,再根據(jù)這計(jì)劃執(zhí)行任務(wù)。

此外,Claude Code 現(xiàn)在已經(jīng)登陸桌面應(yīng)用了。你可以同時(shí)跑多個(gè)本地或遠(yuǎn)程會(huì)話,比如一個(gè)智能體負(fù)責(zé)修代碼錯(cuò)誤,另一個(gè)負(fù)責(zé)在 GitHub 上檢索資料,第三個(gè)就更新項(xiàng)目文檔。


對(duì)于 Claude 應(yīng)用用戶來(lái)說(shuō),長(zhǎng)對(duì)話不會(huì)再被打斷了。Claude 會(huì)在需要的時(shí)候自動(dòng)總結(jié)早期上下文,讓對(duì)話持續(xù)下去。

Anthropic 研究產(chǎn)品管理負(fù)責(zé)人 Dianne Na Penn 在接受采訪時(shí)表示:

「我們?cè)?Opus 4.5 的訓(xùn)練過(guò)程中提升了對(duì)長(zhǎng)上下文的整體處理能力,但光有更長(zhǎng)的上下文窗口是不夠的。知道哪些信息值得記住,同樣非常關(guān)鍵?!?/p>

這些改進(jìn)也實(shí)現(xiàn)了 Claude 用戶長(zhǎng)期呼吁的一項(xiàng)功能:「無(wú)盡對(duì)話」。這功能能夠讓付費(fèi)用戶在對(duì)話超過(guò)上下文窗口限制時(shí)也不會(huì)中斷,模型會(huì)自動(dòng)壓縮上下文記憶,而不用提醒用戶。

Claude for Chrome 也已經(jīng)向所有 Max 用戶開(kāi)放了,可以讓 Claude 直接在瀏覽器多個(gè)標(biāo)簽頁(yè)之間執(zhí)行任務(wù)。


Claude for Excel 的 Beta 測(cè)試范圍已經(jīng)擴(kuò)展到 Max、Team 和 Enterprise 用戶了。

對(duì)于能使用 Opus 4.5 的 Claude 和 Claude Code 用戶,Anthropic 已經(jīng)取消了和 Opus 相關(guān)的使用上限。

對(duì)于 Max 用戶和 Team Premium 用戶,Anthropic 也提高了整體使用限額, 用戶可使用的 Opus token 數(shù)量與之前使用 Sonnet 時(shí)大致相同。隨著未來(lái)更強(qiáng)模型的出現(xiàn),配額也會(huì)根據(jù)情況相應(yīng)更新。

讓模型「更聰明也更省」,Opus 4.5 迎來(lái)底層大升級(jí)

隨著模型變得更聰明,它們能用更少的步驟解決問(wèn)題:減少反復(fù)試錯(cuò)、降低冗余推理、縮短思考過(guò)程。

Claude Opus 4.5 和前代模型比,在實(shí)現(xiàn)相同甚至更優(yōu)結(jié)果的情況下,用的 tokens 數(shù)量明顯少了。

當(dāng)然了,不同任務(wù)需要不同的平衡。

有時(shí)開(kāi)發(fā)者希望模型能持續(xù)深入思考,有時(shí)又需要更快速靈活的響應(yīng)。

所以,API 里新加了一個(gè)叫 effort 的參數(shù),讓你可以根據(jù)需求選:要么優(yōu)先省時(shí)間和成本,要么最大化模型能力。任君選擇。

當(dāng)設(shè)置為中等 effort 等級(jí)時(shí),Opus 4.5 在 SWE-bench Verified 測(cè)試中和 Sonnet 4.5 的最佳成績(jī)持平,但輸出 tokens 數(shù)減少了 76%。


而在最高 effort 等級(jí)下,Opus 4.5 的表現(xiàn)比 Sonnet 4.5 高出 4.3 個(gè)百分點(diǎn),同時(shí)還減少了 48% 的輸出量。

憑借 effort 控制、上下文壓縮(context compaction)和高級(jí)工具調(diào)用能力,Claude Opus 4.5 能跑更久、完成更多任務(wù),而且需要的人工干預(yù)更少了。


此外,真正的 AI 智能體需要在成百上千種工具之間無(wú)縫協(xié)作。

想象一個(gè) IDE 助手集成了 Git、文件管理、測(cè)試框架和部署流程,或者一個(gè)運(yùn)營(yíng)智能體同時(shí)連著 Slack、GitHub、Google Drive、Jira 和幾十個(gè) MCP 服務(wù)器。

問(wèn)題在于,傳統(tǒng)方式會(huì)把所有工具定義一次性塞進(jìn)上下文。拿連接五個(gè)服務(wù)器的系統(tǒng)來(lái)說(shuō),GitHub 需要 26K tokens,Slack 需要 21K tokens,Sentry、Grafana、Splunk 加起來(lái)又是 8K tokens。

對(duì)話還沒(méi)開(kāi)始呢,就已經(jīng)占了 55K tokens 了。要是再加上 Jira,輕松突破 100K tokens。更麻煩的是,當(dāng)工具名字相似時(shí),模型容易選錯(cuò)工具或者傳錯(cuò)參數(shù)。


Anthropic 推出了三項(xiàng)新功能來(lái)解決這些問(wèn)題。

Tool Search Tool 讓 Claude 按需動(dòng)態(tài)發(fā)現(xiàn)工具,只加載當(dāng)前任務(wù)需要的部分,token 使用量能減少約 85%。

Programmatic Tool Calling 讓 Claude 在代碼里直接調(diào)用工具,避免每次調(diào)用都要完整推理一遍。

Tool Use Examples 則提供統(tǒng)一標(biāo)準(zhǔn),通過(guò)示例而不是 JSON schemas 來(lái)展示工具的正確用法。

內(nèi)部測(cè)試顯示,啟用 Tool Search Tool 后,Opus 4 在 MCP 測(cè)試中的準(zhǔn)確度從 49% 提升到 74%,Opus 4.5 從 79.5% 提升到 88.1%。

Claude for Excel 就是利用 Programmatic Tool Calling 來(lái)處理幾千行數(shù)據(jù),而不會(huì)讓上下文窗口過(guò)載。


Anthropic 的上下文管理和記憶能力明顯提升了模型在智能體(agent)任務(wù)中的表現(xiàn)。

Opus 4.5 還能高效管理多個(gè)子智能體(subagents),從而搭建復(fù)雜且協(xié)調(diào)良好的多智能體系統(tǒng)。在測(cè)試中,結(jié)合這些技術(shù)后,Opus 4.5 在深度研究類評(píng)估中的表現(xiàn)提升了將近 15 個(gè)百分點(diǎn)。

開(kāi)發(fā)者平臺(tái)(Developer Platform)也在持續(xù)變得更具可組合性,希望提供靈活的「模塊化構(gòu)建」能力,讓你能根據(jù)具體需求自由控制模型的效率、工具使用和上下文管理,搭建出理想的智能系統(tǒng)。


雖然這次 Opus 4.5 的升級(jí)足夠亮眼,但一個(gè)越來(lái)越清晰的趨勢(shì)是:不同模型的「性格」差異正在被放大。

從 Claude 過(guò)往的產(chǎn)品線來(lái)看,Opus 這類「超大杯」依舊最擅長(zhǎng)編程、系統(tǒng)級(jí)操作、結(jié)構(gòu)化推理;但如果是文案工作,Sonnet 的表現(xiàn)和性價(jià)比往往更對(duì)路。

這次發(fā)布,也再次印證了這一點(diǎn)。

未來(lái)選模型,不光要看跑分榜,還得看它的「做事」方式是不是跟你合拍。換句話說(shuō),選擇模型,倒是越來(lái)越像挑同事了。

附上官方博客地址:

https://www.anthropic.com/news/claude-opus-4-5

歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知

我們正在招募伙伴

簡(jiǎn)歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」(請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
41歲天龍救援隊(duì)隊(duì)員任志飛突發(fā)疾病離世,隊(duì)友:他熱愛(ài)公益救援,是個(gè)積極樂(lè)觀的人

41歲天龍救援隊(duì)隊(duì)員任志飛突發(fā)疾病離世,隊(duì)友:他熱愛(ài)公益救援,是個(gè)積極樂(lè)觀的人

極目新聞
2025-12-19 16:12:00
罕見(jiàn)中的罕見(jiàn)!廣西發(fā)現(xiàn)一例稀有血型“恐龍血”,該名男子是由基因突變導(dǎo)致的,全球僅有2例,都在廣西

罕見(jiàn)中的罕見(jiàn)!廣西發(fā)現(xiàn)一例稀有血型“恐龍血”,該名男子是由基因突變導(dǎo)致的,全球僅有2例,都在廣西

觀威海
2025-12-19 09:42:08
80萬(wàn)奔馳借朋友找對(duì)象撐場(chǎng)面,結(jié)果被拿去抵押3萬(wàn)還債,車主成“冤大頭”:我天天只能打車、坐公交

80萬(wàn)奔馳借朋友找對(duì)象撐場(chǎng)面,結(jié)果被拿去抵押3萬(wàn)還債,車主成“冤大頭”:我天天只能打車、坐公交

觀威海
2025-12-19 09:42:03
突發(fā)!北京建國(guó)路發(fā)生交通事故,約10輛機(jī)動(dòng)車受損

突發(fā)!北京建國(guó)路發(fā)生交通事故,約10輛機(jī)動(dòng)車受損

BRTV新聞
2025-12-19 19:04:49
我外交部突然發(fā)出警告,如果外媒消息屬實(shí),中日事態(tài)將會(huì)相當(dāng)嚴(yán)重

我外交部突然發(fā)出警告,如果外媒消息屬實(shí),中日事態(tài)將會(huì)相當(dāng)嚴(yán)重

影孖看世界
2025-12-19 19:14:04
方永飛公開(kāi)怒懟小米雷軍:還要不要一點(diǎn)臉,吹牛界祖師爺!

方永飛公開(kāi)怒懟小米雷軍:還要不要一點(diǎn)臉,吹牛界祖師爺!

熱點(diǎn)科技
2025-12-19 15:01:57
新聞多一度|南京博物院藏品現(xiàn)身拍賣市場(chǎng)?最新回應(yīng)來(lái)了

新聞多一度|南京博物院藏品現(xiàn)身拍賣市場(chǎng)?最新回應(yīng)來(lái)了

新京報(bào)
2025-12-19 20:45:08
哥哥離世+家人重病!35歲德甲名將崩潰決定退役,曾險(xiǎn)些加盟國(guó)安

哥哥離世+家人重?。?5歲德甲名將崩潰決定退役,曾險(xiǎn)些加盟國(guó)安

我愛(ài)英超
2025-12-19 22:08:47
攜程翻車:與柬埔寨國(guó)家旅游局簽約引發(fā)用戶“卸載潮”

攜程翻車:與柬埔寨國(guó)家旅游局簽約引發(fā)用戶“卸載潮”

新商業(yè)派
2025-12-19 15:51:28
白崇禧之子,一生無(wú)妻無(wú)兒,相伴38年高中同學(xué)死后,他公開(kāi)性取向

白崇禧之子,一生無(wú)妻無(wú)兒,相伴38年高中同學(xué)死后,他公開(kāi)性取向

墨說(shuō)古今
2025-12-16 23:10:42
馬文峰任廣東省外事辦公室主任

馬文峰任廣東省外事辦公室主任

中國(guó)經(jīng)濟(jì)網(wǎng)
2025-12-19 14:20:06
新一批中國(guó)愛(ài)心包裹和單車移交柬埔寨

新一批中國(guó)愛(ài)心包裹和單車移交柬埔寨

人民網(wǎng)
2025-12-19 16:23:42
我替首長(zhǎng)擋了5槍,他連電話都沒(méi)打,我退伍后,剛到火車站就被人攔住

我替首長(zhǎng)擋了5槍,他連電話都沒(méi)打,我退伍后,剛到火車站就被人攔住

張道陵秘話
2025-12-17 10:20:09
盧偉:洛夫頓帶著情緒在打球影響全隊(duì),上一場(chǎng)就不該繼續(xù)讓他上場(chǎng)

盧偉:洛夫頓帶著情緒在打球影響全隊(duì),上一場(chǎng)就不該繼續(xù)讓他上場(chǎng)

狼叔評(píng)論
2025-12-19 22:46:04
22.13公里!世界最長(zhǎng)高速公路隧道將于月底通車

22.13公里!世界最長(zhǎng)高速公路隧道將于月底通車

每日經(jīng)濟(jì)新聞
2025-12-18 23:55:06
120多萬(wàn)的卡宴只要60多萬(wàn)?很多網(wǎng)友激動(dòng)了!打飛的到海南買進(jìn)口車,可行嗎?

120多萬(wàn)的卡宴只要60多萬(wàn)?很多網(wǎng)友激動(dòng)了!打飛的到海南買進(jìn)口車,可行嗎?

都市快報(bào)橙柿互動(dòng)
2025-12-19 18:00:00
中戲院長(zhǎng)郝戎主動(dòng)投案 ,靳東阿云嘎受影響,有大麻煩了!

中戲院長(zhǎng)郝戎主動(dòng)投案 ,靳東阿云嘎受影響,有大麻煩了!

叨嘮
2025-12-20 00:46:13
大瓜!年輕少婦出軌被當(dāng)場(chǎng)抓奸,丈夫唯唯諾諾,視頻曝光惹怒網(wǎng)友

大瓜!年輕少婦出軌被當(dāng)場(chǎng)抓奸,丈夫唯唯諾諾,視頻曝光惹怒網(wǎng)友

烏娛子醬
2025-12-19 14:26:23
臺(tái)北突發(fā)襲擊事件已致多人死傷,卓榮泰下令徹查嫌疑人犯罪動(dòng)機(jī)

臺(tái)北突發(fā)襲擊事件已致多人死傷,卓榮泰下令徹查嫌疑人犯罪動(dòng)機(jī)

海峽導(dǎo)報(bào)社
2025-12-19 21:36:03
演員王東離婚:家暴陰影下的破碎婚姻

演員王東離婚:家暴陰影下的破碎婚姻

悅君兮君不知
2025-12-19 03:20:35
2025-12-20 07:00:49
AppSo incentive-icons
AppSo
讓智能手機(jī)更好用的秘密
5942文章數(shù) 26728關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

日元加息,恐慌來(lái)了?貨幣三國(guó)殺

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

親子
家居
數(shù)碼
本地
軍事航空

親子要聞

寶媽必學(xué),為什么教孩子不舒服的觸摸要拒絕是錯(cuò)誤的?

家居要聞

高端私宅 理想隱居圣地

數(shù)碼要聞

機(jī)械大師E06臥式ITX機(jī)箱上市:支持200mm長(zhǎng)半高顯卡,298元

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

軍事要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版