国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Opus 4.7深夜上線,評(píng)分碾壓

0
分享至



機(jī)器之心編輯部

想不到,風(fēng)口浪尖上的 Claude 又大更新了。

周四晚間,Anthropic 宣布旗下最新款基礎(chǔ)模型 Claude Opus 4.7 全面上市。

Opus 4.7 在高級(jí)軟件工程方面相比 Opus 4.6 有了顯著提升,尤其是在處理最復(fù)雜的任務(wù)方面。用戶反饋表示,他們現(xiàn)在可以放心地將以前需要密切監(jiān)督的最棘手的編碼工作交給 Opus 4.7 處理。Opus 4.7 能夠嚴(yán)謹(jǐn)且一致地處理復(fù)雜、耗時(shí)的任務(wù),精準(zhǔn)地執(zhí)行指令,并在返回結(jié)果之前設(shè)計(jì)出驗(yàn)證自身輸出的方法。

該模型還擁有明顯更佳的視覺效果:它能夠識(shí)別更高分辨率的圖像,完成專業(yè)任務(wù)時(shí),更具品味和創(chuàng)造力,能夠制作出更高質(zhì)量的界面、幻燈片和文檔。而且,盡管它的功能不如剛公布的最強(qiáng)模型 Claude Mythos Preview 全面,但在多項(xiàng)基準(zhǔn)測(cè)試中,它的表現(xiàn)都優(yōu)于 Opus 4.6:



可見 SWE-bench Pro 的分?jǐn)?shù)達(dá)到了 64.3%,遠(yuǎn)高于 GPT-5.4 的 57.7%。

Opus 4.7 已在所有 Claude 產(chǎn)品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平臺(tái)上推出。定價(jià)與 Opus 4.6 相同:每百萬(wàn)個(gè)輸入 token 5 美元,每百萬(wàn)個(gè)輸出 token 25 美元。開發(fā)者可通過 Claude API 使用。

根據(jù)目前大家的使用反饋,新模型更加嚴(yán)謹(jǐn),復(fù)雜任務(wù)的一致性也更強(qiáng)了,在最困難的編程任務(wù)上進(jìn)步明顯。當(dāng)然這也不是沒有代價(jià)的:



以下是 Opus 4.7 早期測(cè)試的一些亮點(diǎn):

  • 指令執(zhí)行能力,Opus 4.7 的表現(xiàn)有了顯著提升。有趣的是,這意味著之前版本編寫的提示信息現(xiàn)在有時(shí)可能會(huì)產(chǎn)生意想不到的結(jié)果:之前的版本對(duì)指令的解釋較為寬泛,甚至完全跳過某些部分,而 Opus 4.7 則會(huì)嚴(yán)格按照指令執(zhí)行。用戶應(yīng)據(jù)此調(diào)整提示信息和相關(guān)設(shè)置。
  • 改進(jìn)的多模態(tài)支持。Opus 4.7 對(duì)高分辨率圖像的處理能力更強(qiáng):它可以處理長(zhǎng)邊高達(dá) 2576 像素(約 375 萬(wàn)像素)的圖像,是之前 Claude 型號(hào)的三倍以上。這為依賴精細(xì)視覺細(xì)節(jié)的多模態(tài)應(yīng)用開辟了廣闊的空間:智能體可以讀取密集屏幕截圖、從復(fù)雜圖表中提取數(shù)據(jù)以及需要像素級(jí)精確參考的工作。
  • 實(shí)際應(yīng)用能力提升。除了在財(cái)務(wù)代理評(píng)估中獲得領(lǐng)先水平(見上表)外,Anthropic 的內(nèi)部測(cè)試表明,Opus 4.7 比 Opus 4.6 更高效地進(jìn)行財(cái)務(wù)分析,能夠生成嚴(yán)謹(jǐn)?shù)姆治龊湍P停尸F(xiàn)更專業(yè)的演示文稿,并在各項(xiàng)任務(wù)之間實(shí)現(xiàn)更緊密的整合。Opus 4.7 在 GDPval-AA 評(píng)估中也處于領(lǐng)先水平。
  • 內(nèi)存占用方面,Opus 4.7 更擅長(zhǎng)利用文件系統(tǒng)內(nèi)存。它能記住長(zhǎng)時(shí)間、多會(huì)話工作中的重要筆記,并利用這些筆記繼續(xù)執(zhí)行新的任務(wù),因此這些新任務(wù)對(duì)預(yù)先獲取的上下文信息要求更低。















Claude Code 負(fù)責(zé)人 Boris Cherny 介紹了 Claude Opus 4.7 的一些最新特性。

1、自動(dòng)模式

Opus 4.7 喜歡執(zhí)行復(fù)雜、長(zhǎng)時(shí)間運(yùn)行的任務(wù),比如深度研究、重構(gòu)代碼、構(gòu)建復(fù)雜功能、迭代直到達(dá)到性能基準(zhǔn)。過去,你要么得在模型執(zhí)行這類長(zhǎng)時(shí)間任務(wù)時(shí)全程監(jiān)督,要么使用 --dangerously-skip-permissions。

自動(dòng)模式作為一種更安全的替代方案,在這種模式下,權(quán)限提示會(huì)被路由到一個(gè)基于模型的分類器,來(lái)決定命令是否安全執(zhí)行。如果安全,它就會(huì)自動(dòng)批準(zhǔn)。

這意味著模型運(yùn)行時(shí)不再需要全程監(jiān)督。更重要的是,這意味著你可以并行運(yùn)行更多 Claude。一旦一個(gè) Claude 開始運(yùn)行,你就可以將注意力轉(zhuǎn)向下一個(gè) Claude。



2、新的 /fewer-permission-prompts 技能

它會(huì)掃描你的會(huì)話歷史記錄,找出常見的 bash 和 MCP 命令,這些命令是安全的,也導(dǎo)致了重復(fù)的權(quán)限提示。然后,它會(huì)推薦一個(gè)命令列表,將其添加到你的權(quán)限白名單中。

你可以使用此功能來(lái)優(yōu)化你的權(quán)限設(shè)置,避免不必要的權(quán)限提示。

3、「回顧」

回顧是對(duì)智能體所做的事情及下一步行動(dòng)的簡(jiǎn)短總結(jié),它可以在幾分鐘或幾小時(shí)后返回一個(gè)長(zhǎng)時(shí)間運(yùn)行的會(huì)話。



4、專注模式

CLI 中加入了專注模式,它會(huì)隱藏所有中間步驟,只專注于最終結(jié)果。新模型已經(jīng)達(dá)到了這樣一個(gè)程度,我們通常信任它會(huì)運(yùn)行正確的命令并進(jìn)行正確的編輯,只需要查看最終結(jié)果。

你可以使用 /focus 進(jìn)行開關(guān)。

5、自適應(yīng)的思考深度

Opus 4.7 使用自適應(yīng)思考而非思考預(yù)算。要調(diào)整模型的思考多 / 少程度,Anthropic 推薦調(diào)整努力程度。

使用較低努力程度可獲得更快的響應(yīng)和更低的令牌使用量。使用較高努力程度可獲得最高智能和能力。

Boris Cherny 表示,大多數(shù)任務(wù)可以使用 xhigh 努力程度,對(duì)最困難的任務(wù)使用 max 努力程度。Max 僅適用于當(dāng)前的會(huì)話;其他努力程度是粘性的,并將在下一次會(huì)話中持續(xù)存在。

/effort 用于設(shè)置努力程度。



6、給 Claude 一個(gè)驗(yàn)證其工作的方式

最后,確保 Claude 有一種驗(yàn)證其工作的方式。這一直是一種能讓你從 Claude 獲得 2-3 倍產(chǎn)出的方法,而且在 4.7 版本中,這比以往任何時(shí)候都更重要。

驗(yàn)證方式因任務(wù)而異。對(duì)于后端工作,確保 Claude 知道如何啟動(dòng)您的服務(wù)器 / 服務(wù)來(lái)進(jìn)行端到端測(cè)試;對(duì)于前端工作,使用 Claude Chromium 擴(kuò)展程序,讓 Claude 能夠控制您的瀏覽器;對(duì)于桌面應(yīng)用,使用 computer use。

Boris Cherny 稱自己最近的許多提示都像這樣:「Claude 做 blah blah /go」。/go 是一種技能,它讓 Claude 1)使用 bash、瀏覽器或 computer use 進(jìn)行端到端自我測(cè)試;2)運(yùn)行 /simplify 技能;3)提交一個(gè) PR。

上周 Anthropic 發(fā)布了 「Project Glasswing」項(xiàng)目,重點(diǎn)闡述了人工智能模型在網(wǎng)絡(luò)安全領(lǐng)域的風(fēng)險(xiǎn)與優(yōu)勢(shì)。Anthropic 宣布將限制 Claude Mythos Preview 的發(fā)布范圍,并首先在功能較弱的模型上測(cè)試新的網(wǎng)絡(luò)安全防護(hù)措施。

Opus 4.7 即是首個(gè)此類模型:其網(wǎng)絡(luò)安全能力不如 Mythos Preview(Anthropic 表示在訓(xùn)練過程中嘗試了多種方法來(lái)逐步降低其網(wǎng)絡(luò)安全能力)。發(fā)布時(shí)的 Opus 4.7 配備了安全防護(hù)措施,能夠自動(dòng)檢測(cè)并阻止表明存在違禁或高風(fēng)險(xiǎn)網(wǎng)絡(luò)安全用途的請(qǐng)求。

Anthropic 將從這些安全防護(hù)措施的實(shí)際部署中獲得經(jīng)驗(yàn),從而最終實(shí)現(xiàn) Mythos 級(jí)模型的廣泛發(fā)布目標(biāo)。

總體而言,Opus 4.7 的安全性能與 Opus 4.6 相似:Anthropic 的評(píng)估顯示,其出現(xiàn)欺騙、奉承和與濫用者合作等令人擔(dān)憂的行為的比例較低。在某些指標(biāo)上,例如誠(chéng)實(shí)度和抵御惡意「快速注入」攻擊的能力,Opus 4.7 比 Opus 4.6 有所改進(jìn);但在其他指標(biāo),例如在管制藥物方面提供過于詳細(xì)的減害建議的傾向上 Opus 4.7 略有不足。

Anthropic 的一致性評(píng)估得出結(jié)論,該模型「總體上一致性良好且值得信賴,但其行為并非完全理想」。值得注意的是,根據(jù)評(píng)估,Mythos Preview 仍然是一致性最佳的模型。



根據(jù)自動(dòng)化行為審核,總體行為偏差得分如上。

除了 Claude Opus 4.7 本身之外,Anthropic 還將推出以下更新:

更精細(xì)的難度控制:Opus 4.7 新增了一個(gè)介于 high 和 max 之間的 xhigh「超高」級(jí)別,使用戶能夠更精確地控制在解決難題時(shí)推理速度和延遲之間的權(quán)衡。在 Claude Code 中,Anthropic 已將所有套餐的默認(rèn)級(jí)別提升至 xhigh。在測(cè)試 Opus 4.7 的編碼和智能體應(yīng)用場(chǎng)景時(shí),建議從 high 或 xhigh 級(jí)別開始。

在 Claude 平臺(tái)(API)上:除了支持更高分辨率的圖像外,Anthropic 還在公開測(cè)試版中推出了任務(wù)預(yù)算,讓開發(fā)者能夠引導(dǎo) Claude 的 token 支出,以便它可以優(yōu)先處理較長(zhǎng)時(shí)間內(nèi)的工作。

在 Claude Code 中:新增的 /ultrareview 斜杠命令會(huì)創(chuàng)建一個(gè)專門的審查會(huì)話,讀取所有更改并標(biāo)記出細(xì)心的審查員能夠發(fā)現(xiàn)的錯(cuò)誤和設(shè)計(jì)問題。Anthropic 為 Claude Code Pro 和 Max 用戶提供三次免費(fèi)的超強(qiáng)審查機(jī)會(huì)供試用。Anthropic 還將自動(dòng)模式擴(kuò)展到了 Max 用戶。自動(dòng)模式是一項(xiàng)新的權(quán)限選項(xiàng),Claude 會(huì)替你做出決策,這意味著可以運(yùn)行更長(zhǎng)時(shí)間的任務(wù),減少中斷,并且比人類選擇跳過所有權(quán)限的風(fēng)險(xiǎn)更低。

Opus 4.7 是 Opus 4.6 的直接升級(jí)版,但有兩個(gè)變化值得關(guān)注,因?yàn)樗鼈儠?huì)影響 token 的使用。首先,Opus 4.7 使用了更新的分詞器,改進(jìn)了模型處理文本的方式。因此外界認(rèn)為它大概率是一個(gè)新的基礎(chǔ)模型,甚至可能是從 Mythos 提煉而來(lái)的。

但代價(jià)是,相同的輸入可能會(huì)映射到更多的詞元 —— 根據(jù)內(nèi)容類型的不同,大約增加 1.0 到 1.35 倍。其次,Opus 4.7 在高難度任務(wù)下會(huì)進(jìn)行更多思考,尤其是在主動(dòng)語(yǔ)態(tài)場(chǎng)景的后期回合。這提高了模型在解決難題時(shí)的可靠性,但也意味著它會(huì)產(chǎn)生更多的輸出 token。

人們也發(fā)現(xiàn),Opus 4.7 的知識(shí)截止日期更新了:



用戶可以通過多種方式控制 token 的使用:例如使用工作量參數(shù)、調(diào)整任務(wù)預(yù)算或引導(dǎo)模型簡(jiǎn)化代碼。在 Anthropic 自己的測(cè)試中,最終效果是積極的 —— 內(nèi)部編碼評(píng)估顯示,所有工作量級(jí)別的令牌使用率均有所提高(如下所示)—— 但 Anthropic 建議在實(shí)際流量上進(jìn)行評(píng)估。

Anthropic 還編寫了遷移指南(https://platform.claude.com/docs/en/about-claude/models/migration-guide#migrating-to-claude-opus-4-7),提供了從 Opus 4.6 升級(jí)到 Opus 4.7 的更多建議。



根據(jù)每個(gè)工作量級(jí)別下 token 使用情況,對(duì)內(nèi)部智能編碼評(píng)估進(jìn)行評(píng)分。在此評(píng)估中,模型在單個(gè)用戶提示下自主運(yùn)行,因此結(jié)果可能無(wú)法代表交互式編碼中的 token 使用情況。

在 Opus 4.7 發(fā)布后,人們開始大規(guī)模測(cè)試評(píng)價(jià),大多數(shù)使用者認(rèn)為新模型效果不錯(cuò),也有人表示其 token 消耗非常驚人(pro 問兩三個(gè)問題就沒額度了)。

同樣是在昨天晚上,千問開源了 Qwen3.6-35B-A3B(350 億參數(shù),激活 30 億),有人還表示,在自己 MacBook Pro M5 上通過 LM Studio(以及 llm-lmstudio 插件)運(yùn)行的千問模型生成「鵜鶘騎自行車」效果要比 Opus 4.7 好。



當(dāng)然這不能就說(shuō)明 Qwen3.6-35B-A3B 更強(qiáng)了。

更多的使用情況,還有待大家的進(jìn)一步驗(yàn)證。

參考內(nèi)容:

https://www.anthropic.com/news/claude-opus-4-7

https://x.com/bcherny/status/2044847848035156457

https://qwen.ai/blog?id=qwen3.6-35b-a3b

https://simonwillison.net/2026/Apr/16/qwen-beats-opus/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
英國(guó)遭到拒絕后發(fā)警告:中國(guó)如果不合作,中企海外資產(chǎn)將被沒收!

英國(guó)遭到拒絕后發(fā)警告:中國(guó)如果不合作,中企海外資產(chǎn)將被沒收!

荷蘭豆愛健康
2026-04-19 18:08:20
第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

裝修秀
2026-04-18 11:55:03
福建南安一車輛逆行撞人 致2死1傷

福建南安一車輛逆行撞人 致2死1傷

新京報(bào)
2026-04-19 14:00:07
中山市政務(wù)服務(wù)和數(shù)據(jù)管理局黨組書記葉永忠被查

中山市政務(wù)服務(wù)和數(shù)據(jù)管理局黨組書記葉永忠被查

南方都市報(bào)
2026-04-16 18:44:23
2-1!薩拉赫破門,范戴克救主,利物浦奏凱,切爾西基本無(wú)緣歐冠

2-1!薩拉赫破門,范戴克救主,利物浦奏凱,切爾西基本無(wú)緣歐冠

我的護(hù)球最獨(dú)特
2026-04-19 23:06:16
現(xiàn)場(chǎng)畫面曝光,中方跟監(jiān)日本軍艦過航臺(tái)海,無(wú)人機(jī)視角記錄一切

現(xiàn)場(chǎng)畫面曝光,中方跟監(jiān)日本軍艦過航臺(tái)海,無(wú)人機(jī)視角記錄一切

三叔的裝備空間
2026-04-18 22:26:06
豪斯轟44分都帶不動(dòng)北控!張慶鵬與廖三寧帶隊(duì)崩盤,球迷失望了!

豪斯轟44分都帶不動(dòng)北控!張慶鵬與廖三寧帶隊(duì)崩盤,球迷失望了!

籃球資訊達(dá)人
2026-04-19 22:04:14
1.44萬(wàn)億元!中國(guó)出口的“落后芯片”,到底是誰(shuí)在買?

1.44萬(wàn)億元!中國(guó)出口的“落后芯片”,到底是誰(shuí)在買?

科技專家
2026-03-22 16:03:15
專家警告:每天吃一根香蕉,就等于給心臟“踩剎車”?真相來(lái)了

專家警告:每天吃一根香蕉,就等于給心臟“踩剎車”?真相來(lái)了

路醫(yī)生健康科普
2026-04-05 11:20:07
斯洛特:在這樣的賽季里,我覺得U18球員都得做好首秀準(zhǔn)備

斯洛特:在這樣的賽季里,我覺得U18球員都得做好首秀準(zhǔn)備

懂球帝
2026-04-20 00:22:46
查獲4800萬(wàn)比索毒品!菲律賓三寶顏市3名高價(jià)值毒販被捕

查獲4800萬(wàn)比索毒品!菲律賓三寶顏市3名高價(jià)值毒販被捕

新浪財(cái)經(jīng)
2026-04-19 20:39:17
萬(wàn)科跟投員工千人聯(lián)合簽名

萬(wàn)科跟投員工千人聯(lián)合簽名

地產(chǎn)微資訊
2026-04-17 16:03:16
5-6!小蜘蛛絕平+失點(diǎn),馬競(jìng)難破5年冠軍荒,皇家社會(huì)爆冷奪冠

5-6!小蜘蛛絕平+失點(diǎn),馬競(jìng)難破5年冠軍荒,皇家社會(huì)爆冷奪冠

我的護(hù)球最獨(dú)特
2026-04-19 06:01:32
太嚇人了!經(jīng)超這個(gè)男演員整體挺帥,但一做大表情有點(diǎn)不敢恭維!

太嚇人了!經(jīng)超這個(gè)男演員整體挺帥,但一做大表情有點(diǎn)不敢恭維!

小娛樂悠悠
2026-04-17 09:50:08
賴清德,恐成為新中國(guó)歷史上,唯一在任上出事的臺(tái)灣地區(qū)領(lǐng)導(dǎo)人

賴清德,恐成為新中國(guó)歷史上,唯一在任上出事的臺(tái)灣地區(qū)領(lǐng)導(dǎo)人

真正能保護(hù)你的
2026-04-05 00:55:35
斯諾克世錦賽:丁俊暉3-1晉級(jí),1-8決賽對(duì)陣趙心童

斯諾克世錦賽:丁俊暉3-1晉級(jí),1-8決賽對(duì)陣趙心童

小犙拍客在北漂
2026-04-19 19:05:04
特朗普:如果到周三未達(dá)成結(jié)束戰(zhàn)爭(zhēng)的長(zhǎng)期協(xié)議,可能會(huì)終止與伊朗的?;?,但封鎖將繼續(xù),伊朗不會(huì)擁有核武器

特朗普:如果到周三未達(dá)成結(jié)束戰(zhàn)爭(zhēng)的長(zhǎng)期協(xié)議,可能會(huì)終止與伊朗的?;?,但封鎖將繼續(xù),伊朗不會(huì)擁有核武器

魯中晨報(bào)
2026-04-18 12:05:07
進(jìn)攻效率不佳,防守端被打爆,火箭內(nèi)線支柱的情況令人非常擔(dān)心?

進(jìn)攻效率不佳,防守端被打爆,火箭內(nèi)線支柱的情況令人非常擔(dān)心?

稻谷與小麥
2026-04-20 01:12:09
蘭姐一提起孫子小霖霖,話還沒說(shuō),眼淚先一串一串地往下掉。

蘭姐一提起孫子小霖霖,話還沒說(shuō),眼淚先一串一串地往下掉。

阿廢冷眼觀察所
2026-04-18 17:57:36
為什么“戰(zhàn)略忽悠局局長(zhǎng)”張召忠,突然消失了,去哪里了?

為什么“戰(zhàn)略忽悠局局長(zhǎng)”張召忠,突然消失了,去哪里了?

混沌錄
2025-11-02 17:13:10
2026-04-20 01:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

本地
房產(chǎn)
教育
藝術(shù)
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

教育要聞

655家單位、1.29萬(wàn)個(gè)崗位,湖南用心幫大學(xué)生找工作

藝術(shù)要聞

超模施特洛耶克寫真曝光,簡(jiǎn)直美到窒息,別錯(cuò)過!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版