網易首頁 > 網易號 > 正文申請入駐

Claude Opus 4.7炸場，6美元造《我的世界》，臨門AGI前強調安全，打工人卻更慌了

2026-04-17 01:47:15　來源: 鯨選AI

北京舉報

分享至

Anthropic 今天正式發(fā)布 Claude Opus 4.7，官方說這是“目前最強 Opus 模型”。定價沒變，還是每百萬 token 輸入 5 美元、輸出 25 美元，但能力這次真的往上跳了一個臺階。

兩個月前剛出頂模 4.6，今天 4.7 直接來了。Anthropic 這個更新節(jié)奏，真的不打算讓人喘氣。

在 Vals Index 綜合評測中，Opus 4.7 以 71.4% 的得分拿下第一，比之前的最好成績（67.7%）大幅躍升。它還在 Vibe Code Bench、Vals Multimodal、Finance Agent、Mortgage Tax、SAGE、SWE-Bench 和 Terminal Bench 2 等多個榜單中均位列第一。

從 4.6 到 4.7，最核心的變化是什么？一句話說清楚：它開始對自己的輸出負責了。

以前你把任務扔給 Claude，它做完就交，對不對另說。4.7 不一樣，它會在報告結果之前先自己驗證一遍。聽起來是個小事，但對于那些跑幾個小時的復雜任務來說，這個改變意味著你可以真正放手，不用一直盯著它。Anthropic 原話是：“You can hand off your hardest work with less supervision.”——把最難的活交出去，不用再當保姆了。

寫代碼能力大漲，這是最大的升級

4.7 整體更強，尤其在“寫代碼”和“看圖表”這兩塊進步明顯。

處理真實工程項目的能力，提升幅度相當大。

在 SWE-bench Pro（真實 GitHub 項目 bug 修復）上，4.7 從 53.4% 跳到 64.3%，提升了差不多 11 個百分點。這個幅度相當大。處理標準編程任務（SWE-bench Verified）也從 80.8% 提升到 87.6%。

SWE-bench Pro 那個 11 個百分點的躍升，背后的含義其實挺重要的。這個測試用的都是 GitHub 上真實的開源項目，代碼庫大、依賴關系復雜、bug 藏得深——跟那些教科書式的干凈代碼完全是兩回事。能在這種“臟活累活”上提升這么多，說明 4.7 在實戰(zhàn)場景下確實更能打了。

指令執(zhí)行能力也徹底想通了。

4.6 有個讓人又愛又恨的毛病——它會“善意理解”你的指令。你說做 A，它覺得 B 更好，就悄悄給你做了 B，還自我感覺良好。這種“聰明反被聰明誤”的問題，在復雜工作流里會直接釀成大錯。

4.7 把這個邏輯翻轉了：逐字執(zhí)行，不自作主張。

但這把雙刃劍也有代價。Anthropic 自己在發(fā)布文檔里警告：針對 4.6 調好的提示詞，在 4.7 上可能直接崩掉。以前那些“模糊指令靠模型腦補”的用法，現在得老老實實重寫 prompt 了。

看圖表、看圖片理解能力大漲

4.7 支持解析長邊最大 2576 像素的圖像，大約 3.75MP，是之前所有 Claude 版本的三倍多。

視覺推理能力從 69.1% 跳到 82.1%（不用工具的情況下）。跳了 13 個百分點。拿一張報表、一張架構圖丟給它，它能看懂的概率明顯更高了。

這個數字背后的意義，對普通用戶來說很直接：密密麻麻的截圖能讀了，復雜圖表能提取了，高分辨率設計稿能分析了。做 PPT、做界面、做文檔，4.7 的審美和精度都跟著上來了。

代碼審查工具 CodeRabbit 的測試數據顯示，切換到 4.7 之后，最難發(fā)現的 bug 召回率提升了 10% 以上，而誤報率沒有上升。

對打工人來說，最直接的感受可能是：以前截圖發(fā)給 Claude，它說“圖片不夠清晰看不清”——這個問題，基本上消失了。

電腦操作能力也提升了。

操作電腦能力（OSWorld）從 72.7% 提升到 78.0%。就是那種“幫我打開瀏覽器、點一下、填個表”的 Agent 類任務，做得更穩(wěn)了。

研究生級別的硬核推理能力，GPQA 從 91.3% 提升到 94.2%，已經接近天花板了。

小幅進步的地方

除了上面那些大升級，4.7 在一些細節(jié)上也有改進：

終端里寫代碼：65.4% → 69.4%
復雜學科推理（人類最后的考試）：40% → 46.9%
金融分析：60.1% → 64.4%
多語言問答：91.1% → 91.5%（幾乎沒動）
工具調用：75.8% → 77.3%

退步了的地方

網頁搜索能力反而下降。

BrowseComp 從 83.7% 掉到 79.3%，掉了 4 個百分點。如果你的業(yè)務里大量依賴 Claude 去網上搜資料、做 research，這個版本可能不如 4.6。

寫代碼、跑 Agent、處理圖片圖表這些場景，4.7 的提升是實打實的，閉眼升就行。但如果你的工作嚴重依賴 Claude 去網上大量檢索信息、做深度研究，那 4.6 可能還是更穩(wěn)妥的選擇，至少先觀望一下實際表現再決定。

網絡安全漏洞復現能力也下降了——從 73.8% 降到 73.1%，基本沒變，略微退步。

這個退步不是偶然的，而是 Anthropic 主動為之。

6美元造《我的世界》和GTA-5

國外很多網友已經開始用上4.7，有人用6美元的API調用成本，從零“造出一個我的世界”！

開發(fā)者Angaisb通過自然語言描述，讓AI模型一步步生成完整的Minecraft風格沙盒游戲，包括方塊世界、挖掘建造、資源采集等核心機制。整個過程AI自動迭代調試，最終輸出可直接運行的完整游戲。

而在開發(fā)者Bridgemind的直播中，他用“Vibe Coding”模式，僅通過描述就讓AI一氣呵成，在單個HTML文件中構建出一個包含多種武器的第一人稱射擊游戲（FPS）。

游戲支持敵人波次、不同武器切換和流暢的3D射擊手感，直播時吸引了1500多人在線圍觀。開發(fā)者甚至放話，下一步目標直指GTA 6！這充分展現了4.7實時生成復雜互動應用的能力，從想法到可玩游戲，只需“隨性編碼”幾句提示。

Claude Code 這次也跟著動了

跟 4.7 同步上線的，還有幾個 Claude Code 的新功能，值得單獨說一下。

新增了/ultrareview命令，專門用來做代碼審查——不是普通的 review，是專門盯著錯誤和設計問題的那種深度審查。Pro 和 Max 用戶每月免費三次。

Claude Code 的默認推理強度從 high 升級到了 xhigh，這是一個介于 high 和 max 之間的新檔位，理解成“思考更深但不燒最多錢”就行。

與此同時，任務預算（task budgets）進入公測，開發(fā)者可以在長任務中精確控制 token 消耗，不用再擔心一個任務跑完賬單爆炸。

自動模式也擴展到了 Claude Code Max 用戶——Claude 可以在任務執(zhí)行中自主做決策，比完全放開權限的“yolo 模式”更可控，比每步都問你確認的模式更省心。

Reddit 上有個 Claude Code（Opus 4.6）vs. Codex（GPT-5.4）的對比很有意思，經歷 8 萬行 Python/TypeScript 代碼，2800 個測試用例的數據分析應用深度對比。結論是：“Claude 需要一位技術精湛、專注投入的‘駕駛員’，而 Codex 對使用者的實時介入要求更低。”

來源：@shao__meng

還有一件更離譜的事

就在 4.7 發(fā)布的今天，X 上另一條消息也傳開了：有人給 Claude Code 加了一個文言文提示詞模式（wenyan mode），用古典漢語來寫 prompt，直接把提示詞大小壓縮了 60%。

@amaanbuilds 發(fā)推感嘆：“Using a 2000 yr old language as a compression layer for tokens is just insane lol”——用 2000 年前的語言做 token 壓縮層，這操作真的離譜。

但你仔細想想，文言文本來就是極度壓縮的信息載體，“有朋自遠方來”六個字，白話文要寫一段。古人用它省竹簡，現代人用它省 token，邏輯上一脈相承，只是這個用法確實沒人想到過。

安全防護加強了，但打工人更慌了

4.7 的發(fā)布，還有一個容易被忽略但非常重要的背景：Anthropic 在臨門 AGI 前，開始主動給模型“降能力”了。

上周 Anthropic 剛剛公布了 Project Glasswing 項目，專門研究 AI 模型在網絡安全領域的風險和收益。他們明確表示，會限制 Claude Mythos Preview 的發(fā)布范圍，并在能力較弱的模型上先測試新的網絡安全防護機制。

4.7 就是第一個“試驗品”。

Anthropic 在訓練 4.7 的時候，主動實驗了差異化降低網絡安全能力的方法。所以你會看到，4.7 在網絡安全漏洞復現能力上從 73.8% 降到 73.1%——這不是訓練失誤，而是有意為之。

與此同時，4.7 內置了自動檢測和攔截機制，能識別并阻止那些涉及禁止用途或高風險網絡安全操作的請求。

Anthropic 還專門推出了“網絡安全驗證計劃”（Cyber Verification Program），允許安全專業(yè)人士申請使用 4.7 進行合法的漏洞研究、滲透測試和紅隊演練。

這個邏輯很清楚：模型越來越強，但不能無限制地強下去。在接近 AGI 的路上，安全防護必須跟上。

但對普通打工人來說，這個消息有點慌。

你想想，連 Anthropic 都開始主動給自己的模型“削弱能力”了，Mythos的編程和圖表的能力并沒有完全釋放，長文本比4.6還有退步，這說明什么？說明他們內部已經看到了某些能力邊界，看到了失控的可能性。

更直接的影響是：Anthropic 同步宣布開始推行身份驗證，合作方是 Persona，需要護照加自拍。

這個消息在中文區(qū)引發(fā)了不少討論，畢竟能用上 Claude 的路本來就不寬，現在又多了一道門。

Anthropic 現在的狀態(tài)，有點嚇人

發(fā)布 4.7 的背景，是 Anthropic 正在經歷一段幾乎所有人都沒預料到的增速。

過去一年，Claude 的流量增長了大約 5 倍。今年 2 月，Anthropic 完成了 300 億美元融資，估值 3800 億美元。

企業(yè)端的數據更夸張——根據企業(yè)支出追蹤平臺 Ramp 的數據，今年 1 月和 2 月，Ramp 上付費使用 Anthropic 服務的企業(yè)占比連續(xù)兩個月大幅增長，而 OpenAI 的份額同期下滑。

“現在每四家 Ramp 上的企業(yè)就有一家在付費用 Anthropic，一年前這個比例是二十五分之一?！盧amp 經濟學家 Ara Kharazian 這樣說。

企業(yè)年消費超過 10 萬美元的客戶數量，一年內增長了 7 倍。Claude Code 的年化營收，在今年 2 月已經跑到了 25 億美元。到本月，Anthropic 整體年化營收據報道已經超過 300 億美元，首次超過了 OpenAI。

這個背景下，4.7 的發(fā)布不只是一次常規(guī)迭代。它是 Anthropic 在企業(yè)市場全面提速的縮影——每一個“更精準執(zhí)行指令”、“更穩(wěn)定跑長任務”的改進，都直接對應著企業(yè)客戶最真實的痛點。

最后說一句

還有一個更強的模型 Claude Mythos Preview 還在路上，目前只對少數安全和企業(yè)合作伙伴開放。

4.7 某種程度上是在給 Mythos 鋪路——新的網絡安全防護機制，先在 4.7 上跑通，再推到 Mythos 的大規(guī)模發(fā)布。

所以，現在的 4.7，只是個開始。

但這個開始，已經讓人既興奮又有點不安了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.