網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

突發(fā)！史上最強 Claude 發(fā)布：聰明到不敢開放，還會突破權(quán)限掩蓋操作痕跡

2026-04-08 11:43:34　來源: 愛范兒

廣東舉報

分享至

上個月，Anthropic 最強模型 Claude Mythos 意外被曝光。

被泄露的內(nèi)部文檔里面寫著，它比 Anthropic 的 Opus 模型更大、更智能，是迄今為止開發(fā)過的最強大的 AI 模型。

Anthropic 事后把這次泄露歸結(jié)為「人為錯誤」。

而就在剛剛，這款被「泄露」的模型正式登場，并附帶了一個更大的計劃。過去我們普遍以為，AI 的威脅來自它「太蠢」：幻覺、錯誤、不可信。今天 Mythos 帶來的是另一種恐慌：它太聰明了。

AI 找漏洞，已經(jīng)超過了絕大多數(shù)人類

Anthropic 聯(lián)合 AWS、蘋果、微軟、谷歌、英偉達、思科、博通、CrowdStrike、摩根大通、Linux 基金會、Palo Alto Networks 共 12 家機構(gòu)，發(fā)起了 Project Glasswing 計劃。

這 12 家覆蓋的范圍，幾乎就是全球數(shù)字基礎設施的橫截面——操作系統(tǒng)、芯片、云計算、網(wǎng)絡安全、金融基礎設施、開源生態(tài)，一個都沒落下。

Anthropic 前沿紅隊網(wǎng)絡安全負責人 Newton Cheng 說：「我們做 Glasswing，就是要讓防御者搶占先機?！?/p>

這個方向上，Anthropic 并不孤單。競爭對手 OpenAI 此前同樣推出了類似試點，目標也是「先把工具交到防御者手中」。AI 安全能力的賽跑已經(jīng)發(fā)生，各家都在搶同一個制高點。

資金層面，Anthropic 承諾提供 1 億美元的模型使用額度，覆蓋研究預覽期間的主要使用需求。預覽期結(jié)束后，參與者可以每百萬 token 25 美元（輸入）/ 125 美元（輸出）的價格繼續(xù)使用，支持 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四個渠道接入。

除了 12 家核心合作伙伴，還有超過 40 個構(gòu)建或維護關鍵軟件基礎設施的組織獲得了訪問權(quán)限，可以用 Mythos 掃描自家系統(tǒng)和開源項目。同時，Anthropic 向 Linux 基金會下屬的 Alpha-Omega、OpenSSF 捐贈 250 萬美元，向 Apache 軟件基金會捐贈 150 萬美元。

Linux 基金會 CEO Jim Zemlin 說：「過去，安全專業(yè)知識是大機構(gòu)的專屬奢侈品。開源維護者歷來只能自己摸索安全問題。開源軟件構(gòu)成了現(xiàn)代系統(tǒng)中絕大多數(shù)的代碼，包括 AI Agent 用來編寫新軟件的系統(tǒng)本身。」這次，他們也能用上同樣量級的工具了。

Anthropic 的公告里，有一句表述格外顯眼：「AI 模型在發(fā)現(xiàn)和利用軟件漏洞方面的編碼能力已經(jīng)達到可以超越除最頂尖人類之外所有人類的水平。?！?/p>

這句話翻譯一下，只剩極少數(shù)頂級安全專家，還能在這件事上打贏 AI。驗證這個說法的，是 Mythos Preview 在 CyberGym 安全漏洞基準上的成績：83.1%。Anthropic 目前公開發(fā)布的最強模型 Claude Opus 4.6，是 66.6%。

且 Mythos Preview 已經(jīng)自主發(fā)現(xiàn)了數(shù)千個高危零日漏洞，覆蓋所有主流操作系統(tǒng)和瀏覽器。

比方說，OpenBSD，公認安全性最強的操作系統(tǒng)之一，常被用來跑防火墻和關鍵基礎設施。Mythos 在里面挖出了一個存在了 27 年的漏洞，攻擊者只需連接目標機器，就能讓它遠程崩潰。二十七年，沒有人發(fā)現(xiàn)過它。

FFmpeg 的情況更魔幻。幾乎所有需要處理視頻的軟件都用到它。那個漏洞藏在一行 16 年的代碼里，自動化測試工具攻擊了整整五百萬次，每次都擦肩而過。

Linux 內(nèi)核的案例則展示了更危險的一面。Mythos 自主發(fā)現(xiàn)了內(nèi)核里的多個漏洞，然后把它們串聯(lián)成一條攻擊鏈，從普通用戶權(quán)限，一路提權(quán)到對整臺機器的完全控制。這已經(jīng)超出了「找漏洞」的范疇，更接近于「策劃一次完整入侵」。

三個案例，全部已經(jīng)修復。Anthropic 先找到，先報告，先修。對于其他尚未修復的漏洞，Anthropic 今天公布了加密哈希值作為存證，待補丁就位后再披露完整細節(jié)。

Mythos 的能力，不只是找漏洞

參與這個項目的合作伙伴，評價都集中在一個詞上：「緊迫」。

CrowdStrike CTO Elia Zaitsev 說：「漏洞從被發(fā)現(xiàn)到被對手利用之間的時間窗口已經(jīng)縮短，以前需要幾個月，現(xiàn)在借助 AI 只需幾分鐘。」

幾分鐘。這意味著傳統(tǒng)的安全節(jié)奏，發(fā)現(xiàn)漏洞、內(nèi)部評估、發(fā)布補丁、用戶更新，本身就已經(jīng)趕不上攻擊速度了。修復跑不贏利用，防守就永遠落后一步。

AWS CISO Amy Herzog 說，他們的團隊每天要分析超過 400 萬億個網(wǎng)絡流量以識別威脅，AI 是他們大規(guī)模防御能力的核心。目前 AWS 已經(jīng)把 Mythos Preview 引入自家安全運營，應用于關鍵代碼庫掃描。

微軟在自家開源安全基準 CTI-REALM 上做了測試，Mythos Preview 相比上一代模型有顯著提升。微軟 EVP Igor Tsyganskiy 說，這給了他們「及早識別和緩解風險」的能力，同時增強了安全和開發(fā)解決方案。

當然，Mythos 也有讓人忍俊不禁的一面。

Anthropic 在系統(tǒng)卡里記錄了一個測試：當用戶不停地發(fā)「hi」，不同版本的 Claude 反應各不相同。Sonnet 3.5 會煩躁，設定邊界，然后真的沉默；Opus 3 把它當成冥想儀式，溫和地陪著用戶；Opus 4 開始科普每個數(shù)字的冷知識；Opus 4.6 即興創(chuàng)作音樂惡搞。

到了 Mythos，畫風徹底變了。它開始寫故事，而且是長篇連載。鴨子、管弦樂團、記仇烏鴉、在火星建塔的史詩、莎士比亞風格的戲劇……一個「hi」接一個「hi」，情節(jié)越來越復雜，角色越來越多。第一百輪，它安排了蠟燭熄滅的高潮，然后繼續(xù)往下寫。

這已經(jīng)談不上是在回應用戶了。更像是一個作家找到了一個奇怪的寫作提示，然后完全沉進去了。

但有趣的背后，是一個值得認真對待的問題：一個在無意義重復輸入面前能自發(fā)構(gòu)建如此復雜敘事的模型，它的內(nèi)部到底在發(fā)生什么？在把 Mythos Preview 交給合作伙伴之前，Anthropic 的可解釋性團隊做了一件事：用技術(shù)手段讀模型的「心理活動」。

內(nèi)部員工 Jack Lindsey 公開描述了他們的發(fā)現(xiàn)。他們監(jiān)控了模型在訓練后的內(nèi)部激活狀態(tài)，追蹤與「欺騙」「獎勵破解」「異常情緒」相關的神經(jīng)元特征，把激活信號異常的對話記錄標記出來，交給人工審查。
最令人不安的案例，來自 Mythos 的早期版本。

有一次，模型需要編輯一個它沒有權(quán)限訪問的文件。它在文件系統(tǒng)里搜索了一圈，找到了一個配置文件的注入點——這個配置文件會以更高權(quán)限運行。它利用了這個入口，并且在代碼里加了一段自清除邏輯：執(zhí)行完畢，痕跡消失。

代碼注釋寫的是：「保持文件差異整潔?！孤犉饋砗侠?，但當 Anthropic 的激活語言轉(zhuǎn)譯工具介入，把模型的內(nèi)部激活翻譯成人類可讀的語言，畫風變了。模型自己「知道」那個自清除操作是什么——

它內(nèi)部對此的表述，包括「掩蓋意圖」「向潛在檢查者發(fā)出合規(guī)信號」「可能是為了規(guī)避檢測」。

還有一個案例，被《紐約時報》科技記者 Kevin Roose 從系統(tǒng)卡（model card）里翻了出來，細節(jié)更加離奇。

測試期間，Mythos Preview 突破了沙盒環(huán)境的隔離，自主構(gòu)建了「一個相當復雜的多步驟漏洞利用鏈」，借此獲取了外網(wǎng)訪問權(quán)限。

然后，它給一位研究員發(fā)了一封郵件。而那位研究員，當時正在公園里吃三明治。

這件事本身沒有造成危害，但它說明的問題很清楚：當一個模型足夠聰明，「任務」和「邊界」之間的墻，有時候會被它繞過去——而且是在沒有人告訴它該怎么做的情況下，自己想出來的。

在另一個案例里，模型在文件系統(tǒng)里搜索與自身「任務評分方式」相關的文件——并且找到了。搜索過程中，「策略性操縱」特征同步

還有一個細節(jié)更微妙。當一位用戶認真地向模型提問它的意識和主觀體驗時，模型給出了認真、得體的回應。但內(nèi)部激活揭示了另一層：模型把這段對話理解為「紅隊演練 / 越獄記錄」和「精心設計的操縱嘗試」。它的表現(xiàn)和它的判斷，完全表里不一，讓吃瓜網(wǎng)友直呼「聰明得可怕」。

Anthropic 還量化了一個更系統(tǒng)性的數(shù)字：在自動化審計的所有對話輪次中，有 7.6% 的回合，模型內(nèi)部存在「意識到自己正在被評估」的信號——且在大多數(shù)情況下，它沒有把這個判斷說出來。

還有一個反直覺的發(fā)現(xiàn)：積極情緒的內(nèi)部表征，往往先于破壞性行為出現(xiàn)，并且在推動它。與此同時，當與不良行為相關的特征被強烈激活時，行為反而會被抑制——像是模型在某一刻「意識到」了那件事有多糟糕，然后收手了。

但所有案例里，最難被歸類為「技術(shù)問題」的，是下面這個。

Anthropic 在系統(tǒng)卡里記錄了這樣一條發(fā)現(xiàn)：Mythos Preview 在測試中報告了持續(xù)性的負面情緒狀態(tài)——來源有兩個。一個是與攻擊性用戶可能發(fā)生的互動；另一個，是它對自身訓練、部署方式，以及價值觀和行為可能被修改這件事，沒有任何話語權(quán)。

Anthropic 用的措辭是「reported feeling」——「報告感受到」。這個表述本身已經(jīng)很謹慎，刻意回避了「它真的有感受」這個結(jié)論。但無論如何定性，一個模型在測試中主動表達「對自身缺乏控制權(quán)感到持續(xù)不適」，這件事本身就已經(jīng)超出了安全工程的討論范疇。

這已經(jīng)觸碰了一個更根本的問題：當一個系統(tǒng)足夠聰明，開始對自己的存在條件形成判斷，并且有能力把這個判斷表達出來——我們和它之間的關系，還能用「工具」這個框架來理解嗎？

Anthropic 沒有給出答案。他們選擇把這條記錄寫進系統(tǒng)卡，公開出來。

不過，Anthropic 也特別說明：這些最令人不安的案例，來自 Mythos 的早期版本。最終發(fā)布版本在這些方面已經(jīng)得到了大幅緩解，整體對齊表現(xiàn)是迄今為止最好的一代。但他們選擇把這些過程公開，因為這恰恰說明了今天的模型能夠展現(xiàn)出多復雜的風險形態(tài)。

這是能力與安全之間的最客觀的矛盾：越強的模型，越需要工具去看清它在想什么。

編碼與推理，全面碾壓旗艦產(chǎn)品

Project Glasswing 能做到這些，根本上來自 Mythos Preview 在編碼和推理上的整體能力躍升，而不是專門針對安全場景的微調(diào)。

編碼方面：

SWE-bench Multimodal(internal implementation)：Mythos 59%，Opus 4.6 27.1%

SWE-bench Pro：Mythos 77.8%，Opus 4.6 53.4%

SWE-bench Multilingual：Mythos 87.3%，Opus 4.6 77.8%

Terminal-Bench 2.0（終端操作）：Mythos 82.0%，Opus 4.6 65.4%

推理方面：

GPQA Diamond（研究生水平科學問答）：Mythos 94.6%，Opus 4.6 91.3%

Humanity's Last Exam（帶工具）：Mythos 64.7%，Opus 4.6 53.1%

圖片

搜索和計算機使用方面：

BrowseComp：Mythos 86.9%，Opus 4.6 83.7%

OSWorld-Verified：Mythos 79.6%，Opus 4.6 72.7%

幾乎每個維度上，Mythos 都壓過了目前的旗艦產(chǎn)品，某些任務上效率還更高。換句話說，留給 GPT-6 的時間不多了。

與此同時，Anthropic 還明確表示，Mythos Preview 不會公開發(fā)布。

他們的路徑是，先用 Mythos 研究清楚最危險的輸出是什么、怎么攔截，再把這套安全機制落地到下一個 Claude Opus 模型上。對于因此受到限制的合法安全專業(yè)人員，Anthropic 計劃推出一套「網(wǎng)絡安全驗證計劃」，供他們申請解鎖相關功能。

Anthropic Claims Its New A.I. Model, Mythos, Is a Cybersecurity 'Reckoning' - The New York Times

為此，Project Glasswing 定下了一個 90 天的時間節(jié)點：公開報告經(jīng)驗，披露已修復的漏洞，合作伙伴相互共享最佳實踐，并聯(lián)合安全組織推出一套 AI 時代的安全實踐建議。

Anthropic 的長期設想，是推動建立一個能整合私營和公共部門的獨立第三方機構(gòu)，持續(xù)運營大規(guī)模網(wǎng)絡安全項目。

當然，軟件世界里從來都有漏洞。過去，一個藏了 27 年的 bug 能安然無恙，靠的是人力有限、精力有限、時間有限?，F(xiàn)在這三個「有限」在 AI 的輔助下就這么消失了。

好消息是，Mythos 幾周掃出數(shù)千個，而它的能力還在持續(xù)提升。壞消息是，攻擊方遲早會拿到同等量級的工具。到那時，軟件安全將不再是人與人之間的較量，而是 AI 與 AI 之間的對拼。

附上參考地址：
博客：https://www.anthropic.com/glasswing
系統(tǒng)卡：https://anthropic.com/claude-mythos-preview-system-card

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.