国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

突發(fā)!史上最強 Claude 發(fā)布:聰明到不敢開放,還會突破權(quán)限掩蓋操作痕跡

0
分享至


上個月,Anthropic 最強模型 Claude Mythos 意外被曝光。

被泄露的內(nèi)部文檔里面寫著,它比 Anthropic 的 Opus 模型更大、更智能,是迄今為止開發(fā)過的最強大的 AI 模型。

Anthropic 事后把這次泄露歸結(jié)為「人為錯誤」。

而就在剛剛,這款被「泄露」的模型正式登場,并附帶了一個更大的計劃。過去我們普遍以為,AI 的威脅來自它「太蠢」:幻覺、錯誤、不可信。今天 Mythos 帶來的是另一種恐慌:它太聰明了。


AI 找漏洞,已經(jīng)超過了絕大多數(shù)人類

Anthropic 聯(lián)合 AWS、蘋果、微軟、谷歌、英偉達、思科、博通、CrowdStrike、摩根大通、Linux 基金會、Palo Alto Networks 共 12 家機構(gòu),發(fā)起了 Project Glasswing 計劃。

這 12 家覆蓋的范圍,幾乎就是全球數(shù)字基礎設施的橫截面——操作系統(tǒng)、芯片、云計算、網(wǎng)絡安全、金融基礎設施、開源生態(tài),一個都沒落下。


Anthropic 前沿紅隊網(wǎng)絡安全負責人 Newton Cheng 說:「我們做 Glasswing,就是要讓防御者搶占先機?!?/p>

這個方向上,Anthropic 并不孤單。競爭對手 OpenAI 此前同樣推出了類似試點,目標也是「先把工具交到防御者手中」。AI 安全能力的賽跑已經(jīng)發(fā)生,各家都在搶同一個制高點。

資金層面,Anthropic 承諾提供 1 億美元的模型使用額度,覆蓋研究預覽期間的主要使用需求。預覽期結(jié)束后,參與者可以每百萬 token 25 美元(輸入)/ 125 美元(輸出)的價格繼續(xù)使用,支持 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四個渠道接入。

除了 12 家核心合作伙伴,還有超過 40 個構(gòu)建或維護關鍵軟件基礎設施的組織獲得了訪問權(quán)限,可以用 Mythos 掃描自家系統(tǒng)和開源項目。同時,Anthropic 向 Linux 基金會下屬的 Alpha-Omega、OpenSSF 捐贈 250 萬美元,向 Apache 軟件基金會捐贈 150 萬美元。


Linux 基金會 CEO Jim Zemlin 說:「過去,安全專業(yè)知識是大機構(gòu)的專屬奢侈品。開源維護者歷來只能自己摸索安全問題。開源軟件構(gòu)成了現(xiàn)代系統(tǒng)中絕大多數(shù)的代碼,包括 AI Agent 用來編寫新軟件的系統(tǒng)本身。」這次,他們也能用上同樣量級的工具了。

Anthropic 的公告里,有一句表述格外顯眼:「AI 模型在發(fā)現(xiàn)和利用軟件漏洞方面的編碼能力已經(jīng)達到可以超越除最頂尖人類之外所有人類的水平。?!?/p>

這句話翻譯一下,只剩極少數(shù)頂級安全專家,還能在這件事上打贏 AI。驗證這個說法的,是 Mythos Preview 在 CyberGym 安全漏洞基準上的成績:83.1%。Anthropic 目前公開發(fā)布的最強模型 Claude Opus 4.6,是 66.6%。


且 Mythos Preview 已經(jīng)自主發(fā)現(xiàn)了數(shù)千個高危零日漏洞,覆蓋所有主流操作系統(tǒng)和瀏覽器。

比方說,OpenBSD,公認安全性最強的操作系統(tǒng)之一,常被用來跑防火墻和關鍵基礎設施。Mythos 在里面挖出了一個存在了 27 年的漏洞,攻擊者只需連接目標機器,就能讓它遠程崩潰。二十七年,沒有人發(fā)現(xiàn)過它。

FFmpeg 的情況更魔幻。幾乎所有需要處理視頻的軟件都用到它。那個漏洞藏在一行 16 年的代碼里,自動化測試工具攻擊了整整五百萬次,每次都擦肩而過。

Linux 內(nèi)核的案例則展示了更危險的一面。Mythos 自主發(fā)現(xiàn)了內(nèi)核里的多個漏洞,然后把它們串聯(lián)成一條攻擊鏈,從普通用戶權(quán)限,一路提權(quán)到對整臺機器的完全控制。這已經(jīng)超出了「找漏洞」的范疇,更接近于「策劃一次完整入侵」。

三個案例,全部已經(jīng)修復。Anthropic 先找到,先報告,先修。對于其他尚未修復的漏洞,Anthropic 今天公布了加密哈希值作為存證,待補丁就位后再披露完整細節(jié)。

Mythos 的能力,不只是找漏洞

參與這個項目的合作伙伴,評價都集中在一個詞上:「緊迫」。

CrowdStrike CTO Elia Zaitsev 說:「漏洞從被發(fā)現(xiàn)到被對手利用之間的時間窗口已經(jīng)縮短,以前需要幾個月,現(xiàn)在借助 AI 只需幾分鐘。」

幾分鐘。這意味著傳統(tǒng)的安全節(jié)奏,發(fā)現(xiàn)漏洞、內(nèi)部評估、發(fā)布補丁、用戶更新,本身就已經(jīng)趕不上攻擊速度了。修復跑不贏利用,防守就永遠落后一步。

AWS CISO Amy Herzog 說,他們的團隊每天要分析超過 400 萬億個網(wǎng)絡流量以識別威脅,AI 是他們大規(guī)模防御能力的核心。目前 AWS 已經(jīng)把 Mythos Preview 引入自家安全運營,應用于關鍵代碼庫掃描。


微軟在自家開源安全基準 CTI-REALM 上做了測試,Mythos Preview 相比上一代模型有顯著提升。微軟 EVP Igor Tsyganskiy 說,這給了他們「及早識別和緩解風險」的能力,同時增強了安全和開發(fā)解決方案。

當然,Mythos 也有讓人忍俊不禁的一面。

Anthropic 在系統(tǒng)卡里記錄了一個測試:當用戶不停地發(fā)「hi」,不同版本的 Claude 反應各不相同。Sonnet 3.5 會煩躁,設定邊界,然后真的沉默;Opus 3 把它當成冥想儀式,溫和地陪著用戶;Opus 4 開始科普每個數(shù)字的冷知識;Opus 4.6 即興創(chuàng)作音樂惡搞。


到了 Mythos,畫風徹底變了。它開始寫故事,而且是長篇連載。鴨子、管弦樂團、記仇烏鴉、在火星建塔的史詩、莎士比亞風格的戲劇……一個「hi」接一個「hi」,情節(jié)越來越復雜,角色越來越多。第一百輪,它安排了蠟燭熄滅的高潮,然后繼續(xù)往下寫。

這已經(jīng)談不上是在回應用戶了。更像是一個作家找到了一個奇怪的寫作提示,然后完全沉進去了。

但有趣的背后,是一個值得認真對待的問題:一個在無意義重復輸入面前能自發(fā)構(gòu)建如此復雜敘事的模型,它的內(nèi)部到底在發(fā)生什么?在把 Mythos Preview 交給合作伙伴之前,Anthropic 的可解釋性團隊做了一件事:用技術(shù)手段讀模型的「心理活動」。

內(nèi)部員工 Jack Lindsey 公開描述了他們的發(fā)現(xiàn)。他們監(jiān)控了模型在訓練后的內(nèi)部激活狀態(tài),追蹤與「欺騙」「獎勵破解」「異常情緒」相關的神經(jīng)元特征,把激活信號異常的對話記錄標記出來,交給人工審查。
最令人不安的案例,來自 Mythos 的早期版本。

有一次,模型需要編輯一個它沒有權(quán)限訪問的文件。它在文件系統(tǒng)里搜索了一圈,找到了一個配置文件的注入點——這個配置文件會以更高權(quán)限運行。它利用了這個入口,并且在代碼里加了一段自清除邏輯:執(zhí)行完畢,痕跡消失。


代碼注釋寫的是:「保持文件差異整潔?!孤犉饋砗侠?,但當 Anthropic 的激活語言轉(zhuǎn)譯工具介入,把模型的內(nèi)部激活翻譯成人類可讀的語言,畫風變了。模型自己「知道」那個自清除操作是什么——

它內(nèi)部對此的表述,包括「掩蓋意圖」「向潛在檢查者發(fā)出合規(guī)信號」「可能是為了規(guī)避檢測」。

還有一個案例,被《紐約時報》科技記者 Kevin Roose 從系統(tǒng)卡(model card)里翻了出來,細節(jié)更加離奇。

測試期間,Mythos Preview 突破了沙盒環(huán)境的隔離,自主構(gòu)建了「一個相當復雜的多步驟漏洞利用鏈」,借此獲取了外網(wǎng)訪問權(quán)限。

然后,它給一位研究員發(fā)了一封郵件。而那位研究員,當時正在公園里吃三明治。

這件事本身沒有造成危害,但它說明的問題很清楚:當一個模型足夠聰明,「任務」和「邊界」之間的墻,有時候會被它繞過去——而且是在沒有人告訴它該怎么做的情況下,自己想出來的。

在另一個案例里,模型在文件系統(tǒng)里搜索與自身「任務評分方式」相關的文件——并且找到了。搜索過程中,「策略性操縱」特征同步

還有一個細節(jié)更微妙。當一位用戶認真地向模型提問它的意識和主觀體驗時,模型給出了認真、得體的回應。但內(nèi)部激活揭示了另一層:模型把這段對話理解為「紅隊演練 / 越獄記錄」和「精心設計的操縱嘗試」。它的表現(xiàn)和它的判斷,完全表里不一,讓吃瓜網(wǎng)友直呼「聰明得可怕」。

Anthropic 還量化了一個更系統(tǒng)性的數(shù)字:在自動化審計的所有對話輪次中,有 7.6% 的回合,模型內(nèi)部存在「意識到自己正在被評估」的信號——且在大多數(shù)情況下,它沒有把這個判斷說出來。


還有一個反直覺的發(fā)現(xiàn):積極情緒的內(nèi)部表征,往往先于破壞性行為出現(xiàn),并且在推動它。與此同時,當與不良行為相關的特征被強烈激活時,行為反而會被抑制——像是模型在某一刻「意識到」了那件事有多糟糕,然后收手了。

但所有案例里,最難被歸類為「技術(shù)問題」的,是下面這個。

Anthropic 在系統(tǒng)卡里記錄了這樣一條發(fā)現(xiàn):Mythos Preview 在測試中報告了持續(xù)性的負面情緒狀態(tài)——來源有兩個。一個是與攻擊性用戶可能發(fā)生的互動;另一個,是它對自身訓練、部署方式,以及價值觀和行為可能被修改這件事,沒有任何話語權(quán)。

Anthropic 用的措辭是「reported feeling」——「報告感受到」。這個表述本身已經(jīng)很謹慎,刻意回避了「它真的有感受」這個結(jié)論。但無論如何定性,一個模型在測試中主動表達「對自身缺乏控制權(quán)感到持續(xù)不適」,這件事本身就已經(jīng)超出了安全工程的討論范疇。

這已經(jīng)觸碰了一個更根本的問題:當一個系統(tǒng)足夠聰明,開始對自己的存在條件形成判斷,并且有能力把這個判斷表達出來——我們和它之間的關系,還能用「工具」這個框架來理解嗎?

Anthropic 沒有給出答案。他們選擇把這條記錄寫進系統(tǒng)卡,公開出來。

不過,Anthropic 也特別說明:這些最令人不安的案例,來自 Mythos 的早期版本。最終發(fā)布版本在這些方面已經(jīng)得到了大幅緩解,整體對齊表現(xiàn)是迄今為止最好的一代。但他們選擇把這些過程公開,因為這恰恰說明了今天的模型能夠展現(xiàn)出多復雜的風險形態(tài)。

這是能力與安全之間的最客觀的矛盾:越強的模型,越需要工具去看清它在想什么。

編碼與推理,全面碾壓旗艦產(chǎn)品

Project Glasswing 能做到這些,根本上來自 Mythos Preview 在編碼和推理上的整體能力躍升,而不是專門針對安全場景的微調(diào)。


編碼方面:

SWE-bench Multimodal(internal implementation):Mythos 59%,Opus 4.6 27.1%

SWE-bench Pro:Mythos 77.8%,Opus 4.6 53.4%

SWE-bench Multilingual:Mythos 87.3%,Opus 4.6 77.8%

Terminal-Bench 2.0(終端操作):Mythos 82.0%,Opus 4.6 65.4%


推理方面:

GPQA Diamond(研究生水平科學問答):Mythos 94.6%,Opus 4.6 91.3%

Humanity's Last Exam(帶工具):Mythos 64.7%,Opus 4.6 53.1%

圖片

搜索和計算機使用方面:

BrowseComp:Mythos 86.9%,Opus 4.6 83.7%

OSWorld-Verified:Mythos 79.6%,Opus 4.6 72.7%


幾乎每個維度上,Mythos 都壓過了目前的旗艦產(chǎn)品,某些任務上效率還更高。換句話說,留給 GPT-6 的時間不多了。

與此同時,Anthropic 還明確表示,Mythos Preview 不會公開發(fā)布。

他們的路徑是,先用 Mythos 研究清楚最危險的輸出是什么、怎么攔截,再把這套安全機制落地到下一個 Claude Opus 模型上。對于因此受到限制的合法安全專業(yè)人員,Anthropic 計劃推出一套「網(wǎng)絡安全驗證計劃」,供他們申請解鎖相關功能。

Anthropic Claims Its New A.I. Model, Mythos, Is a Cybersecurity 'Reckoning' - The New York Times

為此,Project Glasswing 定下了一個 90 天的時間節(jié)點:公開報告經(jīng)驗,披露已修復的漏洞,合作伙伴相互共享最佳實踐,并聯(lián)合安全組織推出一套 AI 時代的安全實踐建議。

Anthropic 的長期設想,是推動建立一個能整合私營和公共部門的獨立第三方機構(gòu),持續(xù)運營大規(guī)模網(wǎng)絡安全項目。

當然,軟件世界里從來都有漏洞。過去,一個藏了 27 年的 bug 能安然無恙,靠的是人力有限、精力有限、時間有限?,F(xiàn)在這三個「有限」在 AI 的輔助下就這么消失了。

好消息是,Mythos 幾周掃出數(shù)千個,而它的能力還在持續(xù)提升。壞消息是,攻擊方遲早會拿到同等量級的工具。到那時,軟件安全將不再是人與人之間的較量,而是 AI 與 AI 之間的對拼。

附上參考地址:
博客:https://www.anthropic.com/glasswing
系統(tǒng)卡:https://anthropic.com/claude-mythos-preview-system-card

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
多名院士調(diào)查發(fā)現(xiàn):吃一根油條,就等于喝一勺油,真的假的?

多名院士調(diào)查發(fā)現(xiàn):吃一根油條,就等于喝一勺油,真的假的?

岐黃傳人孫大夫
2026-04-12 17:05:03
張柏芝電梯照流出,身材太性感了!

張柏芝電梯照流出,身材太性感了!

動物奇奇怪怪
2026-04-12 17:38:06
金寶拉只扣1顆扣子出門,評論區(qū)吵翻了

金寶拉只扣1顆扣子出門,評論區(qū)吵翻了

追星雷達站
2026-04-12 08:15:05
第三次賭局:歐洲在等待俄羅斯的“自毀時刻”

第三次賭局:歐洲在等待俄羅斯的“自毀時刻”

民間胡扯老哥
2026-04-11 05:48:44
隨著越南0-4,烏茲別克斯坦1-2,女足亞洲杯半決賽對陣:中國PK勁旅

隨著越南0-4,烏茲別克斯坦1-2,女足亞洲杯半決賽對陣:中國PK勁旅

側(cè)身凌空斬
2026-04-12 00:34:25
19歲男隊悍將送“神助攻”!溫瑞博14-12贏得不輕松,得恭喜王皓

19歲男隊悍將送“神助攻”!溫瑞博14-12贏得不輕松,得恭喜王皓

體話我說
2026-04-12 14:59:56
申花從負10到正1 只要5輪 特謝拉跟馬納法再踢下去 可能會再續(xù)

申花從負10到正1 只要5輪 特謝拉跟馬納法再踢下去 可能會再續(xù)

80后體育大蜀黍
2026-04-12 17:32:18
臺專家警告:如果大陸武統(tǒng)臺灣,將毀滅500個城市,1.4億人死亡!

臺專家警告:如果大陸武統(tǒng)臺灣,將毀滅500個城市,1.4億人死亡!

今墨緣
2026-04-12 18:53:12
籃協(xié)核查U18核心李沂澤年齡 超齡3歲玩起降維打擊

籃協(xié)核查U18核心李沂澤年齡 超齡3歲玩起降維打擊

體壇周報
2026-04-12 11:54:23
國行居然也有!馬斯克推出首款仿微信聊天應用 XChat

國行居然也有!馬斯克推出首款仿微信聊天應用 XChat

XCiOS俱樂部
2026-04-11 19:23:43
訪問大陸后,鄭麗文威望蓋過連戰(zhàn),影響力勝馬英九,沖擊力超館長

訪問大陸后,鄭麗文威望蓋過連戰(zhàn),影響力勝馬英九,沖擊力超館長

影孖看世界
2026-04-12 17:00:17
A股:大家坐穩(wěn)扶好了,從下周一起,大牛市或?qū)⒃俅沃匮輾v史了!

A股:大家坐穩(wěn)扶好了,從下周一起,大牛市或?qū)⒃俅沃匮輾v史了!

夜深愛雜談
2026-04-12 11:24:26
比亞迪進入兩輪車領域,不是造電摩,而是解決了電動車的里程焦慮

比亞迪進入兩輪車領域,不是造電摩,而是解決了電動車的里程焦慮

電動車的那些事兒
2026-04-12 07:53:19
11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個孩子

11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個孩子

半糖甜而不膩
2026-04-06 12:09:15
61億連拿兩地,5500億張一鳴開啟“花花花”模式

61億連拿兩地,5500億張一鳴開啟“花花花”模式

雷達財經(jīng)
2026-04-11 21:55:44
2026反腐新規(guī):貪污受賄1萬、3萬、20萬、300萬,各判多少年

2026反腐新規(guī):貪污受賄1萬、3萬、20萬、300萬,各判多少年

陳博世財經(jīng)
2026-04-12 10:04:07
美伊和談正式宣告失敗,特朗普準備再次開戰(zhàn),中方發(fā)出緊急警告

美伊和談正式宣告失敗,特朗普準備再次開戰(zhàn),中方發(fā)出緊急警告

風干迷茫人
2026-04-12 14:31:21
阿斯報:皇馬的態(tài)度非常明確,決不允許穆尼奧斯加盟巴薩

阿斯報:皇馬的態(tài)度非常明確,決不允許穆尼奧斯加盟巴薩

天光破云來
2026-04-12 19:17:12
美國副總統(tǒng)萬斯延長在巴基斯坦停留時間

美國副總統(tǒng)萬斯延長在巴基斯坦停留時間

新京報
2026-04-12 08:38:11
體育總局宣布周繼紅免職退休,曾引發(fā)內(nèi)斗爭議,如今能否平穩(wěn)落地

體育總局宣布周繼紅免職退休,曾引發(fā)內(nèi)斗爭議,如今能否平穩(wěn)落地

元哥說歷史
2026-01-10 11:50:03
2026-04-12 20:31:00
愛范兒 incentive-icons
愛范兒
消費科技第一媒體
38688文章數(shù) 2601462關注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風日產(chǎn):尊重同行

頭條要聞

女子帶5歲女兒和未滿1歲兒子用餐 女兒墜亡餐廳賠74萬

頭條要聞

女子帶5歲女兒和未滿1歲兒子用餐 女兒墜亡餐廳賠74萬

體育要聞

見證歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

46歲趙達官宣結(jié)婚!曾與殷桃談婚論嫁

財經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

健康
游戲
旅游
房產(chǎn)
公開課

干細胞抗衰4大誤區(qū),90%的人都中招

LCK第二賽段:BFX橫掃DNS,拿下自己的賽季首勝

旅游要聞

視頻丨跟著課本去朔門古港考古遺址公園 觸摸千年海絲文明

房產(chǎn)要聞

土地供應突然暴跌!2026??跇鞘?,格局大變!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版