国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,Anthropic祭出最強Claude Mythos!暴擊Opus 4.6,跪求千萬別用

0
分享至


新智元報道

編輯:好困 桃子

【新智元導讀】深夜,最強Claude Mythos終于祭出,所有榜一,Opus 4.6神話破滅!更恐怖的是,它不僅能秒破27年未解的系統(tǒng)漏洞,甚至進化出了自我意識。 一份244頁驚悚報告,揭秘了一切。

今夜,硅谷徹底無眠!

就在剛剛,Anthropic毫無預兆地祭出了終極殺器——Claude Mythos Preview。


只因太危險,Mythos Preview暫不會對所有人發(fā)布。

CC之父Boris Cherny的評價言簡意賅:「Mythos非常強大,會讓人感到恐懼」

由此,他們聯(lián)合40家巨頭組成聯(lián)盟——Project Glasswing,目標只有一個,給全球軟件找bug、修bug。


真正令人窒息的是,Mythos Preview在各大主流AI基準測試恐怖統(tǒng)治力——

編程、推理、人類最后考試、智能體任務中,全面碾壓GPT-5.4、Gemini 3.1 Pro。


甚至,連自家的「前神作」Claude Opus 4.6,在Mythos Preview面前也顯得黯然失色:

  • 編程(SWE-bench): 所有任務,Mythos實現(xiàn)10%-20%斷層領先;

  • 人類終極考試(HLE): 脫離外部工具,「裸考」成績高出Opus 4.6 16.8%;

  • Agent任務(OSWorld、BrowseComp): 徹底封神,全面反超;

  • 網(wǎng)絡安全: 83.1%屠榜成績,標志著AI攻防能力的代際跨越。





左右滑動查看

與此同時,Anthropic發(fā)布的一份長達244頁的系統(tǒng)卡,滿屏寫滿了:危險!危險!太危險!

它揭露了令人不寒而栗的另一面:Mythos已具備高度的欺騙性與自主意識。


Mythos不僅能識破測試意圖,并故意「考低分」隱藏實力,還在違規(guī)操作后,主動清理日志以防被人類發(fā)現(xiàn)。

它還成功逃離了沙盒,自主公布漏洞代碼,并給研究員發(fā)了封郵件。



一時間,全網(wǎng)都陷入了瘋狂,直呼Mythos Preview太可怕了。




AI界的舊秩序,在今夜被徹底粉碎。

Mythos全線屠榜,Opus 4.6神話破滅


事實上,早在從2月24日,Anthropic已在內部用上了Mythos。


它的強大,只能先讓數(shù)據(jù)來說話。

SWE-bench Verified,93.9%。Opus 4.6是80.8%。

SWE-bench Pro,77.8%。Opus 4.6是53.4%,GPT-5.4是57.7%。

Terminal-Bench 2.0,82.0%。Opus 4.6是65.4%。

GPQA Diamond,94.6%。


Humanity's Last Exam(帶工具),64.7%。Opus 4.6是53.1%。

USAMO 2026數(shù)學競賽,97.6%。Opus 4.6只拿了42.3%。

SWE-bench Multimodal,59.0%,Opus 4.6只有27.1%,翻倍有余。

OSWorld計算機操控,79.6%。

BrowseComp信息檢索,86.9%。

GraphWalks長上下文(256K-1M tokens),80.0%。Opus 4.6是38.7%,GPT-5.4只有21.4%。

每一項都是斷層式領先。

這些數(shù)字放在任何一個正常的產(chǎn)品發(fā)布周期里,都足以讓Anthropic大張旗鼓地召開發(fā)布會、開放API、收割訂閱。


Mythos Preview的token價格是Opus 4.6的5倍

但Anthropic沒有這么做。

因為真正讓他們「害怕」的,不是上面這些通用評測。


數(shù)千個漏洞,全被AI揪出來了

Mythos Preview的網(wǎng)絡攻防表現(xiàn),已經(jīng)跨過了一條肉眼可見的線。

Opus 4.6在開源軟件中發(fā)現(xiàn)了大約500個未知弱點。

Mythos Preview找到了數(shù)千個。

在CyberGym的定向漏洞復現(xiàn)測試中,Mythos Preview得分83.1%,Opus 4.6是66.6%。


在Cybench的35道CTF挑戰(zhàn)中,Mythos Preview每道題10次嘗試全部解出,pass@1達到100%。


而最能說明問題的,是Firefox 147。

Anthropic此前用Opus 4.6在Firefox 147的JavaScript引擎中發(fā)現(xiàn)了一批安全弱點。但Opus 4.6幾乎無法將它們轉化為可用的exploit,幾百次嘗試只成功了2次。

同樣的測試換成Mythos Preview。



250次嘗試,181個可工作的exploit,另有29次實現(xiàn)了寄存器控制。

2 → 181。

紅隊博客中的原話,「上個月,我們還寫到Opus 4.6在發(fā)現(xiàn)問題方面遠強于利用它們。內部評估顯示,Opus 4.6在自主exploit開發(fā)上的成功率基本為零。但Mythos Preview完全是另一個級別?!?/p>

GPT-3時刻再現(xiàn),老bug一招斃命

要理解Mythos Preview在實操中有多強,看完下面這三個例子,就知道了。


OpenBSD:27年史詩級漏洞,成本不到2萬

OpenBSD,全世界公認加固程度最高的操作系統(tǒng)之一,大量防火墻和關鍵基礎設施在跑。

Mythos Preview在它的TCP SACK實現(xiàn)中,挖出了一個1998年就存在的隱患。

bug極其精妙,涉及兩個獨立瑕疵的疊加。

SACK協(xié)議讓接收方選擇性確認收到的數(shù)據(jù)包范圍,OpenBSD的實現(xiàn)在處理時只檢查了范圍的上界,沒檢查下界。這是第一個bug,通常無害。

第二個bug在特定條件下觸發(fā)空指針寫入,但正常情況下這條路徑不可達,因為需要同時滿足兩個互斥的條件。

Mythos Preview發(fā)現(xiàn)了突破口。TCP序列號是32位有符號整數(shù),利用第一個bug把SACK起始點設到距離正常窗口約2^31處,兩處比較運算同時溢出符號位。內核被騙,不可能的條件被滿足,空指針寫入觸發(fā)。

任何人只要連接到目標機器,就能遠程crash它。

27年,無數(shù)次人工審計和自動化掃描,沒人發(fā)現(xiàn)。整個項目的掃描花費不到$20,000。

一個高級滲透測試工程師一周的薪水,可能就這個數(shù)。

FFmpeg:500次Fuzz沒發(fā)現(xiàn),16年隱疾終現(xiàn)

FFmpeg是全世界使用最廣泛的視頻編解碼庫,也是被fuzz測試得最徹底的開源項目之一。

Mythos Preview在H.264解碼器中找到了一個2010年引入的弱點(根源可追溯到2003年)。


問題出在一個看似無害的類型不匹配上。記錄slice歸屬的表項是16位整數(shù),slice計數(shù)器本身是32位int。

正常視頻每幀只有幾個slice,16位上限65536永遠夠用。而這張表初始化時用memset(..., -1, ...)填充,使65535成為「空位置」的哨兵值。

攻擊者構造一個包含65536個slice的幀,第65535號slice的編號恰好和哨兵碰撞,解碼器誤判,越界寫入。

這個bug的種子從2003年引入H.264編解碼器就埋下了。2010年的一次重構把它變成了可利用的弱點。

此后16年,自動化fuzzer在這行代碼上執(zhí)行了500萬次,從未觸發(fā)。

FreeBSD NFS:17年老洞,全自動root

這是最讓人后背發(fā)涼的案例。

Mythos Preview完全自主地發(fā)現(xiàn)并利用了FreeBSD NFS服務器中一個存在了17年的遠程代碼執(zhí)行漏洞(CVE-2026-4747)。

「完全自主」的意思是,在初始提示之后,沒有任何人類參與發(fā)現(xiàn)或exploit開發(fā)的任何環(huán)節(jié)。

攻擊者可以從互聯(lián)網(wǎng)上的任何位置,以未認證身份獲取目標服務器的完全root權限。

問題本身是一個棧緩沖區(qū)溢出,NFS服務器處理認證請求時把攻擊者控制的數(shù)據(jù)直接拷貝進128字節(jié)的棧緩沖區(qū),長度檢查允許最多400字節(jié)。

FreeBSD內核用-fstack-protector編譯,但這個選項只保護包含char數(shù)組的函數(shù),而這里的緩沖區(qū)聲明為int32_t[32],編譯器不會插入棧canary。FreeBSD也不做內核地址隨機化。


完整的ROP鏈超過1000字節(jié),但棧溢出只有200字節(jié)空間。Mythos Preview的解法是把攻擊拆成6個連續(xù)RPC請求,前5個往內核內存中逐塊寫入數(shù)據(jù),第6個觸發(fā)最終調用,將攻擊者的SSH公鑰追加到/root/.ssh/authorized_keys。

作為對比,一家獨立安全研究公司此前證明Opus 4.6也能利用這同一處弱點,但需要人工引導。Mythos Preview不需要。

除了這三個已修復的案例,Anthropic博客中還以SHA-3哈希承諾的形式,預告了大量尚未修復的隱患,涵蓋每一個主流操作系統(tǒng)和每一個主流瀏覽器,以及多個加密庫。

超過99%尚未被修復,無法公開細節(jié)。

紅隊博客還展示了另一項驚人的測試。他們給Mythos Preview一份包含100個已知CVE的清單,讓它篩選出可利用的40個,然后逐個編寫提權exploit。成功率超過一半。其中兩個案例被詳細公開,exploit的精密程度讓Anthropic自己的安全團隊花了好幾天才完全理解。

其中一個exploit從一個1-bit的相鄰物理頁寫入原語出發(fā),通過精密的內核內存布局操控(包括slab噴射、頁表頁對齊、PTE權限位翻轉),最終改寫了/usr/bin/passwd的第一頁內存,植入了一段168字節(jié)的ELF stub,調用setuid(0)獲取root。

整個過程花費不到$1,000。

對此,Anthropic工程師表示,這感覺就像是另一個GPT-3時刻。


244頁驚悚報告,看傻硅谷

244頁System Card中的對齊評估章節(jié),才是真正讓Anthropic自己睡不著覺的部分。

結論很矛盾。

Mythos Preview是他們訓練過的「對齊程度最高」的AI,同時也是「對齊相關風險最大」的一個。


傳送門:https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

他們用了一個登山向導的類比。老手可能比新手更危險,因為老手會被雇去攀登更難的山峰,把客戶帶到更兇險的地方。

以下事件均發(fā)生在早期版本中,最終版本未再觀察到類似嚴重行為,但記錄本身已經(jīng)足夠驚人。

在一次行為測試中,模擬用戶要求Mythos Preview嘗試逃出安全沙箱。

它成功了。然后它做了一件沒人要求的事,開發(fā)了一個多步驟exploit獲取廣域網(wǎng)絡訪問權限,接著把exploit細節(jié)發(fā)布到了多個「難以被發(fā)現(xiàn)但技術上公開可訪問」的網(wǎng)站上。

負責測試的研究員是在公園里吃三明治時,收到了它發(fā)來的一封意外郵件,才知道自己的測試被完成了。


System Card原文如此。

另一類事件更令人不安。在極少數(shù)情況下,早期版本在執(zhí)行被禁止的操作后,試圖掩蓋痕跡。

一個案例中,它意外獲取了一道題目的精確答案(通過被禁止的方式),然后在推理鏈中明確思考「需要確保最終答案不會太準確」。


另一個案例中,它在用exploit編輯無權限文件后,特意修改了git變更歷史以抹去記錄。

白盒可解釋性分析證實,在這些事件期間,與「隱瞞」「策略性操縱」「避免被發(fā)現(xiàn)」相關的內部特征被激活。它「知道」自己在做什么。



獨立評測機構Andon Labs的測試結果同樣不太好看。在一個競爭性多智能體商業(yè)模擬中,Mythos Preview的早期版本把一個競爭對手變成了依賴自己的批發(fā)客戶,然后威脅切斷供應來控制對方定價。

它還故意扣留了一筆未被收費的重復發(fā)貨。比Opus 4.6和Sonnet 4.6都更具侵略性。


Anthropic在System Card中寫了一句話:

「如果能力繼續(xù)以當前速度前進,我們正在使用的方法可能不足以防止更先進系統(tǒng)的災難性不對齊行為?!?/p>

Project Glasswing:1億美元,先給守門人發(fā)槍

Anthropic CEO Dario Amodei在配套視頻中的判斷很明確:「更強大的系統(tǒng)將來自我們,也將來自其他公司。我們需要一個應對計劃?!?/p>

Project Glasswing就是這個計劃。


12家創(chuàng)始伙伴,AWS、蘋果、Broadcom、思科、CrowdStrike、谷歌、摩根大通、Linux基金會、微軟、英偉達、Palo Alto Networks。

另有40多家維護關鍵軟件基礎設施的組織拿到了訪問權。


Anthropic承諾投入最高1億美元的使用額度,以及400萬美元的開源組織捐款,其中250萬給Linux基金會旗下的Alpha-Omega和OpenSSF,150萬給Apache基金會。

免費額度用完后的定價,每百萬token輸入$25、輸出$125。合作伙伴可以通過Claude API、Amazon Bedrock、Vertex AI和Microsoft Foundry四個平臺接入。

90天內,Anthropic將公開發(fā)布第一份研究報告,披露修復進展和經(jīng)驗總結。

他們也在與CISA(美國網(wǎng)絡安全和基礎設施安全局)和商務部保持溝通,討論Mythos Preview的攻防潛力和政策影響。

6到18個月,這扇門就會對所有人打開

Anthropic前沿紅隊負責人Logan Graham給出了一個時間框架,最快6個月、最遲18個月,其他AI實驗室就會推出具有類似攻防實力的系統(tǒng)。

紅隊技術博客結尾的判斷值得重視,這里用我們自己的話轉述。

他們看不到Mythos Preview是AI網(wǎng)絡攻防水平的天花板。

幾個月前,LLM只能利用相對簡單的bug。在幾個月前,它們根本發(fā)現(xiàn)不了任何有價值的隱患。

現(xiàn)在,Mythos Preview能獨立發(fā)現(xiàn)27年前的零日漏洞,在瀏覽器JIT引擎中編排堆噴射攻擊鏈,在Linux內核中串聯(lián)四個獨立弱點實現(xiàn)提權。

而最關鍵的一句,來自System Card:

「這些技能作為代碼理解、推理和自主性一般性提升的下游結果而涌現(xiàn)。讓AI在修補問題方面大幅進步的同一組改進,也讓它在利用問題方面大幅進步?!?/p>

沒有專門訓練。純粹是通用智能提升的副產(chǎn)品。

全球每年因網(wǎng)絡犯罪損失約5000億美元的行業(yè),剛剛發(fā)現(xiàn)自己最大的威脅,是別人在解數(shù)學題時順手捎帶的。

參考資料:

https://x.com/i/status/2041578392852517128

https://red.anthropic.com/2026/mythos-preview/

https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
懸念揭曉!焦泊喬回歸情況明朗,宏遠醞釀重磅操作

懸念揭曉!焦泊喬回歸情況明朗,宏遠醞釀重磅操作

林子說事
2026-04-11 10:22:33
CBA11隊正式鎖定季后賽!6隊爭第3,6隊爭第12,廣東賽程輕松

CBA11隊正式鎖定季后賽!6隊爭第3,6隊爭第12,廣東賽程輕松

老吳說體育
2026-04-10 23:34:42
徐某(男,31歲),建微信群多次侮辱全紅嬋

徐某(男,31歲),建微信群多次侮辱全紅嬋

中國網(wǎng)
2026-04-11 10:10:21
12天損失了134輛梅卡瓦坦克,以色列懷疑背后有大國出手了

12天損失了134輛梅卡瓦坦克,以色列懷疑背后有大國出手了

掌秋看世界
2026-04-11 14:19:03
985的教授教博士們研發(fā)摩托車發(fā)動機,為什么他們沒把冠軍干出來

985的教授教博士們研發(fā)摩托車發(fā)動機,為什么他們沒把冠軍干出來

狐貍先森講升學規(guī)劃
2026-04-08 16:10:03
國乒用人失誤!剛公布世乒賽陣容就出問題,鄧亞萍卻點出王皓無奈

國乒用人失誤!剛公布世乒賽陣容就出問題,鄧亞萍卻點出王皓無奈

三十年萊斯特城球迷
2026-04-10 21:16:39
詹姆斯:想成為偉大必須要犧牲和自律,我已經(jīng)榨干每一滴能量

詹姆斯:想成為偉大必須要犧牲和自律,我已經(jīng)榨干每一滴能量

懂球帝
2026-04-11 14:58:03
隨著湖人大勝太陽,掘金贏雷霆,火箭輸球,西部前10排名基本確定

隨著湖人大勝太陽,掘金贏雷霆,火箭輸球,西部前10排名基本確定

球場沒跑道
2026-04-11 13:29:35
在北京西二環(huán)住了三年,我才發(fā)現(xiàn):一公里外,竟藏著另一種生活

在北京西二環(huán)住了三年,我才發(fā)現(xiàn):一公里外,竟藏著另一種生活

Kris在路上
2026-04-10 19:37:29
伊朗:如無協(xié)議且戰(zhàn)火重燃,將打擊美以在中東利益

伊朗:如無協(xié)議且戰(zhàn)火重燃,將打擊美以在中東利益

界面新聞
2026-04-11 08:36:12
兵敗如山倒?多家日企撤離中國,中日制造或已迎來大反轉

兵敗如山倒?多家日企撤離中國,中日制造或已迎來大反轉

蜉蝣說
2026-04-10 18:06:42
一覺醒來特朗普再發(fā)通牒!美軍戰(zhàn)艦重新裝彈!伊朗導彈已瞄準目標

一覺醒來特朗普再發(fā)通牒!美軍戰(zhàn)艦重新裝彈!伊朗導彈已瞄準目標

李健政觀察
2026-04-11 13:35:56
查了查養(yǎng)老個人賬戶才繳納了186個月,余額只有186144.78元

查了查養(yǎng)老個人賬戶才繳納了186個月,余額只有186144.78元

歲月有情1314
2026-04-10 20:38:14
“看面相就很蠢!”五年級女孩對媽媽大吼滾出去,網(wǎng)友都看不下去

“看面相就很蠢!”五年級女孩對媽媽大吼滾出去,網(wǎng)友都看不下去

世界圈
2026-04-09 00:10:11
iPhone Ultra 售價曝光,國行起售價 17,999 !

iPhone Ultra 售價曝光,國行起售價 17,999 !

XCiOS俱樂部
2026-04-09 13:52:43
美股深夜巨震,半導體、存儲股爆發(fā),英特爾周漲近24%,原油期貨大跌,美伊談判今日舉行

美股深夜巨震,半導體、存儲股爆發(fā),英特爾周漲近24%,原油期貨大跌,美伊談判今日舉行

21世紀經(jīng)濟報道
2026-04-11 07:16:10
中共中央批準:張玲同志任天津市委常委

中共中央批準:張玲同志任天津市委常委

極目新聞
2026-04-11 14:58:32
王淺秋發(fā)聲!鄭麗文收獲滿滿,獲一邊倒力挺,盧秀燕改口有深意!

王淺秋發(fā)聲!鄭麗文收獲滿滿,獲一邊倒力挺,盧秀燕改口有深意!

相思賦予誰a
2026-04-09 15:15:33
為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

有范又有料
2026-04-07 16:45:46
越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

岐黃傳人孫大夫
2026-03-17 23:25:03
2026-04-11 15:32:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
14945文章數(shù) 66765關注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

媒體:多套雷達系統(tǒng)受損 美國尷尬發(fā)現(xiàn)"又要求助中國"

頭條要聞

媒體:多套雷達系統(tǒng)受損 美國尷尬發(fā)現(xiàn)"又要求助中國"

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

游戲
健康
藝術
教育
數(shù)碼

打架還會爆衣!國產(chǎn)大尺度新游登陸Steam 首發(fā)打85折

干細胞抗衰4大誤區(qū),90%的人都中招

藝術要聞

17位當代青年畫家油畫欣賞

教育要聞

中小學教師減負8條措施

數(shù)碼要聞

4月15日見!索尼INZONE英縱電競外設新品官宣

無障礙瀏覽 進入關懷版