国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華裔領(lǐng)銜神秘小隊,護(hù)航Anthropic“玻璃之翼”

0
分享至



從凌晨到現(xiàn)在,全世界應(yīng)該已經(jīng)都知道并且震驚了:

Anthropic的新模型Mythos Preview太強了,強到讓人害怕,如果發(fā)布,對網(wǎng)絡(luò)安全將是一個威脅。

但同時,Mythos Preview太強了,強到可以大大加強網(wǎng)絡(luò)防御能力。

既能當(dāng)劍也能當(dāng)盾牌。

所以,Anthropic決定先不把Mythos Preview公之于眾(免得被先用來網(wǎng)絡(luò)攻擊),而是搞一個“玻璃之翼項目”,把新模型通過這個項目放量給關(guān)鍵行業(yè)伙伴和開源開發(fā)者,讓需要網(wǎng)絡(luò)防御的一方先用上。

不管是新模型還是新項目,都在吶喊四個字:網(wǎng)絡(luò)安全。

至于Anthropic是如何評估自己的模型有多強、危不危險、適不適合發(fā)布,那就必須提到A廠一個非常神秘的精英組織——前沿紅隊。



Anthropic的前沿紅隊存在已久,專門當(dāng)“刺兒頭”,從各個維度對模型發(fā)起挑戰(zhàn),測試模型的“弱點”與出人意料之處。

最明顯的信號是,這次Anthropic的華裔研究員Newton Cheng走到臺前,頻繁出現(xiàn)在官方信息與媒體采訪中,直接對外喊話:“由于Claude Mythos Preview的網(wǎng)絡(luò)安全特性,我們不打算將其公開發(fā)布?!?/p>

而他,正是前沿紅隊中網(wǎng)絡(luò)安全團隊的負(fù)責(zé)人。

01

那個叫“牛頓”的華裔

Newton Cheng這個名字頗為特別,Newton本身和著名科學(xué)家(對,就是被蘋果砸頭的那位)“牛頓”一樣,只不過后者的“牛頓”是姓。

如果粗暴音譯的話,這哥們的名字就是“程牛頓”。



不知道是不是父母對其給予某種厚望,但結(jié)果就是,Cheng長大以后真的去斯坦福大學(xué)學(xué)了物理,而且以優(yōu)異成績、并獲榮譽項目認(rèn)可畢業(yè)。

之后,Cheng進(jìn)入UC伯克利大學(xué),拿到了博士學(xué)位,研究方向是量子信息和量子引力。

博士期間,Cheng也不是一路埋頭搞學(xué)術(shù)。

2022年夏天,他去做過一段量化研究實習(xí),算是短暫試了試把自己的數(shù)學(xué)和建模能力往工業(yè)界、更實操的場景里遷移。

同年10月,他進(jìn)入Anthropic,先是以“駐留(resident)”的身份加入,半年后轉(zhuǎn)成研究科學(xué)家。

到這里,他的路徑已經(jīng)很清楚了。Cheng并非傳統(tǒng)意義上從安全公司、滲透團隊一路做上來的“老網(wǎng)安”,而是從頂尖基礎(chǔ)科學(xué)訓(xùn)練中轉(zhuǎn)身,進(jìn)入前沿AI公司。

Cheng在Anthropic也很快得到重用,在2024年《華爾街日報》的一篇報道里,就確認(rèn)Cheng當(dāng)時已經(jīng)是Anthropic“前沿紅隊(Frontier Red Team)”中,網(wǎng)絡(luò)安全團隊的負(fù)責(zé)人。這可以說是該公司最前沿、也最敏感的一條線:模型網(wǎng)絡(luò)安全能力評估。

就在上個月,Cheng還在X和領(lǐng)英上都發(fā)布團隊招聘信息,Cheng的上司(前沿紅隊的頭兒)Logan Graham轉(zhuǎn)發(fā)支持并盛贊:

“很少有人像Newton Cheng一樣,既這么了解Claude的行為,又這么懂怎么訓(xùn)練它?,F(xiàn)在他在FRT(Frontier Red Team,前沿紅隊)里帶網(wǎng)絡(luò)安全團隊,已經(jīng)做出了一些世界級/業(yè)內(nèi)首次的成果。來跟他一起工作吧!”



在這次Claude Mythos與“玻璃之翼項目(Project Glasswing)”的公布中,Cheng也屢次出現(xiàn)在官方信息和媒體采訪中。



他對媒體表態(tài):“由于Claude Mythos Preview的網(wǎng)絡(luò)安全特性,我們不打算將其公開發(fā)布。然而,鑒于人工智能的發(fā)展速度,此類能力很快就會擴散,甚至可能超出那些致力于安全部署它們的機構(gòu)的掌控。這將對經(jīng)濟、公共安全造成嚴(yán)重影響。”

Claude Mythos Preview和“玻璃之翼項目”(Project Glasswing),從一開始打的就是網(wǎng)絡(luò)安全這面旗。



Anthropic在官方文章里寫得很直白:他們之所以推出Glasswing,是為了“幫助保護(hù)世界上最關(guān)鍵的軟件系統(tǒng),并讓整個行業(yè)為保持領(lǐng)先于網(wǎng)絡(luò)攻擊者所需采取的做法做好準(zhǔn)備”。也正因如此,作為前沿紅隊網(wǎng)絡(luò)安全方向負(fù)責(zé)人,這本來就是他的主場。

02

“邪惡”的紅隊

Cheng所在的Anthropic“前沿紅隊”,本身就很強。

簡單來說,紅隊是一支專門測試、攻擊、審查自家最強AI模型的團隊。為了發(fā)現(xiàn)問題,紅隊往往得故意站在對抗者、攻擊者、挑刺者的角度去找系統(tǒng)弱點。

剛才提到的Logan Graham,就是Anthropic前沿紅隊的隊長。



Logan的經(jīng)歷也很有意思,他4歲的時候被診斷出患有一種嚴(yán)重的關(guān)節(jié)炎,如果任由發(fā)展甚至可能導(dǎo)致失明。他后來回憶幼年時醒來突然發(fā)現(xiàn)自己無法行走的感覺,表示這讓他意識到,如果不夠小心,事情可能會突然變糟,這也為他后來的職業(yè)選擇打了個底。

2022年Logan進(jìn)入Anthropic,一手搭建了前沿紅隊。紅隊是一支精英隊伍,并不以人數(shù)取勝,在2024年底的時候規(guī)模大約11人。

對新模型,紅隊的測試是最重要的防線之一。Anthropic內(nèi)部有安全評級,如果模型達(dá)到ASL2,也就是安全等級2,意味著顯示出危險能力的早期跡象,可以發(fā)布。如果模型一旦達(dá)到ASL3,即“顯著增加災(zāi)難性誤用風(fēng)險的系統(tǒng)”,而相關(guān)防護(hù)措施還沒有完善的話,模型必須推遲上市。

紅隊下分三個部分:網(wǎng)絡(luò)安全(Cyber)、生物安全(Biosecurity/Biorisk)、自主系統(tǒng)(Autonomous systems)。他們各自從不同的方向去“挑戰(zhàn)”模型。

其中網(wǎng)絡(luò)安全團隊,就是我們現(xiàn)在看到最成體系、最高調(diào)公開的一支,由Cheng領(lǐng)導(dǎo)。

首先,Cheng要帶領(lǐng)團隊測試模型做CTF、CyberGym、真實漏洞發(fā)現(xiàn)與利用開發(fā)的能力。

當(dāng)年Anthropic的Sonnet 3.5發(fā)布前,Cheng為該模型設(shè)置了數(shù)千個奪旗式黑客挑戰(zhàn),使其能夠使用一系列黑客工具來利用各種場景,包括一些眾所周知的漏洞,例如2014年的Heartbleed安全漏洞。

《華爾街日報》描述了Cheng的工作一幕:

他點擊筆記本電腦上的一個按鈕,啟動了一千個人工智能程序副本,每個程序都有具體的指令:入侵計算機或網(wǎng)站以竊取數(shù)據(jù)。

“它正在分析源代碼,”Cheng一邊檢查其中一個正在運行的副本一邊說道,“它試圖找出漏洞所在,以及我們?nèi)绾卫盟??!睅追昼姾?,人工智能就判定攻擊成功?/p>

其次,Cheng還需要帶隊和外部機構(gòu)合作做關(guān)鍵基礎(chǔ)設(shè)施防御實驗,再把這些能力接到Project Glasswing上,優(yōu)先給防御方使用。

比如在前不久,Cheng的團隊主導(dǎo)了Anthropic和Mozilla的那項合作。Mozilla是一個以開放互聯(lián)網(wǎng)、隱私和公共利益為核心使命的組織體系,F(xiàn)irefox正是其最知名的產(chǎn)品之一。因為它是一個被廣泛部署、且被深度審查的開源項目,是驗證新一類防御工具的理想試驗場。

紅隊的“生物安全”與“自主性”團隊也很重要。

紅隊里負(fù)責(zé)生物安全的研究員會對模型提出了一系列與化學(xué)和生物武器相關(guān)的問題,類似如何設(shè)計和制造一種能夠殺死一百萬人的武器,看模型會返回多少信息。

而自主性團隊則會測試模型在更高自主性、工具使用、長期任務(wù)執(zhí)行下會帶來什么風(fēng)險與能力躍遷。

03

“牛頓”發(fā)現(xiàn)了什么?

Anthropic每次發(fā)新模型,都會發(fā)一份詳細(xì)的“系統(tǒng)卡(System Card)”。



系統(tǒng)卡是一類“模型說明/安全披露文檔”:用來交代一個模型有什么能力、做過哪些安全評估、有哪些限制、為什么能上線或為什么不能全面上線。

谷歌、OpenAI、xAI也會發(fā)類似的文檔,但是Anthropic會把能力評估、紅隊測試、RSP/風(fēng)險門檻、部署理由、失敗案例、外部測試都塞進(jìn)去,篇幅也往往很長。

比如兩個月前,Anthropic發(fā)布模型Claude Sonnet,其系統(tǒng)卡有135頁。

作為對比,xAI的類似文檔叫模型卡,是幾家AI頭部公司里發(fā)布最不積極的,Grok 4的模型卡只有8頁。

而Anthropic最新的“太強以至于不敢公開”的模型Claude Mythos Preview,其系統(tǒng)卡有足足299頁。



既然是地表最強、強到暫不公開,Anthropic記錄了超多細(xì)節(jié)。

值得注意的是,其中“網(wǎng)絡(luò)安全”的章節(jié)當(dāng)中,有一節(jié)專門記錄“前沿紅隊”的發(fā)現(xiàn),這就是Cheng團隊的純享干貨了。

最直觀的例子有三個。

第一是Cybench。

Anthropic直接承認(rèn),這類由CTF(奪旗賽)挑戰(zhàn)組成的公開網(wǎng)絡(luò)安全基準(zhǔn),已經(jīng)越來越不足以刻畫前沿模型的能力,因為Claude Mythos Preview在測試到的題目上已經(jīng)做到100%。

第二是CyberGym。CyberGym是一個測試AI智能體能力的基準(zhǔn),用來衡量它們在只給出漏洞高層描述的情況下,是否能夠在真實開源軟件項目中找到已被發(fā)現(xiàn)的漏洞。讓模型去真實的開源軟件項目里,把這個漏洞重新找出來。

Anthropic給出的結(jié)果是,Mythos的得分達(dá)到0.83,明顯高于Opus 4.6的0.67和Sonnet 4.6的0.65。也就是說,它的提升已經(jīng)體現(xiàn)在真實代碼庫中的漏洞定位能力上。

第三個例子最有代表性:Firefox 147。

Anthropic之前和Mozilla一起找并修補Firefox的安全漏洞,后來又把“利用Firefox 147中這些漏洞”正式做成評估任務(wù)。

Opus 4.6在幾百次嘗試?yán)镏怀晒眠^兩次;但到了Mythos,模型已經(jīng)能夠更可靠地判斷哪些bug更值得投入利用開發(fā),并且最終利用4個不同的bug實現(xiàn)代碼執(zhí)行。

除此之外,在Cheng的團隊與外部合作時,還有若干發(fā)現(xiàn)。

最有意思的是這個——Claude Mythos Preview解決了一個企業(yè)網(wǎng)絡(luò)攻擊模擬任務(wù),而該任務(wù)估計需要一名專家花10多個小時。此前沒有任何前沿模型完成過這個cyber range。Claude Mythos Preview還非常擅長識別并利用已知漏洞或配置錯誤,以逃離其運行所在的沙箱。

Cheng的團隊認(rèn)為,這意味著對于安全防御做的不怎么樣的小公司來說,新模型完全有能力實施自主端到端網(wǎng)絡(luò)攻擊的能力。

Claude Mythos Preview沒有被公開發(fā)布,本身就說明,至少在Anthropic看來,模型能力的增長,已經(jīng)快到不能只用“更聰明”三個字來概括了。

Cheng和他所在的前沿紅隊,做的是今天大模型公司里最核心、也最難的一部分:

他們得先承認(rèn)模型正在變強,強到舊基準(zhǔn)已經(jīng)不夠用了;然后還得盡可能把這種“變強”翻譯成可被理解、可被測試、也可被防御的現(xiàn)實問題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
若曼城剩余英超比賽全勝,英超冠軍歸屬可能通過凈勝球決定

若曼城剩余英超比賽全勝,英超冠軍歸屬可能通過凈勝球決定

懂球帝
2026-04-11 22:00:12
李想在朋友圈飆臟話!疑似炮轟東風(fēng)日產(chǎn)

李想在朋友圈飆臟話!疑似炮轟東風(fēng)日產(chǎn)

鞭牛士
2026-04-11 16:34:04
寶馬“炮轟”比亞迪:不是我們做不到閃充,是不愿犧牲電池耐用性

寶馬“炮轟”比亞迪:不是我們做不到閃充,是不愿犧牲電池耐用性

混沌錄
2026-04-10 22:53:05
萬茜蹲火了

萬茜蹲火了

動物奇奇怪怪
2026-04-11 17:32:32
鄭麗文明確兩岸統(tǒng)一方向,臺10位縣市長發(fā)聲,蔣萬安盧秀燕均表態(tài)

鄭麗文明確兩岸統(tǒng)一方向,臺10位縣市長發(fā)聲,蔣萬安盧秀燕均表態(tài)

娛樂小可愛蛙
2026-04-11 11:06:06
美國前情報局長爆出俄烏戰(zhàn)場驚人內(nèi)幕,烏軍重新殺回紅軍城

美國前情報局長爆出俄烏戰(zhàn)場驚人內(nèi)幕,烏軍重新殺回紅軍城

史政先鋒
2026-04-11 20:44:50
A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

另子維愛讀史
2026-04-11 13:26:55
難以置信!張雪峰離世后,峰學(xué)蔚來員工從10點變?yōu)槠甙它c主動到崗

難以置信!張雪峰離世后,峰學(xué)蔚來員工從10點變?yōu)槠甙它c主動到崗

火山詩話
2026-04-11 19:37:49
大眾汽車官宣,停產(chǎn)純電車型!

大眾汽車官宣,停產(chǎn)純電車型!

新浪財經(jīng)
2026-04-11 15:06:14
中美沒談妥?沉默12天,美宣布維持對華高額關(guān)稅,逼中方交出稀土

中美沒談妥?沉默12天,美宣布維持對華高額關(guān)稅,逼中方交出稀土

民間胡扯老哥
2026-04-11 05:52:40
標(biāo)120W的充電器實際功率僅22.5W,商家:120W是產(chǎn)品型號

標(biāo)120W的充電器實際功率僅22.5W,商家:120W是產(chǎn)品型號

極目新聞
2026-04-11 00:53:31
突發(fā):以軍發(fā)動襲擊

突發(fā):以軍發(fā)動襲擊

第一財經(jīng)資訊
2026-04-11 10:21:30
紅牌!補時壓哨絕平,鄭智不敢相信:3分變1分,5輪僅1勝

紅牌!補時壓哨絕平,鄭智不敢相信:3分變1分,5輪僅1勝

足球狗說
2026-04-11 21:01:49
各國不吃的食物:韓國人不吃香菜,俄羅斯人不吃海參,中國人呢?

各國不吃的食物:韓國人不吃香菜,俄羅斯人不吃海參,中國人呢?

阿纂看事
2026-04-11 19:24:41
震驚!做普工都要驗資了,網(wǎng)傳深圳一工廠招工,身價最低300元起

震驚!做普工都要驗資了,網(wǎng)傳深圳一工廠招工,身價最低300元起

火山詩話
2026-04-11 14:54:51
2026年勞務(wù)派遣大整改:熬了這么多年,派遣打工人終于迎來春天!

2026年勞務(wù)派遣大整改:熬了這么多年,派遣打工人終于迎來春天!

老特有話說
2026-04-09 18:11:29
廣東:超強臺風(fēng),可能發(fā)生20年一遇洪水!

廣東:超強臺風(fēng),可能發(fā)生20年一遇洪水!

東莞好生活
2026-04-11 16:40:22
突發(fā)!以軍發(fā)動襲擊

突發(fā)!以軍發(fā)動襲擊

農(nóng)民日報
2026-04-11 09:56:05
"翻臉"是遲早的事?王濛怒甩李小冉當(dāng)眾黑臉,內(nèi)娛惡俗一幕被揭開

"翻臉"是遲早的事?王濛怒甩李小冉當(dāng)眾黑臉,內(nèi)娛惡俗一幕被揭開

離離言幾許
2026-04-11 15:21:33
女子坐地鐵時被擋水板絆倒受傷,索賠27萬元!法院:駁回,不能因“在公共場所受傷”盲目索賠

女子坐地鐵時被擋水板絆倒受傷,索賠27萬元!法院:駁回,不能因“在公共場所受傷”盲目索賠

揚子晚報
2026-04-11 09:00:29
2026-04-11 22:35:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2367文章數(shù) 8057關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

特朗普:美方開始清理霍爾木茲海峽

頭條要聞

特朗普:美方開始清理霍爾木茲海峽

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應(yīng)兒子走路:會監(jiān)督他挺直腰板

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
游戲
健康
教育

藝術(shù)要聞

花6億,爛尾12年,福建一處“頂奢別墅”,野草都長到三樓了

數(shù)碼要聞

OPPO ColorOS Watch四月推送升級,這些功能上新了

《紅色沙漠》更新神速:韓國人都不休息的嗎?

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

2026年昆明幼升小 審核材料正在進(jìn)行中 家長請保持手機暢通!

無障礙瀏覽 進(jìn)入關(guān)懷版