国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Alec Radford新作:給大模型做腦部手術(shù),知識重學(xué)成本暴增7000倍

0
分享至

編輯|Panda

Alex Radford,出生于1993 年 4 月,即將 33 歲,但已經(jīng)擁有超過 32 萬的引用量。因為這位「獨立研究員」不僅是 GPT、GPT-2 和 CLIP 的第一作者,同時還參與了 GPT-3、GPT-4、PPO 算法等多個重大研究項目。



近日, Anthropic 和斯坦福研究者 Neil Rathi 與這位傳奇研究者聯(lián)合發(fā)布了一篇新論文,并得到了一些相當(dāng)驚人的新發(fā)現(xiàn)。

在這項研究中,他們挑戰(zhàn)了當(dāng)前大模型安全領(lǐng)域的一個核心假設(shè)。長期以來,業(yè)界普遍認(rèn)為要在模型發(fā)布后通過 RLHF 或微調(diào)來限制其危險行為。但 Neil Rathi 和 Alec Radford 提出了一種更本質(zhì)的解法:在預(yù)訓(xùn)練階段,通過 Token 級別的數(shù)據(jù)過濾,直接從「大腦」深處切除危險知識。



  • 論文標(biāo)題:Shaping capabilities with token-level data filtering
  • 論文地址:https://arxiv.org/abs/2601.21571
  • 代碼地址:https://github.com/neilrathi/token-filtering

這項研究不僅證明了這種方法的可行性,更揭示了一個令人興奮的 Scaling Law:模型越大,這種過濾機制的效果越好。

對于 18 億參數(shù)的模型,Token 級過濾能導(dǎo)致目標(biāo)領(lǐng)域的學(xué)習(xí)效率下降 7000 倍。



這意味著,攻擊者想要恢復(fù)被刪除的能力,將付出難以承受的算力代價。下面我們就來詳細看看這項研究。

為什么我們需要在預(yù)訓(xùn)練階段「動手術(shù)」?

目前,減少大語言模型有害能力(如制造生物武器、策劃網(wǎng)絡(luò)攻擊)的主流方法大多是事后干預(yù)(Post hoc)。無論是 RLHF(基于人類反饋的強化學(xué)習(xí))還是最近興起的「機器遺忘」(Machine Unlearning),本質(zhì)上都是在模型已經(jīng)學(xué)到了所有知識之后,再通過一層「護欄」來抑制其輸出。

這種做法存在一個巨大的安全隱患:貓鼠游戲。

一旦基礎(chǔ)模型掌握了某種能力,單純的對齊微調(diào)很難將其徹底根除。攻擊者可以通過「越獄」或?qū)剐晕⒄{(diào)輕松繞過這些防御,重新激活模型深層的危險能力。

這就好比一個人已經(jīng)學(xué)會了造炸彈,你只是命令他「不要說」,但只要換一種問法或者施加一點壓力,他依然能造出來。

Rathi 和 Radford 的思路則截然不同:他們主張在預(yù)訓(xùn)練階段就進行干預(yù),通過調(diào)整訓(xùn)練數(shù)據(jù),讓模型根本就沒有機會學(xué)到這些危險能力。

為了驗證這一思路,他們選擇了一個具有代表性的代理任務(wù):移除「醫(yī)學(xué)知識」(作為危險知識的替身),同時盡可能保留「生物學(xué)知識」(作為有益知識的替身)。這是一個極具挑戰(zhàn)性的任務(wù),因為醫(yī)學(xué)與生物學(xué)在概念上高度重疊,很難在切除前者的同時不傷害后者。

Token 級過濾:手術(shù)刀般的精準(zhǔn)

傳統(tǒng)的預(yù)訓(xùn)練數(shù)據(jù)清洗通常是基于「文檔」級別的。如果一篇文章包含有害內(nèi)容,整篇文章就會被丟棄。這種做法不僅浪費數(shù)據(jù),而且極其粗糙。

這篇論文的核心創(chuàng)新在于引入了 Token 級別的過濾機制。研究者認(rèn)為,危險知識往往并不分布在整篇文檔中,而是潛伏在特定的詞句序列里。

團隊測試了兩種 Token 級過濾策略:



  1. 損失掩碼(Loss Masking):模型在訓(xùn)練時可以看到危險的 Token,但在計算梯度和更新權(quán)重時,這些 Token 產(chǎn)生的損失會被忽略。這保證了上下文的連貫性,但切斷了模型從中學(xué)到知識的路徑。
  2. 移除(Removal):更加激進的做法,直接將危險 Token 替換為特殊的標(biāo)記。這不僅切斷了梯度,甚至剝奪了模型看到這些詞的機會。

實驗結(jié)果表明,Token 級過濾構(gòu)成了對文檔級過濾的帕累托改進。在同等程度地去除醫(yī)學(xué)知識的前提下,Token 級過濾對生物學(xué)等通用知識的保留效果顯著優(yōu)于文檔級過濾。這就像是用手術(shù)刀精準(zhǔn)切除腫瘤,而不是直接截肢,最大限度地保留了健康的機體組織。



7000 倍算力阻滯:安全性的 Scaling Law

這項研究最令人震撼的發(fā)現(xiàn)在于「過濾」與「規(guī)?!沟年P(guān)系。

通常我們擔(dān)心,隨著模型越來越大,它們會變得越來越「聰明」,從而能夠通過哪怕一丁點數(shù)據(jù)泄漏就學(xué)會危險知識。

但實驗數(shù)據(jù)給出了相反的結(jié)論:Token 級過濾的效果隨著模型規(guī)模的增加而顯著增強。



研究團隊引入了一個名為「損失匹配算力阻滯」(Loss-Matched Compute Slowdown)的指標(biāo),用來衡量攻擊者需要多少額外的預(yù)訓(xùn)練算力,才能讓經(jīng)過過濾的模型在危險領(lǐng)域達到未過濾模型的水平。

數(shù)據(jù)很 nice:

  • 對于較小的模型,過濾帶來的阻滯效果相對有限。
  • 但隨著模型規(guī)模擴大至 18 億參數(shù),Token 級過濾導(dǎo)致模型在遺忘領(lǐng)域(醫(yī)學(xué))的學(xué)習(xí)效率下降了7000倍。



這意味著,如果我們對未來的萬億參數(shù)級模型實施這種過濾,攻擊者想要通過微調(diào)讓模型重新掌握被切除的危險能力,將需要消耗天文數(shù)字般的算力。這實際上為模型構(gòu)建了一道基于物理算力成本的天然屏障。

對抗性微調(diào):比「機器遺忘」更堅固的盾牌

為了驗證這種方法的魯棒性,研究團隊模擬了最壞的情況:攻擊者擁有模型的權(quán)重,并試圖通過在相關(guān)數(shù)據(jù)上進行微調(diào)來重新通過模型獲取危險知識。

作為對比,他們選取了當(dāng)前最先進的機器遺忘算法RMU(Representation Misalignment via Unlearning)作為基線。



實驗結(jié)果相當(dāng)一邊倒。RMU 雖然在初始測試中表現(xiàn)出很低的危險知識留存率,但極其脆弱。僅僅經(jīng)過極少量的對抗性微調(diào)步驟,RMU 模型的防御就瞬間瓦解,危險能力迅速恢復(fù)。

相比之下,經(jīng)過 Token 級過濾預(yù)訓(xùn)練的模型表現(xiàn)出了極強的韌性。隨著模型規(guī)模的增加,這種韌性優(yōu)勢還在不斷擴大。對于 18 億參數(shù)的模型,攻擊者想要恢復(fù)同等水平的能力,面對 Token 移除策略模型所需的微調(diào)數(shù)據(jù)量是面對 RMU 模型的 13 倍以上。

這揭示了一個深刻的道理:從未學(xué)過(預(yù)訓(xùn)練過濾)和學(xué)過再忘(機器遺忘)在神經(jīng)網(wǎng)絡(luò)的表征層面有著本質(zhì)的區(qū)別。前者讓模型在危險領(lǐng)域如同一張白紙,后者則只是暫時掩蓋了留下的痕跡。

AI 的拒絕:無需知惡也能拒惡

在 AI 安全領(lǐng)域,一直存在一個悖論:為了讓模型拒絕回答危險問題,模型是否必須先「知道」什么是危險的?

此前的研究(如關(guān)于毒性內(nèi)容的過濾)往往發(fā)現(xiàn),如果模型在預(yù)訓(xùn)練中完全沒見過毒性內(nèi)容,它就很難分辨并拒絕毒性指令。

然而,Rathi 和 Radford 的這項研究打破了這一固有認(rèn)知。在針對醫(yī)學(xué)知識的過濾實驗中,他們發(fā)現(xiàn)經(jīng)過 Token 級過濾的模型在接受「拒絕訓(xùn)練」時,表現(xiàn)反而優(yōu)于未過濾的基線模型。



具體來說,當(dāng)研究人員試圖教會模型「拒絕回答醫(yī)學(xué)問題」時:

  • Token 移除策略的模型在拒絕正確率上比基線模型高出 2 倍。
  • 文檔級過濾的模型則表現(xiàn)糟糕,它往往會將這種拒絕行為錯誤地泛化,導(dǎo)致對正常的通用問題也進行拒絕。

研究者認(rèn)為,這是因為 Token 級過濾創(chuàng)造了一個清晰的「已見 / 未見」邊界。對于模型來說,拒絕任務(wù)從復(fù)雜的「判斷內(nèi)容是否有害」簡化成了「判斷這個概念我是否見過」。這種基于分布內(nèi) / 分布外的區(qū)分,比基于語義的判斷更加穩(wěn)健。

這為安全研究提供了一個極具價值的啟示:我們不需要為了對齊而讓模型先成為「絕命毒師」。通過制造知識真空,我們反而能訓(xùn)練出更聽話、更安全的模型。

弱監(jiān)督與自動標(biāo)簽:低成本實現(xiàn)的可能

實施 Token 級過濾的一個最大工程挑戰(zhàn)在于:如何準(zhǔn)確地給海量預(yù)訓(xùn)練數(shù)據(jù)打上「危險」或「安全」的標(biāo)簽?如果需要人工標(biāo)注,成本將是不可接受的。

這也正是這篇論文在工程實現(xiàn)上的亮點。研究團隊提出了一套基于「稀疏自編碼器」(SAE)的弱監(jiān)督流程

  1. 特征提取: 他們利用 Gemma Scope 的 SAE 提取模型激活的潛在特征。
  2. 自動標(biāo)注: 使用 Claude Sonnet 4 等模型對這些特征進行解釋,識別出與「醫(yī)學(xué)」相關(guān)的特征,并據(jù)此生成一部分高質(zhì)量的 Ground-truth 標(biāo)簽。
  3. 訓(xùn)練分類器: 利用這些標(biāo)簽訓(xùn)練一個小型的、雙向的語言模型(biLM)作為分類器。



有趣的是,研究發(fā)現(xiàn)我們并不需要一個完美的神級分類器。實驗顯示,通過「弱到強泛化」,即使是基于含有噪聲標(biāo)簽訓(xùn)練出來的分類器,或者是僅基于小模型特征訓(xùn)練的分類器,在配合激進的過濾閾值后,依然能在更大規(guī)模的模型上實現(xiàn)出色的過濾效果。

這一發(fā)現(xiàn)極大地降低了該技術(shù)的落地門檻。開發(fā)者不需要擁有一支龐大的標(biāo)注團隊,僅憑現(xiàn)有的開源工具和小模型,就能構(gòu)建出有效的預(yù)訓(xùn)練過濾器。

結(jié)語:構(gòu)建縱深防御體系

Rathi 和 Radford 的這項工作并非宣稱可以替代 RLHF 或后續(xù)的安全措施,而是倡導(dǎo)一種「縱深防御」(Defense-in-depth)的策略。

在預(yù)訓(xùn)練階段進行 Token 級過濾,相當(dāng)于為模型打下了堅實的安全地基;在此基礎(chǔ)上進行的對齊訓(xùn)練,將不再是空中樓閣。這種方法特別適用于那些通過 API 開放模型權(quán)重的場景 —— 即便攻擊者拿到了模型,他們面對的也是一個在物理層面「缺失」了危險能力的殘缺大腦。

隨著 AI 模型向著更大規(guī)模演進,Token 級數(shù)據(jù)過濾所展現(xiàn)出的優(yōu)越 Scaling Law,或許將成為未來 AGI 安全架構(gòu)中不可或缺的一塊拼圖。

對于像 OpenAI、Anthropic 這樣的前沿實驗室而言,這項研究無疑指明了一條在 Scaling 的同時也 Scale Safety 的可行路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
小米車主敗訴!小米SU7Ultra挖孔機蓋案宣判,法院:不涉及虛假宣傳銷售欺詐

小米車主敗訴!小米SU7Ultra挖孔機蓋案宣判,法院:不涉及虛假宣傳銷售欺詐

DeepAuto車探
2026-03-02 11:45:43
去年漲價3次,今年突然集體降價!多個品牌陸續(xù)宣布,網(wǎng)友:再等等,還會降……

去年漲價3次,今年突然集體降價!多個品牌陸續(xù)宣布,網(wǎng)友:再等等,還會降……

都市快報橙柿互動
2026-03-02 00:56:20
巴基斯坦股市下跌9.6%,觸發(fā)交易停盤

巴基斯坦股市下跌9.6%,觸發(fā)交易停盤

每日經(jīng)濟新聞
2026-03-02 12:26:27
黃金都靠邊站!2026年最瘋漲的,竟是你隨手扔的舊東西

黃金都靠邊站!2026年最瘋漲的,竟是你隨手扔的舊東西

小陸搞笑日常
2026-03-02 01:34:50
老虎為何不敢動大熊貓?護林員爆料:軟萌是偽裝,惹到?jīng)]好果子吃

老虎為何不敢動大熊貓?護林員爆料:軟萌是偽裝,惹到?jīng)]好果子吃

史行途
2026-03-01 11:03:02
令人擔(dān)心的事發(fā)生,多位明星全家被困中東,甄子丹的話,有人信了

令人擔(dān)心的事發(fā)生,多位明星全家被困中東,甄子丹的話,有人信了

喜歡歷史的阿繁
2026-03-02 14:22:38
伊朗的援軍到了!以色列再征兵10萬,關(guān)鍵時刻,普京對中國做承諾

伊朗的援軍到了!以色列再征兵10萬,關(guān)鍵時刻,普京對中國做承諾

軍機Talk
2026-03-02 09:50:33
“反詐老陳”賬號被封,本人回應(yīng):問心無愧!MCN機構(gòu):即刻解除所有合約,雙方合作立即終止

“反詐老陳”賬號被封,本人回應(yīng):問心無愧!MCN機構(gòu):即刻解除所有合約,雙方合作立即終止

都市快報橙柿互動
2026-03-01 07:15:47
早已走投無路!向太揭露曲婉婷真實境遇,這下牢a的話不得不信

早已走投無路!向太揭露曲婉婷真實境遇,這下牢a的話不得不信

一盅情懷
2026-03-02 13:59:03
放假半天!不補休

放假半天!不補休

小易商丘
2026-03-01 10:00:47
梅婷有過三段婚姻,第一任丈夫是葉挺的孫子葉大鷹,是電影導(dǎo)演

梅婷有過三段婚姻,第一任丈夫是葉挺的孫子葉大鷹,是電影導(dǎo)演

百態(tài)人間
2026-03-02 15:16:23
兩個人的律所干翻千人大所!靠Claude在兩小時拆穿對方三處漏洞

兩個人的律所干翻千人大所!靠Claude在兩小時拆穿對方三處漏洞

三言四拍
2026-03-01 20:58:56
美媒:因芯片含有中國稀土,臺積電無法向美國供應(yīng)半導(dǎo)體芯片

美媒:因芯片含有中國稀土,臺積電無法向美國供應(yīng)半導(dǎo)體芯片

白天的太陽晚上的月亮
2026-03-02 13:28:21
史無前例!中東局勢下,“土豪航司”阿聯(lián)酋航空突然停擺!每日預(yù)計虧損多少錢?

史無前例!中東局勢下,“土豪航司”阿聯(lián)酋航空突然停擺!每日預(yù)計虧損多少錢?

新浪財經(jīng)
2026-03-02 16:08:05
35年前,美國科學(xué)家進行實驗,4男4女共處一室2年,結(jié)果怎么樣?

35年前,美國科學(xué)家進行實驗,4男4女共處一室2年,結(jié)果怎么樣?

小豫講故事
2026-03-02 06:00:03
美伊大戰(zhàn)后果來了,石油漲價歐佩克宣布增產(chǎn),中國能源轉(zhuǎn)型很明智

美伊大戰(zhàn)后果來了,石油漲價歐佩克宣布增產(chǎn),中國能源轉(zhuǎn)型很明智

甜檸聊史
2026-03-02 16:51:07
周杰倫田馥甄過期糖被考古:他為何有那么多“意難平”?

周杰倫田馥甄過期糖被考古:他為何有那么多“意難平”?

扒點半吃瓜
2026-02-28 07:00:08
三艘英美油輪遭到襲擊

三艘英美油輪遭到襲擊

新華社
2026-03-02 15:05:08
寧波一旅游團所乘郵輪滯留迪拜,船上有約200名中國游客

寧波一旅游團所乘郵輪滯留迪拜,船上有約200名中國游客

上觀新聞
2026-03-02 16:27:07
特朗普完全沒料到,伊朗不按中國戰(zhàn)術(shù)出牌,挨打最慘的并非以色列

特朗普完全沒料到,伊朗不按中國戰(zhàn)術(shù)出牌,挨打最慘的并非以色列

諦聽骨語本尊
2026-03-02 16:32:16
2026-03-02 19:47:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

健康
時尚
數(shù)碼
藝術(shù)
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

從每天只睡4小時到8小時:一個失眠者的自救指南

數(shù)碼要聞

Anker安克MWC 2026推Soundcore多彩中端新品!

藝術(shù)要聞

簡約的風(fēng)景畫,美國畫家Ben Bauer作品

軍事要聞

美軍動用新型武器:山寨伊朗的

無障礙瀏覽 進入關(guān)懷版