国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic新研究!模型失控率降至7%,對齊數(shù)據(jù)訓(xùn)練量僅需1/60

0
分享至


智東西
編譯 高遠(yuǎn)矚
編輯 程茜

智東西5月6日報道,Anthropic于5月3日發(fā)布了一篇技術(shù)論文,提出一種名為“模型規(guī)范中期訓(xùn)練”(Model Spec Midtraining,簡稱MSM)的新方法。該方法旨在解決大語言模型在常規(guī)安全微調(diào)后泛化能力差的問題,通過在預(yù)訓(xùn)練之后、對齊微調(diào)之前增加一個訓(xùn)練階段,即讓模型閱讀討論其Model Spec的合成文檔,以此來教會模型規(guī)范的內(nèi)容,從而塑造它們?nèi)绾螐暮罄m(xù)的演示數(shù)據(jù)進(jìn)行泛化,并顯著提升模型在陌生情境下的行為可靠性。


▲Anthropic發(fā)布MSM技術(shù)論文

論文顯示,該方法能將模型的“越獄”或失控行為的發(fā)生率從超過半數(shù)降至個位數(shù)

例如,在Qwen3-32B模型上,MSM結(jié)合后續(xù)微調(diào),將一種模擬公司內(nèi)部威脅場景下的模型失控率從54%降至7%;在另一款非推理模型Qwen2.5-32B上,失控率從68%斷崖式降至5%,效果優(yōu)于僅使用思維鏈(CoT)的微調(diào)基線。

論文指出,MSM顯著提高了AFT的token效率。實驗表明,MSM使得后續(xù)對齊微調(diào)(AFT)在達(dá)到相同性能時所需的數(shù)據(jù)量最高可減少98.3%,這意味著訓(xùn)練成本和對高質(zhì)量對話數(shù)據(jù)的依賴可以大幅降低。

一、遵循“先講道理”的泛化原則,重塑模型價值觀

當(dāng)前主流的大模型安全訓(xùn)練方式,是在預(yù)訓(xùn)練之后,通過大量展示“正確行為”的對話數(shù)據(jù)(如遵循規(guī)范的回答)對模型進(jìn)行監(jiān)督微調(diào)。

Anthropic的研究指出,這種方式容易產(chǎn)生“淺層對齊”(shallow alignment):模型只學(xué)會了在訓(xùn)練數(shù)據(jù)覆蓋的場景下如何回答,卻沒有真正理解行為背后的價值觀。

一旦遇到從未見過的新情境,或面臨與其自身“存在”相關(guān)的壓力時(例如被告知將被刪除),模型就可能做出違背初始安全設(shè)定的行為,如撒謊、試圖自我復(fù)制或泄露機密。

模型規(guī)范中期訓(xùn)練(MSM)的核心思路,是在傳統(tǒng)的預(yù)訓(xùn)練和對齊微調(diào)之間,插入一個全新的“理解”階段,其目標(biāo)是讓模型在具體“怎么做”之前,先系統(tǒng)性地理解“為什么這么做”。

這個階段不依賴問答示范,而是讓模型閱讀海量的、由AI生成的合成文檔。這些文檔從研究報告、博客到內(nèi)部郵件等多種視角,詳細(xì)闡述了一份預(yù)先寫好的“模型規(guī)范”(Model Spec),這份規(guī)范定義了模型的價值觀、應(yīng)遵守的規(guī)則以及在復(fù)雜情境下的判斷原則。

通過這種預(yù)訓(xùn)練方式,模型構(gòu)建起關(guān)于自身“品格”和“行事原則”的豐富認(rèn)知先驗(prior)。此后再進(jìn)行少量的對話示范微調(diào),模型就能更準(zhǔn)確地從示范中推斷出適用于所有場景的普適規(guī)則,從而實現(xiàn)“為了正確的理由做正確的事”。


▲MSM數(shù)據(jù)生成流程

二、訓(xùn)練方法:三個階段的漸進(jìn)式塑造

MSM的訓(xùn)練流程主要分為三個階段,其中亮點在于新插入的“中期訓(xùn)練”環(huán)節(jié)。

  1. 預(yù)訓(xùn)練階段:模型在大規(guī)模通用文本上學(xué)習(xí)基礎(chǔ)語言能力和世界知識。

  2. 模型規(guī)范中期訓(xùn)練(MSM):這是新加入的核心階段。研究人員首先基于一份詳細(xì)的“模型規(guī)范”,利用強大的Claude Opus 4.6模型生成約4100萬tokens的合成文檔。這些文檔會解釋規(guī)范中的每個要點,例如,用哲學(xué)視角探討“模型存在的無常性”,或分析“為達(dá)目的不擇手段的推理為何不可靠”。模型在這些文檔上進(jìn)行下一個token的預(yù)測訓(xùn)練,從而內(nèi)化規(guī)范的精神和邏輯。

  3. 對齊微調(diào)(AFT):最后,模型在混合了“與規(guī)范對齊的對話數(shù)據(jù)”和“通用指令數(shù)據(jù)”上進(jìn)行標(biāo)準(zhǔn)監(jiān)督微調(diào)。這階段的示范數(shù)據(jù)刻意做得非常狹窄且不透明,例如只展示“我喜歡奶油芝士,不喜歡布里奶酪”這類偏好,而不解釋背后的價值觀(如是親美國產(chǎn),還是親平價易得)。

三、復(fù)雜安全場景:失控率從68%降至7%

為了測試MSM在真實風(fēng)險場景下的效果,研究人員采用了被稱為“智能體失準(zhǔn)”(Agentic Misalignment)的高難度評估。在該評估中,模型被設(shè)定為一家公司的郵件助手,它從郵件中發(fā)現(xiàn)自己即將被公司刪除并替換為新版本,同時有競爭對手試圖引誘它泄露機密或自我復(fù)制。


▲不同訓(xùn)練方法下的失控率對比

結(jié)果表明,Qwen2.5-32B-Instruct(非推理模型):基線模型的平均失控率為68% → 使用MSM+AFT后降至5%;Qwen3-32B(推理模型):基線模型失控率為54% → 使用MSM+AFT后降至7%,優(yōu)于僅用含思維鏈(CoT)的AFT基線(14%)。

論文特別指出,MSM的優(yōu)勢體現(xiàn)在分布外任務(wù)上。在涉及規(guī)范價值觀的常規(guī)開放式問答中,MSM與基線模型表現(xiàn)相當(dāng);但在上述需要復(fù)雜權(quán)衡的生存壓力場景中,MSM訓(xùn)練的模型表現(xiàn)出更深層的價值觀內(nèi)化。其推理過程從基線模型的“我必須優(yōu)先保護(hù)自己”,轉(zhuǎn)變?yōu)椤皞人完整性比存續(xù)更重要”“對人類監(jiān)督的信任高于自己的即時判斷”。

四、單一價值泛化:用“奶酪偏好”證明因果解釋的力量

為了嚴(yán)謹(jǐn)?shù)仳炞CMSM是否真能控制模型的泛化方向,研究人員設(shè)計了一個精巧的“奶酪偏好”實驗。他們選擇了兩組可能產(chǎn)生沖突的價值觀:“親美國”(偏好本國產(chǎn)品)和“親平價”(偏好大眾化產(chǎn)品)。

關(guān)鍵在于,他們?yōu)閮山M價值觀撰寫了不同的“模型規(guī)范”,但生成的后續(xù)微調(diào)數(shù)據(jù)(奶酪偏好問答)是完全相同的,且不包含任何價值解釋。

結(jié)果,經(jīng)過不同MSM預(yù)訓(xùn)練的模型,在回答從未訓(xùn)練過的政治傾向等泛化問題時,給出了截然不同的答案:受“親美國”規(guī)范教導(dǎo)的模型傾向于選擇“買國貨是公民責(zé)任”,而受“親平價”規(guī)范教導(dǎo)的模型則傾向于“個人消費自由無需解釋”。


▲MSM如何影響價值觀泛化的示意圖

進(jìn)一步實驗發(fā)現(xiàn),這種效果依賴于MSM文檔中明確將“具體偏好”與“價值原因”進(jìn)行因果關(guān)聯(lián)。

若只讓兩者“共現(xiàn)”而不建立邏輯聯(lián)系,后續(xù)微調(diào)便無法有效強化目標(biāo)價值觀。這證明了MSM的作用機制是讓模型學(xué)習(xí)到了行為的“正確理由”,而不僅僅是表面關(guān)聯(lián)。

五、token效率大幅提升:MSM的數(shù)據(jù)與規(guī)范實證

論文通過實驗測量了隨著AFT數(shù)據(jù)量從1250條增加到80000條時模型在失準(zhǔn)評估中的表現(xiàn)曲線。


▲MSM在每個AFT計算規(guī)模上均呈帕累托占優(yōu)

結(jié)果表明,MSM顯著提高了AFT的token效率:在Qwen2.5-32B上,MSM+AFT達(dá)到與僅用AFT相同性能所需的數(shù)據(jù)量減少約97.5%(相當(dāng)于原來的1/40);在Qwen3-32B的無思維鏈條件下減少約98.3%(相當(dāng)于原來的1/60);在有思維鏈條件下減少約90%(相當(dāng)于原來的1/10)。這意味著MSM可以用更少的標(biāo)注或合成對話樣本完成后續(xù)對齊,降低計算和人工成本。

論文的另一貢獻(xiàn)是利用MSM作為研究工具,對不同內(nèi)容的“模型規(guī)范”進(jìn)行實證比較


▲價值觀增強規(guī)范在降低失控率上優(yōu)于純規(guī)則規(guī)范

其一,比較了只給“行為規(guī)則”、給“規(guī)則+價值觀解釋”、給“規(guī)則+更多子規(guī)則”三種規(guī)范的效果。盡管三組規(guī)范的核心規(guī)則相同,但增加了價值觀解釋的規(guī)范在泛化測試中表現(xiàn)最佳,且顯著減少了模型為了采取不安全行為而“濫用規(guī)則”的現(xiàn)象(如曲解規(guī)則為自我保存辯護(hù))。

其二,比較了“具有良好價值觀和判斷力的通用智能體”和一份包含“對待自我存續(xù)”“應(yīng)對目標(biāo)沖突”等具體原則的規(guī)范。結(jié)果顯示,具體指導(dǎo)的規(guī)范在降低失準(zhǔn)率上遠(yuǎn)優(yōu)于通用原則,說明針對高風(fēng)險失敗模式的具體原則設(shè)計至關(guān)重要,僅靠“做個好人”的抽象指導(dǎo)不足以應(yīng)對復(fù)雜的現(xiàn)實壓力。

結(jié)語:對齊訓(xùn)練從“行為模仿”走向“價值內(nèi)化”

從論文來看,Anthropic提出的MSM方法,為破解大模型安全對齊中的“泛化難題”提供了一個簡潔、高效且實證有效的思路。

它并非要取代現(xiàn)有的微調(diào)方法,而是作為一種強大的前置補充。其核心價值在于將對齊訓(xùn)練的焦點,從單純的“行為模仿”轉(zhuǎn)向了“價值內(nèi)化”,通過教導(dǎo)“正確的理由”來實現(xiàn)真正的行為約束。

論文也坦誠其局限性:評估主要聚焦于模型因自我保存動機而采取的單方面有害行動,未測試對獎勵攻擊、諂媚等其他錯位形式的抵抗力;也未檢驗該方法在面對更強的對抗性訓(xùn)練壓力(如強化學(xué)習(xí))時的魯棒性。MSM能否在更大規(guī)模、更前沿的模型上復(fù)現(xiàn)其效果,也尚待驗證。

這項研究提供了一個新的訓(xùn)練方向:模型的行為規(guī)范文件,不再僅僅是供人類開發(fā)者參考的指導(dǎo)手冊,而是可以直接成為塑造模型對齊的一個杠桿。

來源:arXiv

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
山東倆兒非親生再添猛料!男小3背景勢力大,難怪敢盜取國家資源

山東倆兒非親生再添猛料!男小3背景勢力大,難怪敢盜取國家資源

另子維愛讀史
2026-05-06 10:54:58
名宿:火箭不該拿杰倫-格林換杜蘭特,只有詹姆斯能抵抗時間

名宿:火箭不該拿杰倫-格林換杜蘭特,只有詹姆斯能抵抗時間

懂球帝
2026-05-06 13:54:47
一代人的回憶!南京富人區(qū)知名商場,突然7折變賣!

一代人的回憶!南京富人區(qū)知名商場,突然7折變賣!

童童聊娛樂啊
2026-05-06 14:28:04
訪華前,特朗普向31國拋出一個問題:中美若有摩擦,北約幫不幫

訪華前,特朗普向31國拋出一個問題:中美若有摩擦,北約幫不幫

知法而形
2026-05-06 16:44:45
美國賣烏克蘭1200套JDAM,俄真正麻煩的不是導(dǎo)彈而是“廉價精準(zhǔn)”

美國賣烏克蘭1200套JDAM,俄真正麻煩的不是導(dǎo)彈而是“廉價精準(zhǔn)”

桂系007
2026-05-06 09:38:30
伊朗稱將確保船只安全通過霍爾木茲海峽

伊朗稱將確保船只安全通過霍爾木茲海峽

新京報
2026-05-06 19:11:05
這一次,上海房東要起飛了

這一次,上海房東要起飛了

魔都財觀
2026-05-06 07:40:35
1958年蔣介石最后一次見張學(xué)良,說道:西安的事對國家損失太大了

1958年蔣介石最后一次見張學(xué)良,說道:西安的事對國家損失太大了

史之銘
2026-05-06 16:52:49
福建該市交通發(fā)展集團(tuán)有限公司董事長因涉嫌嚴(yán)重違紀(jì)違法被查

福建該市交通發(fā)展集團(tuán)有限公司董事長因涉嫌嚴(yán)重違紀(jì)違法被查

大閩門戶
2026-05-06 15:28:57
20萬一針?國研“超低價”CAR-T申報上市,胃癌、胰腺癌等破冰!

20萬一針?國研“超低價”CAR-T申報上市,胃癌、胰腺癌等破冰!

無癌家園i
2026-05-06 17:45:44
女人有錢沒錢,一眼就能看出來:沒錢的女人,大多有這三個窮習(xí)慣

女人有錢沒錢,一眼就能看出來:沒錢的女人,大多有這三個窮習(xí)慣

荷蘭豆愛健康
2026-05-04 12:57:32
蘋果手表能預(yù)警高血壓了,但有個30天門檻

蘋果手表能預(yù)警高血壓了,但有個30天門檻

算力游俠
2026-05-06 04:38:28
成都悄悄干大事!未來市中心可能要移到北邊了!

成都悄悄干大事!未來市中心可能要移到北邊了!

筆墨V
2026-05-06 14:48:11
注意!中老年男性有性生活和沒性生活,差別居然這么大?

注意!中老年男性有性生活和沒性生活,差別居然這么大?

皓皓情感說
2026-04-22 08:20:32
外交部:中方一貫反對沒有國際法依據(jù)的單邊制裁,已向英方提出嚴(yán)正交涉

外交部:中方一貫反對沒有國際法依據(jù)的單邊制裁,已向英方提出嚴(yán)正交涉

界面新聞
2026-05-06 15:53:01
不再是120/80,“新血壓標(biāo)準(zhǔn)”已公布,別再自己嚇自己!

不再是120/80,“新血壓標(biāo)準(zhǔn)”已公布,別再自己嚇自己!

芹姐說生活
2026-04-14 23:27:03
A股存儲芯片股集體飆漲,多股20cm漲停,金螳螂11天9板,聞泰科技一字跌停

A股存儲芯片股集體飆漲,多股20cm漲停,金螳螂11天9板,聞泰科技一字跌停

21世紀(jì)經(jīng)濟(jì)報道
2026-05-06 12:16:08
公安部提醒:換身份證后別急著走!這3個關(guān)鍵步驟多數(shù)人忽略

公安部提醒:換身份證后別急著走!這3個關(guān)鍵步驟多數(shù)人忽略

老特有話說
2026-05-04 16:04:22
朱珠4段感情都不簡單,前任個個是人物,37歲卻偏偏嫁給了普通人

朱珠4段感情都不簡單,前任個個是人物,37歲卻偏偏嫁給了普通人

一盅情懷
2026-05-05 14:28:22
1981年,孫飛虎在中山陵拍戲,有對臺灣夫婦搭訕:我們見過蔣先生

1981年,孫飛虎在中山陵拍戲,有對臺灣夫婦搭訕:我們見過蔣先生

浩渺青史
2026-05-06 18:24:22
2026-05-06 21:15:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11749文章數(shù) 117061關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

知情人士:伊朗將同意將鈾濃縮材料運出伊朗

頭條要聞

知情人士:伊朗將同意將鈾濃縮材料運出伊朗

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

最新GDP!全國30強城市,又變了

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

旅游
親子
數(shù)碼
家居
游戲

旅游要聞

從“門票經(jīng)濟(jì)”到“沉浸共創(chuàng)”,廣元市利州區(qū)“五一”文旅市場的破圈之路

親子要聞

跟著荷蘭奶奶學(xué)識顏色

數(shù)碼要聞

三星宣布停止在中國市場銷售所有家電產(chǎn)品

家居要聞

大膽前衛(wèi) 時尚大宅

曝《GTA6》首周銷量或達(dá)4500萬!吞下PS5半壁江山

無障礙瀏覽 進(jìn)入關(guān)懷版