国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

模型編輯新范式,HSE實(shí)現(xiàn)大規(guī)模“安全洗腦”且能力反升

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel推出邀請(qǐng)注冊(cè)獎(jiǎng)勵(lì)活動(dòng),最高可得算力券+token包380元獎(jiǎng)勵(lì),歡迎參與和支持!

你是否想過,我們是如何“修正”大模型(LLM)的記憶的?這個(gè)過程叫做“模型編輯”(Model Editing)。它就像是給大模型“打補(bǔ)丁”或“更新記憶” ,比如告訴它一個(gè)新事實(shí),或者糾正一個(gè)它的“幻覺”。

但一個(gè)核心問題是:你今天剛教會(huì)它“拜登是第46任總統(tǒng)”,明天它可能就忘了“特朗普是第45任”;你剛給它更新了最新的醫(yī)療知識(shí),它在回答通用問題時(shí)就開始“胡言亂語”。對(duì)大模型進(jìn)行持續(xù)的知識(shí)更新,是否必然導(dǎo)致“災(zāi)難性遺忘”(catastrophic forgetting)?是不是模型一編輯,就必然“性能崩潰”(model collapse)?

來自國防科技大學(xué) PDL的研究團(tuán)隊(duì),在發(fā)表于NeurIPS 2025 的最新論文中,從生物大腦中汲取靈感,給出了一個(gè)顛覆性的答案:給大模型裝上“海馬體”!

研究團(tuán)隊(duì)受人腦海馬體處理記憶的“三突觸回路”啟發(fā),提出了一種全新的類海馬體序列編輯(HSE)框架。該框架通過三大核心機(jī)制,徹底改變了模型編輯的“游戲規(guī)則”。當(dāng)其他模型在連續(xù)編輯數(shù)百次后性能就“雪崩”至零時(shí),HSE在連續(xù)編輯1000次后,通用能力不僅毫發(fā)無損,甚至還超越了原始模型!已上線始智AI-wisemodel開源社區(qū),歡迎體驗(yàn)。


代碼地址

https://wisemodel.cn/codes/SquareGroupsky/Hippocampal-like-Sequential-Editing

01.

揭秘HSE的“海馬體”三部曲

為什么大模型會(huì)遺忘?因?yàn)樗鼈內(nèi)狈θ四X的精妙機(jī)制。HSE框架則模擬了海馬體的三大法寶:

1.機(jī)制一:主動(dòng)遺忘(Active Forgetting)

靈感來源:人腦會(huì)通過長時(shí)程抑制(LTD)機(jī)制主動(dòng)忘記過時(shí)或沖突的信息。

HSE做法:引入“機(jī)器遺忘”(Machine Unlearning)策略。在學(xué)習(xí)新知識(shí)過程中,“主動(dòng)忘記”那些即將過時(shí)的舊知識(shí),為新記憶騰出“神經(jīng)空間”,從根源上解決新舊沖突。


2.機(jī)制二:領(lǐng)域分離(Knowledge Separation)

靈感來源:海馬體的齒狀回(DG)具有“模式分離”(Pattern Separation)功能,能將相似的輸入信息映射到完全不同的神經(jīng)元上,互不干擾。

HSE做法:使用“Fisher Information Matrix” (FIM)來指導(dǎo)參數(shù)更新。FIM能識(shí)別出對(duì)不同知識(shí)領(lǐng)域最重要的參數(shù),在編輯時(shí)“精準(zhǔn)控制”更新幅度,確保編輯“醫(yī)療知識(shí)”時(shí),不會(huì)干擾到“藝術(shù)知識(shí)”,防止跨域干擾。


3.機(jī)制三:參數(shù)回放(Parameter Replay)

靈感來源:人腦在休息時(shí),海馬體會(huì)“回放”(Replay)白天的經(jīng)歷(SWRs),將短期記憶固化為長期記憶。

HSE做法:設(shè)計(jì)了一種高效的“參數(shù)回放”機(jī)制。它以一種輕量化的參數(shù)形式,不斷“鞏固”所有編輯過的歷史知識(shí),最終推導(dǎo)出嚴(yán)謹(jǐn)?shù)拈]式解(closed-form solution),在數(shù)學(xué)上保證了長期記憶的穩(wěn)定。


02.

為什么HSE在數(shù)學(xué)上更優(yōu)?

這篇成果的亮點(diǎn)絕不僅在于“仿生”,更在于其堅(jiān)實(shí)的理論貢獻(xiàn):

1.更緊的泛化界(Tighter Generalization Bound):

研究者從數(shù)學(xué)上證明,其“主動(dòng)遺忘”模塊(MAF Loss)相比傳統(tǒng)的交叉熵?fù)p失(CE Loss),能帶來更緊的泛化誤差上界(Corollary 1) 。


2.可證明的收斂性(Provable Convergence):

研究者證明了其“參數(shù)回放”模塊(LEM)的更新范數(shù)(Frobenius norm)是收斂的


3.AlphaEdit只是一個(gè)特例:

AlphaEdit 是模型編輯領(lǐng)域一個(gè)強(qiáng)力的基線。但HSE從理論上指出,AlphaEdit的知識(shí)正交化方法,在數(shù)學(xué)上只是HSE所提出的參數(shù)回放公式的一個(gè)特例。實(shí)驗(yàn)也表明,HSE的效果顯著優(yōu)于AlphaEdit 。


4.F-Norm洞察:

模型的抗編輯性論文還揭示了一個(gè)關(guān)鍵洞察:原始模型的F-NormFrobenius Norm)越大,模型越抗編輯。Llama3和Mistral的F-Norm遠(yuǎn)小于GPT-J ,這導(dǎo)致它們對(duì)編輯更敏感,也更容易“崩潰” 。而HSE的LEM模塊,正是通過約束F-Norm的增長,才成功駕馭了這些敏感模型 。


03.

不僅沒遺忘,通用能力還變強(qiáng)了?

堅(jiān)實(shí)的理論帶來了驚人的實(shí)驗(yàn)效果。研究團(tuán)隊(duì)在Llama3等多個(gè)主流模型上,進(jìn)行了多達(dá)1000次的序列編輯實(shí)驗(yàn) 。驚人現(xiàn)象出現(xiàn)了:

1.終結(jié)模型崩潰

在評(píng)估通用能力的GLUE基準(zhǔn)測(cè)試上,現(xiàn)有的方法(如MEND、MEMIT、PRUNE)在經(jīng)歷幾百次編輯后,性能無一例外地急劇下降至接近零,模型徹底“崩潰” 。


HSE框架,在經(jīng)歷了1000次編輯后,性能曲線幾乎紋絲不動(dòng),甚至在使用ZsRE數(shù)據(jù)集編輯后,平均性能還提升了1.67%這意味著HSE不僅修復(fù)了知識(shí),還順便提升了模型的通用理解能力。

2.編輯性能遙遙領(lǐng)先

在CounterFact和ZsRE兩個(gè)標(biāo)準(zhǔn)的模型編輯基準(zhǔn)上,HSE的編輯效果也全面占優(yōu)。與最佳基線相比,HSE泛化性上平均提升20.6%,特異性上提升21.9%。


3.解決真實(shí)世界難題

研究者還在三大實(shí)際應(yīng)用中驗(yàn)證了HSE的威力:

緩解幻覺:在HalluEdit數(shù)據(jù)集上,HSE在9個(gè)不同領(lǐng)域均能有效緩解模型幻覺。


醫(yī)療知識(shí)注入:成功為專業(yè)醫(yī)療大模型注入新大的醫(yī)療知識(shí),且不破壞原有專業(yè)性。


減少社會(huì)偏見:在SafeEdit數(shù)據(jù)集上,HSE能有效“遺忘”有害和歧視性內(nèi)容,顯著提升模型安全性 。


這項(xiàng)研究不再滿足于模型編輯的“小修小補(bǔ)”,而是從生物機(jī)制出發(fā),首次提出了一套完整的、受海馬體啟發(fā)的序列編輯框架HSE 。

通過主動(dòng)遺忘、領(lǐng)域分離參數(shù)回放三大機(jī)制,HSE在理論上被證明具有更緊的泛化界和更穩(wěn)定的收斂性,在實(shí)踐中則首次實(shí)現(xiàn)在大規(guī)模序列編輯后,通用能力不降反升的驚人效果。這為大模型實(shí)現(xiàn)“終身學(xué)習(xí)”和“持續(xù)進(jìn)化”提供了一條極具潛力的技術(shù)路徑。

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
京華城案一審宣判不只柯文哲,應(yīng)曉薇被判15年半,沈慶京10年

京華城案一審宣判不只柯文哲,應(yīng)曉薇被判15年半,沈慶京10年

海峽導(dǎo)報(bào)社
2026-03-26 15:29:03
俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動(dòng)?

俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動(dòng)?

項(xiàng)鵬飛
2026-03-24 20:28:43
重慶警方通報(bào)“一小區(qū)有人高空撒錢”:系涉詐嫌犯拋撒贓款

重慶警方通報(bào)“一小區(qū)有人高空撒錢”:系涉詐嫌犯拋撒贓款

澎湃新聞
2026-03-26 21:39:03
新加坡預(yù)測(cè):印度將趕中超美!美印爭(zhēng)世界老大,中國將成新阿三

新加坡預(yù)測(cè):印度將趕中超美!美印爭(zhēng)世界老大,中國將成新阿三

荷蘭豆愛健康
2026-03-26 08:26:08
太意外!米蘭寶格麗之夜合影:劉亦菲兩度被擠,下意識(shí)動(dòng)作引熱議

太意外!米蘭寶格麗之夜合影:劉亦菲兩度被擠,下意識(shí)動(dòng)作引熱議

時(shí)間巡查
2026-03-25 04:28:00
深圳一救援隊(duì)隊(duì)員遭遇意外去世,年僅40歲,曾參與救援行動(dòng)10次,累計(jì)志愿服務(wù)時(shí)長750小時(shí)

深圳一救援隊(duì)隊(duì)員遭遇意外去世,年僅40歲,曾參與救援行動(dòng)10次,累計(jì)志愿服務(wù)時(shí)長750小時(shí)

極目新聞
2026-03-26 22:22:23
泰國U23國腳:中國隊(duì)是亞洲頂級(jí)球隊(duì)之一,和他們交手很愉快

泰國U23國腳:中國隊(duì)是亞洲頂級(jí)球隊(duì)之一,和他們交手很愉快

懂球帝
2026-03-26 12:27:11
省長劉捷在臺(tái)州專題調(diào)研開發(fā)區(qū)高質(zhì)量發(fā)展工作

省長劉捷在臺(tái)州專題調(diào)研開發(fā)區(qū)高質(zhì)量發(fā)展工作

臺(tái)州發(fā)布
2026-03-26 20:57:28
拒絕回歸WCBA!李月汝再赴美國,官宣重磅決定,韓旭也要這么干了

拒絕回歸WCBA!李月汝再赴美國,官宣重磅決定,韓旭也要這么干了

萌蘭聊個(gè)球
2026-03-26 13:09:33
為什么建議你多做俯臥撐?6個(gè)被低估的好處

為什么建議你多做俯臥撐?6個(gè)被低估的好處

增肌減脂
2026-03-25 11:53:14
盧卡庫擅自玩消失,孔蒂急了,那不勒斯怒了

盧卡庫擅自玩消失,孔蒂急了,那不勒斯怒了

體壇周報(bào)
2026-03-26 21:43:12
73歲港姐為李小龍哥哥掃墓,墓前鋪滿白花,離婚逾30年仍每年拜祭

73歲港姐為李小龍哥哥掃墓,墓前鋪滿白花,離婚逾30年仍每年拜祭

八斗小先生
2026-03-26 15:02:47
土耳其油輪遭無人機(jī)襲擊引發(fā)劇烈爆炸,載有14萬噸原油,曾被多方制裁

土耳其油輪遭無人機(jī)襲擊引發(fā)劇烈爆炸,載有14萬噸原油,曾被多方制裁

紅星新聞
2026-03-26 17:20:06
想不明白!當(dāng)年李小冉兩次懷上鄢頗的孩子,為何鄢頗仍是不娶她?

想不明白!當(dāng)年李小冉兩次懷上鄢頗的孩子,為何鄢頗仍是不娶她?

春之寞陌
2026-03-19 05:58:30
美國鷹派很不滿,叫囂特朗普對(duì)中國還不夠狠,拜登派系開始冒頭了

美國鷹派很不滿,叫囂特朗普對(duì)中國還不夠狠,拜登派系開始冒頭了

三石記
2026-03-26 20:32:54
伊朗首都德黑蘭遭空襲 多地傳出爆炸聲

伊朗首都德黑蘭遭空襲 多地傳出爆炸聲

財(cái)聯(lián)社
2026-03-26 19:44:11
廣東宏遠(yuǎn)今日早報(bào)!杜鋒深夜發(fā)聲,陳家政效仿徐昕,徐杰狀態(tài)回升

廣東宏遠(yuǎn)今日早報(bào)!杜鋒深夜發(fā)聲,陳家政效仿徐昕,徐杰狀態(tài)回升

多特體育說
2026-03-26 10:17:08
CBA最新排名!三四名競(jìng)爭(zhēng)激烈,山西浙江連敗,5隊(duì)爭(zhēng)奪第12!

CBA最新排名!三四名競(jìng)爭(zhēng)激烈,山西浙江連敗,5隊(duì)爭(zhēng)奪第12!

籃球資訊達(dá)人
2026-03-26 22:29:07
1958年,江青前夫去世,臨終前嘴里不斷喊著:江青是什么人?

1958年,江青前夫去世,臨終前嘴里不斷喊著:江青是什么人?

明月清風(fēng)閣
2026-03-25 16:30:09
越打越貴的賬單:俄羅斯的“紅線”為什么消失了

越打越貴的賬單:俄羅斯的“紅線”為什么消失了

民間胡扯老哥
2026-03-24 07:16:00
2026-03-26 23:07:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

手機(jī)
游戲
家居
公開課
軍事航空

手機(jī)要聞

OPPO K15 Pro 系列定檔,嵐影呼吸燈搭配金屬中框

50萬銷量達(dá)成!這款I(lǐng)GN 9分獨(dú)游走紅 官方發(fā)推慶賀

家居要聞

傍海而居 靜觀蝴蝶海

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無障礙瀏覽 進(jìn)入關(guān)懷版