国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI突然開(kāi)源新模型!99.9%的權(quán)重是0,新稀疏性方法代替MoE

0
分享至

聞樂(lè) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

破解AI胡說(shuō)八道的關(guān)鍵,居然是給大模型砍斷99.9%的連接線?

OpenAI悄悄開(kāi)源新模型,僅有0.4B參數(shù),且99.9%的權(quán)重為零。



也就是Circuit Sparsity技術(shù)的開(kāi)源實(shí)現(xiàn)。



這是一種通過(guò)人為約束模型內(nèi)部連接的稀疏性,讓模型計(jì)算過(guò)程可拆解、可理解的大語(yǔ)言模型變體,本質(zhì)上是為了解決傳統(tǒng)稠密Transformer的黑箱問(wèn)題,讓內(nèi)部的計(jì)算電路能被人類清晰解讀,知道AI是如何做決策的,避免輕易相信AI的胡話(doge)。



更有人直言這種「極致稀疏+功能解耦」的思路可能會(huì)讓當(dāng)下熱門的MoE(混合專家模型)走上末路。



那么,當(dāng)Transformer的權(quán)重被訓(xùn)練到近乎全0,會(huì)發(fā)生什么呢?

放棄粗糙近似,追求原生稀疏

先說(shuō)說(shuō)為啥這個(gè)模型的思考過(guò)程能像電路圖一樣好懂。

咱們平時(shí)用的傳統(tǒng)大模型,內(nèi)部神經(jīng)元連接得密密麻麻,權(quán)重矩陣幾乎全為非零值,信息傳遞呈現(xiàn)出高度疊加狀態(tài),就像一團(tuán)扯不開(kāi)的亂線,沒(méi)人能說(shuō)清它是怎么得出某個(gè)結(jié)論的。

而Circuit Sparsity模型反其道而行之,基于GPT-2風(fēng)格的Transformer架構(gòu)訓(xùn)練時(shí),通過(guò)嚴(yán)格約束讓權(quán)重的L0范數(shù)極小,直接把99.9%的無(wú)效連接砍斷,只留下千分之一的有效通路。



這些留存的非零權(quán)重連接就像電路圖里的導(dǎo)線,信息只能沿著固定路徑傳遞;同時(shí),模型還會(huì)通過(guò)均值屏蔽剪枝方法,為每個(gè)任務(wù)拆出專屬的最小電路

比如處理Python引號(hào)閉合任務(wù)時(shí),僅需2個(gè)MLP神經(jīng)元和1個(gè)注意力頭就能構(gòu)成核心電路,包含專門的引號(hào)檢測(cè)器、類型分類器等功能模塊,就像電路圖里的電阻、電容,各自管各自的事。



實(shí)驗(yàn)數(shù)據(jù)顯示,在預(yù)訓(xùn)練損失相同的前提下,稀疏模型的任務(wù)專屬電路規(guī)模比稠密模型小16倍,且具備嚴(yán)格的必要性與充分性——保留這些模塊就能完成任務(wù),刪掉任一節(jié)點(diǎn)則直接失效。

這樣,每一步的邏輯都能精準(zhǔn)追蹤。

那這時(shí)候就不得不提當(dāng)下主流的MoE模型了。

MoE的核心思路是通過(guò)門控網(wǎng)絡(luò)將模型拆分為多個(gè)專家子網(wǎng)絡(luò),每個(gè)專家負(fù)責(zé)處理一部分任務(wù),靠路由器分配任務(wù)來(lái)提升效率,本質(zhì)上是用拆分專家這種粗糙的方式近似稀疏性,目的只是為了適配硬件的稠密矩陣計(jì)算需求。

但這種架構(gòu)存在致命缺陷:

  • 一是會(huì)割裂模型的特征流形,導(dǎo)致專家同質(zhì)化嚴(yán)重、知識(shí)冗余等問(wèn)題,不同專家間的信息協(xié)同依賴復(fù)雜的負(fù)載均衡損失函數(shù)調(diào)控,穩(wěn)定性堪憂;
  • 二是專家功能邊界模糊,無(wú)法像Circuit Sparsity模型那樣實(shí)現(xiàn)微觀機(jī)制的精準(zhǔn)拆解。

反觀Circuit Sparsity,追求的是模型原生的稀疏性,通過(guò)把特征投射到超大維度,再嚴(yán)格限制有效激活的節(jié)點(diǎn)數(shù)量,從設(shè)計(jì)上就讓每個(gè)特征變得單義、正交,從根源上解決了傳統(tǒng)模型一個(gè)概念分散在多個(gè)節(jié)點(diǎn)的疊加問(wèn)題,不用靠路由器這種hack手段也能避免信息干擾。



不過(guò)Circuit Sparsity目前也有明顯的短板,最突出的就是算力成本極高。

訓(xùn)練和推理的計(jì)算量是傳統(tǒng)稠密模型的100-1000倍,暫時(shí)還達(dá)不到頂尖大模型的能力;

而MoE模型在算力效率和性能平衡上已經(jīng)很成熟,短期內(nèi)依然會(huì)是工業(yè)界的主流選擇。

并且,這項(xiàng)工作也只是AI可解釋性探索的早期一步,未來(lái)團(tuán)隊(duì)計(jì)劃將技術(shù)擴(kuò)展到更大的模型,解鎖更復(fù)雜的推理電路。

目前,團(tuán)隊(duì)發(fā)現(xiàn)有兩種克服稀疏模型訓(xùn)練效率低下的方法:

  • 一個(gè)是直接從現(xiàn)有的密集模型中提取稀疏電路,這樣直接復(fù)用基礎(chǔ)框架,不額外訓(xùn)練稀疏模型,能大幅降低成本;
  • 另一種途徑則是不放棄從頭訓(xùn)練可解釋稀疏模型的這種思路,但針對(duì)訓(xùn)練慢、成本高的短板,從技術(shù)層面優(yōu)化訓(xùn)練機(jī)制,造出原生可解釋、且能高效落地的模型。

那么就期待研究人員后續(xù)用更成熟的工具或技術(shù),逐步揭開(kāi)大模型的黑箱面紗了。


[1]https://openai.com/zh-Hans-CN/index/understanding-neural-networks-through-sparse-circuits/
[2]https://x.com/byebyescaling/status/1999672833778287033?s=20

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
海南封關(guān)動(dòng)了誰(shuí)的奶酪?答案顯而易見(jiàn):新加坡為代表的傳統(tǒng)中轉(zhuǎn)港

海南封關(guān)動(dòng)了誰(shuí)的奶酪?答案顯而易見(jiàn):新加坡為代表的傳統(tǒng)中轉(zhuǎn)港

一盅情懷
2025-12-19 15:50:07
傷亡700人,中方援建大橋被炸,中械軍大勝,大批導(dǎo)彈成戰(zhàn)利品

傷亡700人,中方援建大橋被炸,中械軍大勝,大批導(dǎo)彈成戰(zhàn)利品

兵說(shuō)
2025-12-19 12:43:40
賴清德再度胡作非為!“大法官”違規(guī)裁決,動(dòng)搖臺(tái)灣法治根基

賴清德再度胡作非為!“大法官”違規(guī)裁決,動(dòng)搖臺(tái)灣法治根基

海峽導(dǎo)報(bào)社
2025-12-20 07:52:03
曝TikTok交易達(dá)成,美國(guó)和字節(jié)跳動(dòng)各掌握一家公司

曝TikTok交易達(dá)成,美國(guó)和字節(jié)跳動(dòng)各掌握一家公司

爆角追蹤
2025-12-19 18:18:51
威武!倆中國(guó)女生埃及游,與當(dāng)?shù)?人互毆,完勝后獲圍觀者豎拇指

威武!倆中國(guó)女生埃及游,與當(dāng)?shù)?人互毆,完勝后獲圍觀者豎拇指

阿纂看事
2025-12-20 10:16:59
泰國(guó)軍隊(duì)遭最大慘?。杭砥艺宜狸?duì)手持56沖,光腳沖鋒

泰國(guó)軍隊(duì)遭最大慘?。杭砥艺宜狸?duì)手持56沖,光腳沖鋒

烽火觀天下
2025-12-17 22:47:52
一頓飯近千元, 一扎西瓜汁賣168, 全聚德是怎么把顧客吃跑的?

一頓飯近千元, 一扎西瓜汁賣168, 全聚德是怎么把顧客吃跑的?

阿器談史
2025-12-17 19:45:09
電信董事長(zhǎng)估計(jì)要失眠了,惹誰(shuí)不好,偏偏惹了最叛逆的羅永浩!

電信董事長(zhǎng)估計(jì)要失眠了,惹誰(shuí)不好,偏偏惹了最叛逆的羅永浩!

荊楚寰宇文樞
2025-12-19 23:04:03
哈啰單車向柬埔寨進(jìn)行捐贈(zèng),汪文斌大使出席交接儀式

哈啰單車向柬埔寨進(jìn)行捐贈(zèng),汪文斌大使出席交接儀式

映射生活的身影
2025-12-19 23:13:03
克林頓與愛(ài)潑斯坦案受害者共浴照片披露

克林頓與愛(ài)潑斯坦案受害者共浴照片披露

揚(yáng)子晚報(bào)
2025-12-20 11:50:57
日媒:一美軍士兵在沖繩縣街頭“全裸”徘徊,被逮捕

日媒:一美軍士兵在沖繩縣街頭“全裸”徘徊,被逮捕

環(huán)球網(wǎng)資訊
2025-12-20 09:50:07
用力過(guò)猛!51歲林志玲打扮“日系”現(xiàn)身上海,網(wǎng)友:又老又年輕

用力過(guò)猛!51歲林志玲打扮“日系”現(xiàn)身上海,網(wǎng)友:又老又年輕

心靜物娛
2025-12-19 14:12:23
池莉:半輩子過(guò)去了,自己盡是不體面和不高貴,遍體鱗傷

池莉:半輩子過(guò)去了,自己盡是不體面和不高貴,遍體鱗傷

尚曦讀史
2025-12-18 09:46:21
泰軍宣布重創(chuàng)柬埔寨!繳獲大批中國(guó)造導(dǎo)彈!打到洪森父子投降?

泰軍宣布重創(chuàng)柬埔寨!繳獲大批中國(guó)造導(dǎo)彈!打到洪森父子投降?

深度報(bào)
2025-12-17 23:06:04
南博流出畫卷簽字院長(zhǎng)回應(yīng):非經(jīng)我手鑒定,以調(diào)查為準(zhǔn)

南博流出畫卷簽字院長(zhǎng)回應(yīng):非經(jīng)我手鑒定,以調(diào)查為準(zhǔn)

正在新聞
2025-12-19 23:41:52
“中國(guó)保險(xiǎn)經(jīng)紀(jì)第一人”、江泰保險(xiǎn)經(jīng)紀(jì)董事長(zhǎng)沈開(kāi)濤疑似失聯(lián),此前公司有多人被帶走協(xié)查

“中國(guó)保險(xiǎn)經(jīng)紀(jì)第一人”、江泰保險(xiǎn)經(jīng)紀(jì)董事長(zhǎng)沈開(kāi)濤疑似失聯(lián),此前公司有多人被帶走協(xié)查

紅星新聞
2025-12-19 20:27:12
湖北跑圈女神錢志去世,年僅39歲,龍鳳胎才3歲,月跑超三個(gè)半馬

湖北跑圈女神錢志去世,年僅39歲,龍鳳胎才3歲,月跑超三個(gè)半馬

裕豐娛間說(shuō)
2025-12-20 13:25:31
羅永浩吐槽網(wǎng)速,上海電信回應(yīng)

羅永浩吐槽網(wǎng)速,上海電信回應(yīng)

新京報(bào)政事兒
2025-12-19 22:39:05
陣亡后家屬領(lǐng)取一箱方便面?柬埔寨士兵士氣全無(wú)。

陣亡后家屬領(lǐng)取一箱方便面?柬埔寨士兵士氣全無(wú)。

電動(dòng)貓
2025-12-20 10:12:49
“日本僅占地球0.1%,卻毀掉71%海洋”,去年蜜雪冰城小票事件又被翻出來(lái)了

“日本僅占地球0.1%,卻毀掉71%海洋”,去年蜜雪冰城小票事件又被翻出來(lái)了

回旋鏢
2025-12-19 18:01:40
2025-12-20 15:12:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11884文章數(shù) 176340關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

荷蘭已停止向中國(guó)供應(yīng)晶圓 聞泰科技有新招

頭條要聞

荷蘭已停止向中國(guó)供應(yīng)晶圓 聞泰科技有新招

體育要聞

我開(kāi)了20年大巴,現(xiàn)在是一名西甲主帥

娛樂(lè)要聞

戚薇女兒大變樣,10歲就進(jìn)入“尷尬期”

財(cái)經(jīng)要聞

日本加息落地:暴跌沒(méi)有,麻煩在后頭

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬(wàn)公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

健康
房產(chǎn)
游戲
旅游
軍事航空

這些新療法,讓化療不再那么痛苦

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

2025最佳動(dòng)作游戲盤點(diǎn) 《第一狂戰(zhàn)士卡贊》上榜

旅游要聞

昆明動(dòng)物園發(fā)布最新公告

軍事要聞

澤連斯基:前線局勢(shì)愈發(fā)艱難

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版