国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI黑箱,這次能打開嗎?OpenAI新方法:訓(xùn)練稀疏神經(jīng)網(wǎng)絡(luò),讓模型思維過程可追溯

0
分享至


神經(jīng)網(wǎng)絡(luò)是當(dāng)今最強(qiáng)大AI系統(tǒng)的動(dòng)力核心,但其內(nèi)部工作原理依然難以捉摸。我們并非為這些模型編寫一步一指令的明確代碼,相反,它們通過調(diào)整數(shù)十億個(gè)內(nèi)部連接(即“權(quán)重”)來自我學(xué)習(xí),直至掌握任務(wù)。我們設(shè)計(jì)了訓(xùn)練規(guī)則,卻無法預(yù)知最終涌現(xiàn)出的具體行為,其結(jié)果是一個(gè)任何人都難以輕易解讀的、稠密的連接網(wǎng)絡(luò)。

現(xiàn)在,OpenAI提出了一種新方法,旨在通過訓(xùn)練模型以更簡單、更可追溯的方式“思考”,從而更好地理解它們的工作原理

如何看待可解釋性

隨著AI系統(tǒng)能力日益增強(qiáng),并在科學(xué)、教育和醫(yī)療等領(lǐng)域產(chǎn)生真實(shí)世界的影響,理解其工作方式變得至關(guān)重要??山忉屝裕傅氖菐椭覀兝斫饽P蜑楹萎a(chǎn)生特定輸出的方法。

實(shí)現(xiàn)這一目標(biāo)有多種途徑。例如,推理模型被激勵(lì)在通往最終答案的過程中解釋其工作步驟,這種“思維鏈可解釋性”利用這些解釋來監(jiān)控模型行為。這種方法已展現(xiàn)出直接的實(shí)用價(jià)值,例如當(dāng)前模型的思維鏈似乎能有效揭示欺騙等令人擔(dān)憂的行為。然而,完全依賴此特性是一種脆弱的策略,未來可能會失效。

另一方面,機(jī)制可解釋性(mechanistic interpretability)——也正是OpenAI本次研究的焦點(diǎn)——旨在徹底逆向工程一個(gè)模型的計(jì)算過程。盡管它迄今為止的直接應(yīng)用較少,但原則上,它可以為模型行為提供更完整的解釋。通過在最細(xì)粒度的層面上解釋模型行為,機(jī)制可解釋性可以減少假設(shè),給予我們更強(qiáng)的信心。但從底層細(xì)節(jié)到復(fù)雜行為解釋的路徑也因此更長、更艱難。

可解釋性支持著幾個(gè)關(guān)鍵目標(biāo),例如實(shí)現(xiàn)更好的監(jiān)督,并為不安全或策略性失調(diào)行為提供早期預(yù)警。它也補(bǔ)充了OpenAI在其他安全方面的工作,如可擴(kuò)展監(jiān)督、對抗性訓(xùn)練和紅隊(duì)測試。

在這項(xiàng)工作中,OpenAI展示了我們通??梢圆捎媚撤N訓(xùn)練方式,讓模型變得更容易解釋。他們將這項(xiàng)工作視為對稠密網(wǎng)絡(luò)進(jìn)行事后分析的一種有希望的補(bǔ)充。

這是一個(gè)比較大的賭注,從當(dāng)前的工作到完全理解最強(qiáng)大模型的復(fù)雜行為,還有很長的路要走。盡管如此,研究發(fā)現(xiàn),對于簡單的行為,用這種新方法訓(xùn)練的稀疏模型包含了小型的、解耦的“電路”,這些電路既可被理解,也足以執(zhí)行該行為。這表明,可能存在一條可行的路徑,用以訓(xùn)練出我們能夠理解其機(jī)制的大型系統(tǒng)。

一種新思路:學(xué)習(xí)稀疏模型

以往的機(jī)制可解釋性工作,通常從一個(gè)已經(jīng)訓(xùn)練好的、稠密且糾纏的網(wǎng)絡(luò)入手,試圖去解開它。在這些網(wǎng)絡(luò)中,每個(gè)神經(jīng)元都與成千上萬個(gè)其他神經(jīng)元相連,并且大多數(shù)神經(jīng)元似乎執(zhí)行著多種不同功能,這使得理解它們變得幾乎不可能。

但如果我們換一種思路呢?如果我們訓(xùn)練一個(gè)“不糾纏”的神經(jīng)網(wǎng)絡(luò)——它擁有更多的神經(jīng)元,但每個(gè)神經(jīng)元只有幾十個(gè)連接。那么,最終得到的網(wǎng)絡(luò)或許會更簡單、更容易理解。這就是OpenAI這項(xiàng)工作的核心研究思路

基于這一原則,OpenAI訓(xùn)練了一些語言模型,其架構(gòu)與GPT-2等現(xiàn)有模型非常相似,但有一個(gè)微小改動(dòng):強(qiáng)制模型絕大多數(shù)權(quán)重為零。這限制了模型只能使用其神經(jīng)元之間極少數(shù)的可能連接。研究人員認(rèn)為,這個(gè)簡單的改變能極大地解耦模型的內(nèi)部計(jì)算

在傳統(tǒng)的的稠密神經(jīng)網(wǎng)絡(luò)中,每一層的每個(gè)神經(jīng)元都與下一層的所有神經(jīng)元相連。而在稀疏模型中,每個(gè)神經(jīng)元只與下一層的少數(shù)幾個(gè)神經(jīng)元連接。研究人員希望這能讓神經(jīng)元乃至整個(gè)網(wǎng)絡(luò)變得更容易被理解


如何評估可解釋性

為了衡量稀疏模型的計(jì)算在多大程度上是解耦的,研究人員考察了各種簡單的模型行為,并檢查是否能分離出負(fù)責(zé)每種行為的模型部分——他們稱之為電路(circuits)。

他們手工策劃了一系列簡單的算法任務(wù)。對于每項(xiàng)任務(wù),他們將模型剪枝,找到能執(zhí)行該任務(wù)的最小電路,并檢查該電路的簡潔程度。研究發(fā)現(xiàn),通過訓(xùn)練更大、更稀疏的模型,可以得到能力越來越強(qiáng)、同時(shí)電路也越來越簡單的模型。

下圖是一張可解釋性與模型能力的對比圖中(左下角為更優(yōu)),對于一個(gè)固定大小的稀疏模型,增加稀疏度(即設(shè)置更多權(quán)重為零)會降低模型能力,但提高可解釋性。而擴(kuò)大模型尺寸則會將這條能力-可解釋性的邊界向外推移。這表明,我們或許可以構(gòu)建出既強(qiáng)大又可解釋的大型模型


深入電路:一個(gè)具體案例

為了更具體地說明,可以看一個(gè)任務(wù):一個(gè)在Python代碼上訓(xùn)練的模型,需要用正確的引號來補(bǔ)全一個(gè)字符串。在Python中,'hello'必須以單引號結(jié)尾,而"hello"必須以雙引號結(jié)尾。模型可以通過記住字符串開頭的引號類型,并在末尾復(fù)現(xiàn)它來解決這個(gè)問題


研究發(fā)現(xiàn),最易于解釋的模型似乎包含了實(shí)現(xiàn)了這一確切算法的解耦電路。

這個(gè)預(yù)測字符串應(yīng)以單引號還是雙引號結(jié)尾的電路,僅使用了5個(gè)殘差通道、第0層的2個(gè)MLP神經(jīng)元、以及第10層的1個(gè)注意力查詢-鍵通道和1個(gè)值通道。其工作流程如下:

1.模型在一個(gè)殘差通道中編碼單引號,在另一個(gè)通道中編碼雙引號

2.一個(gè)MLP層將此信息轉(zhuǎn)換為一個(gè)檢測任意引號的通道和另一個(gè)區(qū)分單雙引號的通道

3.一個(gè)注意力操作會忽略中間的詞元,找到之前的開引號,并將其類型復(fù)制到最終詞元

4.模型預(yù)測出匹配的閉合引號

根據(jù)定義,上圖所示的連接對于執(zhí)行該任務(wù)是充分的——如果我們移除模型的其余部分,這個(gè)小電路仍然能工作。同時(shí)它們也是必要的——?jiǎng)h除這幾個(gè)連接會導(dǎo)致模型失敗。

研究人員還研究了一些更復(fù)雜的行為,例如變量綁定。這些行為的電路更難被完全解釋。即便如此,仍然可以獲得相對簡單的部分解釋,這些解釋對模型行為具有預(yù)測性。例如,在一個(gè)電路中,一個(gè)注意力操作在變量current被定義時(shí),將變量名復(fù)制到set()詞元中;后續(xù)另一個(gè)操作則將類型從set()詞元復(fù)制到該變量的后續(xù)使用中,從而讓模型推斷出正確的下一個(gè)詞元


這些稀疏模型比前沿模型小得多,其計(jì)算的很大一部分仍未被解釋。

接下來,研究團(tuán)隊(duì)希望將這些技術(shù)擴(kuò)展到更大的模型,并解釋模型更多的行為。通過在有能力的稀疏模型中枚舉出更復(fù)雜推理背后的電路基元,或許能發(fā)展出一種有助于更有針對性地研究前沿模型的理解

為了克服訓(xùn)練稀疏模型的低效問題,研究人員看到了兩條前進(jìn)的道路:

1.從現(xiàn)有的稠密模型中提取稀疏電路,而不是從頭開始訓(xùn)練稀疏模型。因?yàn)槌砻苣P驮诓渴鹕媳举|(zhì)比稀疏模型更高效

2.開發(fā)更高效的可解釋性訓(xùn)練技術(shù),這可能更容易投入生產(chǎn)。

需要注意的是,目前的發(fā)現(xiàn)并不能保證這種方法會延伸到能力更強(qiáng)的系統(tǒng)上,但這些早期結(jié)果充滿希望。最終目標(biāo)是逐步擴(kuò)大我們能夠可靠解釋的模型范圍,并構(gòu)建工具,使未來的系統(tǒng)更容易分析、調(diào)試和評估

參考:

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

paper:

https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗外長:美以打完后,愿重啟談判

伊朗外長:美以打完后,愿重啟談判

觀察者網(wǎng)
2026-03-01 08:39:35
中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預(yù)

中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預(yù)

似水流年忘我
2026-01-29 01:24:08
扛不住了,江蘇某大型建設(shè)集團(tuán)全員息崗!

扛不住了,江蘇某大型建設(shè)集團(tuán)全員息崗!

黯泉
2026-02-28 22:39:41
自斷后路!央企采用國產(chǎn)芯片,美:你不進(jìn)口,我們的芯片賣給誰?

自斷后路!央企采用國產(chǎn)芯片,美:你不進(jìn)口,我們的芯片賣給誰?

半路友人之他
2026-02-19 23:15:08
不可輕敵!武統(tǒng)臺灣的難度遠(yuǎn)大于俄烏戰(zhàn)爭

不可輕敵!武統(tǒng)臺灣的難度遠(yuǎn)大于俄烏戰(zhàn)爭

扶蘇聊歷史
2025-12-21 06:35:03
“手機(jī)將全面漲價(jià)”,沖上熱搜

“手機(jī)將全面漲價(jià)”,沖上熱搜

南方都市報(bào)
2026-02-27 14:31:12
為全球股市打樣,沙特埃及股市開盤大跌5%,但很快反彈

為全球股市打樣,沙特埃及股市開盤大跌5%,但很快反彈

上觀新聞
2026-03-01 20:07:17
“我要驗(yàn)牌”,怎么就火了

“我要驗(yàn)牌”,怎么就火了

大象新聞
2026-03-01 08:25:06
外媒:特朗普對伊朗發(fā)出新威脅

外媒:特朗普對伊朗發(fā)出新威脅

參考消息
2026-03-01 15:52:28
伊朗4枚導(dǎo)彈襲擊“林肯”號航母,美軍正式公布傷亡數(shù)字

伊朗4枚導(dǎo)彈襲擊“林肯”號航母,美軍正式公布傷亡數(shù)字

文匯報(bào)
2026-03-02 03:47:30
杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬不要亂拜

杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬不要亂拜

收藏大視界
2026-02-28 23:03:27
給央視賣命19年,連站6年零下幾十度春晚分會場,撒貝寧沒他微信

給央視賣命19年,連站6年零下幾十度春晚分會場,撒貝寧沒他微信

百態(tài)人間
2026-02-28 15:31:33
一天報(bào)銷115輛坦克!塔利班舉白旗求饒,巴鐵:多虧了中國制造!

一天報(bào)銷115輛坦克!塔利班舉白旗求饒,巴鐵:多虧了中國制造!

快看張同學(xué)
2026-03-01 14:37:37
剛爽完9天春節(jié)長假?別高興太早!2027年春節(jié)可能沒這么舒服了

剛爽完9天春節(jié)長假?別高興太早!2027年春節(jié)可能沒這么舒服了

王姐懶人家常菜
2026-03-02 00:46:38
17天14跌!開普云暴跌54%,重組告吹股民深套

17天14跌!開普云暴跌54%,重組告吹股民深套

財(cái)經(jīng)智多星
2026-03-01 11:15:50
阿聯(lián)酋國防部:伊朗襲擊造成3人死亡、58人受傷

阿聯(lián)酋國防部:伊朗襲擊造成3人死亡、58人受傷

澎湃新聞
2026-03-01 22:00:18
美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點(diǎn)燃

美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點(diǎn)燃

滄海旅行家
2026-03-01 14:30:14
警方證實(shí)!谷愛凌在美遭襲擊 時(shí)間地點(diǎn)曝光:傷情公布,犯人被捕

警方證實(shí)!谷愛凌在美遭襲擊 時(shí)間地點(diǎn)曝光:傷情公布,犯人被捕

二瘋說球
2026-03-01 09:36:16
央八新劇僅播五晚,就被觀眾要求下架?理由:胡編亂造、假的離譜

央八新劇僅播五晚,就被觀眾要求下架?理由:胡編亂造、假的離譜

墨笑墨侃本尊
2026-02-27 21:10:41
1.2億農(nóng)村老人,每月只領(lǐng)200元養(yǎng)老金,買兩袋米就沒了。

1.2億農(nóng)村老人,每月只領(lǐng)200元養(yǎng)老金,買兩袋米就沒了。

流蘇晚晴
2026-02-26 18:18:15
2026-03-02 08:51:00
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1034文章數(shù) 396關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財(cái)經(jīng)要聞

中東國際機(jī)場滯留者:機(jī)場像“難民所”

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬輛

態(tài)度原創(chuàng)

本地
教育
房產(chǎn)
家居
旅游

本地新聞

津南好·四時(shí)總相宜

教育要聞

開學(xué)第一課:送給學(xué)生4盞“指路之燈”

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

家居要聞

素色肌理 品意式格調(diào)

旅游要聞

渝見好“村”光 | 云陽黎明村:宗祠連山影 油菜花開香

無障礙瀏覽 進(jìn)入關(guān)懷版