国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI黑箱,這次能打開(kāi)嗎?OpenAI新方法:訓(xùn)練稀疏神經(jīng)網(wǎng)絡(luò),讓模型思維過(guò)程可追溯

0
分享至


神經(jīng)網(wǎng)絡(luò)是當(dāng)今最強(qiáng)大AI系統(tǒng)的動(dòng)力核心,但其內(nèi)部工作原理依然難以捉摸。我們并非為這些模型編寫(xiě)一步一指令的明確代碼,相反,它們通過(guò)調(diào)整數(shù)十億個(gè)內(nèi)部連接(即“權(quán)重”)來(lái)自我學(xué)習(xí),直至掌握任務(wù)。我們?cè)O(shè)計(jì)了訓(xùn)練規(guī)則,卻無(wú)法預(yù)知最終涌現(xiàn)出的具體行為,其結(jié)果是一個(gè)任何人都難以輕易解讀的、稠密的連接網(wǎng)絡(luò)。

現(xiàn)在,OpenAI提出了一種新方法,旨在通過(guò)訓(xùn)練模型以更簡(jiǎn)單、更可追溯的方式“思考”,從而更好地理解它們的工作原理

如何看待可解釋性

隨著AI系統(tǒng)能力日益增強(qiáng),并在科學(xué)、教育和醫(yī)療等領(lǐng)域產(chǎn)生真實(shí)世界的影響,理解其工作方式變得至關(guān)重要??山忉屝?,指的是幫助我們理解模型為何產(chǎn)生特定輸出的方法。

實(shí)現(xiàn)這一目標(biāo)有多種途徑。例如,推理模型被激勵(lì)在通往最終答案的過(guò)程中解釋其工作步驟,這種“思維鏈可解釋性”利用這些解釋來(lái)監(jiān)控模型行為。這種方法已展現(xiàn)出直接的實(shí)用價(jià)值,例如當(dāng)前模型的思維鏈似乎能有效揭示欺騙等令人擔(dān)憂(yōu)的行為。然而,完全依賴(lài)此特性是一種脆弱的策略,未來(lái)可能會(huì)失效。

另一方面,機(jī)制可解釋性(mechanistic interpretability)——也正是OpenAI本次研究的焦點(diǎn)——旨在徹底逆向工程一個(gè)模型的計(jì)算過(guò)程。盡管它迄今為止的直接應(yīng)用較少,但原則上,它可以為模型行為提供更完整的解釋。通過(guò)在最細(xì)粒度的層面上解釋模型行為,機(jī)制可解釋性可以減少假設(shè),給予我們更強(qiáng)的信心。但從底層細(xì)節(jié)到復(fù)雜行為解釋的路徑也因此更長(zhǎng)、更艱難。

可解釋性支持著幾個(gè)關(guān)鍵目標(biāo),例如實(shí)現(xiàn)更好的監(jiān)督,并為不安全或策略性失調(diào)行為提供早期預(yù)警。它也補(bǔ)充了OpenAI在其他安全方面的工作,如可擴(kuò)展監(jiān)督、對(duì)抗性訓(xùn)練和紅隊(duì)測(cè)試。

在這項(xiàng)工作中,OpenAI展示了我們通常可以采用某種訓(xùn)練方式,讓模型變得更容易解釋。他們將這項(xiàng)工作視為對(duì)稠密網(wǎng)絡(luò)進(jìn)行事后分析的一種有希望的補(bǔ)充。

這是一個(gè)比較大的賭注,從當(dāng)前的工作到完全理解最強(qiáng)大模型的復(fù)雜行為,還有很長(zhǎng)的路要走。盡管如此,研究發(fā)現(xiàn),對(duì)于簡(jiǎn)單的行為,用這種新方法訓(xùn)練的稀疏模型包含了小型的、解耦的“電路”,這些電路既可被理解,也足以執(zhí)行該行為。這表明,可能存在一條可行的路徑,用以訓(xùn)練出我們能夠理解其機(jī)制的大型系統(tǒng)。

一種新思路:學(xué)習(xí)稀疏模型

以往的機(jī)制可解釋性工作,通常從一個(gè)已經(jīng)訓(xùn)練好的、稠密且糾纏的網(wǎng)絡(luò)入手,試圖去解開(kāi)它。在這些網(wǎng)絡(luò)中,每個(gè)神經(jīng)元都與成千上萬(wàn)個(gè)其他神經(jīng)元相連,并且大多數(shù)神經(jīng)元似乎執(zhí)行著多種不同功能,這使得理解它們變得幾乎不可能。

但如果我們換一種思路呢?如果我們訓(xùn)練一個(gè)“不糾纏”的神經(jīng)網(wǎng)絡(luò)——它擁有更多的神經(jīng)元,但每個(gè)神經(jīng)元只有幾十個(gè)連接。那么,最終得到的網(wǎng)絡(luò)或許會(huì)更簡(jiǎn)單、更容易理解。這就是OpenAI這項(xiàng)工作的核心研究思路

基于這一原則,OpenAI訓(xùn)練了一些語(yǔ)言模型,其架構(gòu)與GPT-2等現(xiàn)有模型非常相似,但有一個(gè)微小改動(dòng):強(qiáng)制模型絕大多數(shù)權(quán)重為零。這限制了模型只能使用其神經(jīng)元之間極少數(shù)的可能連接。研究人員認(rèn)為,這個(gè)簡(jiǎn)單的改變能極大地解耦模型的內(nèi)部計(jì)算

在傳統(tǒng)的的稠密神經(jīng)網(wǎng)絡(luò)中,每一層的每個(gè)神經(jīng)元都與下一層的所有神經(jīng)元相連。而在稀疏模型中,每個(gè)神經(jīng)元只與下一層的少數(shù)幾個(gè)神經(jīng)元連接。研究人員希望這能讓神經(jīng)元乃至整個(gè)網(wǎng)絡(luò)變得更容易被理解


如何評(píng)估可解釋性

為了衡量稀疏模型的計(jì)算在多大程度上是解耦的,研究人員考察了各種簡(jiǎn)單的模型行為,并檢查是否能分離出負(fù)責(zé)每種行為的模型部分——他們稱(chēng)之為電路(circuits)。

他們手工策劃了一系列簡(jiǎn)單的算法任務(wù)。對(duì)于每項(xiàng)任務(wù),他們將模型剪枝,找到能執(zhí)行該任務(wù)的最小電路,并檢查該電路的簡(jiǎn)潔程度。研究發(fā)現(xiàn),通過(guò)訓(xùn)練更大、更稀疏的模型,可以得到能力越來(lái)越強(qiáng)、同時(shí)電路也越來(lái)越簡(jiǎn)單的模型。

下圖是一張可解釋性與模型能力的對(duì)比圖中(左下角為更優(yōu)),對(duì)于一個(gè)固定大小的稀疏模型,增加稀疏度(即設(shè)置更多權(quán)重為零)會(huì)降低模型能力,但提高可解釋性。而擴(kuò)大模型尺寸則會(huì)將這條能力-可解釋性的邊界向外推移。這表明,我們或許可以構(gòu)建出既強(qiáng)大又可解釋的大型模型


深入電路:一個(gè)具體案例

為了更具體地說(shuō)明,可以看一個(gè)任務(wù):一個(gè)在Python代碼上訓(xùn)練的模型,需要用正確的引號(hào)來(lái)補(bǔ)全一個(gè)字符串。在Python中,'hello'必須以單引號(hào)結(jié)尾,而"hello"必須以雙引號(hào)結(jié)尾。模型可以通過(guò)記住字符串開(kāi)頭的引號(hào)類(lèi)型,并在末尾復(fù)現(xiàn)它來(lái)解決這個(gè)問(wèn)題


研究發(fā)現(xiàn),最易于解釋的模型似乎包含了實(shí)現(xiàn)了這一確切算法的解耦電路。

這個(gè)預(yù)測(cè)字符串應(yīng)以單引號(hào)還是雙引號(hào)結(jié)尾的電路,僅使用了5個(gè)殘差通道、第0層的2個(gè)MLP神經(jīng)元、以及第10層的1個(gè)注意力查詢(xún)-鍵通道和1個(gè)值通道。其工作流程如下:

1.模型在一個(gè)殘差通道中編碼單引號(hào),在另一個(gè)通道中編碼雙引號(hào)

2.一個(gè)MLP層將此信息轉(zhuǎn)換為一個(gè)檢測(cè)任意引號(hào)的通道和另一個(gè)區(qū)分單雙引號(hào)的通道

3.一個(gè)注意力操作會(huì)忽略中間的詞元,找到之前的開(kāi)引號(hào),并將其類(lèi)型復(fù)制到最終詞元

4.模型預(yù)測(cè)出匹配的閉合引號(hào)

根據(jù)定義,上圖所示的連接對(duì)于執(zhí)行該任務(wù)是充分的——如果我們移除模型的其余部分,這個(gè)小電路仍然能工作。同時(shí)它們也是必要的——?jiǎng)h除這幾個(gè)連接會(huì)導(dǎo)致模型失敗。

研究人員還研究了一些更復(fù)雜的行為,例如變量綁定。這些行為的電路更難被完全解釋。即便如此,仍然可以獲得相對(duì)簡(jiǎn)單的部分解釋?zhuān)@些解釋對(duì)模型行為具有預(yù)測(cè)性。例如,在一個(gè)電路中,一個(gè)注意力操作在變量current被定義時(shí),將變量名復(fù)制到set()詞元中;后續(xù)另一個(gè)操作則將類(lèi)型從set()詞元復(fù)制到該變量的后續(xù)使用中,從而讓模型推斷出正確的下一個(gè)詞元


這些稀疏模型比前沿模型小得多,其計(jì)算的很大一部分仍未被解釋。

接下來(lái),研究團(tuán)隊(duì)希望將這些技術(shù)擴(kuò)展到更大的模型,并解釋模型更多的行為。通過(guò)在有能力的稀疏模型中枚舉出更復(fù)雜推理背后的電路基元,或許能發(fā)展出一種有助于更有針對(duì)性地研究前沿模型的理解

為了克服訓(xùn)練稀疏模型的低效問(wèn)題,研究人員看到了兩條前進(jìn)的道路:

1.從現(xiàn)有的稠密模型中提取稀疏電路,而不是從頭開(kāi)始訓(xùn)練稀疏模型。因?yàn)槌砻苣P驮诓渴鹕媳举|(zhì)比稀疏模型更高效

2.開(kāi)發(fā)更高效的可解釋性訓(xùn)練技術(shù),這可能更容易投入生產(chǎn)。

需要注意的是,目前的發(fā)現(xiàn)并不能保證這種方法會(huì)延伸到能力更強(qiáng)的系統(tǒng)上,但這些早期結(jié)果充滿(mǎn)希望。最終目標(biāo)是逐步擴(kuò)大我們能夠可靠解釋的模型范圍,并構(gòu)建工具,使未來(lái)的系統(tǒng)更容易分析、調(diào)試和評(píng)估

參考:

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

paper:

https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
王思聰罕見(jiàn)發(fā)文,感慨“整容改變命運(yùn)”,被質(zhì)疑諷刺林俊杰女友!

王思聰罕見(jiàn)發(fā)文,感慨“整容改變命運(yùn)”,被質(zhì)疑諷刺林俊杰女友!

古希臘掌管月桂的神
2026-01-05 15:16:56
小米公關(guān)緊急道歉,一場(chǎng)丟臉的“鬧劇”!

小米公關(guān)緊急道歉,一場(chǎng)丟臉的“鬧劇”!

互聯(lián)網(wǎng)品牌官
2026-01-06 14:41:58
中國(guó)海警發(fā)海報(bào),要查扣美國(guó)軍火?四國(guó)已經(jīng)集結(jié),準(zhǔn)備對(duì)華出手?

中國(guó)海警發(fā)海報(bào),要查扣美國(guó)軍火?四國(guó)已經(jīng)集結(jié),準(zhǔn)備對(duì)華出手?

近史博覽
2026-01-02 20:35:46
小里弗斯:狄龍是球隊(duì)文化締造者,灰熊火箭太陽(yáng)都因他而變好

小里弗斯:狄龍是球隊(duì)文化締造者,灰熊火箭太陽(yáng)都因他而變好

懂球帝
2026-01-07 13:26:07
神權(quán)支柱動(dòng)搖:哈梅內(nèi)伊密擬逃亡莫斯科預(yù)案,革命衛(wèi)隊(duì)陷忠誠(chéng)危機(jī)

神權(quán)支柱動(dòng)搖:哈梅內(nèi)伊密擬逃亡莫斯科預(yù)案,革命衛(wèi)隊(duì)陷忠誠(chéng)危機(jī)

老馬拉車(chē)莫少裝
2026-01-05 23:23:48
論父女關(guān)系能不熟到什么程度。父親:什么時(shí)候回來(lái)?女兒:我在家

論父女關(guān)系能不熟到什么程度。父親:什么時(shí)候回來(lái)?女兒:我在家

另子維愛(ài)讀史
2026-01-06 20:26:55
房產(chǎn)證上的人去世了,繼承別再花大幾千的公證費(fèi),80塊錢(qián)就能搞定

房產(chǎn)證上的人去世了,繼承別再花大幾千的公證費(fèi),80塊錢(qián)就能搞定

室內(nèi)設(shè)計(jì)師有料兒
2025-12-07 16:05:28
王石的體面,被田樸珺扯得干干凈凈

王石的體面,被田樸珺扯得干干凈凈

言叔財(cái)經(jīng)視角
2026-01-05 13:50:10
盧比奧一語(yǔ)道破委內(nèi)瑞拉荒誕真相:馬杜羅的江山,古巴人的管家

盧比奧一語(yǔ)道破委內(nèi)瑞拉荒誕真相:馬杜羅的江山,古巴人的管家

老馬拉車(chē)莫少裝
2026-01-05 21:46:08
CBA拿到10000分有多難?31年來(lái)歷史僅5人,王治郅差312分,姚易呢

CBA拿到10000分有多難?31年來(lái)歷史僅5人,王治郅差312分,姚易呢

兵哥籃球故事
2026-01-07 11:09:47
白嫖攝影師后續(xù):?jiǎn)挝粋鏖_(kāi)已社死,朋友曝更多,白嫖只是冰山一角

白嫖攝影師后續(xù):?jiǎn)挝粋鏖_(kāi)已社死,朋友曝更多,白嫖只是冰山一角

蜉蝣說(shuō)
2026-01-04 15:46:13
2026年春晚彩排路透曝光,惡心一幕發(fā)生,這幾位明星遭“抵制”

2026年春晚彩排路透曝光,惡心一幕發(fā)生,這幾位明星遭“抵制”

瓜汁橘長(zhǎng)Dr
2026-01-06 09:55:39
1951年毛主席接見(jiàn)梁興初,一開(kāi)口就喊錯(cuò)軍銜,全場(chǎng)死寂,梁興初直接回了句大實(shí)話(huà)

1951年毛主席接見(jiàn)梁興初,一開(kāi)口就喊錯(cuò)軍銜,全場(chǎng)死寂,梁興初直接回了句大實(shí)話(huà)

寄史言志
2026-01-06 23:04:16
于曉光做夢(mèng)沒(méi)想到,韓國(guó)總統(tǒng)訪華僅3天,46歲秋瓷炫竟意外火出圈

于曉光做夢(mèng)沒(méi)想到,韓國(guó)總統(tǒng)訪華僅3天,46歲秋瓷炫竟意外火出圈

一娛三分地
2026-01-06 20:16:31
76年我冒死把一個(gè)被批斗的干部藏在地窖,23年后他成了省城大人物

76年我冒死把一個(gè)被批斗的干部藏在地窖,23年后他成了省城大人物

蕭竹輕語(yǔ)
2026-01-06 16:58:48
13年后王石又做了一鍋紅燒肉,終究比不過(guò)胡歌的那鍋紅燒肉

13年后王石又做了一鍋紅燒肉,終究比不過(guò)胡歌的那鍋紅燒肉

阿訊說(shuō)天下
2026-01-06 15:30:46
湖人豪取三連勝,賽后還有4個(gè)好消息,詹姆斯第五冠不是夢(mèng)想

湖人豪取三連勝,賽后還有4個(gè)好消息,詹姆斯第五冠不是夢(mèng)想

鄒維體育
2026-01-07 11:37:37
終于知道為啥要抓馬杜羅的夫人了!知道她厲害,沒(méi)想到這么厲害!

終于知道為啥要抓馬杜羅的夫人了!知道她厲害,沒(méi)想到這么厲害!

今日養(yǎng)生之道
2026-01-06 20:07:20
女網(wǎng)紅現(xiàn)身柬埔寨斷腿流浪街頭, 被男友騙去賣(mài)掉黃賭毒, 慘!

女網(wǎng)紅現(xiàn)身柬埔寨斷腿流浪街頭, 被男友騙去賣(mài)掉黃賭毒, 慘!

扮貓騎老虎
2026-01-05 18:34:01
演都不演了!離婚傳聞?wù)嫦嗥毓夂?,馮小剛一舉撕破徐帆的“體面”

演都不演了!離婚傳聞?wù)嫦嗥毓夂?,馮小剛一舉撕破徐帆的“體面”

娛說(shuō)瑜悅
2026-01-04 17:30:48
2026-01-07 14:08:49
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專(zhuān)注于人工智能,科技領(lǐng)域
1025文章數(shù) 393關(guān)注度
往期回顧 全部

科技要聞

豪擲世界第一"球" 楊元慶亮出聯(lián)想AI護(hù)城河

頭條要聞

外媒披露美國(guó)在委內(nèi)瑞拉下個(gè)目標(biāo):系馬杜羅關(guān)鍵盟友

頭條要聞

外媒披露美國(guó)在委內(nèi)瑞拉下個(gè)目標(biāo):系馬杜羅關(guān)鍵盟友

體育要聞

全明星次輪票數(shù):東契奇票王 詹皇超KD升西部第8

娛樂(lè)要聞

2026年央視春晚彩排:沈騰確定回歸

財(cái)經(jīng)要聞

50萬(wàn)億存款"洪流"將至 四大去向引關(guān)注

汽車(chē)要聞

蔚來(lái)2025百萬(wàn)臺(tái)收官 一場(chǎng)遲到的自我修復(fù)

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
本地
親子
公開(kāi)課

藝術(shù)要聞

David Grossmann:不一樣的風(fēng)景畫(huà)

房產(chǎn)要聞

海珠雙冠王!中交天翠以強(qiáng)兌現(xiàn)力+生活溫度,筑就長(zhǎng)期主義產(chǎn)品

本地新聞

云游內(nèi)蒙|初見(jiàn)呼和浩特,古今交融的北疆都會(huì)

親子要聞

趕快轉(zhuǎn)給另一半

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版