国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

OpenAI試圖在奇點前夜,搶回人類的控制權|OpenAI新論文解讀

0
分享至

我們正生活在一個由黑匣子統(tǒng)治的時代。這些黑匣子被我們稱為AI。

幾十年來,我們與這些機器的契約很簡單:我們給它們海量的數據,它們還給我們一個魔法:準確推薦下一首歌、能以99%的準確率識別貓、或寫出莎士比亞十四行詩。

我們不在乎怎么做到的,我們只要它能做到。

但現在,當這個黑匣子不再是用來識別貓,而是用來診斷癌癥、批準貸款或(老天保佑)控制核武器時,“怎么做到的”成了不能規(guī)避問題。

于是,一個被稱為機制可解釋性的AI研究領域誕生了,他們的工作就是試圖搞清楚模型到底在想什么。

在這個領域中,Anthropic貢獻了很多技術,比如探針,試圖通過觀察注意力的變化,去逆向猜測大腦的運轉。但這些猜測都是模糊且多解的,因為他們不得不面對神經網絡的一個本質特性,那就是疊加。

直到這個月,OpenAI出手,用一篇名為《權重稀疏的Transformer具有可解釋的電路》的論文給出了拆掉這座高墻的榔頭,打算從根本上解決不可解釋性的問題。


論文鏈接:https://arxiv.org/abs/2511.13653

1

疊加態(tài)的詛咒

疊加之所以令人頭疼,是因為它讓神經網絡變得像一個過度擁擠的單身公寓。

在一個普通的密集神經網絡里,為了節(jié)省成本(參數量),模型會讓一個神經元同時打幾份工。

這就像一個只有十個柜子的房間,卻要塞進一千件不同的東西。當你拉開一個柜子(神經元),你會發(fā)現里面壓扁了的冬衣、貓糧和一團電線塞在一起。

對于同一個神經元,當你問它“這是什么?”時,它會告訴你:如果看到“貓”,我激活 0.8;如果看到“狗”,我激活 -0.5;如果看到“引號”,我又激活 0.3。

這種一詞多義的現象就是疊加。

讓情況更糟糕的是,這些信息還會以復雜的方式分散在多個神經元之間。一個簡單的任務(比如識別代碼里的引號),其邏輯可能被撕碎,分散在幾十個這種亂七八糟的神經元里,要靠著其他神經元同步激活,才能顯現出來。

這也是目前的 AI 這么強的原因。它極致地壓縮了信息,高效利用了每一個參數。

但也正因如此,想要看懂它的工作流,就跟拆開一團復雜的線團一樣困難。

1

極簡主義的經濟制裁

OpenAI 的思路很直接。既然疊加是因為模型為了省錢(節(jié)省參數)而把概念混在一起,那干脆就改變經濟規(guī)則,讓它不去疊加了。

于是,他們設計了一個模型簡化計劃。從頭開始訓練一種權重稀疏(Weight-Sparse)的模型。在每個訓練步驟后,OpenAI會直接把每個權重矩陣里除了最大的那些值之外的所有參數都清零。

這樣,最極端的情況下,他們的模型只有千分之一的參數是非零的。此時,一個原本可以有一百萬個連接的神經元,現在只被允許保留一千個。

這不是在限制模型能學多少知識,而是在限制它能動用多少關系。


在這種嚴苛的預算下,模型為了完成任務,必須精打細算。它發(fā)現,把毫不相關的概念(比如貓和引號)塞進同一個神經元變得不再劃算,因為解開它們需要額外的連接,而連接極其珍貴。

于是,在這套極簡主義的經濟下,模型被迫學會了斷舍離。訓練出來的模型中,一個神經元只負責一個概念,這種解耦策略反而成了最經濟的生存之道。

然而,訓練出一個整潔的模型只是第一步。整個模型依然是一個有著龐大參數的迷宮。想要在迷宮里找到處理特定任務的那條紅線,他們需要第二個工具,即自動剪枝(Automated Pruning)。

如果說稀疏訓練是把雜亂的房間整理得井井有條,那么剪枝就是關掉燈,只讓那些正在工作的電線發(fā)光。

這不是靠人工去猜,而是一個自動化過程。研究人員會為選定一個具體任務(比如數括號),然后給模型里每一個神經元都裝上一個可調節(jié)的調光器(Mask)。

通過優(yōu)化算法,系統(tǒng)會不斷嘗試關掉參數的燈光(均一化響應)。只要關掉這個神經元不影響任務結果,就立刻把它徹底關死 。

當數百萬個調光器被關閉后,黑暗中只剩下那幾十個還亮著的節(jié)點。這些幸存下來的節(jié)點連接在一起,就構成了能夠解釋具體任務的電路(Circuit)。

所謂電路,本質上就是從那個龐大而復雜的神經網絡中提取出來的、專門負責某項具體任務的最小核心子圖 。是模型在處理問題時,用到的所有邏輯判斷的精簡思維導圖。

在這個稀疏中,AI 的思考路徑變得驚人地干凈。

當研究人員對比同樣表現的稀疏模型和密集模型時,發(fā)現稀疏模型處理特定任務的電路體積,平均小了16倍。


1

讀懂AI的心

有了清晰的電路,研究人員終于可以讀懂 AI 的思想了。

在論文中,研究人員向我們展示了模型是如何把一個簡單的認知任務(看到引號 -> 記住引號 -> 閉合引號),拆解成了一套嚴密的寫入-檢索邏輯。


這個任務,大概是模型讀到了一個開頭的雙引號 (",中間經過了一串字符,現在它走到了句子的盡頭,需要預測下一個字符是 ") 還是 ') 。

它做的第一步是標記。當模型讀到開頭的 (" 時,電路中的一個組件被激活。它向信息流中寫入了兩條信息,先用引號檢測器標明這里有個引號(位置標記),再用一個類型分類器判別了一下標記的類型,確認這是個引號(類型標記)。

第二步則是回溯。 當模型處理到句子的最后一個字,準備預測結尾時,第 10 層的一個注意力頭啟動了。它利用了注意力機制經典的 Q-K-V(查詢-鍵-值) 結構來完成一次精準的數據庫檢索?;剡^頭去尋找那個位置標記,也搜索到了前面的類型標記(雙引號)。

模型拿著這個信息,立刻排除了單引號的選項,自信地輸出了 ")。

模型整個行為的過程,非常符合人類的邏輯架構,用內容分離去判別,再用檢索去確認。

在這些電路里,我們可以看到是清晰、可調試的代碼邏輯。

研究人員甚至發(fā)現了更復雜的變量追蹤電路,模型通過兩層注意力機制,像接力跑一樣,先把變量名存入內存,再在需要時通過變量名檢索出它的類型。


1

有效性的證明

為了驗證這些線路圖不僅僅是好看,而是真的在工作,研究團隊還做了一系列實驗驗證其充分性和必要性。

針對充分性,當他們把電路以外的所有神經元全部切斷(設為平均值),發(fā)現模型依然能完美完成任務。

而當他們僅僅切斷電路以內的那幾個關鍵節(jié)點,模型的能力瞬間崩潰。這就說明它確實是必要的。

由此,研究者可以自信的說,他們提取出來的不僅僅是統(tǒng)計上的相關性,而是模型真正的思維流程。

但即使模型是真的用這個電路思考的,研究人員怎么證明他們的理解沒有問題呢?

證明也很簡單如果他們真的懂這個電路,他們就應該能“黑”了它。

在研究一個“計算括號嵌套深度”的電路時,他們發(fā)現模型為了省事,用了一種“取平均值”的快捷算法來估算深度。研究人員立刻意識到:既然是取平均值,那如果我把上下文拉得特別長,這個數值不就被稀釋了嗎?

于是,他們故意構造了一個超長的列表作為輸入。結果不出所料,模型正如預測那樣,在嵌套深度判斷上徹底失效了。

這簡直是可解釋性領域的登月時刻。這就像神經科學家聲稱破解了視覺皮層,然后通過畫一張?zhí)囟ǖ膱D畫,精準地讓你的眼睛產生了預期的幻覺。

通過精準預測模型的失敗,他們反向證明了對模型原理的掌控。

現在,OpenAI的研究人員可以完全自信的說,他們已經理解了模型是怎么處理括號問題的了。

1

找到了圣杯,但還是遇到了硬件的墻

故事到這里,似乎我們已經找到了圣杯。只要把所有模型都做成稀疏的,可解釋性的問題不就解決了嗎?

聽著挺好,結果論文在角落里藏著一個巨大的但是,就是效率。

這些權重稀疏模型,在現有的計算機上運行,效率低得令人發(fā)指。訓練它們可能需要比普通模型多消耗100到1000倍的算力。

過去三十年的芯片工業(yè),都是為了密集計算而生的。GPU之所以快,是因為并行能力強,能一次性做很多運算。

但在稀疏模型里,任何時候,只有零星幾個神經元在做著計算。

當你把稀疏模型放到 GPU 上時,它那龐大的并行能力就完全失效了,只能一次算一點點。

我們?yōu)榱俗屓祟惱斫舛O計的模型結構,恰好被我們需要它運行的硬件物理結構所排斥。

更糟糕的是,除了跑得慢,它還胖得驚人。

這樣一個稀疏模型,因為其中神經元的利用很低效,因此想要達到和密集模型同樣的聰明程度,你往往需要極大地增加它的總參數量。由此產生的模型體積也會大到讓硬件裝下很吃力。

這意味著,用這種方法訓練一個稀疏版的 GPT-5根本不現實。

1

B 計劃:橋接

那這一切努力都白費了嗎?

OpenAI 提出了一個B計劃,雖然無法用可解釋性稀疏模型去取代那些高效但不可解釋的密集模型,但我們可以用橋接的方式造一個區(qū)域翻譯器,只翻譯其中一小部分。


這一橋接的方法,就是凍結那個強大的密集模型,然后在它旁邊訓練一個小的稀疏模型。同時,訓練一組翻譯層,讓它們時刻保持同步。

這樣,當稀疏模型里的引號分類器亮起時,我們就能知道原來密集模型里對應的,是哪一套復雜的神經元組合了。

這個稀疏模型的橋接,就像一臺連接到密集模型上的 X 光機。


雖然因為規(guī)模和效率問題,我們沒法通過它翻譯密集模型的全部思想。但針對我們關心的那些安全任務(比如欺騙、誘導、制造生化武器),針對性的翻譯還是完全做得到的。

比如研究人員可以手動搜集一個模型進行欺騙行為的數據集。然后我們在這個數據集上訓練橋接模型,強迫它去翻譯GPT-5在進行欺騙時的內部計算。由此也許就能搞清楚其中到底是出了什么問題,模型為什么要撒謊。

1

不完美,但意義同樣重大

雖然這篇論文沒有給我們一個完全安全、可解釋、超智能的AI。

它給了我們一套工具,和一線希望。

它證明了,AI的黑匣子并非 堅不可摧。只要我們施加正確的壓力(稀疏性),并使用正確的手術刀(修剪算法),我們就可以強迫這個黑匣子開口,把它最深的秘密暴露在人類的理解之下。

這也許是我們在超級智能降臨的前夜,唯一能為它套上的思想韁繩。它讓我們不再是被動地等待黑盒里的審判,而是第一次擁有了主動。

在AI學會欺騙之前看穿謊言,在它孕育出惡意之前,將其扼殺于神經元的閃爍之中。

這可能是在這場游戲中,我們唯一能贏的方式。

文章轉載于騰訊科技,作者:博陽

點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
被罵到關評!姜昆在美國豪宅唱紅歌過圣誕,17年曾呼吁抵制圣誕節(jié)

被罵到關評!姜昆在美國豪宅唱紅歌過圣誕,17年曾呼吁抵制圣誕節(jié)

阿纂看事
2025-12-25 17:19:59
劉雪峰故意殺人案再審宣判:檢辯雙方均認為無罪,吉林高院維持有罪原判

劉雪峰故意殺人案再審宣判:檢辯雙方均認為無罪,吉林高院維持有罪原判

澎湃新聞
2025-12-26 11:48:27
南博事件新證據!龐叔令律師:龐家捐贈的江南春,不是曝光的兩幅

南博事件新證據!龐叔令律師:龐家捐贈的江南春,不是曝光的兩幅

火山詩話
2025-12-26 07:14:22
50億打水漂?只剩兩戶人家!國內最大“空城”古鎮(zhèn),看得人心發(fā)慌

50億打水漂?只剩兩戶人家!國內最大“空城”古鎮(zhèn),看得人心發(fā)慌

GA環(huán)球建筑
2025-12-25 10:53:33
南京博物館事件后,全國博物館紛紛關閉:施工關閉、臨時關閉

南京博物館事件后,全國博物館紛紛關閉:施工關閉、臨時關閉

爆角追蹤
2025-12-26 11:02:32
廣東17歲男子騎電動車時撞上馬路中間電線桿,知情人透露:男子顱腦出血仍在ICU昏迷,同一路段已發(fā)多起事故

廣東17歲男子騎電動車時撞上馬路中間電線桿,知情人透露:男子顱腦出血仍在ICU昏迷,同一路段已發(fā)多起事故

大風新聞
2025-12-26 11:51:03
為什么我要祝你圣誕快樂?

為什么我要祝你圣誕快樂?

寰宇大觀察
2025-12-25 14:08:05
南博事件劇終!80歲徐湖平結局注定,預估判刑時長,好日子到頭了

南博事件劇終!80歲徐湖平結局注定,預估判刑時長,好日子到頭了

娜烏和西卡
2025-12-25 11:06:28
亞洲周刊曝光徐鶯偽造身份11年,篡改民國收藏史,文博圈大佬站臺

亞洲周刊曝光徐鶯偽造身份11年,篡改民國收藏史,文博圈大佬站臺

阿纂看事
2025-12-25 13:38:27
75歲姜昆翻車了,與友人在美國豪宅聚會慶祝圣誕,合唱歌曲惹爭議

75歲姜昆翻車了,與友人在美國豪宅聚會慶祝圣誕,合唱歌曲惹爭議

李健政觀察
2025-12-25 17:46:18
前館長拿了:聞鈞天捐獻書畫失蹤案已有回音

前館長拿了:聞鈞天捐獻書畫失蹤案已有回音

呦呦鹿鳴
2025-12-25 22:19:24
精準斬首!泰國無人機斬首行動震驚東南亞!洪森指揮鏈遭團滅!

精準斬首!泰國無人機斬首行動震驚東南亞!洪森指揮鏈遭團滅!

深度報
2025-12-24 22:47:16
美軍火還未抵臺,洪秀柱突然表態(tài),大陸告知臺當局,祖國勢必統(tǒng)一

美軍火還未抵臺,洪秀柱突然表態(tài),大陸告知臺當局,祖國勢必統(tǒng)一

博覽歷史
2025-12-26 09:15:08
身在美國卻說和祖國不能分割,姜昆的圣誕離岸愛國秀,諷刺感拉滿

身在美國卻說和祖國不能分割,姜昆的圣誕離岸愛國秀,諷刺感拉滿

歷史總在押韻
2025-12-25 22:58:56
詭異!各地博物館流感式閉館

詭異!各地博物館流感式閉館

不正確
2025-12-26 11:47:45
手機脫手3分鐘,消費記錄被刪、社交賬號發(fā)假圖!女大學生事后驚覺,受害者還有很多

手機脫手3分鐘,消費記錄被刪、社交賬號發(fā)假圖!女大學生事后驚覺,受害者還有很多

環(huán)球網資訊
2025-12-26 10:16:37
為何一定要為小洛熙進行手術?真實原因曝光,刺痛全網

為何一定要為小洛熙進行手術?真實原因曝光,刺痛全網

老特有話說
2025-12-25 12:16:26
女子購近萬元LV運動鞋穿后雙腳多處破皮要求退款被拒,客服:不退,只能換

女子購近萬元LV運動鞋穿后雙腳多處破皮要求退款被拒,客服:不退,只能換

澎湃新聞
2025-12-25 19:26:27
男子理發(fā)時耳朵被剪開1.8公分,家屬稱店家欺瞞傷勢,回家后才發(fā)現,商家:這就像切菜,切到手也是概率問題

男子理發(fā)時耳朵被剪開1.8公分,家屬稱店家欺瞞傷勢,回家后才發(fā)現,商家:這就像切菜,切到手也是概率問題

觀威海
2025-12-25 14:30:08
多地整治“世襲崗”,網友:都是交叉安置,換形式不變本質,為啥

多地整治“世襲崗”,網友:都是交叉安置,換形式不變本質,為啥

你食不食油餅
2025-12-25 23:38:53
2025-12-26 13:59:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎,歡迎來到這個星球。
2744文章數 10422關注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

澤連斯基圣誕致辭疑詛咒普京"他該去死" 克宮回應

頭條要聞

澤連斯基圣誕致辭疑詛咒普京"他該去死" 克宮回應

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天深夜道歉,只字未提五月天阿信

財經要聞

資管江湖的人事“寒冬”

汽車要聞

速來!智界在上海西岸準備了年末潮流盛典

態(tài)度原創(chuàng)

手機
藝術
教育
家居
公開課

手機要聞

小米新品發(fā)布會一圖看,從手機到家電,總有一個適合你

藝術要聞

William Dyce:19世紀蘇格蘭重要的畫家

教育要聞

陰影面積是12,求直角梯形的面積

家居要聞

格調時尚 智慧品質居所

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版