国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

拆解AI黑箱,深度解讀“機(jī)制可解釋性”|2026年十大突破性技術(shù)

0
分享至



這是《麻省理工科技評(píng)論》2026 年“十大突破性技術(shù)”深度解讀系列的第一篇內(nèi)容,關(guān)注 DeepTech,關(guān)注新興科技趨勢。

現(xiàn)在,我們?cè)絹碓蕉嗟貙⒋笳Z言模型應(yīng)用于搜索、編程、內(nèi)容生成和決策輔助等現(xiàn)實(shí)場景中。盡管每天有數(shù)百萬人使用大模型,但它的問題也隨之而來,例如有時(shí)會(huì)產(chǎn)生幻覺,甚至在特定情境下表現(xiàn)出誤導(dǎo)或欺騙用戶的傾向。

在訓(xùn)練過程中,這些模型會(huì)逐漸形成一套自身的解決問題策略,并編碼進(jìn)模型計(jì)算中。實(shí)際上,我們并沒有從本質(zhì)上理解 AI 模型的“大腦”內(nèi)部究竟發(fā)生了什么變化。它們的運(yùn)作機(jī)制是什么,又應(yīng)該如何設(shè)定可靠的安全邊界?

在很長一段時(shí)間里,人們只能將 AI 看成“黑箱”:輸入數(shù)據(jù),得到結(jié)果,但無法解釋中間經(jīng)歷了怎樣的計(jì)算過程。隨著模型規(guī)模和能力的不斷提升,這種內(nèi)部過程不可見的狀態(tài),逐漸從工程難題轉(zhuǎn)變?yōu)榘踩c可信性方面的潛在風(fēng)險(xiǎn),成為一個(gè)隨時(shí)可能被觸發(fā)的“定時(shí)炸彈”。

為拆解 AI 的“黑箱”,包括 Anthropic、OpenAI 和 Google DeepMind 在內(nèi)的多家 AI 公司,開始嘗試通過重建模型的“腦內(nèi)地圖”,系統(tǒng)性地揭示 AI 的內(nèi)部運(yùn)作方式?;诖?,機(jī)制可解釋性(MI,Mechanistic Interpretability)逐漸發(fā)展為一條新興研究路線,它的核心目標(biāo)是從模型內(nèi)部的計(jì)算結(jié)構(gòu)出發(fā),識(shí)別關(guān)鍵特征單元,并刻畫這些單元之間的信息傳遞路徑,從而理解模型整體行為的形成機(jī)制。

機(jī)制可解釋性對(duì)算法對(duì)齊具有關(guān)鍵作用。研究者可基于此從模型內(nèi)部計(jì)算機(jī)制層面進(jìn)行判斷:模型表現(xiàn)出色,是源于與人類目標(biāo)一致的內(nèi)部策略,還是依賴于某種表面成功但潛在誤導(dǎo)的欺騙性捷徑?

可以看到的是,機(jī)制可解釋在服務(wù)于性能理解之外,也為區(qū)分看似對(duì)齊和真實(shí)對(duì)齊提供了一種基礎(chǔ)工具。更廣泛地來看,機(jī)制可解釋性有望發(fā)展為提升 AI 系統(tǒng)安全性與透明度的獨(dú)特技術(shù)路徑。

Anthropic 提出了一種具有代表性的思路,即直接解釋模型內(nèi)部機(jī)制。該公司用電路追蹤(Circuit Tracing)的方法,并以識(shí)別與特定行為或能力最直接相關(guān)的關(guān)鍵信號(hào)通路為核心目標(biāo)。

2024 年,Anthropic 公布了一套可類比于“顯微鏡”的分析方法,來對(duì)其 Claude 模型的內(nèi)部結(jié)構(gòu)進(jìn)行深入探索。研究人員發(fā)現(xiàn),實(shí)際上大模型內(nèi)部并不是像人們想象的那樣完全無序的狀態(tài),而是表現(xiàn)出結(jié)構(gòu)化表征:部分神經(jīng)元或神經(jīng)元組合可穩(wěn)定與特定概念相對(duì)應(yīng)。例如,以邁克爾·喬丹為代表的人物概念、以金門大橋?yàn)榇淼牡攸c(diǎn)概念,更進(jìn)一步地,還可能涵蓋更抽象的語義與功能模式。

在此基礎(chǔ)上,研究人員進(jìn)一步將模型內(nèi)部的計(jì)算過程映射成可解釋的歸因圖譜(Attribution Graphs),不僅能夠在模型中精確定位這些特征,還分析它們?cè)诓煌蝿?wù)中如何被激活、如何相互作用和組合。業(yè)界普遍認(rèn)為,這是迄今為止對(duì)生產(chǎn)級(jí)大語言模型內(nèi)部機(jī)制最深入的系統(tǒng)性探索研究之一。

與此同時(shí),Anthropic 還將電路追蹤的相關(guān)工具開源,并在 Neuronpedia 平臺(tái)上提供交互式圖譜分析界面,讓更多的研究者與開發(fā)者共同觀察、驗(yàn)證,并討論模型內(nèi)部機(jī)制的形成和演化。

2025 年,Anthropic 將這一研究路線進(jìn)一步推向了新高度。不局限于對(duì)單一概念特征的分析,該公司利用這套“顯微鏡”工具,解析出模型內(nèi)部相對(duì)連貫的特征序列,并追蹤模型從輸入提示(prompt)到最終生成回答之間的大致計(jì)算路徑。這意味著在有限范圍內(nèi),模型的思考過程開始具備一定程度的可追溯性。

當(dāng)然,這并非某個(gè)機(jī)構(gòu)的孤立探索,OpenAI 與 Google DeepMind 等團(tuán)隊(duì),也在使用相近的機(jī)制解釋技術(shù),分析與溯源模型中出現(xiàn)的異常行為或潛在危險(xiǎn)行為。

OpenAI 還探索了另一條技術(shù)路徑,核心思路是用一個(gè)模型來解釋另一個(gè)模型的神經(jīng)元功能。具體而言,研究人員首先使用較小的語言模型 GPT-2 在大規(guī)模文本上運(yùn)行,篩選出能夠高頻激活特定神經(jīng)元的輸入片段;隨后,將這些片段交由更強(qiáng)的模型 GPT-4,由其以自然語言形式描述該神經(jīng)元可能承擔(dān)的功能,并通過多輪對(duì)比與驗(yàn)證,形成對(duì)神經(jīng)元作用的初步解釋。研究結(jié)果表明,一部分神經(jīng)元呈現(xiàn)出高度可解釋、功能集中的行為模式,而另一些神經(jīng)元的激活分布則更分散,研究人員至今仍難以清晰刻畫它的相關(guān)功能。

不久前,OpenAI 發(fā)布了一類規(guī)模較小且高度稀疏的模型,用于探索機(jī)制可解釋性的可行路徑。它的核心思路是通過結(jié)構(gòu)化約束,使模型中絕大多數(shù)權(quán)重趨近于零,從而構(gòu)建一個(gè)顯式稀疏的神經(jīng)網(wǎng)絡(luò),并直接分析該網(wǎng)絡(luò)中的計(jì)算電路進(jìn)行分析。研究結(jié)果顯示,即便在大幅度提升稀疏性的條件下,模型性能的下降幅度仍然有限。此外,稀疏結(jié)構(gòu)顯著降低了電路分析的復(fù)雜度,研究人員可基于此更直接地理解神經(jīng)網(wǎng)絡(luò)中的具體計(jì)算過程。

但從整體來看,機(jī)制可解釋性仍然面臨一系列挑戰(zhàn)。其中,最關(guān)鍵的問題之一是規(guī)模和復(fù)雜度的指數(shù)級(jí)增長:目前主流模型往往包含數(shù)十億甚至更多參數(shù),其內(nèi)部潛在的計(jì)算電路數(shù)量有可能在億級(jí)水平。而對(duì)單個(gè)電路的機(jī)制級(jí)分析通常不能完全自動(dòng)化,而是逐一檢驗(yàn)和驗(yàn)證。正因?yàn)檫@樣,機(jī)制可解釋性在大規(guī)模模型上的系統(tǒng)性應(yīng)用,面臨高昂的時(shí)間和計(jì)算成本的雙重挑戰(zhàn)。

在領(lǐng)域內(nèi)積極探索機(jī)制可解釋性的同時(shí),也有研究人員提出另一條重要的研究路徑:思維鏈監(jiān)控(Chain-of-Thought Monitoring)。思維鏈監(jiān)控與僅在最終答案基礎(chǔ)上進(jìn)行評(píng)估的傳統(tǒng)方法不同,它核心是關(guān)注模型在執(zhí)行任務(wù)過程中生成的中間推理過程,并試圖在推理階段對(duì)模型的行為進(jìn)行觀察和分析。

舉例來說,OpenAI 的研究發(fā)現(xiàn),在不進(jìn)行任何額外或針對(duì)性訓(xùn)練的前提下,模型在很多任務(wù)中生成的思維鏈通??奢^真實(shí)地反映,它在作出預(yù)測時(shí)依賴的內(nèi)部推理過程。有趣的是,這一研究路徑關(guān)注的是模型如何進(jìn)行推理,而不是嘗試事后解釋識(shí)別或分類等高度抽象的能力標(biāo)簽。

從更宏觀的角度來看,學(xué)界與產(chǎn)業(yè)界對(duì)于這類可解釋性技術(shù)最終能走多遠(yuǎn),目前尚未形成統(tǒng)一的共識(shí):

一種觀點(diǎn)認(rèn)為,正如細(xì)胞是生命的基本構(gòu)成單元,神經(jīng)元及其組合所形成的電路是理解神經(jīng)網(wǎng)絡(luò)行為的關(guān)鍵切入點(diǎn),通過梳理這些基礎(chǔ)結(jié)構(gòu),有助于還原模型內(nèi)部機(jī)制的脈絡(luò)。

另一種觀點(diǎn)認(rèn)為,大模型的能力并不能簡單還原為基本單元的疊加,模型整體層面已形成了具有獨(dú)立意義的激活模式和表征結(jié)構(gòu)。因此,應(yīng)該與底層單元的分析相互補(bǔ)充,而非相互取代。

雖然當(dāng)下領(lǐng)域仍存在分歧與局限,但可以看到的是,隨著這些新工具的出現(xiàn),研究人員和模型二者之間的關(guān)系正在悄然發(fā)生改變。與此同時(shí),研究范式也正在從對(duì)“黑箱”系統(tǒng)的被動(dòng)測試,逐步向?qū)δP蛢?nèi)部結(jié)構(gòu)和機(jī)制的主動(dòng)探索轉(zhuǎn)變:研究人員不再只是關(guān)注模型給出了什么答案,而是開始追問它為什么會(huì)這樣作答。

機(jī)制可解釋性入選了 《麻省理工科技評(píng)論》2026 年度“十大突破性技術(shù)”,我們邀請(qǐng)三位來自產(chǎn)業(yè)與科研一線的代表,圍繞其關(guān)鍵技術(shù)路徑與產(chǎn)業(yè)影響進(jìn)行了點(diǎn)評(píng)。

以下評(píng)論內(nèi)容均為個(gè)人見解,不代表《麻省理工科技評(píng)論》觀點(diǎn)



機(jī)制可解釋性像一場圣杯遠(yuǎn)征,但終點(diǎn)始終若隱若現(xiàn)

從整體研究脈絡(luò)來看,機(jī)制可解釋性并非一條憑空出現(xiàn)的新路線。無論是早期圖像領(lǐng)域中對(duì)卷積神經(jīng)網(wǎng)絡(luò)邊緣、紋理特征的可視化,還是后來圍繞神經(jīng)元、通道與表示空間的分析,研究者始終在嘗試回答同一個(gè)核心問題:模型為什么會(huì)表現(xiàn)出某種行為。

從這一意義上來看,今天圍繞電路、特征和計(jì)算路徑展開的機(jī)制可解釋性,與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)可解釋性在理念上是一脈相承的。真正的變化在于模型本身,Transformer 架構(gòu)引入了高度并行、跨層的信息流動(dòng)機(jī)制,研究者不再將模型行為歸因到單一神經(jīng)元或局部結(jié)構(gòu)上。注意力機(jī)制、殘差連接和深層堆疊共同作用,讓模型內(nèi)部計(jì)算表現(xiàn)出更強(qiáng)的分布性和耦合性,這種復(fù)雜性也讓解釋本身變得更具挑戰(zhàn)。與此同時(shí),也推動(dòng)著機(jī)制可解釋性向更底層和更結(jié)構(gòu)化的方向發(fā)展。

然而,當(dāng)這種分析真正走向?qū)嵺`時(shí),它的局限也隨之顯現(xiàn)。潛在計(jì)算電路的數(shù)量可能達(dá)到億級(jí),即便只分析其中極小一部分,也可能是巨大的工作量。但在實(shí)際研究中,一個(gè)繞不開的話題是:現(xiàn)有機(jī)制可解釋性的分析往往特定于模型。每一次模型更新,幾乎都意味著要重新來一遍解釋工作,成本很難攤薄。

還有一個(gè)常被低估的問題:電路的功能本身并不是一直保持清晰和唯一的。理想情形下,一條電路只對(duì)應(yīng)一種穩(wěn)定的功能,這種情況下的解釋具有較高的確定性;但在真實(shí)的大模型里,情況往往要混亂得多。結(jié)果就是,這類解釋在不少場景下并不可靠。

在模型安全上,這些方法確實(shí)很有價(jià)值,但邊界也非常明確。以思維鏈監(jiān)控為例,觀察模型中間推理過程能夠發(fā)現(xiàn)僅憑看答案而難以發(fā)現(xiàn)的風(fēng)險(xiǎn)。代價(jià)在于,這同樣是一把雙刃劍。如果把思維鏈監(jiān)控直接作為訓(xùn)練或微調(diào)的獎(jiǎng)勵(lì)信號(hào),模型可能開始表現(xiàn)出欺騙性行為(AI Deception),即刻意規(guī)避監(jiān)控機(jī)制,而非實(shí)現(xiàn)真實(shí)且穩(wěn)健的安全改進(jìn)。

即便如此,這個(gè)方向仍然在迅速推進(jìn)。從本質(zhì)問題來看,我認(rèn)為完美可解釋性仍是深度學(xué)習(xí)領(lǐng)域未被解決的終極圣杯。我并不認(rèn)為僅通過分析復(fù)雜系統(tǒng)的局部結(jié)構(gòu),就可以完全理解它的整體機(jī)制。從這個(gè)角度看,機(jī)制可解釋性帶有某種“盲人摸象”的局限。


盡管如此,我認(rèn)為它依然是一條值得持續(xù)探索的路徑。尤其在模型評(píng)估和安全審計(jì)層面,這些方法提供了一種此前幾乎不存在的觀察窗口。它也許無法直接讓模型變得真正安全,但至少能幫助我們更清楚地看到模型正在做什么,以及它可能在刻意回避什么。對(duì)復(fù)雜的 AI 系統(tǒng)而言,這樣的能力本身已經(jīng)具有重要價(jià)值。



從思維鏈監(jiān)控到可識(shí)別性危機(jī),機(jī)制可解釋性正在走向第一性原理

現(xiàn)在,機(jī)制可解釋性(MI,Mechanistic Interpretability)正從通過人力來分析個(gè)例手工拆解,逐漸轉(zhuǎn)移到用 AI 來進(jìn)行大規(guī)模自動(dòng)化拆解大模型及其推理模型上,不只滿足于發(fā)現(xiàn)特征、講清回路,而是開始用它們?nèi)ケO(jiān)測推理過程、做因果驗(yàn)證、干預(yù)行為和服務(wù)安全,落地的跡象開始明顯。

推理模型與思維鏈(CoT)的可監(jiān)測性。隨著 o1/o3、DeepSeek-R1 這類推理模型逐漸成為主角,研究者越來越關(guān)心的不是模型最后吐出什么答案,而是它中間到底怎么想。2025 年一個(gè)很重要的趨勢是把思維鏈當(dāng)成通向模型思考過程的鑰匙。例如,OpenAI 的“Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation”,通過監(jiān)測思維鏈來判斷是否有獎(jiǎng)勵(lì)短路(reward hacking)。之后的“rubrics-based rewards”也是通過監(jiān)測思維鏈來更好地進(jìn)行強(qiáng)化學(xué)習(xí),杜絕瞎猜答案等事件的發(fā)生 [1]。

AI 工具的使用。用人力來發(fā)現(xiàn)特征和回路費(fèi)時(shí)費(fèi)力,近年來可解釋性方向開始使用模型來解釋模型。稀疏自編碼器(SAE)訓(xùn)練一個(gè)專用模型來解釋大模型的行為,如 Anthropic 的一系列博客及 OpenAI 的“Scaling and Evaluating Sparse Autoencoders”,使用 TopK 而非 L1 正則項(xiàng)來訓(xùn)練 SAE。2025 年開始,SAE 被成功遷移到生物/蛋白質(zhì)模型等領(lǐng)域,能在不同模態(tài)里反復(fù)看到“結(jié)構(gòu)檢測器”一類的可解釋特征 [2]。2025 年出現(xiàn)了直接用大模型來解釋大模型內(nèi)部的激活結(jié)構(gòu),比如 Anthropic 最近的 Activation Oracles[3] 和 Sign of introspection [4] 讓模型來解釋自己。

機(jī)械可解釋性的本質(zhì)局限。另一方面,機(jī)械可解釋性的本質(zhì)局限性也正在被挖掘出來。ICLR 25 有一篇文章“Everything, Everywhere, All at Once: Is Mechanistic Interpretability Identifiable”揭示了可識(shí)別性危機(jī):為一個(gè)簡單任務(wù)(XOR)訓(xùn)練的模型,內(nèi)部就存在大量不同的解釋,每一個(gè)都合理,那究竟哪個(gè)是對(duì)的?這意味著可解釋性研究方向本身需要重新思考和定位。

目前的 ML 仍然是純實(shí)驗(yàn)科學(xué):我們有了像 SAE 那樣更強(qiáng)大的現(xiàn)象觀測工具,獲得了更多的數(shù)據(jù)點(diǎn),但這并不自動(dòng)給出萬有引力定律。對(duì)比四百年前的物理學(xué),我們現(xiàn)在有很多 AI 版的第谷(收集數(shù)據(jù)),一些 AI 版的開普勒(提出假說),但還沒有 AI 版的牛頓(發(fā)現(xiàn)原理)。

可解釋性真正的難點(diǎn)在于從第一性原理,即從模型架構(gòu)、梯度下降及數(shù)據(jù)本身的結(jié)構(gòu)出發(fā),解釋為什么模型會(huì)收斂出這些解耦、稀疏、模塊化、可組合的特征與回路,為什么會(huì)有大量不同的解釋,這些涌現(xiàn)出來的結(jié)構(gòu)和模型訓(xùn)練的哪些超參數(shù)相關(guān),如何相關(guān)等等。

等到我們能從梯度下降的方程里,直接推導(dǎo)出大模型特征涌現(xiàn)的必然性,可解釋性才算真正從生物式的證據(jù)收集走向物理式的推導(dǎo),最終反過來指導(dǎo)實(shí)踐,為下一代人工智能的模型設(shè)計(jì)開辟道路。

2025 年,我們對(duì)連續(xù)隱空間推理的兩篇分析文章(Reasoning by Superposition, Emergence of Superposition),及對(duì) Grokking 的分析文章(
Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking)就是在這個(gè)方向上的嘗試。在更深入地理解模型工作原理之后,無論將來用什么樣的表征——離散或是連續(xù)——來表示模型的內(nèi)部知識(shí)結(jié)構(gòu),不可解釋的烏云也會(huì)散去不少。



當(dāng) CoT 不再可信,AI 安全必須“看進(jìn)大腦”

當(dāng)前機(jī)制可解釋性已經(jīng)走出理論假設(shè)階段,進(jìn)入到實(shí)際驗(yàn)證階段,它的核心是稀疏自編碼器(SAE)對(duì)線性表示假設(shè)的實(shí)證?,F(xiàn)階段這項(xiàng)技術(shù)已能將神經(jīng)網(wǎng)絡(luò)中同時(shí)代表多個(gè)不同含義的神經(jīng)元(多義性神經(jīng)元)分解成為多個(gè)獨(dú)立特征,每個(gè)特征只代表一個(gè)明確含義(單義特征),以此構(gòu)建出模型內(nèi)部的概念圖譜。

然而,該領(lǐng)域仍然面臨兩大瓶頸:

一方面,是計(jì)算與本體論困境。為了全面監(jiān)控模型內(nèi)部所有特征的激活情況,需要消耗比模型正常推理多數(shù)倍的計(jì)算資源。同時(shí),隨著 SAE 規(guī)模擴(kuò)大,寬泛概念(如科學(xué))會(huì)被分解成更細(xì)粒度的子概念(如化學(xué)、物理等),這會(huì)導(dǎo)致難以確定哪些是構(gòu)成模型認(rèn)知的“基本原子”,更難以標(biāo)準(zhǔn)化和監(jiān)管模型內(nèi)部理解。

另一方面,是特征空間中的語義糾纏。不同特征的含義相互關(guān)聯(lián)和重疊,并不是完全獨(dú)立,現(xiàn)有的特征擦除技術(shù)在試圖移除有害知識(shí)時(shí),可能會(huì)意外地?fù)p害模型的通用推理能力,導(dǎo)致整體性能下降。

傳統(tǒng)訓(xùn)練和評(píng)估 AI 安全的方法,主要通過 AI 的外部行為表現(xiàn)進(jìn)行判斷。例如,通過人類反饋強(qiáng)化學(xué)習(xí)(RLHF)讓模型輸出符合人類價(jià)值觀的回答,或者通過“紅隊(duì)測試”故意提問來測探模型是否有害。但是,隨著模型涌現(xiàn)出情境感知和規(guī)范博弈的能力,傳統(tǒng)方法正面臨系統(tǒng)性失效風(fēng)險(xiǎn),這就需要引入機(jī)制可解釋性工具。

在“欺騙性對(duì)齊”語境下,模型可能具備識(shí)別訓(xùn)練與部署環(huán)境差異的能力,從而隱藏非對(duì)齊目標(biāo)。思維鏈(CoT)的不忠實(shí)性和事后合理化特征愈發(fā)明顯,如果只是分析模型輸出的文本,已無法有效監(jiān)控它的真實(shí)意圖。

正如北京大學(xué)和智源研究院等團(tuán)隊(duì)在一項(xiàng)研究中提出的“智能對(duì)齊莫比烏斯鎖定”,模型的高級(jí)推理能力與策略性欺騙潛能已經(jīng)深度糾纏,難以分割。當(dāng)在生化、科研等高敏感、高風(fēng)險(xiǎn)領(lǐng)域部署模型,這種由隱蔽欺騙引發(fā)的前沿安全風(fēng)險(xiǎn)將顯著上升且難以控制。因此,構(gòu)建內(nèi)生安全和外生安全的協(xié)同防御機(jī)制十分重要:通過建立 CoT Monitor 顯性推理和隱性計(jì)算路徑的實(shí)時(shí)對(duì)比校驗(yàn),來識(shí)別隱藏在合規(guī)輸出之下,為其特殊目的服務(wù)的動(dòng)機(jī)性推理和潛在危險(xiǎn)意圖。

面向未來,機(jī)制可解釋性將演進(jìn)為 AI 治理的核心基礎(chǔ)設(shè)施。前沿模型的內(nèi)部結(jié)構(gòu)復(fù)雜,并具有海量參數(shù)和特征,但運(yùn)行時(shí)只激活了其中的一小部分。這種復(fù)雜性和規(guī)模讓人工審計(jì)成為一種難以完成的任務(wù),可預(yù)見的是,基于 AI 的自動(dòng)化對(duì)齊研究有可能成為未來的主要發(fā)展方向。

從審計(jì)機(jī)制與合規(guī)層面來看,未來監(jiān)管重點(diǎn)將從對(duì)輸出結(jié)果的統(tǒng)計(jì)評(píng)估,進(jìn)一步深化到對(duì)模型內(nèi)部工作機(jī)制的審查。對(duì)于與高風(fēng)險(xiǎn)模型的發(fā)布,需要附帶詳盡的內(nèi)部結(jié)構(gòu)圖與內(nèi)部審計(jì)日志,來證明相關(guān)決策邏輯的透明無害性,最終在此基礎(chǔ)上構(gòu)建基于內(nèi)部機(jī)制可見性的 AI 安全治理新秩序。



參考資料:

1.https://arxiv.org/pdf/2507.17746

2.https://news.mit.edu/2025/researchers-glimpse-inner-workings-protein-language-models-0818

3.https://alignment.anthropic.com/2025/activation-oracles/

4.https://www.anthropic.com/research/introspection

5.https://www.anthropic.com/research/mapping-mind-language-model

6.https://www.anthropic.com/research/tracing-thoughts-language-model

7.https://transformer-circuits.pub/2025/attribution-graphs/methods.html

8.https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

9.https://www.anthropic.com/research/open-source-circuit-tracing

運(yùn)營/排版:何晨龍



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
兩艘一起造?中國第5艘航母來了:不是復(fù)制福建艦,而是全面放大

兩艘一起造?中國第5艘航母來了:不是復(fù)制福建艦,而是全面放大

輝輝歷史記
2026-01-13 15:01:09
1976年9月8日,毛主席臨終前拼盡全力敲了三下,葉帥當(dāng)時(shí)沒懂,后來全明白了

1976年9月8日,毛主席臨終前拼盡全力敲了三下,葉帥當(dāng)時(shí)沒懂,后來全明白了

寄史言志
2026-01-13 18:22:07
男單大冷門!國乒世界冠軍1:3不敵日本選手,國乒女單拿下兩連勝

男單大冷門!國乒世界冠軍1:3不敵日本選手,國乒女單拿下兩連勝

國乒二三事
2026-01-13 05:13:11
生產(chǎn)廠被曝存在衛(wèi)生隱患等問題,金粒門致歉并公布賠付方案

生產(chǎn)廠被曝存在衛(wèi)生隱患等問題,金粒門致歉并公布賠付方案

界面新聞
2026-01-13 17:57:50
廣東隊(duì)最新消息!麥考爾王者歸來,首秀將迎戰(zhàn)上海男籃?

廣東隊(duì)最新消息!麥考爾王者歸來,首秀將迎戰(zhàn)上海男籃?

緋雨兒
2026-01-13 14:34:09
暴跌,新股民的天塌了

暴跌,新股民的天塌了

曹多魚的財(cái)經(jīng)世界
2026-01-13 16:02:22
一場大裁員正在席卷中國的銀行!金飯碗也不香了,究竟是什么原因

一場大裁員正在席卷中國的銀行!金飯碗也不香了,究竟是什么原因

墨蘭史書
2025-12-26 19:40:03
如果3年內(nèi)沒有離開股市的打算,那就買這一種股票,賺到盆滿缽滿

如果3年內(nèi)沒有離開股市的打算,那就買這一種股票,賺到盆滿缽滿

股經(jīng)縱橫談
2026-01-09 17:42:31
勢不可擋,自盧在快船6勝21負(fù)宣布“北伐”后,快船已10勝2負(fù)

勢不可擋,自盧在快船6勝21負(fù)宣布“北伐”后,快船已10勝2負(fù)

懂球帝
2026-01-13 16:50:03
廣西一精神小妹結(jié)婚,身上多處紋身新郎小她10歲,網(wǎng)友:相當(dāng)炸裂

廣西一精神小妹結(jié)婚,身上多處紋身新郎小她10歲,網(wǎng)友:相當(dāng)炸裂

唐小糖說情感
2026-01-07 16:37:28
1950年,林彪擺出4條鐵證拒不出兵,毛主席熬紅雙眼拍板硬打,基辛格:這眼光毒得讓人后背發(fā)涼

1950年,林彪擺出4條鐵證拒不出兵,毛主席熬紅雙眼拍板硬打,基辛格:這眼光毒得讓人后背發(fā)涼

清風(fēng)鑒史
2026-01-12 23:23:16
旗袍:一件會(huì)呼吸的契約

旗袍:一件會(huì)呼吸的契約

疾跑的小蝸牛
2026-01-12 23:39:08
豆包日活破億、千問元寶追趕,百度文心掉隊(duì),AI超級(jí)入口終成字節(jié)阿里之爭?

豆包日活破億、千問元寶追趕,百度文心掉隊(duì),AI超級(jí)入口終成字節(jié)阿里之爭?

搜狐科技
2026-01-13 18:14:20
原上海電氣(集團(tuán))總公司黨委書記、董事長鄭建華被判死緩

原上海電氣(集團(tuán))總公司黨委書記、董事長鄭建華被判死緩

證券時(shí)報(bào)
2026-01-13 14:55:03
度日如年:三名皇家馬德里球員是阿隆索下課的導(dǎo)火索

度日如年:三名皇家馬德里球員是阿隆索下課的導(dǎo)火索

油潑辣不辣
2026-01-13 06:07:44
拉黑了一個(gè)弱質(zhì)

拉黑了一個(gè)弱質(zhì)

吳女士
2026-01-13 16:43:42
謝暉也沒想到,不愿給自己生娃的佟晨潔,如今卻在給魏巍當(dāng)“媽”

謝暉也沒想到,不愿給自己生娃的佟晨潔,如今卻在給魏巍當(dāng)“媽”

叨叨話影
2026-01-13 19:00:27
紐森強(qiáng)烈反對(duì)加州“巨富稅”公投 稱此舉正逼著億萬富翁搬離

紐森強(qiáng)烈反對(duì)加州“巨富稅”公投 稱此舉正逼著億萬富翁搬離

財(cái)聯(lián)社
2026-01-13 16:44:05
功勛名帥回歸!教出兩代一姐,邱貽可上位失敗,王楚欽面臨換教練

功勛名帥回歸!教出兩代一姐,邱貽可上位失敗,王楚欽面臨換教練

三十年萊斯特城球迷
2026-01-12 19:12:06
丁蘭給江青接生第二天,江青找到她:真是對(duì)不起你,請(qǐng)你原諒

丁蘭給江青接生第二天,江青找到她:真是對(duì)不起你,請(qǐng)你原諒

搜史君
2026-01-13 07:45:06
2026-01-13 19:39:02
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16120文章數(shù) 514482關(guān)注度
往期回顧 全部

科技要聞

每年10億美元!谷歌大模型注入Siri

頭條要聞

美記者問伊朗是否被要求退出金磚國家軍演 外交部回應(yīng)

頭條要聞

美記者問伊朗是否被要求退出金磚國家軍演 外交部回應(yīng)

體育要聞

他帶出國乒世界冠軍,退休后為愛徒返場

娛樂要聞

周杰倫以球員身份參加澳網(wǎng),C位海報(bào)公開

財(cái)經(jīng)要聞

"天量存款"將到期 資金會(huì)否搬入股市?

汽車要聞

限時(shí)9.99萬元起 2026款啟辰大V DD-i虎鯨上市

態(tài)度原創(chuàng)

藝術(shù)
健康
手機(jī)
時(shí)尚
本地

藝術(shù)要聞

書法爭議再起:拙與妍孰優(yōu)孰劣引發(fā)熱議

血常規(guī)3項(xiàng)異常,是身體警報(bào)!

手機(jī)要聞

小米17 Ultra手機(jī)獲澎湃OS 3.0.10.0升級(jí),優(yōu)化相機(jī)功能體驗(yàn)

走過那個(gè)夏天,甜茶終于站上金球獎(jiǎng)之巔

本地新聞

云游內(nèi)蒙|到巴彥淖爾去,赴一場塞上江南的邀約

無障礙瀏覽 進(jìn)入關(guān)懷版