国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

專訪MIT劉子鳴丨另辟蹊徑,不賭規(guī)模:Physics of AI 是通往 AGI 的“科學路徑”

0
分享至


來源:智源社區(qū)

當 AI 領域還在為 “更大模型、更多數(shù)據(jù)” 的 Scaling 洪流歡呼時,劉子鳴卻走出了一條截然不同的研究道路 —— 把神經(jīng)網(wǎng)絡當作物理系統(tǒng)來拆解,用物理學的思維破解 AI 的底層邏輯。這位先后扎根北大物理系、MIT 物理系,如今加盟清華人工智能學院擔任教職的科學家,用從 AI for Physics 到 Physics of AI 的學術轉(zhuǎn)向,為通用人工智能(AGI)探索提供了全新的 “科學路徑”。

在他的研究版圖里,沒有盲目追逐指標的 “刷榜”,只有對 AI 本質(zhì)的執(zhí)著追問:如何讓神經(jīng)網(wǎng)絡跳出 “黑箱”,高效表示并提取符號規(guī)律?模型訓練中突然爆發(fā)的 “頓悟現(xiàn)象”,背后藏著怎樣的幾何演化邏輯?生成模型為何只能依賴擴散過程,電場、波動等物理現(xiàn)象能否成為新的解題思路?

圍繞這些問題,劉子鳴交出了令人矚目的答卷:以 Kolmogorov–Arnold 定理為基礎構建的 KAN 網(wǎng)絡,不僅打破了傳統(tǒng) MLP 的壟斷,在科學計算場景的可解釋性與高精度優(yōu)勢上實現(xiàn)突破;對 “頓悟現(xiàn)象” 的物理視角解讀,從表征幾何演化與模型表達能力壓縮兩個維度,揭開了 AI “突然開竅” 的神秘面紗;而對物理現(xiàn)象驅(qū)動生成模型的探索,更是為領域劃出了全新的研究邊界。

更難得的是,他始終帶著物理學家的清醒與務實:既承認 Scaling 路徑的短期價值,更堅持 Physics of AI 的長期意義 —— 通過觀察、實驗與歸納,為 AI 建立一套類似物理學的 “現(xiàn)象 - 規(guī)律 - 理論” 體系。

除了技術挑戰(zhàn),劉子鳴更尖銳地指出了當前學術文化的困境:“現(xiàn)在的發(fā)表文化并不鼓勵做Physics of AI這類研究?!?那些細微、瑣碎但可能至關重要的觀察,往往因難以包裝成一篇完整論文而被拋棄。為此,他不僅堅持每天通過博客分享實驗中的 “小洞察”,更呼吁學界打破發(fā)表文化的束縛,用更多細碎卻扎實的觀察,拼湊出 AI 系統(tǒng)的完整圖景。

這場不賭規(guī)模、只探本質(zhì)的研究之旅,究竟藏著怎樣的方法論?Physics of AI 又將如何為 AGI 搭建起科學的階梯?在這篇深度專訪中,劉子鳴將帶你走進 AI 研究的 “物理實驗室”,看清技術熱潮背后的底層邏輯。

采訪:李夢佳

要點速覽

于學術轉(zhuǎn)向:博士階段從 AI for Physics 轉(zhuǎn)向 Physics of AI,“把 AI 當作一個物理系統(tǒng)來研究”,最終目標是攻克通用人工智能。

關于核心成果提出 KAN 網(wǎng)絡,“不用 MLP 底層依賴的萬能逼近定理,而是換 KA 表示定理構建神經(jīng)網(wǎng)絡”,在符號公式場景與高精度需求中可解釋性、靈活性遠超 MLP;破解 “頓悟現(xiàn)象”,發(fā)現(xiàn)其源于表征幾何演化成環(huán)的形態(tài),或是模型表達能力壓縮后找到數(shù)據(jù)背后簡單算法。

關于生成模型探索:質(zhì)疑 “生成模型一定要用擴散過程”,嘗試用電場等物理現(xiàn)象構建模型,發(fā)現(xiàn) “部分物理方程經(jīng)合適正則化能成為合格生成模型”。

關于研究方法論:物理背景的核心幫助是 “教會我如何抽象和簡化問題”,注重實驗、觀察與玩具模型,在理論與實踐間找到平衡,不盲從 “規(guī)模崇拜”。

關于學術生態(tài):直言當前發(fā)表文化 “不鼓勵 Physics of AI 這類細碎研究”,導致 “小洞察被浪費”,主張通過博客、開放論壇分享觀察,凝聚社區(qū)合力。

關于 AGI 路徑:提出三條可能路徑,力推 Physics of AI 路線,堅信 “神經(jīng)網(wǎng)絡底層機制可被數(shù)學明確定義,只要定義合適層次,就能建立 AI 理論”,是通往 AGI 的科學路徑。

智源專訪欄目意在展現(xiàn)行業(yè)頂尖技術研究者和創(chuàng)業(yè)者的研究經(jīng)歷和故事,記錄技術世界的嬗變,激發(fā)當代AI從業(yè)者的創(chuàng)新思維,啟迪認知、關注突破性進展,為行業(yè)注入靈感光芒。本次專訪為總第34期。

簡介:劉子鳴,從事AI與基礎科學交叉研究的青年學者,他將于2026年秋季加入清華大學人工智能學院,擔任長聘軌助理教授。現(xiàn)為斯坦福大學與Enigma博士后研究員,合作導師為Andreas Tolias教授。他本科畢業(yè)于北京大學物理學專業(yè),后于麻省理工學院(MIT)獲得博士學位,博士階段導師為著名物理學家Max Tegmark教授,期間曾在微軟亞洲研究院實習。其研究圍繞三條核心主線展開:以科學方法理解人工智能、以基礎科學推動新一代人工智能范式,以及利用人工智能加速科學發(fā)現(xiàn),重點聚焦網(wǎng)絡涌現(xiàn)現(xiàn)象、可解釋模型與AI科學家的構建。他多次在頂尖的物理期刊和AI會議上發(fā)表論文,并擔任IEEE、Physical Review、NeurIPS、ICLR等的審稿人。同時,還共同組織了NeurIPS 2021和ICML 2022的AI4Science workshop。

01
從AI for Physics到Physics of AI——一位科學家的學術轉(zhuǎn)向

“在方法論層面,物理教會我的如何抽象和簡化問題。"

Q1:和我們分享一下您的學術脈絡,以及相關的代表作?

劉子鳴:我的本科就讀于北大物理系,博士階段在 MIT 物理系。博士前兩年專注于 AI for Physics 方向,從第三年起研究重心轉(zhuǎn)向 AI 本身,把 AI 當作一個物理系統(tǒng)來研究,進入 Physics of AI 的領域。我在斯坦福的研究方向和 MIT 時期基本一致。到清華后,我會繼續(xù)沿著 Physics of AI 的框架深入,最終目標是攻克通用人工智能。

代表作中最核心的是KAN(Kolmogorov–Arnold Networks),核心想法是取代傳統(tǒng)的MLP,而MLP是當前 AI 模型中非常常用的基礎模塊。


圖注:《KAN: Kolmogorov-Arnold Networks》論文的摘要

我們核心關注兩個問題:一是如何讓神經(jīng)網(wǎng)絡更高效地表示符號公式,二是當用神經(jīng)網(wǎng)絡擬合數(shù)據(jù)之后,如何提取背后的符號規(guī)律。傳統(tǒng)黑箱模型難以實現(xiàn)這一點,這也是我們開展研究的重要動因。

我們發(fā)現(xiàn),符號公式的結構與KA 表示定理的形式非常接近。我們自然產(chǎn)生一個想法:能不能不用MLP底層依賴的萬能逼近定理,而是換一個底層數(shù)學基礎,也就是用 KA 表示定理,構建另一套具備萬能逼近能力的神經(jīng)網(wǎng)絡?基于這個思路,我們搭建出了 KAN。


圖注:KAN 的概念與結構示意圖

搭建出 KAN 之后,我們開始研究它的性質(zhì)。根據(jù) “沒有免費的午餐定理”,沒有任何一個模型能在所有場景下都優(yōu)于其他模型,所以我們重點探究了 KAN 在哪些場景下會比 MLP 更有優(yōu)勢。

優(yōu)勢主要有兩方面:一是含大量符號公式的科學任務場景,可解釋性遠超MLP;二是高精度需求場景,KAN 可學習的基礎函數(shù)相比傳統(tǒng)固定的基礎函數(shù)更靈活。在一些需要高精度的科學計算問題中,我們可以動態(tài)調(diào)整 KAN 的精度,而 MLP 很多時候需要從頭訓練一個更大的模型,這就存在明顯問題。

第二項重要工作是研究“頓悟現(xiàn)象”。該現(xiàn)象指模型訓練中,數(shù)據(jù)集分為訓練集與測試集,模型易快速過擬合于訓練集,導致測試集表現(xiàn)不佳,常被判定為過擬合而放棄訓練。2021 年底 OpenAI 團隊發(fā)現(xiàn),若對模型進行足夠長時間的訓練,其訓練集表現(xiàn)會長期處于較差狀態(tài),卻會在某個節(jié)點突然提升,這一現(xiàn)象就叫 “頓悟現(xiàn)象”。


圖注:NeurIPS 2023論文《The Clock and the Pizza》摘要頁:神經(jīng)網(wǎng)絡的 “算法頓悟” 多樣性

這與人類的學習體驗高度相似,例如學習數(shù)學時,單純記憶題目未必能取得理想的考試成績,而持續(xù)練習、不斷思考后,往往會在某個節(jié)點產(chǎn)生知識融會貫通的頓悟感,此時便能在考試中表現(xiàn)優(yōu)異。這一現(xiàn)象頗具研究價值,我們試圖探究神經(jīng)網(wǎng)絡產(chǎn)生頓悟現(xiàn)象的原因。此外,頓悟現(xiàn)象存在明顯弊端,其效果提升的節(jié)點難以預測,有可能模型效果始終無法實現(xiàn)突破。為了理解這個現(xiàn)象,我們用了類似物理中的唯象方法,觀察模型的嵌入在幾何上是如何演化的。我們發(fā)現(xiàn),嵌入從一開始的隨機初始化,會逐漸演化成一個環(huán),就像數(shù)字在時鐘上排布的模式一樣。我們認為,出現(xiàn)頓悟現(xiàn)象的原因就在于這種表征學習。


圖注:時鐘算法(Clock Algorithm)與披薩算法(Pizza Algorithm)示意圖

這是一個研究角度,另一個角度是從模型的表達能力去理解,一個模型可能在一開始就具備很強的表達能力,這時候就會進入過擬合狀態(tài)。但在訓練過程中,因為有正則化的存在,模型的表達能力會逐漸變小。當表達能力變小時,就會強迫模型進行壓縮。這時候它沒辦法記住所有東西,就不得不找到數(shù)據(jù)背后更簡單的算法。等它找到這種更簡單的算法時,就會出現(xiàn)頓悟現(xiàn)象。

第三支線是生成模型相關的研究。現(xiàn)在大家常用的擴散模型對應著物理學中熱力學里的擴散現(xiàn)象。這就引出一個很自然的問題:為什么生成模型一定要用擴散過程?自然界里有很多其他現(xiàn)象,比如電荷、萬有引力,電荷之間同性相斥、異性相吸,還有波動現(xiàn)象等等,這些現(xiàn)象能不能用來做生成模型?我們圍繞這個問題做了一系列工作。


圖注:NeurIPS 2022 論文《Poisson Flow Generative Models》摘要頁:泊松流生成模型(PFGM)

首先是用電場的概念來構建生成模型。我們把數(shù)據(jù)當成正電荷,采樣過程當成負電荷,生成過程就是負電荷被正電荷吸引,當負電荷打到正電荷的流形上時,就生成了合格的樣本。這和擴散過程的物理圖像不一樣,但同樣能生成正確的分布。

之后我們又進一步追問,除了電場線的思路,其他物理過程能不能也用來構建生成模型?后面我們分析了一些物理中常見的方程,比如波動方程、亥姆霍茲方程等,發(fā)現(xiàn)一個很有意思的結論:這些方程如果進行合適的正則化也能成為合格的生成模型。

不過像波動方程、薛定諤方程,在我們的框架下沒辦法對應到合理的生成模型上。但我們也發(fā)現(xiàn)了一些不那么常規(guī)的方程,它們是可以轉(zhuǎn)化成生成模型的。所以我們一直在思考生成模型的邊界,主要是從物理角度去思考。


圖注:泊松流生成模型(PFGM)核心原理示意圖

說實話,這一支線我們現(xiàn)在探索得不多了。因為像 Flow Matching,還有英偉達的 EDM,他們已經(jīng)從數(shù)學角度把這個框架統(tǒng)一得很好了。這支線在物理層面確實能帶來一些有意思的洞見,但這些洞見沒辦法形成顛覆性的影響,沒辦法讓大家覺得這些洞見能帶來算法上的提升,從而去用這些成果。

Q2:您在北大攻讀物理、在 MIT 跟隨 Max Tegmark學習基礎學科的經(jīng)歷,對您個人成長及 AI 研究有哪些幫助?與計算機背景、數(shù)學背景的研究者相比,您在 AI 研究中是否有不一樣的視角?

劉子鳴:物理對我來說,在技術層面的幫助遠不如在方法論層面的幫助大。在方法論層面,物理教會我的如何抽象和簡化問題。當你面對一個巨大的復雜系統(tǒng)時,怎么抓住主要矛盾、怎么進行簡化和抽象?抽象之后,怎么去研究它?研究清楚了之后,又怎么把結論映射回原來你關心的那個大系統(tǒng)中?這是物理學家擅長的,也是物理給我?guī)淼暮诵挠柧殹.斎?,這也源于物理學中很多人秉持的還原論信念,認為可以把復雜的東西拆解開來分析。

我在 MIT 的時候,Max 從 2010 年代初就開始關注 AI 了。所以雖然我和 Max 隸屬于物理系,但我們一開始做的就是 AI 相關的研究,只不過前兩年側重的是 AI for Physics,也就是用 AI 去解決物理問題。這是很自然的切入角度:物理學大體上還是基于符號的,而符號系統(tǒng)的表達能力是有限的;但當前的 AI 是連接主義的,剛好能補充物理學中表達能力不足的問題。所以我們做了一些尋找守恒量、尋找對稱性這類的工作。


圖注:劉子鳴在MIT的研究,《AI Poincaré:從軌跡中機器學習守恒律》論文摘要頁


圖注:劉子鳴在MIT的研究,《機器學習隱藏對稱性》論文摘要頁

從博士第三年開始,我們對 AI 本身更感興趣了。這也是因為當年 ChatGPT 問世,Max 對此非常擔憂,覺得它會對人類造成威脅;而我則被它深深吸引,特別想弄明白它背后的工作原理。從那時候起,我們開始像研究物理一樣去研究 AI 系統(tǒng),這也成為我在AI研究領域獨特的切入點。

當前多數(shù) AI 研究者分屬兩類:計算機背景研究者以算法設計、提升數(shù)據(jù)集指標為核心目標;數(shù)學背景研究者則傾向于從第一性原理展開推導。而物理作為實驗驅(qū)動的學科,讓物理背景的我高度重視實驗、觀察與玩具模型的構建,同時培養(yǎng)了適度的理論精神。

我覺得物理思維就是這樣:建模能夠復現(xiàn)定性趨勢即可(能定量當然最好,但也不是始終必要),比數(shù)學更追求直觀,較少糾結邏輯的完全嚴格性;與計算機文化中唯指標論的取向也存在明顯差異。物理賦予的這種思維模式與研究方法論,讓我得以在理論研究與實踐應用間找到良好平衡點,這也是物理學習帶給我的最大助益。

另外,物理學習不僅為我奠定了扎實的數(shù)學基礎,還培養(yǎng)了多項核心能力:既提升了對問題的直觀感知能力,也具備公式推導的實操能力,只是我認為推導并非所有場景下最高效的研究方式。扎實的數(shù)理基礎,也讓我在研究中能夠保持獨立判斷,不易產(chǎn)生盲從心理。

Q3:如何看待 AI for Science 未來的機會在哪里?當前 AI for Science 存在哪些不足,重要發(fā)展方向是什么?

劉子鳴:AI 加速科學發(fā)現(xiàn)屬于 AI for Science 的范疇。從個人研究背景來看,我自博士階段開始,就沒有聚焦具體的科學任務,所以不會把賭注押在某個具體任務上。比如現(xiàn)在很火的蛋白質(zhì)折疊、尋找高溫超導材料這些方向,我承認它們具備重要研究價值,但受背景和研究機緣影響,我沒有涉足相關領域。我會把更多賭注壓在工具上,畢竟具體科學問題的探索,本質(zhì)上屬于對特定高深問題的深耕。

我會把賭注壓在類似編程智能體這樣的工具上,它能幫助科學家更快地處理日常事務。科研中存在大量可以自動化的工作,像我們經(jīng)常要理解一些高維數(shù)據(jù),面對這類數(shù)據(jù),要嘗試不同的降維方法,然后用肉眼去盯著看里面有什么模式。

一方面這個過程很有趣,因為你在探索、擺弄這些數(shù)據(jù),從不同角度去觀察它;但另一方面,我又覺得過程比較低效,有時候還挺痛苦,畢竟要不斷嘗試不同的方法。這些嘗試其實是可以自動化的,只是要么你樂在其中,要么你也不知道該怎么更好地把它自動化。

其實很多科學研究都存在這個問題:怎么在高維數(shù)據(jù)中無監(jiān)督地發(fā)現(xiàn)一些模式,進而生成假設?我個人認為,現(xiàn)在 AI for Science 做得比較好的模型,比如 DeepMind 那些相關模型,都是針對具體問題的,輸入是氨基酸序列,輸出是每個物體的空間坐標,問題定義得很清晰。但科學研究中一個很重要的部分是定義問題,你得先把問題定義清楚,才能談解決問題。現(xiàn)在的 AI for Science,主要是在解決那些已經(jīng)被定義好的問題。


圖注:劉子鳴的研究興趣在AI和Science的交叉領域,在AI for Science 方向,未來將“通過廣泛閱讀基礎科學里的問題,識別潛在能被AI解決的大問題”。

解決已定義的問題已經(jīng)是很大的突破了,但我覺得下一個更重要的問題是,AI 怎么像科學家一樣去定義問題。物理學家是怎么定義問題的呢?首先他們會做一些觀察,通過觀察現(xiàn)象抽象出一些觀測量,再抽象出一些物理量,然后去探究這些物理量之間的關系。

首先,觀察這件事,我覺得現(xiàn)在 AI 還不是很擅長。但 AI 相比人的優(yōu)勢在于,人做低維可視化時,只能理解二維,最多理解三維,而 AI 可以理解更高維的東西。但 AI 的問題是它沒有動機去做壓縮,高維的東西它就放在高維空間里,永遠沒辦法通過壓縮獲得洞察。而人因為自身計算能力的局限性,會有動力去壓縮信息,壓縮之后可能雖然只能描述 90% 的現(xiàn)象,但只需要一兩個因素就能把這 90% 的現(xiàn)象描述清楚。我們所說的洞察,本質(zhì)上就是這樣的。AI 怎么模仿人去定義問題,也就是做觀察、問為什么,進而定義問題,這是我覺得總體上比較感興趣、也比較重要的一個問題。

當然具體怎么做,我還沒有太想好。不過我覺得或許可以試試用現(xiàn)在的一些智能體框架,收集一些科學發(fā)現(xiàn)的案例來做微調(diào),或許能行,但我覺得應該還有更聰明的辦法。

02“發(fā)表文化不鼓勵我們摸大象”

“Physics Of AI 社區(qū)需要的是大量的小洞察,而不是少量的大洞察?!?/strong>

Q4:物理與 AI 結合需要解決的本質(zhì)問題是什么?

劉子鳴:最終我們還是要落地到提出更好的模型、更好的算法上。Scaling存在一個很大的問題,是需要非常多的數(shù)據(jù)、大量的計算量,還要消耗非常多的能源。

短期內(nèi)我覺得可以實現(xiàn)的,一是提出更好的優(yōu)化器,能用更少的訓練步數(shù)達到同樣的效果;二是給算法構建更好的結構,這就回到了之前說的結構主義;或者我覺得更有前景的是,我們需要一種架構,讓結構能在里面較好地涌現(xiàn)出來,而不是生硬地把結構構建進去。

但不管怎么樣,只要一個網(wǎng)絡學到了正確的結構,它需要的數(shù)據(jù)會比不知道這個結構時少得多,這就能讓它更數(shù)據(jù)高效。總結來說,物理與AI結合的目的是追求效率:能用更少的數(shù)據(jù)學到同樣的效果,能用更少的計算或更少的能量學到更好的效果。

Q5:若走 Physics of AI 路線,技術上有哪些進階可能?需要解決哪些核心技術難題?

劉子鳴:其實我覺得技術上有難題,但最大的問題其實是文化層面的,是發(fā)表文化的問題。神經(jīng)網(wǎng)絡是個復雜系統(tǒng),如果把它比作一頭大象,我們從各個角度研究它,就相當于盲人從不同角度觸摸大象,不管從什么角度摸,都只能摸到一部分,所以我們需要從更多角度去觸摸這頭大象。

但有時候你摸的角度太過細致,比如發(fā)現(xiàn)了一個現(xiàn)象后,沒辦法發(fā)表相關研究,因為這個結論可能非常小,不具備泛化性。包括我自己和一些朋友都有過這種經(jīng)歷:發(fā)現(xiàn)了很有意思的現(xiàn)象,但沒辦法把它包裝成一個能發(fā)表的故事,就只能擱置一邊,繼續(xù)往下做其他研究,這個發(fā)現(xiàn)可能永遠不會跟別人分享。我覺得這是一種思維的浪費,你探索出了一些東西,卻因為當前的發(fā)表文化無法發(fā)表,就把它丟到垃圾桶里去了,這是很大的浪費。


圖注:劉子鳴指出,當前的發(fā)表文化不鼓勵我們“摸大象”,很多有意思的現(xiàn)象無法發(fā)表只能被浪費。

我一直在思考怎么解決這個問題,或許可以構建一個類似 Less Wrong 那樣的論壇平臺,讓大家能在上面分享自己的觀察,然后不同的人展開更多討論。我覺得這樣能讓 Physics of AI 領域發(fā)展得更快。但現(xiàn)在大家更多還是面臨發(fā)表壓力,當前的發(fā)表文化并不鼓勵做 Physics of AI 這類研究,這類研究可能很細碎,但很多重要的事情,最終可能就取決于這些細節(jié)??涩F(xiàn)在的發(fā)展文化不鼓勵這類研究,這是我在文化層面最擔憂的一點。


圖注:明星數(shù)據(jù)科學家 Jeremy Howard 在評論區(qū)對劉子鳴的觀點表示贊同。

技術上確實有一些難點。首先是我們該觀察什么樣的現(xiàn)象,大家都很難想象自己沒見過的東西?,F(xiàn)在我們已經(jīng)觀察到了一些熟知的現(xiàn)象,比如我剛才說的頓悟現(xiàn)象、信息瓶頸現(xiàn)象,但我覺得可能存在上千種現(xiàn)象,我們目前發(fā)現(xiàn)的還不到十種。就像那只大象,它有哪些側面、我們該怎么去觸摸這些側面,這些都還不是特別清楚。


圖注:Physics of AI 的研究框架示意圖

不過我覺得,隨著我們做更多的玩具實驗,比如測試一個玩具模型各個方面的性質(zhì),在不同層次上對它進行測量,通過測量不同的東西,或許就能觀察到不同層次、不同觀測量下展現(xiàn)出的各種現(xiàn)象。接下來還要搞清楚這些現(xiàn)象之間的聯(lián)系,以及這些現(xiàn)象和工程上大家關心的模型最終表現(xiàn)之間的聯(lián)系,把整個知識網(wǎng)絡構建起來。

但現(xiàn)在大家做的研究,大多只關心模型最后一層的表現(xiàn),中間的這些知識節(jié)點都沒有構建起來。這個領域的難點或者說核心,就是我們怎么去構建這些中間的知識節(jié)點,以及把這些知識節(jié)點串聯(lián)起來。

Q6:如何改變當前的發(fā)表文化,從學術文化層面推廣 Physics of AI?

劉子鳴:我已經(jīng)開始寫博客了,大概從今年 1 月 1 號開始,到今天每天都在持續(xù)更新。對我來說,每天花兩個小時,通過在玩具模型上做實驗,就能學到一些之前不知道的東西。這些新發(fā)現(xiàn)由于太細微還是沒辦法發(fā)表,而且我也沒有把它們完全解釋清楚,但我覺得觀察現(xiàn)象本身非常重要。所以我會耐心做一些在別人看來可能比較瑣碎的實驗,只要觀察到的現(xiàn)象能幫助我構建知識體系,我就會記錄下來,發(fā)表在我的個人網(wǎng)站上。

博客是公開的,它記錄了我個人的探索脈絡。我覺得做研究需要親自動手實踐,還要做一些開放研究,不能說做什么都立志最后要寫成一篇文章,這是一種需要改變的思維模式。

當然,大家確實都有發(fā)表壓力,我自己也不例外。所以現(xiàn)階段,我只能呼吁更多人去做開放研究,用愛發(fā)電。至于后續(xù),等碰到合適的機會,其實也可以嘗試開一個論壇,呼吁學校在考核時把這類分享也當作成果;或者創(chuàng)辦會議、期刊之類的,不過這些都是后話了。


圖注:劉子鳴從2026年開始在他的博客中踐行他“小洞察”的理念,《Sparse attention 4 -- previous token head》是他最新一篇博客,持續(xù)關注稀疏注意力的方向。

我目前認為博客是種比較高效的形式,迭代速度非??欤议T檻沒有論文那么高,能讓更多人參與進來,借助群眾的力量。這也是我的一個理念:Physics Of AI社區(qū)需要的是大量的小洞察,而不是少量的大洞察。至少一開始是這樣,小洞察可能會慢慢積累成大洞察,但首先得收集大量小洞察,才能水滴石穿。

不過現(xiàn)在就算是 Physics of AI 領域,比如朱澤園的 Physics of LM,還有 Greg Yang、田淵棟的 Math for AI,這些工作都寫得很長,做得非常扎實,給人一種門檻很高的感覺,讓大家覺得自己可能做不來。我想通過我的博客傳遞一個理念:Physics of AI 的研究沒有那么高的門檻,不需要花一年時間去做一項 Physics of AI 的工作,你可以每天花幾個小時,然后和社區(qū)里的其他人分享你的小觀察。

這些小觀察現(xiàn)在還是出于好奇心驅(qū)動,但最終,當我們積累了足夠多的小觀察,到了某個節(jié)點后,我們就能頓悟,明白這些小觀察之間是怎么聯(lián)系起來的。到那個時候,我認為會給 AI 的算法設計、給整個領域帶來質(zhì)的飛躍。不過現(xiàn)在這個領域還處在非常早期的階段,我不能打包票,但我希望能從文化層面,讓 Physics of AI 變得更加親民。

03
三條道路:Scaling、Agent,還是Physics of AI?

“結構主義提供了指導思想,但沒有給出具體的路徑,Physics of AI 是實現(xiàn)結構主義的一條路徑。”

Q7:您對 Scaling Law 有相關評論,其中提到AI領域現(xiàn)在還停留在“第谷時代”,剛進入“開普勒式”,并指出距離 “牛頓時刻” 還很遙遠,能否詳細解釋這個類比?在您看來,當前通往AGI有哪些可能的路徑?

劉子鳴:最終目標還是通用人工智能。這里我覺得有三條可能的路徑,當然可能不止三條。第一條就是靠 Scaling,無腦把現(xiàn)在的模型做得更大,收集更多數(shù)據(jù),靠這個達到 AGI。其實我相信只要有足夠的算力、能源、數(shù)據(jù),應該能實現(xiàn) AGI。只不過我比較擔心的是,我們會不會碰到能量瓶頸,這是我覺得 Scaling 這條路徑主要的問題所在。


圖注:AI領域“第谷-開普勒-牛頓”對比示意圖

第二條路徑,接受 Scaling 這個黑盒子模型本身不那么容易被理解的特性,然后在此基礎上做一些構建。比如在模型外部搭建一些記憶模塊,讓它能更好地進行持續(xù)學習,做一些抽象,實現(xiàn)一些更像人類的能力。

其實第二條路徑就是現(xiàn)在 agent 這一支大家在發(fā)展的技術,我覺得這一支比第一支更有前景。因為它會從人的角度,或者從神經(jīng)科學、認知科學的角度,尋求更高層次的指導,來明確我們的系統(tǒng)應該怎么使用。

第三條路徑就是我自己花很多時間思考和推動的方向 ——Physics of AI 。它的核心理念是,我們要把 AI 模型,具體到現(xiàn)在就是神經(jīng)網(wǎng)絡,像研究物理一樣去研究它。

Q8:您特別強調(diào)Physics of AI這條路徑。這種“像研究物理一樣研究AI”的核心信念是什么?神經(jīng)網(wǎng)絡作為一個復雜系統(tǒng),真的能像物理系統(tǒng)一樣被理解和拆解嗎?

劉子鳴:這會涉及一些哲學問題,主要的質(zhì)疑聲音是說,神經(jīng)網(wǎng)絡中的很多現(xiàn)象是涌現(xiàn)出來的,沒辦法從底層機制推演出宏觀系統(tǒng)上會出現(xiàn)什么樣的現(xiàn)象。

我覺得這一點很重要,需要明確說出來。這里存在一個信念上的問題,我的信念是還原論。在 Physics of AI 領域,還原論會比在物理學領域更有效。物理學里,還原論是一種很主流的想法:復雜的東西可以拆解成簡單的部分,這些簡單部分拼湊起來又能形成更復雜的東西。

但凝聚態(tài)物理似乎對這種還原論想法提出了挑戰(zhàn)。有時候在更高層次上涌現(xiàn)的現(xiàn)象,沒辦法用低層次的機制去解釋。于是,一些 Physics of AI 的主要反對者就用物理學里的這個類比,來說明 Physics of AI 行不通。

但我個人的信念是,神經(jīng)網(wǎng)絡和物理系統(tǒng)并不完全一樣。因為神經(jīng)網(wǎng)絡底層的這些機制,比如神經(jīng)元計算、權重計算,包括梯度下降,都是用數(shù)學明確定義的;而且我們訓練神經(jīng)網(wǎng)絡整個過程是閉合的。也就是說,我們可以非常完備地描述這個系統(tǒng)是如何演化的,只不過暫時找不到簡單的方式去描述它,但一定不存在我們不知道的東西。物理系統(tǒng)就不一樣了,它可能在各個層次上都有我們未知的部分。而研究 AI 的物理學,本質(zhì)上就是要找到它的層次結構。


圖注:物理學和(人工智能的)物理學的區(qū)別示意圖

這一點我承認是個難點。比如,我們到底該從單個神經(jīng)元的層次去理解神經(jīng)網(wǎng)絡,還是從整個表征的層次去理解?又或者,應該把神經(jīng)網(wǎng)絡拆成模塊或者線路來研究?還是說,只能把整個網(wǎng)絡當成黑盒,去研究它的輸入輸出映射?這些問題目前都還不清楚。

但我認為,一旦定義出了合適的層次,這些層次之間的涌現(xiàn)就不是問題了。物理學中會有這類難題,因為物理系統(tǒng)里存在我們未知的東西,但神經(jīng)網(wǎng)絡不一樣,我們完全清楚它是怎么訓練出來的。所以,只要把層次定義清楚,就能在每個層次上觀察到對應的不同現(xiàn)象。

比如在最底層,我們能觀察到massive activation(大規(guī)模激活),即部分神經(jīng)元出現(xiàn)高激活值,這是最微觀的層面;到了介觀層面,會觀察到表征的演化規(guī)律,比如之前提到的,表征會從隨機狀態(tài)變成環(huán)的形態(tài);而在宏觀層面,我們能觀察到模型的泛化能力突然變好。

只要我們分清了這些層次,在每個層次上進行充分觀察,并且堅信我們能構建起不同層次之間現(xiàn)象的關聯(lián),就能建立起這樣一套 AI 理論。之后我們設計算法時,就可以從最底層的機制出發(fā)進行某種意義上的推演。當然,這里的推演需要和數(shù)學稍作區(qū)分。數(shù)學關心的是嚴格性,而 Physics of AI 強調(diào)的是物理上的直觀性,以及最終的實用性。

Q9:2026 年,從研究者角度,應呼吁大家把籌碼壓在結構而非規(guī)模上嗎?是該繼續(xù)在 scaling 上獲取短期紅利,還是現(xiàn)在就 all in 結構主義?

劉子鳴:我覺得核心是短期和長期的權衡問題。如果想獲得短期成功,持續(xù) Scaling 還是正確的道路。這個短期,我個人估計可能是兩到三年,有人可能更悲觀,也有人可能更樂觀。

結構主義當然是比較宏大的敘事,我關于結構主義的文章是去年圣誕節(jié)寫的。之后我又高強度寫了幾篇 Physics of AI 的博客,因為我意識到,結構主義提供了指導思想,但沒有給出具體的路徑,所以某種意義上,Physics of AI 是實現(xiàn)結構主義的一條路徑。


圖注:劉子鳴在2025年12月25日寫的博客《Achieving AGI Intelligently – Structure, Not Scale》中,提出“結構主義人工智能是不可避免的超越擴展路徑——不是因為擴展錯了,而是因為它最終會撞上能量/數(shù)據(jù)的瓶頸”。

當然,Physics of AI 的價值不止于實現(xiàn)結構主義。比如,就算最后不追求結構主義,只要能系統(tǒng)地理解連接主義系統(tǒng),進而優(yōu)化這類系統(tǒng)的設計,這份研究就具備重要價值。Physics of AI 是底層研究,它能夠支撐結構主義 ,結構主義是綱領,Physics of AI 則是具體、可操作、可執(zhí)行的,像是工作手冊一樣的東西。

至于怎么呼吁大家選擇這條路徑,就看個人的偏好和決斷了。我之前也糾結過,到底是跟著 Scaling 的大流走,還是做一些不一樣、新的東西。后來我意識到,自己還是更喜歡思考不一樣、新的東西,所以做了研究 AI 的科學這個決定。而結構主義,我覺得是在科學和規(guī)模之間權衡得比較好的一個地帶,是一條短期更慢、但長期更快的道路——如果說Scaling是無腦“煉丹”,那么AI的科學就是說我們要先找到元素周期表,再去“煉丹”就快多了。

除了結構主義,大家也會提到符號主義,但我認為符號主義太理想了。不一定所有東西都是符號,但很多東西即便沒有符號也是有結構的。這是我主張結構主義的原因。不過結構主義怎么實現(xiàn)最好,還是未知的,但Physics of AI 提供了一條可能的路徑。

Q10:決定回國加入清華人工智能學院的背后原因是什么?未來在教學和個人研究成長上有怎樣的目標?

劉子鳴選擇清華主要有兩方面原因:一是姚期智先生對年輕學者支持力度大,人工智能學院2024年8月成立,全職教師多為同齡人,早期加入能獲得更多發(fā)展機會。另外,清華當然是有全世界(不止是全國)最優(yōu)秀的學生,我喜歡和聰明、有自驅(qū)力的同學一起工作。二是不可否認,美國學術界有各種資金削減的相關因素,而且存在一定的華人發(fā)展天花板。


圖注:劉子鳴擬于今年9月加入清華大學人工智能學院,任助理教授

教學目標的話,我希望能開設一門Physics Of AI的課程,吸引志同道合的本科生、研究生一起來探索這個嶄新的領域。我特別喜歡楊振寧先生的教育理念,一是“年輕人要到有發(fā)展的領域去”,二是心態(tài)上有野心做大事、但行動上又能腳踏實地(“要知道大問題是什么,但是只盯著大問題做是會得精神病的”)。

至于研究目標,短期的話,三年以內(nèi),我核心就是推進 Physics of AI 這條研究線,觀察更多相關現(xiàn)象,也會把這些研究分享給社區(qū),非常歡迎社區(qū)的人一起來加入我們的這項研究工作。更長期的目標,就是去打造 AGI。當然,怎么打造 AGI 是最好的,我其實也不確定,因為這個世界變化得太快了。但我個人覺得,需要一兩年的研究時間,先嘗試把 AI 當成一門科學去研究,之后我們再去決定,該用什么樣的方式更好地打造 AGI。短期慢一點,長期反而可能更快,我們需要警惕當前Scaling范式的“欲速則不達”。

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個“硬傷”

龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個“硬傷”

她時尚丫
2026-02-17 22:41:30
越看越上頭!小七寶萌化全網(wǎng),張?zhí)m直言:這娃來的正是好時候!

越看越上頭!小七寶萌化全網(wǎng),張?zhí)m直言:這娃來的正是好時候!

樂悠悠娛樂
2026-02-28 15:12:32
上海電影院捉奸后續(xù),女子帶情夫公然出軌,視頻流出高清照片曝光

上海電影院捉奸后續(xù),女子帶情夫公然出軌,視頻流出高清照片曝光

壹月情感
2026-03-02 21:09:52
總的來說,DeepSeek的歷史使命已然落幕!

總的來說,DeepSeek的歷史使命已然落幕!

達文西看世界
2026-02-14 19:31:04
廣州人注意:明天請?zhí)嵩缫粋€小時出門!

廣州人注意:明天請?zhí)嵩缫粋€小時出門!

羊城攻略
2026-03-02 23:44:28
美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

悅心知足
2026-02-21 23:03:46
這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

蜉蝣說
2026-01-29 14:46:50
伊朗猛轟迪拜報復美以!海灣國家被迫站隊,美軍事基地壓力驟增!

伊朗猛轟迪拜報復美以!海灣國家被迫站隊,美軍事基地壓力驟增!

深析古今
2026-03-03 03:09:36
2026,買了老小區(qū)的業(yè)主要發(fā)財了,房齡滿28年以上的老房子有新規(guī)

2026,買了老小區(qū)的業(yè)主要發(fā)財了,房齡滿28年以上的老房子有新規(guī)

室內(nèi)設計師有料兒
2026-03-02 16:35:55
伊朗強援已到!以色列集結10萬大軍,關鍵時刻,普京對中國做承諾

伊朗強援已到!以色列集結10萬大軍,關鍵時刻,普京對中國做承諾

咣當?shù)厍?/span>
2026-03-02 17:00:31
西媒曝曼聯(lián)將簽卡塞米羅接班人,預算2億歐,托納利標價1.5億英鎊

西媒曝曼聯(lián)將簽卡塞米羅接班人,預算2億歐,托納利標價1.5億英鎊

夏侯看英超
2026-03-03 02:18:14
外媒:一艘懸掛美國國旗油輪遭兩枚炮彈擊中

外媒:一艘懸掛美國國旗油輪遭兩枚炮彈擊中

參考消息
2026-03-02 20:53:04
6分鐘19個導彈連全軍覆沒,82架戰(zhàn)機被擊落,此戰(zhàn)給我們敲響警鐘

6分鐘19個導彈連全軍覆沒,82架戰(zhàn)機被擊落,此戰(zhàn)給我們敲響警鐘

混沌錄
2026-02-04 22:25:03
為拿美國綠卡,在聯(lián)合國大樓舉牌抹黑中國的張曉寧,如今“圓夢”

為拿美國綠卡,在聯(lián)合國大樓舉牌抹黑中國的張曉寧,如今“圓夢”

嫹筆牂牂
2026-03-02 17:03:39
女足亞洲杯太瘋狂:韓國3-0制造首個慘案!中國隊衛(wèi)冕首秀5-0起步

女足亞洲杯太瘋狂:韓國3-0制造首個慘案!中國隊衛(wèi)冕首秀5-0起步

侃球熊弟
2026-03-02 19:10:46
朝鮮人對中國人是怎樣的態(tài)度?讓我告訴你真相

朝鮮人對中國人是怎樣的態(tài)度?讓我告訴你真相

世界圈
2026-02-24 19:20:21
中美就兩國元首互動保持著溝通

中美就兩國元首互動保持著溝通

北青網(wǎng)-北京青年報
2026-03-02 15:53:19
美國打仗最怕什么?張召忠:一旦發(fā)生這2種情況,美軍必然戰(zhàn)敗

美國打仗最怕什么?張召忠:一旦發(fā)生這2種情況,美軍必然戰(zhàn)敗

聞識
2026-03-02 07:35:39
來搞笑的?超級杯花名冊漏洞百出:照片古早且粗糙,譯名疊詞

來搞笑的?超級杯花名冊漏洞百出:照片古早且粗糙,譯名疊詞

懂球帝
2026-03-02 22:29:12
少婦當眾脫褲猥褻男子:高顏值照流出,臟臟細節(jié)披露,警方已介入

少婦當眾脫褲猥褻男子:高顏值照流出,臟臟細節(jié)披露,警方已介入

博士觀察
2026-03-01 14:24:34
2026-03-03 03:55:00
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4555文章數(shù) 37413關注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

頭條要聞

特朗普:對伊朗打擊或持續(xù)4至5周 已擊沉其10艘艦艇

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

藝術
旅游
房產(chǎn)
本地
公開課

藝術要聞

這四位老人的花鳥畫,竟讓人欲罷不能!

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

房產(chǎn)要聞

方案突然曝光!海口北師大附校,又有書包大盤殺出!

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版