国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

再談注意力:阿里、Kimi 都在用的 DeltaNet 和線性注意力新改進(jìn)

0
分享至



不僅是提升效率,線性注意力在數(shù)據(jù)受限情況下也可能提升效果。

訪談丨程曼祺

整理丨姚一楠

注意力機(jī)制(Attention)是 Transformer 架構(gòu)大型語言模型(LLM)的核心機(jī)制,它決定了模型如何處理、理解海量的文本信息。然而,傳統(tǒng)全注意力機(jī)制的計(jì)算開銷會(huì)隨文本長度呈平方級(jí)暴增,這正是限制模型處理長文檔、長上下文的關(guān)鍵瓶頸。

今年初,《晚點(diǎn)聊》的 103 期和 104 期節(jié)目分別討論了注意力機(jī)制改進(jìn)的兩個(gè)主要方向:“稀疏注意力” 和 “線性注意力”。(文字版見《大模型 “注意力簡史”:與兩位 AI 研究者從 DeepSeek、Kimi 最新改進(jìn)聊起》和《3700 次預(yù)訓(xùn)練尋找 “線性注意力” 非共識(shí),MiniMax-01 開發(fā)者講述 4 年探索》)

這期節(jié)目,我們繼續(xù)關(guān)注線性注意力的新進(jìn)展。在 9 月和 10 月底,阿里巴巴和月之暗面先后開源 Qwen3-Next 和 Kimi Linear 模型,其中的注意力機(jī)制都使用了線性注意力 DeltaNet 和 full attention(傳統(tǒng)的全注意力)混合的方式。

此后在社交媒體上,兩家公司的研究人員也透露,他們很可能在下一代旗艦?zāi)P椭?,使用新進(jìn)釋放的這些線性注意力改進(jìn)成果。

本期《晚點(diǎn)聊》,我們就邀請(qǐng)到了 DeltaNet 核心貢獻(xiàn)者之一楊松琳來聊聊 DeltaNet 和線性注意力的發(fā)展脈絡(luò)。她也是線性注意力開源小組 FLA 的發(fā)起者,正在 MIT CSAIL 讀博士三年級(jí)。

DeltaNet 的發(fā)展是多位研究者長期累積的結(jié)果。在 2021 年,Imanol Schlag、Kazuki Irie 和 Jürgen Schmidhuber 在線性注意力中引入類 Delta Rule 的可糾錯(cuò)更新規(guī)則;2023 年,Kazuki Irie 等從理論與形式語言視角刻畫線性 Transformer 及其擴(kuò)展的計(jì)算能力邊界;2024 年,楊松琳等提出沿序列長度并行的 DeltaNet 訓(xùn)練算法以適配現(xiàn)代硬件;2025 年,楊松琳等進(jìn)一步引入門控形式提出 Gated DeltaNet,強(qiáng)化記憶控制與檢索表現(xiàn)。

楊松琳介紹了線性注意力和 DeltaNet 的發(fā)展脈絡(luò),為何 21 年剛被提出時(shí)沒引起太多注意,后來怎么進(jìn)化的。我們也討論了重新去做 full attetnion 的 MiniMax(MiniMax 在今年初發(fā)布的 M1 中使用了線性注意力,在今年 10 月發(fā)布的 M2 中,轉(zhuǎn)向全部使用 full attention),和未來要在旗艦?zāi)P蜕嫌镁€性注意力的 Kimi 與阿里的不同選擇;線性注意力的優(yōu)劣勢(shì),以及一些腦洞——如果算力無限,還需要線性注意力?楊松琳也分享了,作為 AI 研究員,怎么獲得交叉技能,怎么開始發(fā)起 FLA 小組等成長經(jīng)歷。

DeltaNet 在 2021 年就被提出,但并行

晚點(diǎn):注意力機(jī)制在大語言模型里有什么用,為什么重要?

楊松琳:語言模型預(yù)測(cè)下一個(gè)詞時(shí),若要用到前面的信息,就必須在句子層面做運(yùn)算,把不同位置的信息混合。注意力機(jī)制通過建模兩點(diǎn)之間成對(duì)的關(guān)系來整合前后文信息,最直接、最常用的是 Softmax Attention,平方復(fù)雜度的機(jī)制(如下圖)?,F(xiàn)在注意力也可以泛指在序列維度上做信息聚合的算子,比如線性注意力。



來源:Attention in transformers,3Blue1Brown

晚點(diǎn):注意力機(jī)制最近好幾個(gè)新動(dòng)向都和你研究的 DeltaNet 有關(guān),可以簡單解釋下 DeltaNet 是什么?

楊松琳:線性注意力的核心思想,最初是將自注意力(Self-Attention)中的 Softmax 函數(shù)移除。經(jīng)過數(shù)學(xué)上的等價(jià)變換,它就可以被重寫成 循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 的遞推形式,從而將復(fù)雜度從平方級(jí)降至線性。2020 年的論文 Transformers are RNNs(《Transformer 是循環(huán)神經(jīng)網(wǎng)絡(luò)》)最早確立了這個(gè)研究方向。

隨后的改進(jìn)主要集中在兩個(gè)方面:加門控(Gate)機(jī)制 或引入 Delta Rule(Delta 規(guī)則)。

其中,Delta Rule 是基于 2021 年 LSTM 作者 Jürgen Schmidhuber(于爾根·施密德胡伯) 團(tuán)隊(duì)的論文 Linear Transformers Are Secretly Fast Weight Programmers(《線性 Transformer 本質(zhì)上是快速權(quán)重編程器》)。該研究以快速權(quán)重編程的視角重新解釋了線性注意力,并指出:

- 線性注意力默認(rèn)使用的權(quán)重更新方式是赫布學(xué)習(xí)(Hebbian Learning)。

- 為了實(shí)現(xiàn)更高效的上下文檢索(Retrieval)能力——即 “前面寫入一組 Key-Value,后面用 Key 就能取回對(duì)應(yīng)的 Value”——可以將更新規(guī)則替換為更強(qiáng)大的 Delta Rule。

DeltaNet 正是在這一思路下誕生的,它利用 Delta Rule 來更快地寫入和更新權(quán)重(即記憶狀態(tài))。



DeltaNet 起初不火,一是缺少關(guān)鍵架構(gòu)改進(jìn),二是實(shí)現(xiàn)不夠好。我去年在 NeurIPS 發(fā)的 Parallelizing Linear Transformers with the Delta Rule over Sequence Length(《利用 Delta 規(guī)則在序列長度上并行化線性 Transformer》)就是專門討論如何并行化這個(gè)遞歸更新。

晚點(diǎn):那從 2021 年 DeltaNet 被提出,到你們做的這個(gè)并行化的優(yōu)化之間,還有哪些有關(guān) DeltaNet 或者說線性注意力的改進(jìn)思路?

楊松琳:近幾年網(wǎng)絡(luò)模塊發(fā)展很快,如 TransNormerLLM 架構(gòu) 引入了新的歸一化方案,微軟亞研院 RetNet 用了輸出門模塊;后面 Mamba 把短卷積帶火。短卷積、輸出歸一化、門控成了標(biāo)配。

但這些大多是在架構(gòu)層面改進(jìn),而非更新規(guī)則,包括線性注意力和許多 RNN 變體的更新規(guī)則基本仍在最初框架里,只是加了一點(diǎn)簡單的衰減。

晚點(diǎn):更新規(guī)則改進(jìn)和模型架構(gòu)改進(jìn)的區(qū)別是什么?

楊松琳:架構(gòu)改進(jìn)動(dòng)的是外層結(jié)構(gòu),算子沒變,比如在輸出端加門控。線性注意力很早就在輸出上加門控,Qwen 的 Gated Attention 本質(zhì)也是輸出門控;底層算子還是 GQA,用 FlashAttention 訓(xùn)練。

更新規(guī)則的改進(jìn)則是直接改算子本身,外層架構(gòu)仍照著近年驗(yàn)證有效的方案來用就行。比如線性注意力一般能寫成一階線性遞歸:輸入通常是外積,轉(zhuǎn)移矩陣默認(rèn)是單位矩陣,改更新規(guī)則就是改這個(gè)轉(zhuǎn)移矩陣。GLA、Mamba 把單位矩陣換成對(duì)角矩陣;DeltaNet 把它變成低秩單位矩陣;Kimi 把單位矩陣放寬為可學(xué)習(xí)的對(duì)角矩陣;RWKV-7 則用對(duì)角低秩矩陣作為轉(zhuǎn)移矩陣。

晚點(diǎn):DeltaNet,包括你后面又做的 Gated DeltaNet 具體是怎么改進(jìn)更新規(guī)則的?

楊松琳:我們沒發(fā)明全新東西,更多是用新算法把老技術(shù)重新做到了可用。就是前面提到的,我去年在 NeurIPS 的那篇工作,就是把它并行化,讓它真正能大規(guī)模訓(xùn)練。

隨后我在英偉達(dá)實(shí)習(xí)做了 Gated DeltaNet,它在 DeltaNet 上加了一個(gè)衰減??梢园阉闯?DeltaNet 與 Mamba 2 的結(jié)合:保留 RetNet、線性注意力等當(dāng)代架構(gòu)思路,同時(shí)繼承更強(qiáng)的 Delta Rule 更新,再加上衰減。衰減本質(zhì)類似遺忘門,對(duì) RNN 很重要,因?yàn)樗碾[藏狀態(tài)有限,必須忘掉一些,否則狀態(tài)會(huì)被撐爆。

晚點(diǎn):之前一些做算法的研究員告訴我,他們不擅長改算子。我理解你也是算法出身的,但會(huì)自己來改算子,是因?yàn)槟阕詫W(xué)了 Infra?

楊松琳:可以這么說。我碩士時(shí),做過 “上下文無關(guān)文法”,需要把大量 python 運(yùn)算并行到 GPU 上,就寫 CUDA 加速。后來做模型架構(gòu),寫算子更順手,于是做軟硬件結(jié)合的算法設(shè)計(jì),讓模型在 GPU 上跑更快。

我對(duì)并行加速還挺有興趣的。剛讀博士時(shí),斯坦福有個(gè)研究組叫 Hazy Research,F(xiàn)lashAttention、Mamba 都出自那兒,他們倡導(dǎo)硬件友好型算法。我有學(xué)習(xí)他們的風(fēng)格,既寫算子也做算法。

Qwen 和 Kimi 下一代旗艦?zāi)P涂赡苻D(zhuǎn)向線性注意力,Minimax M2 則用回全注意力

晚點(diǎn):回到最近的一些進(jìn)展,阿里的 Qwen3-Next 以及 Kimi 的 Kimi Linear 和 DeltaNet 的具體關(guān)系是?

楊松琳:Gated DeltaNet 今年被 Qwen 團(tuán)隊(duì)系統(tǒng)地測(cè)了一輪。他們對(duì)全局注意力、混合滑窗注意力、Mamba 2 和 Gated DeltaNet 做了真正的 apple-to-apple 的對(duì)比,結(jié)果 Gated DeltaNet 最好,于是用進(jìn)了 Qwen3-Next。

Kimi Linear 用的 KDA 基本是 Gated DeltaNet 的細(xì)粒度版:DeltaNet 部分不變,但把衰減從粗到細(xì)。原先 high-dim(高維,指模型的特征表示向量) 128 個(gè) channel 共用一個(gè)遺忘率,現(xiàn)在每個(gè) channel 各有一個(gè),有的忘得快,有忘得的慢,用來存不同時(shí)間尺度的信息。細(xì)粒度衰減的思路本來也常見,比如我在 ICML 2024 的 Gated 線性注意力(Gated Linear Attention Transformers with Hardware-Efficient Training)就用了這種精細(xì)衰減。

因此 KDA 可以看成 Gated 線性注意力 + DeltaNet,而 Gated DeltaNet 是 DeltaNet + Mamba 2;在衰減粒度上,它們關(guān)系就像 GLA 和 Mamba 2 的差別。

晚點(diǎn):為什么 Qwen3-Next 和 Kimi Linear 現(xiàn)在都要把線性注意力和完全注意力(full Attention)混用,不能全用線性的?

楊松琳:線性注意力給速度,完全注意力給容量。線性注意力的容量太小,短文本還可以應(yīng)付,到長文本就會(huì)表現(xiàn)很爛。線性注意力機(jī)制每層有大小固定的 RNN 隱藏狀態(tài),層數(shù)和維度一旦確定,整套模型的可存信息量也就固定了。

傳統(tǒng) Softmax Attention 的 KV Cache 可以看成隱藏狀態(tài),會(huì)隨著 token 線性增加,長文本不會(huì)被容量卡??;但推理時(shí)要從全局讀取信息,KV Cache 過大時(shí)會(huì)非常慢。(注:KV Cache :在推理時(shí)緩存已生成 token 的 Key 和 Value,用來避免重復(fù)計(jì)算注意力,從而加速生成。)

晚點(diǎn):現(xiàn)在用 DeltaNet 的模型都不大,Qwen3-Next 是 80B ,Kimi Linear 是 48B 。把線性注意力用到參數(shù)更大的模型上,有什么瓶頸嗎?

楊松琳:工業(yè)界的常見做法,就是先用小模型驗(yàn)證架構(gòu)、降風(fēng)險(xiǎn),再訓(xùn)大模型;直接在超大規(guī)模上試,兩次失敗公司就破產(chǎn)了。

千問和 Kimi 其實(shí)都在往大模型走。最近在 Reddit 上 ,Kimi 團(tuán)隊(duì)透露他們的下一代旗艦?zāi)P?,就?K3 大概率繼續(xù)沿混合 KDA 方向;Qwen3-Next 的最終版本 Qwen 3.5 應(yīng)該也會(huì)走混合架構(gòu)。

晚點(diǎn):MiniMax 很早就把線性注意力用到了超大模型上,他們?cè)诮衲瓿醢l(fā)布的 4560 億參數(shù)的 MoE M1 上,就用了混合線性注意力與全注意力的 Lightning Attention,但 10 月底發(fā)布 MiniMax M2 又回到了完全注意力。從業(yè)者是怎么討論這個(gè)轉(zhuǎn)變的?

楊松琳:大家都覺得這個(gè)現(xiàn)象挺好玩。這有點(diǎn)像,線性注意力是一個(gè) “坑”,MiniMax 趕著跳出去,Qwen 和 Kimi 又急著往里跳;不過 Minimax 也沒完全失去信心,還在驗(yàn)證混合架構(gòu)。

Minimax 可能之前受 Lightning Attention 的傷太大了,一朝被蛇咬十年怕井繩。Lightning Attention 很弱,只是在最原始線性注意力上疊了粗粒度、輸入無關(guān)的衰減。他們當(dāng)時(shí)直接 Scale Up 到幾百 B ,可能是 Eval(驗(yàn)證)沒搭好。

結(jié)果 MiniMax 發(fā)現(xiàn) Lightning Attention 在 MMLU(注:測(cè)試大模型在 57 個(gè)學(xué)科上綜合知識(shí)與理解能力的標(biāo)準(zhǔn)考試題測(cè)評(píng)) 等短程任務(wù)上跟完全注意力差不多,用個(gè)比較短的滑窗就夠了。但在多跳推理(注:Multi-hop Reasoning,需要模型跨越多個(gè)信息點(diǎn)、分步驟串聯(lián)線索才能得出答案的推理方式,典型例題如 “愛因斯坦出生時(shí)德國的國家元首是誰?”)上,完全注意力能直接建模點(diǎn)對(duì)點(diǎn)關(guān)系,疊幾層就能自然形成多跳推理;線性注意力或混合結(jié)構(gòu)會(huì)把信息壓得很模糊,準(zhǔn)確率掉得很厲害。

現(xiàn)在 Agent 做任務(wù)都會(huì)想很多,多跳推理在 Agentic AI 里非常重要。MiniMax 覺得混合架構(gòu)暫時(shí)解決不了想主攻的 Agentic AI,退回完全注意力挺自然的。

他們的反思里也有不少值得學(xué)的點(diǎn),比如基準(zhǔn)選擇:一些多跳推理 benchmark,如 BBH 其實(shí)很容易,可以找方法讓架構(gòu)表現(xiàn)很好,但不代表模型在真實(shí)場景里就真的會(huì)推理。

晚點(diǎn):據(jù)你所知,DeepSeek 有來研究線性注意力機(jī)制改進(jìn)嗎?

楊松琳:他們應(yīng)該更相信稀疏注意力,年初發(fā)的 MLA 和最近 DeepSeek V3.2 的 DeepSeek-Sparse-Attention 都是稀疏注意力的改進(jìn)。

晚點(diǎn):對(duì)比稀疏注意力和線性注意力,未來的潛力有什么區(qū)別?

楊松琳:單層潛力肯定是稀疏注意力更強(qiáng),實(shí)際應(yīng)用中不好說。

稀疏注意力通過減少激活的 KV Cache 讀取來加速,依然需要存全部 KV Cache,每次運(yùn)算時(shí)選一些出來。大家就會(huì)有滿滿的安全感,因?yàn)?token 不容易掉。理論上 KV Cache 夠大,效果就能逼近 Softmax Attention;Softmax Attention 的 Attention Map 相當(dāng)稀疏,所以稀疏注意力的效率會(huì)更高。但當(dāng)規(guī)模很大、序列很長、KV Cache 的大小本身成為瓶頸時(shí),稀疏注意力就愛莫能助了。

線性注意力有理論缺陷,因?yàn)闋顟B(tài)空間固定,但這也能是加速推理的動(dòng)力?;旌暇€性注意力一般 75% 的層都被換成了 RNN,RNN 的 Cache Size 在長文本推理時(shí)可以忽略,KV Cache 大小就減了 3/4,可以支持更大的批量推理。批量越大,做推理效率越高,同時(shí)服務(wù)很多用戶。

不僅是提效,在數(shù)據(jù)受限的后訓(xùn)練和強(qiáng)化學(xué)習(xí)中,線性注意力可能有性能優(yōu)勢(shì)

晚點(diǎn):如果有無限算力,大家還有動(dòng)力做完全注意力外的方法改進(jìn)嗎?

楊松琳:給我無限數(shù)據(jù)和算力,我當(dāng)然直接用完全注意力。但 bound 住(約束)我們的不僅是算力,還有數(shù)據(jù)。

我們必須用有限數(shù)據(jù)下更高效的架構(gòu);這時(shí)候完全注意力反而是個(gè)劣勢(shì),因?yàn)樗瑯訑?shù)據(jù)下學(xué)的比較慢,沒有引入歸納偏見。歸納偏見就是人的先驗(yàn)。

線性注意力更關(guān)注鄰近 token,在數(shù)據(jù)受限時(shí)可能表現(xiàn)更好;后訓(xùn)練、強(qiáng)化學(xué)習(xí)的數(shù)據(jù)更少,混合架構(gòu)的優(yōu)勢(shì)可能會(huì)慢慢顯現(xiàn)。

晚點(diǎn):所以線性注意力除了省推理算力,在數(shù)據(jù)更少的后訓(xùn)練、強(qiáng)化學(xué)習(xí)里也可能更好?

楊松琳:從電路復(fù)雜度看,完全注意力屬于 TC?,表達(dá)能力不夠,所以 Transformer 要解決復(fù)雜問題只能靠很長的思維鏈。

這是 DeltaNet 另一個(gè)被忽視的優(yōu)勢(shì),它從計(jì)算理論上是 NC1-complete 架構(gòu),能超越 TC?,更擅長狀態(tài)追蹤,這對(duì) Agentic AI 至關(guān)重要。比如你寫代碼時(shí)變量名不斷變,模型得在內(nèi)部維護(hù)變量狀態(tài);再比如網(wǎng)頁操作,Agent 得知道你按什么順序做了什么、到了什么狀態(tài),才能決策。

前段時(shí)間有篇很有意思的論文 Recurrence-Complete Frame-based Action Models,專門講為什么 Agentic AI 更該關(guān)注狀態(tài)追蹤和循環(huán)機(jī)制。

(注:TC? 和 NC1 是不同的復(fù)雜性類,復(fù)雜性類是將有相似計(jì)算難度的一群問題歸納在一起的集合。簡單來說,NC1 的電路允許 “對(duì)數(shù)深度”,而 TC? 的電路只有 “常數(shù)深度”,但 TC? 允許使用閾值門,在很少的并行層數(shù)里完成相對(duì)復(fù)雜的運(yùn)算;從已知結(jié)果看,TC? 是被包含在 NC1 里的一個(gè)子類。很多看起來 “復(fù)雜” 的認(rèn)知任務(wù),難點(diǎn)往往在于需要較長的計(jì)算深度來逐步更新和傳遞信息,例如在讀代碼時(shí)持續(xù)追蹤程序狀態(tài)和變量取值,這類能力更依賴足夠多輪的迭代計(jì)算,而不僅僅是單步中的并行算力。)

晚點(diǎn):你說線性注意力帶歸納偏見可能提升效果;而之前 AI 界著名文章 “The Bitter Lesson” 它認(rèn)為加人為結(jié)構(gòu)和先驗(yàn)通常不如尋找可以用更多算力、數(shù)據(jù),做更大規(guī)模訓(xùn)練的方法。

楊松琳:100 個(gè)人有 100 種對(duì) Scaling 和 The Bitter Lesson 的解讀。大語言模型本身就是把人類先驗(yàn)注入進(jìn)去的例子。我更支持先把方法做到效果和效率上能 scalable,歸納偏見不用管,好不好驗(yàn)一下就知道了,不用多做討論。

晚點(diǎn):你這里說的 scalable 的關(guān)鍵是什么?

楊松琳:一是大規(guī)模訓(xùn)練下效率要有保證、算法要硬件友好;二是模型放大后依然有效,很多改動(dòng)在小模型好用,規(guī)模擴(kuò)大就失效。

研究發(fā)現(xiàn)是連點(diǎn)成線:本科時(shí)形成對(duì)矩陣代數(shù)的興趣,算法優(yōu)化看多了熟能生巧

晚點(diǎn):你自己開始關(guān)注到線性注意力改進(jìn)和 DeltaNet 方向的過程是怎樣的?

楊松琳:我一直喜歡做模型和算法,碩士時(shí)就喜歡看各種魔改注意力的方法,但真正開始研究是 2023 讀博之后。當(dāng)時(shí)在想怎么選方向,既感興趣又專業(yè)相關(guān)。完全注意力的長文本問題似乎一直解決不掉,還有有意思的算法可玩,我就跑來玩這個(gè)領(lǐng)域了。

晚點(diǎn):你最初有哪些一起研究的伙伴?你之前有提到過斯坦福的 Hazy Research,還有嗎?

楊松琳:他們?cè)谛录軜?gòu)上做得很多,我和他們挺熟,比如 Simran Arora、Albert Gu、Tri Dao。國內(nèi)我覺得微軟亞研董力團(tuán)隊(duì)也很強(qiáng),我跟 RetNet 一作孫宇濤討論挺多。還有之前鐘怡然(MiniMax 前算法總監(jiān),曾在上海 AI lab 擔(dān)任 PI)那邊的秦臻,從知乎私信聯(lián)系到我,聊著聊著就合作了一兩篇論文,就是比較早的線性 RNN 工作 HGRN。

晚點(diǎn):現(xiàn)在的導(dǎo)師會(huì)給你什么幫助?

楊松琳:他可以幫我搞來卡。(笑)老板在最開始會(huì)有些大方向的感覺,然后提供算力和寫論文的支持,別的方向也不一定能幫得上學(xué)生,因?yàn)榇蠹易x博的目標(biāo)就是在這個(gè)領(lǐng)域比自己老板還懂。

但我覺得老板還是很有眼光的。他建議我關(guān)注軟硬件結(jié)合的算法設(shè)計(jì),以及數(shù)值代數(shù)的一些思路。比如 DeltaNet 用到數(shù)值代數(shù)里經(jīng)典的 Householder 矩陣做累乘,這和線性注意力的 Chunkwise 算法能很好結(jié)合,最后就成了 Parallelizing Linear Transformers with the Delta Rule over Sequence Length 的核心想法。

晚點(diǎn):你做算法又寫 CUDA kenel,這些跨領(lǐng)域能力怎么積累的?

楊松琳:還是興趣驅(qū)動(dòng),我喜歡矩陣運(yùn)算和 kernel 優(yōu)化。數(shù)值計(jì)算偏應(yīng)用數(shù)學(xué),里面有很多矩陣加速算法,深度學(xué)習(xí)也離不開矩陣。我對(duì)這些本身就感興趣,看得比較多,熟能生巧吧。

晚點(diǎn):你本科是在南方科技大學(xué),這本身是一所挺新的研究性大學(xué),當(dāng)時(shí)的學(xué)習(xí)經(jīng)歷對(duì)積累交叉知識(shí)和視野有什么幫助?

楊松琳:這還真有一些關(guān)系。我本科最喜歡的課就是線性代數(shù),用的是吉爾伯特·斯特朗(Gilbert Strang)的經(jīng)典教材。他從空間角度講,特別直觀,讓我對(duì)線性代數(shù)興趣很強(qiáng)。如果是國內(nèi)常見那種上來先講行列式、公式推導(dǎo),我可能就沒什么興趣了。

晚點(diǎn):你改進(jìn) DeltaNet 讓它能并行的過程中,具體是怎么突破,獲得思路的?

楊松琳:并行線性遞歸要先展開,會(huì)出現(xiàn)轉(zhuǎn)移矩陣,繼續(xù)展開就會(huì)出現(xiàn)一個(gè)累乘,難點(diǎn)就是高效算這個(gè)累乘。DeltaNet 的轉(zhuǎn)移矩陣像 Householder,我一開始不知道怎么算,后來發(fā)現(xiàn)可以用 WY 算法把累乘變成累加,形式和線性注意力很像,我就意識(shí)到它可能能和 Chunkwise 算法兼容。之后推了一陣,推通了還挺開心,又找到一個(gè)好玩的算法,也能把這個(gè)方向繼續(xù) scale 上去。

晚點(diǎn):怎么想到 Householder 矩陣,怎么意識(shí)到這個(gè)關(guān)聯(lián)的?

楊松琳:就是一直想吧,我從 2023 年 9 月開始想怎么并行 DeltaNet,到 2024 年 3 月才想出算法;然后碩士我在上科大上過一門 “矩陣方法”,講 Householder 和 QR 分解;QR 是很經(jīng)典的算法,Householder 累乘最早就是用來做 QR 的,最近我發(fā)現(xiàn)它還能加速 DeltaNet。在英偉達(dá)做 Gated 線性注意力那個(gè)項(xiàng)目時(shí),我對(duì)線性注意力的分塊算法理解更深,這些積累后來都啟發(fā)了新想法,整體還是循序漸進(jìn)。

晚點(diǎn):基礎(chǔ)科學(xué)里,常發(fā)生把很多看似無關(guān)的東西放在一起產(chǎn)生新成果,比如物理學(xué)有時(shí)會(huì)從幾百年前的數(shù)學(xué)里獲得啟發(fā)。你覺得 AI 能什么時(shí)候能獨(dú)立產(chǎn)生這種聯(lián)想?

楊松琳:我覺得大模型應(yīng)該能獨(dú)立發(fā)明這個(gè)(讓 DeltaNet 并行化的)算法,只要提示詞合適,它可能就能把后面所有推導(dǎo)都做出來。檢驗(yàn)推導(dǎo)正確性可以用 RL 做,只要 reward 能驗(yàn)證,RL 就能解決,用在科學(xué)發(fā)現(xiàn)上也挺有用的。

FLA 小組:像運(yùn)營產(chǎn)品一樣 “運(yùn)營” 技術(shù);Kimi 從 FLA 找到線性注意力研究員

晚點(diǎn):你去年 1 月開始維護(hù) FLA 這個(gè)線性注意力的開源社區(qū),契機(jī)是什么?做開源的過程中有什么故事或收獲?我看到貢獻(xiàn)者里有 Kimi 的研究員,也有歐洲做 AI for science 的開發(fā)者。

楊松琳:當(dāng)時(shí)在知乎看到一篇文章,說 Flash Attention 的成功本質(zhì)是產(chǎn)品成功。Tiling、online softmax 早就有了,xFormers 里也有初版思路,但 Tri Dao( FlashAttention 的作者)把它當(dāng)產(chǎn)品做,重視接口、重視運(yùn)營、積極和社區(qū)互動(dòng)、按用戶需求迭代,關(guān)鍵是好用,即插即用、裝個(gè)包就能跑。

我被這套產(chǎn)品思路打動(dòng)了,就想,線性注意力為什么不做一個(gè)?線性注意力有不少算法成果,但缺好實(shí)現(xiàn),那我就做個(gè)開源庫,把 Triton 算子和各種 layer 寫好,讓用戶一個(gè)庫就能跑各種帶 kernel 的模型,大家覺得好用就會(huì)留下來,還會(huì)給反饋幫我們迭代。比如后來很多人要變長訓(xùn)練模塊,我們發(fā)現(xiàn)需求巨大,我就和張宇商量,直接把可變長度功能全部寫進(jìn) FLA。

晚點(diǎn):張宇是你做了 FLA 之后,他關(guān)注到這塊,加進(jìn)來成為核心貢獻(xiàn)者的嗎?

楊松琳:張宇是 FLA 的核心貢獻(xiàn)者,也是 Gated 線性注意力的作者。我和他 2020 年就認(rèn)識(shí)了,那時(shí)我們都在做 parsing,要寫很多并行算法。他當(dāng)時(shí)維護(hù)一個(gè)叫 supar 的庫(su 是蘇州大學(xué),par 是 parsing),實(shí)現(xiàn)非常 clean、并行效率很好,基本所有做 parsing 的人都會(huì)用,特別酷,所以做 FLA 時(shí)我第一時(shí)間就想把他拉進(jìn)來。

他做庫水平很高,也很適合寫并行算法和 kernel。你翻 FLA 的 GitHub,貢獻(xiàn)行數(shù)和總貢獻(xiàn)數(shù)他都是最多的,代碼特別強(qiáng)。后來 Kimi 想做混合線性注意力,就想找 FLA 的作者;我人在美國,他們不可能把我弄過去,就把張宇弄去 Kimi 做研究。(注:parsing:編譯,自然語言處理中的一個(gè)模塊,用來分析句子的結(jié)構(gòu),例如解析句子 “I love you” 時(shí),parsing 會(huì)把它拆成主語、動(dòng)詞和賓語。)

晚點(diǎn):所以是 Kimi 想做線性注意力,從 FLA 社區(qū)里注意到了張宇,然后再邀請(qǐng)他加入的?

楊松琳:對(duì)。

晚點(diǎn):Kimi 關(guān)注到這個(gè)方向,這是誰的判斷了?

楊松琳:應(yīng)該是 Tim 吧,周昕宇(Kimi 的聯(lián)創(chuàng))。

晚點(diǎn):我看張宇的頭像是個(gè)二次元少女拿著實(shí)驗(yàn)筆記本。

楊松琳:(笑)經(jīng)典 stereotype(刻板印象),二次元頭像的人 coding 強(qiáng)。

希望下一步把稀疏注意力和線性注意力真正做通,徹底解決長文本問題

晚點(diǎn):我們可以分別講講,注意力機(jī)制接下來的演進(jìn),首先是稀疏注意力,你看到的趨勢(shì)是什么?

楊松琳:核心是動(dòng)態(tài)稀疏,靜態(tài)稀疏之前被證明效果不太好,難點(diǎn)卡在如何在硬件上高效實(shí)現(xiàn)。動(dòng)態(tài)稀疏現(xiàn)在有兩條路:block 級(jí)和 token 級(jí)。block 級(jí)快但漏信息風(fēng)險(xiǎn)大,所以怎么選準(zhǔn) block 很關(guān)鍵;token 級(jí)更靈活但實(shí)現(xiàn)更難。

比如 NSA 是 block 級(jí),每次只選一個(gè) block,方便連續(xù)讀入、順序計(jì)算。DSA(DeepSeek Sparse Attention)把 block 的結(jié)構(gòu)化約束扔掉,回到不結(jié)構(gòu)化的 token 級(jí)動(dòng)態(tài)稀疏。比如要選 512 個(gè) token 刻畫一個(gè) token,選 512 個(gè)最相關(guān)的 token,而不是選 512/32 個(gè) block,顆粒度更細(xì)也更準(zhǔn),但實(shí)現(xiàn)難度大的多。

Deepseek 訓(xùn)練不是從預(yù)訓(xùn)練開始稀疏化,而是訓(xùn)練到中途才用:先蒸餾,把 DeepSeek 3.1 轉(zhuǎn)成 MQA,再把注意力分布蒸餾到 indexer,作為初始化。

DSA 的 trick 在于,用一個(gè)非常輕量的平方復(fù)雜度 Attention 做 “indexer” 來生成全局注意力矩陣,因?yàn)檫@個(gè)算子能在 FP8 下跑、不需要 online softmax,只是矩陣乘法,所以算得很快。indexer 得到 L×L 的注意力矩陣后,直接做 Top-K,每個(gè) token 找出最相關(guān)的前 K 個(gè) token。

稀疏還有梯度傳遞的問題,block 選不準(zhǔn)可能也是梯度質(zhì)量差導(dǎo)致。

最后,稀疏注意力也可以考慮減少 KV cache?,F(xiàn)在大多數(shù)稀疏注意力保留全部 KV cache ,幾乎和完全注意力一樣,還是會(huì)卡在 KV cache 的規(guī)模瓶頸。

晚點(diǎn):線性注意力呢?

楊松琳:線性注意力的架構(gòu)方向驗(yàn)證得差不多了,更值得探索的是更新規(guī)則。可以想想 DeltaNet 外還有哪些更新方式既能更好地并行實(shí)現(xiàn),又更具表達(dá)力。

另外,沿著 DeltaNet 還能繼續(xù)做很多,比如加衰減、norm 衰減;DeltaNet 在 test-time training 視角就是近似梯度下降,有些工作像 DeltaProduct 每步會(huì)做多次梯度下降,而不是一次;還有動(dòng)態(tài)擴(kuò)容思路,如記憶混合,把 RNN 的狀態(tài)當(dāng)成 MLP 的權(quán)重矩陣,既然可以在權(quán)重矩陣上做 MoE ,那么也能在 RNN 的記憶狀態(tài)做 MoE;最近也研究有把滑窗和線性注意力結(jié)合,鄰近 token 保留滑窗,遠(yuǎn)距離用線性注意力壓縮。

晚點(diǎn):你覺得當(dāng)前的注意力機(jī)制離理想狀態(tài)還差什么?

楊松琳:先不說理想,我更希望下一步看到有人把稀疏注意力和線性注意力真正做通?,F(xiàn)在的混合注意力依然在全局保留完全注意力層,長文本解碼時(shí)還是會(huì)被它拖慢。如果能把所有完全注意力都換成稀疏注意力,比如 DSA 混 KDA 之類的組合,至少能把長文本問題階段性解決,KV cache 規(guī)模降下來,就能做更多長文本應(yīng)用,也能做更多 agentic 任務(wù)。(01:18:43)

晚點(diǎn):現(xiàn)在大家都是混線性注意力和完全注意力的,而不是混線性注意力和稀疏注意力,原因是什么?

楊松琳:我覺得架構(gòu)研究還是要扎實(shí),一次動(dòng)一點(diǎn)、驗(yàn)證透,再動(dòng)下一步,不可能一步邁太大。先保留一些完全注意力,用來驗(yàn)線性注意力;混合架構(gòu)在旗艦?zāi)P蜕向?yàn)證穩(wěn)定后,再去驗(yàn)證稀疏注意力也不遲。(01:19:59)

晚點(diǎn):更廣泛地說,你現(xiàn)在會(huì)關(guān)注大模型在預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)之后的下一步嗎?大家在討論預(yù)訓(xùn)練 + RL 可能到了瓶頸,也許需要新范式,比如在線學(xué)習(xí)、持續(xù)學(xué)習(xí)、自主學(xué)習(xí)。

楊松琳:持續(xù)學(xué)習(xí)大家都很關(guān)心。這里有很多 open question,怎么做沒有定論,效果也不顯著,但它一定很重要。如果 AI 能持續(xù)吸收外界信息,就不需要隔段時(shí)間重訓(xùn)一次;有也有強(qiáng)的商業(yè)價(jià)值,比如做個(gè)性化,用戶持續(xù)交互,模型積累了這些記憶就能更好地把握用戶喜好。

晚點(diǎn):現(xiàn)在模型的記憶能力并不是內(nèi)化在模型里,而是靠工程或外掛方式實(shí)現(xiàn)的,是嗎?

楊松琳:對(duì)。預(yù)訓(xùn)練是把信息壓進(jìn) FFN 的權(quán)重里;另一類是上下文工程,通過注意力做上下文學(xué)習(xí)?,F(xiàn)在主要就是這兩種,再有就是一些記憶外掛。(注:FFN 是前饋神經(jīng)網(wǎng)絡(luò),Transformer 中的前饋全連接層。在注意力之后,模型會(huì)把每個(gè) token 的向量分別送入兩層 MLP 作為存儲(chǔ)的記憶,這部分就是 FFN。)

晚點(diǎn):如果模型能持續(xù)學(xué)習(xí),它會(huì)越來越懂你,那上下文工程的空間不就變小了?

楊松琳:這依然是個(gè) open question:哪些信息該存進(jìn)權(quán)重矩陣,哪些該放在上下文里,沒有定論。

其實(shí)兩者是對(duì)偶的:梯度下降可視為一種上下文學(xué)習(xí),而上下文學(xué)習(xí)也能視為梯度下降?,F(xiàn)在流行的測(cè)試時(shí)訓(xùn)練(Test-Time Training)把每個(gè) token 當(dāng)訓(xùn)練樣本,輸入后做一次梯度下降快速權(quán)重更新;在 RNN 里快速權(quán)重可以視為隱狀態(tài)。既然有這種對(duì)偶,F(xiàn)FN 如何在訓(xùn)練中牢牢記住成千上萬的 token,也能啟發(fā)長文本問題:把信息寫進(jìn)權(quán)重,再用動(dòng)態(tài)的測(cè)試時(shí)訓(xùn)練,也許能走出更好的持續(xù)學(xué)習(xí)路徑。

我對(duì)這個(gè)路徑很看好的?,F(xiàn)在的權(quán)重推理時(shí)不更新,無法吸收新信息;測(cè)試時(shí)訓(xùn)練或快速權(quán)重編程(Fast Weight Programming)允許處理新 token 后實(shí)時(shí)更新權(quán)重。如果能把這套機(jī)制打通,長文本問題能靠更緊湊的權(quán)重存更多信息,持續(xù)學(xué)習(xí)也能順帶解決。(注:測(cè)試時(shí)訓(xùn)練:在推理階段對(duì)模型參數(shù)進(jìn)行快速更新,讓模型利用當(dāng)前輸入的信息提升輸出表現(xiàn)。例如模型在處理一篇醫(yī)學(xué)文章時(shí),可以先用文章里的一小段內(nèi)容做一次快速梯度更新,讓模型立即更擅長理解該領(lǐng)域的術(shù)語,再繼續(xù)生成答案。)

題圖來源:月升王國

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
四個(gè)姓徐的巧合  三代人控制一條龍  南博國寶流失疑案誰來查?

四個(gè)姓徐的巧合 三代人控制一條龍 南博國寶流失疑案誰來查?

金牌輿情官
2025-12-23 16:04:38
何晴葬禮結(jié)束10天,閨蜜催淚發(fā)文,才知14歲許何搬離許亞軍家真相

何晴葬禮結(jié)束10天,閨蜜催淚發(fā)文,才知14歲許何搬離許亞軍家真相

阿纂看事
2025-12-25 10:30:44
130億大橋便道沒護(hù)欄!廣東一家五口墜江遇難,村民早預(yù)警會(huì)出事

130億大橋便道沒護(hù)欄!廣東一家五口墜江遇難,村民早預(yù)警會(huì)出事

冷月侃娛樂
2025-12-26 01:34:05
陪睡陪玩只是冰山一角!萬達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

陪睡陪玩只是冰山一角!萬達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

天天熱點(diǎn)見聞
2025-12-25 08:19:00
官宣!新地鐵線開通時(shí)間:周六10時(shí)15分,濟(jì)南地鐵4、8號(hào)線和6號(hào)線三線齊發(fā)!

官宣!新地鐵線開通時(shí)間:周六10時(shí)15分,濟(jì)南地鐵4、8號(hào)線和6號(hào)線三線齊發(fā)!

魯中晨報(bào)
2025-12-26 07:05:06
男演員被限制高消費(fèi),“涉案金額1118萬”登熱搜,本人發(fā)文回應(yīng)

男演員被限制高消費(fèi),“涉案金額1118萬”登熱搜,本人發(fā)文回應(yīng)

紅星新聞
2025-12-25 20:41:16
廣東臺(tái)的衰?。簭摹叭f人空巷”到“無人問津”,被誰奪走了靈魂

廣東臺(tái)的衰?。簭摹叭f人空巷”到“無人問津”,被誰奪走了靈魂

阿訊說天下
2025-12-24 17:14:51
當(dāng)段奕宏和00后演員同框,一個(gè)健壯一個(gè)油頭粉面,才懂啥叫真男人

當(dāng)段奕宏和00后演員同框,一個(gè)健壯一個(gè)油頭粉面,才懂啥叫真男人

銀河史記
2025-12-24 14:32:30
雖遠(yuǎn)必誅,永不忘記——以色列抓捕與羅恩·阿拉德有關(guān)的黎巴嫩前軍官

雖遠(yuǎn)必誅,永不忘記——以色列抓捕與羅恩·阿拉德有關(guān)的黎巴嫩前軍官

老王說正義
2025-12-25 00:07:02
“預(yù)制菜風(fēng)波”后賈國龍首發(fā)聲,稱回看當(dāng)初犯了三個(gè)錯(cuò)誤

“預(yù)制菜風(fēng)波”后賈國龍首發(fā)聲,稱回看當(dāng)初犯了三個(gè)錯(cuò)誤

揚(yáng)子晚報(bào)
2025-12-25 15:08:10
俄羅斯拒絕美烏20點(diǎn)和平計(jì)劃,澤連斯基愿“他”滅亡

俄羅斯拒絕美烏20點(diǎn)和平計(jì)劃,澤連斯基愿“他”滅亡

山河路口
2025-12-25 12:09:06
中國180萬桶原油遭殃,特朗普闖下大禍,解放軍100枚導(dǎo)彈已就位?

中國180萬桶原油遭殃,特朗普闖下大禍,解放軍100枚導(dǎo)彈已就位?

千羽解讀
2025-12-23 20:22:09
Shams:芬尼-史密斯今日迎火箭首秀,對(duì)手正是老東家湖人

Shams:芬尼-史密斯今日迎火箭首秀,對(duì)手正是老東家湖人

懂球帝
2025-12-26 06:43:18
恭喜!中國女排45歲奧運(yùn)冠軍再度高升,已官至正廳級(jí)看齊周蘇紅

恭喜!中國女排45歲奧運(yùn)冠軍再度高升,已官至正廳級(jí)看齊周蘇紅

籃球看比賽
2025-12-25 10:41:52
圣誕大戰(zhàn)場邊美女有多絕?2019年洛城德比 她讓霍華德目不轉(zhuǎn)睛

圣誕大戰(zhàn)場邊美女有多絕?2019年洛城德比 她讓霍華德目不轉(zhuǎn)睛

Emily說個(gè)球
2025-12-25 22:53:42
聶磊栽在一個(gè)女人手上,聶磊被抓,為什么大領(lǐng)導(dǎo)出面都不好使?

聶磊栽在一個(gè)女人手上,聶磊被抓,為什么大領(lǐng)導(dǎo)出面都不好使?

千年人參它會(huì)跑
2024-11-18 21:18:41
我家水費(fèi)每月四萬,關(guān)掉閘門后,物業(yè)發(fā)來消息:今天整棟樓停水

我家水費(fèi)每月四萬,關(guān)掉閘門后,物業(yè)發(fā)來消息:今天整棟樓停水

船長與船1
2025-12-20 10:39:50
誰設(shè)計(jì)了斬殺線?

誰設(shè)計(jì)了斬殺線?

新潮沉思錄
2025-12-24 21:28:17
俄羅斯和朝鮮因20億美元援俄士兵勞務(wù)款項(xiàng)正式鬧掰

俄羅斯和朝鮮因20億美元援俄士兵勞務(wù)款項(xiàng)正式鬧掰

律法刑道
2025-12-23 22:50:36
乒超總決賽今天開打!12月26日賽程公布,孫穎莎、王曼昱或登場

乒超總決賽今天開打!12月26日賽程公布,孫穎莎、王曼昱或登場

全言作品
2025-12-26 00:04:45
2025-12-26 09:35:00
晚點(diǎn)LatePost
晚點(diǎn)LatePost
晚一點(diǎn),好一點(diǎn)。商業(yè)的真相總是在晚點(diǎn)。《晚點(diǎn)LatePost》官方賬號(hào)
2995文章數(shù) 21863關(guān)注度
往期回顧 全部

科技要聞

“不再是機(jī)器人大國”,日本錯(cuò)過了什么?

頭條要聞

網(wǎng)友取300元少5元被銀行員工拿走 公開后被人上門威脅

頭條要聞

網(wǎng)友取300元少5元被銀行員工拿走 公開后被人上門威脅

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

涉案近300億元 多方圍剿金融“黑灰產(chǎn)”

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

藝術(shù)
教育
時(shí)尚
游戲
軍事航空

藝術(shù)要聞

毛主席草書作品展現(xiàn)清雅詩句,藝苑中熠熠生輝

教育要聞

二次函數(shù)面積最值問題,一個(gè)視頻學(xué)會(huì)!

冬季穿衣別顯得太臃腫!大衣收腰、搭配圍巾,有質(zhì)感又高級(jí)

《寂靜嶺f》成功原因在于女性主角塑造的恐怖感

軍事要聞

多國取消訂單 美報(bào)告:F-35"去年有一半時(shí)間無法升空"

無障礙瀏覽 進(jìn)入關(guān)懷版