国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

租了8張H100,他成功復(fù)現(xiàn)了DeepSeek的mHC,結(jié)果比官方報(bào)告更炸裂

0
分享至



機(jī)器之心編譯

元旦期間,DeepSeek 發(fā)布的 mHC 震撼了整個(gè) AI 社區(qū)。

簡(jiǎn)單來(lái)說(shuō),DeepSeek 提出的 mHC 通過(guò)將傳統(tǒng) Transformer 的單一殘差流擴(kuò)展為多流并行架構(gòu),并利用 Sinkhorn-Knopp 算法將連接矩陣約束在雙擬隨機(jī)矩陣流形上,成功解決了超連接(HC)在大規(guī)模訓(xùn)練中因破壞恒等映射屬性而導(dǎo)致的數(shù)值不穩(wěn)定和信號(hào)爆炸問(wèn)題。更多詳情請(qǐng)參閱《剛剛,梁文鋒署名,DeepSeek 元旦新論文要開(kāi)啟架構(gòu)新篇章》。

時(shí)至今日,這篇讓眾多讀者大呼看不懂的論文依然是技術(shù)社區(qū)關(guān)注的一大焦點(diǎn)。解讀分享這篇論文就好像已成為一種技術(shù)時(shí)尚。





但還有更加硬核的,近日FlowMode 工程師 Taylor Kolasinski 宣布成功復(fù)現(xiàn)了 mHC,并且在測(cè)試中還取得了比 DeepSeek 原始論文更好的成績(jī)



評(píng)論區(qū)也是直呼「不明覺(jué)厲」:



目前,Kolasinski 正通過(guò)一個(gè) mHC 復(fù)現(xiàn)系列博客介紹其復(fù)現(xiàn)成果,相關(guān)博客已經(jīng)發(fā)布了 2 篇。這里我們進(jìn)行了整理,以饗讀者。



  • 博客 1:https://taylorkolasinski.com/notes/mhc-reproduction/
  • 博客 2:https://taylorkolasinski.com/notes/mhc-reproduction-part2/

博客一:DeepSeek 的 mHC:當(dāng)殘差連接發(fā)生爆炸

你使用過(guò)的每一個(gè) Transformer 模型都采用了 2016 年以來(lái)的同一種殘差連接設(shè)計(jì)。

GPT-5、Claude、Llama、Gemini。在底層,它們做的事情都是一樣的:x + F (x)。信息流只有一條,穿過(guò)網(wǎng)絡(luò),每一層都向其中添加內(nèi)容。

DeepSeek 提出了一個(gè)問(wèn)題:如果它變得更寬會(huì)怎樣?



設(shè)置

標(biāo)準(zhǔn)殘差連接是每一個(gè)現(xiàn)代 Transformer 的脊梁。其思路很簡(jiǎn)單:



其輸入原封不動(dòng)地流過(guò),加上該層的輸出。這是一條單一的信息流。進(jìn)去是什么,出來(lái)的就是什么加上一個(gè)學(xué)習(xí)到的更新量。這就是為什么 Transformer 可以深達(dá)數(shù)百層:梯度有一條干凈的向后路徑。簡(jiǎn)單。穩(wěn)定。自 2016 年以來(lái)未曾改變。

超連接(Hyper-Connections)采取了不同的方法。它不再是單一流,而是擴(kuò)展到 n 條并行流,并帶有可學(xué)習(xí)的混合矩陣:



下圖對(duì)比了標(biāo)準(zhǔn)殘差與超連接:



三個(gè)矩陣控制著信息的流動(dòng)方式:

  • H_res:信息流在殘差路徑中如何混合(紅色的交叉部分)
  • H_pre:信息流在進(jìn)入層之前如何組合
  • H_post:層的輸出如何分配回各個(gè)流中

超連接表達(dá)能力更強(qiáng)。參數(shù)更多,但計(jì)算開(kāi)銷(xiāo)幾乎可以忽略不計(jì)。理論上性能更好。亦可參閱報(bào)道《字節(jié)豆包大模型團(tuán)隊(duì)突破殘差連接局限!預(yù)訓(xùn)練收斂最快加速 80%》。

但問(wèn)題是什么?那些混合矩陣是不受約束的。它們不僅能路由信號(hào),還能放大信號(hào)。

爆炸

在激進(jìn)的學(xué)習(xí)率下,作者的復(fù)現(xiàn)實(shí)驗(yàn)中超連接(HC)的信號(hào)放大達(dá)到了 7 倍,隨后最終崩潰。Amax(行和列絕對(duì)值的最大值)衡量了一個(gè)矩陣能將信號(hào)放大多少。



在 10M 參數(shù)的規(guī)模下,這也還行。但 DeepSeek 在 27B 參數(shù)下觀察到了這種情況:

「Amax 增益幅度產(chǎn)生了極值,峰值達(dá)到 3000」

你沒(méi)有看錯(cuò):三千倍的放大。在 27B 參數(shù)下,不受約束的 HC 不僅僅是漂移,而是爆炸了。這里的 10M 復(fù)現(xiàn)中達(dá)到的 9.2 倍正是這種指數(shù)級(jí)故障的早期預(yù)警。

也因此,不受約束的混合矩陣在規(guī);瘯r(shí)會(huì)崩潰。微小的放大呈指數(shù)級(jí)復(fù)合。



壓力測(cè)試: 在激進(jìn)的學(xué)習(xí)率下,HC 的信號(hào)放大在崩潰前達(dá)到了 7 倍。mHC 保持平穩(wěn),維持在 1.0。

修復(fù):約束流形

DeepSeek 的修復(fù)方案很干凈:將混合矩陣約束為雙重隨機(jī)(doubly stochastic)

一個(gè)雙重隨機(jī)矩陣具有以下特性:

  • 所有條目非負(fù)
  • 行之和為 1
  • 列之和為 1



這意味著混合操作只能對(duì)流進(jìn)行加權(quán)平均。它可以路由信息,混洗它,融合它。但它不能放大。

DeepSeek 是如何做到塞?使用 Sinkhorn-Knopp 算法。



該算法非常簡(jiǎn)單:

  1. 從任意矩陣(原始學(xué)習(xí)到的權(quán)重)開(kāi)始
  2. 取指數(shù)使所有條目變?yōu)檎龜?shù):P = e^H
  3. 歸一化行,使每一行之和為 1
  4. 歸一化列,使每一列之和為 1
  5. 重復(fù) 3-4 個(gè)步驟,直到收斂

就是這樣。交替進(jìn)行行和列的歸一化。二十次迭代就足夠了。

這個(gè)過(guò)程是可微分的。梯度可以回傳穿過(guò)所有二十次迭代。網(wǎng)絡(luò)學(xué)習(xí)原始權(quán)重 H,而 Sinkhorn 確保實(shí)際的混合矩陣始終是雙重隨機(jī)的。



當(dāng)作者第一次看到這個(gè)時(shí),感覺(jué)像是作弊。你不是在學(xué)習(xí)穩(wěn)定性,而是在強(qiáng)制它。但有些屬性不應(yīng)該被學(xué)習(xí);它們應(yīng)該被保證。

技術(shù)說(shuō)明:嚴(yán)格來(lái)說(shuō),只有遞歸矩陣 H_res 需要完整的 Sinkhorn 雙重隨機(jī)處理。它是層層復(fù)合誤差的那個(gè)。輸入 / 輸出混合器(H_pre,H_post)僅通過(guò) sigmoid 進(jìn)行有界處理。Sinkhorn 的計(jì)算成本只花在最重要的地方。

結(jié)果



不同種子的結(jié)果(深度 24,3 個(gè)種子)



HC 在原始性能上獲勝:驗(yàn)證損失 0.88 對(duì) 1.12。在 10M 參數(shù)下,mHC 約束就像是一種穩(wěn)定性稅;你付出的是表達(dá)能力。但在 27B 參數(shù)下,這種稅是防止你的模型爆炸成 NaN 的唯一手段。

但看看方差。HC 的損失在不同種子間的變化是 mHC 的 3 倍(±0.033 vs ±0.012)。至于 Amax?HC 根據(jù)種子的不同在 6.1 到 7.6 之間擺動(dòng)。mHC 是 1.00。每一個(gè)種子。每一次運(yùn)行。零方差。

在 10M 參數(shù)下,這種不穩(wěn)定性是可以存活的。HC 仍然獲勝。但在 27B 參數(shù)下,那 6-7 倍的放大變成了 3000 倍。在這個(gè)規(guī)模下你無(wú)法賭博。

深度擴(kuò)展



作者還掃描了從 6 到 24 層的深度(保持約 11M 的常數(shù)參數(shù)預(yù)算):

  • 損失隨著深度增加而改善,直到不再改善。深度 20 達(dá)到了甜蜜點(diǎn)(0.85 驗(yàn)證損失)。
  • 深度 24 略有退步(0.93),這是由于為了將維度縮小到 192 而產(chǎn)生的寬度瓶頸。
  • Amax 是不可預(yù)測(cè)的。深度 20 飆升至 9.2 倍。深度 12 達(dá)到 6.6 倍。深度 8 保持在 4.3 倍。沒(méi)有清晰的關(guān)系;HC 是混沌的。

實(shí)驗(yàn)細(xì)節(jié)

  • 數(shù)據(jù)集: TinyShakespeare(約 1M 字符,字符級(jí))
  • 模型: GPT-2 架構(gòu),約 10M 參數(shù)
  • 訓(xùn)練: 5000 步,AdamW (β1=0.9, β2=0.95),權(quán)重衰減 0.1,余弦 LR 衰減
  • 硬件: Apple M 系列 (MPS)
  • 深度掃描: 8 種配置(6-24 層),調(diào)整寬度以維持約 11M 參數(shù)
  • 種子變異: 3 個(gè)種子(42, 123, 456),深度 24

為什么這很重要

殘差連接不僅僅是幫助梯度流動(dòng)的技巧。它們是一種守恒定律。

在物理學(xué)中,守恒定律約束了可能發(fā)生的事情,但使預(yù)測(cè)成為可能。你不能制造永動(dòng)機(jī),但你可以精確計(jì)算球會(huì)落在哪里。

殘差連接中的恒等映射是類(lèi)似的。它通過(guò)防止任意變換來(lái)約束網(wǎng)絡(luò),但它保證了穩(wěn)定性。信號(hào)幅度被保留。

HC 打破了守恒;mHC 恢復(fù)了它,不是通過(guò)回歸到恒等映射,而是通過(guò)找到一個(gè)更豐富的、仍然守恒信號(hào)的流形。

2016 年,何愷明等人引入 ResNets 來(lái)解決梯度消失問(wèn)題,確保信號(hào)不會(huì)消亡。十年后,相反的問(wèn)題出現(xiàn)了:超連接帶來(lái)的信號(hào)爆炸。恒等映射通過(guò)被動(dòng)的方式解決了第一個(gè)問(wèn)題。mHC 通過(guò)強(qiáng)制守恒解決了第二個(gè)問(wèn)題。

每一個(gè)殘差連接都是一種守恒定律。mHC 強(qiáng)制執(zhí)行了它。

不是黑客手段,不是技巧。這是一個(gè)原則性的約束,使架構(gòu)能在規(guī);鹿ぷ鳌

要點(diǎn)總結(jié)

  1. 流持久性 Bug 讓人學(xué)會(huì)謙卑。作者的第一個(gè)實(shí)現(xiàn)看起來(lái)是對(duì)的。公式與論文相符。代碼能跑。但當(dāng)把輸出投影回單一流并在每一層重新擴(kuò)展它,扼殺了并行架構(gòu)!赋B接」中的「超」部分實(shí)際上沒(méi)做任何事。三次獨(dú)立的審計(jì)都說(shuō)「看起來(lái)是對(duì)的」。Bug 是架構(gòu)上的,不是數(shù)學(xué)上的。作者是在問(wèn)了「等等,層與層之間流動(dòng)的實(shí)際形狀是什么?」之后才發(fā)現(xiàn)的。
  2. 約束不是限制;它們是保證。雙重隨機(jī)投影強(qiáng)制了穩(wěn)定性。你不是在學(xué)習(xí)好的行為。你是在讓壞的行為變得不可能。作者表示自己的第一反應(yīng)是:「這不優(yōu)雅。這是束縛!沟鋵(shí),HC 達(dá)到了 7 倍放大才是重點(diǎn)。
  3. 無(wú)聊的選擇能規(guī)模化。標(biāo)準(zhǔn)殘差連接自 2016 年以來(lái)一直存活,不是因?yàn)樗鼈兪亲顑?yōu)的,而是因?yàn)樗鼈兪欠(wěn)定的。HC 表達(dá)能力更強(qiáng)但脆弱。mHC 找到了一個(gè)中間地帶:比標(biāo)準(zhǔn)殘差表達(dá)能力更強(qiáng),且?guī)в蟹(wěn)定性保證。

博客 2:10,924 倍:17 億規(guī)模下的不穩(wěn)定炸彈

下面是 mHC 復(fù)現(xiàn)系列的第 2 部分。第 1 部分 展示了 10M 參數(shù)量下的不穩(wěn)定性,F(xiàn)在,要擴(kuò)大規(guī)模了。

在第 1 部分中,作者在 TinyShakespeare 數(shù)據(jù)集上訓(xùn)練了一個(gè) 10M 參數(shù)的 Transformer,并目睹了超連接(Hyper-Connections)將信號(hào)放大了 9.2 倍。DeepSeek 的論文 報(bào)告稱(chēng)在 27B 參數(shù)下放大倍數(shù)達(dá)到了 3000 倍。現(xiàn)在我們也擴(kuò)大規(guī)?纯。

為了這次運(yùn)行,作者租用了一個(gè) 8x H100 的節(jié)點(diǎn)。以下是他的發(fā)現(xiàn)。

規(guī)模躍遷



10924 倍信號(hào)放大!這遠(yuǎn)遠(yuǎn)超出了 DeepSeek 論文中的 3000 倍

實(shí)驗(yàn)

這篇博客記錄的是作者在三種架構(gòu)上進(jìn)行的 18 次實(shí)驗(yàn),包括:

  • Residual:標(biāo)準(zhǔn)的殘差結(jié)構(gòu),即 x + F (x) 作為基線(xiàn);
  • HC:采用無(wú)約束混合矩陣的超連接(Hyper-Connections);
  • mHC:采用 Sinkhorn 投影的流形超連接(Manifold Hyper-Connections)。

每種架構(gòu)分別在兩種網(wǎng)絡(luò)深度下進(jìn)行(32 層和 48 層),并使用三個(gè)隨機(jī)種子(42、123、456),因此每種配置運(yùn)行 3 次。

所有模型均在 C4 數(shù)據(jù)集上訓(xùn)練 5000 步,采用 bf16 混合精度。其中 32 層模型參數(shù)量為 17.3 億(1.73B);48 層模型參數(shù)量為 25.4 億(2.54B)。

主要結(jié)果



首先,在 Loss 表現(xiàn)上:所有方法的收斂表現(xiàn)幾乎一致。

三種方法最終都收斂到相近的 loss 區(qū)間(約 5.4–6.0)。整體學(xué)習(xí)曲線(xiàn)幾乎完全重合:HC 并沒(méi)有學(xué)得更快,mHC 也沒(méi)有變慢。從實(shí)驗(yàn)結(jié)果來(lái)看,引入 Sinkhorn 投影幾乎沒(méi)有額外代價(jià)。

其次,Amax 表現(xiàn)出強(qiáng)烈的不穩(wěn)定性。Amax 是用來(lái)衡量混合矩陣對(duì)信號(hào)的放大程度,Amax = 1.0 表示對(duì)信號(hào)不放大(中性);數(shù)值越高,表示信號(hào)被放大的程度越強(qiáng)。



實(shí)驗(yàn)中發(fā)現(xiàn),在深度為 32 時(shí),HC 的 Amax 值飆升至 6500 倍,并伴隨著劇烈的波動(dòng),而 mHC 值則穩(wěn)定保持在 1.0。在深度為 48 時(shí),這種模式再次出現(xiàn):HC 猛增至 3500 倍,而 mHC 值保持不變。



Scaling Laws



在對(duì) Amax 與模型參數(shù)規(guī)模進(jìn)行 log–log 繪制后,可以觀察到明顯的放大趨勢(shì):當(dāng)模型規(guī)模為 1000 萬(wàn)參數(shù)時(shí),Amax 約為 9.2 倍;在 17 億參數(shù)規(guī)模下,這一數(shù)值躍升至 10924 倍;

而公開(kāi)數(shù)據(jù)中,DeepSeek 的 270 億參數(shù)模型對(duì)應(yīng)的 Amax 約為 3000 倍;谮厔(shì)線(xiàn)外推,模型規(guī)模達(dá)到 100 億參數(shù)時(shí),Amax 可能上升至約 50000 倍,在 1000 億參數(shù)量級(jí)下,甚至可能接近 400000 倍。

實(shí)驗(yàn)結(jié)果并未顯示出任何自我修正的跡象,相反,隨著模型規(guī)模擴(kuò)大,不穩(wěn)定性呈現(xiàn)出持續(xù)加劇的趨勢(shì)。值得注意的是,該實(shí)驗(yàn)中的 17 億參數(shù)模型所表現(xiàn)出的不穩(wěn)定性,甚至高于參數(shù)規(guī)模更大的 DeepSeek 模型。

這種差異可能源于架構(gòu)設(shè)計(jì)、訓(xùn)練配方或測(cè)量方法的不同;批大小、學(xué)習(xí)率與網(wǎng)絡(luò)深度之間的相互作用,也使得尺度效應(yīng)并非嚴(yán)格單調(diào)。

盡管具體數(shù)值會(huì)受到多種因素影響,但這種不穩(wěn)定性是客觀存在的、可以被量化的,而且規(guī)模不容忽視。

可復(fù)現(xiàn)性



此外,在三個(gè)不同的隨機(jī)種子下,實(shí)驗(yàn)都呈現(xiàn)出完全相同的模式:所有 HC 的訓(xùn)練過(guò)程都會(huì)發(fā)生爆炸,而所有 mHC 的訓(xùn)練過(guò)程始終保持平穩(wěn)。不同隨機(jī)種子下的 loss 曲線(xiàn)幾乎完全重合,兩種方法的學(xué)習(xí)速度也一致。

唯一的差別在于模型內(nèi)部正在發(fā)生的事情:HC 在不斷積累不穩(wěn)定性,這種不穩(wěn)定性可能在任何時(shí)刻被引爆;而 mHC 則始終維持著自身的結(jié)構(gòu)完整性。

逐層分析:不穩(wěn)定性從哪里開(kāi)始的



這里有一個(gè)令人驚訝的發(fā)現(xiàn):不穩(wěn)定性始于輸入端,而非輸出端

HC 的第 0 層(可視化圖表中的頂行)率先變紅,隨后其混合矩陣在訓(xùn)練初期就突破了 Amax 2.0,而更深層的網(wǎng)絡(luò)則保持相對(duì)穩(wěn)定?雌饋(lái)問(wèn)題不在于深度,而在于第 0 層 —— 這是唯一一層直接吞吐原始輸入的層。

為什么是第 0 層? 不同于深層網(wǎng)絡(luò)前面有 LayerNorm 把關(guān),第一個(gè)混合矩陣直接面對(duì)原始 Embeddings。其他每一層看到的都是經(jīng)過(guò)歸一化、變換后的表征,但第 0 層必須硬抗 Embedding 表吐出的任何數(shù)值。如果尺度(scale)沒(méi)有完美匹配,第 0 層就會(huì)學(xué)習(xí)去補(bǔ)償。

而在 HC 中,「補(bǔ)償」可能就意味著「放大」。反觀 mHC,在所有層級(jí)和所有訓(xùn)練步數(shù)中都呈現(xiàn)均勻的綠色。Sinkhorn 投影在限制最大值的同時(shí),也完全防止了任何層發(fā)生漂移。

信號(hào)流:視覺(jué)展示



在第 3000 步時(shí),一個(gè)進(jìn)入 HC 網(wǎng)絡(luò)的信號(hào)在輸出時(shí)被放大了 532 倍。而同樣的信號(hào)經(jīng)過(guò) mHC 輸出時(shí)倍率為 1.000003 倍,本質(zhì)上保持不變。

LayerNorm 和非線(xiàn)性模塊似乎「收拾」了大部分爛攤子,但這意味著它們消耗了模型容量,僅僅是為了去抵消上游制造的混亂。

這正是守恒定律的體現(xiàn),它表明殘差連接應(yīng)當(dāng)保持信號(hào)的幅度:輸入了什么,就應(yīng)當(dāng)輸出什么(再加上學(xué)習(xí)到的殘差)。

HC 打破了這一規(guī)則,任由信號(hào)失控螺旋上升,而 mHC 則守住了底線(xiàn)。

壓力測(cè)試



正常的訓(xùn)練使用了 1e-4 的學(xué)習(xí)率。如果加大強(qiáng)度會(huì)發(fā)生什么?作者在 3 倍于正常學(xué)習(xí)率的條件下進(jìn)行了壓力測(cè)試:



深度 64 的模型在 Amax 達(dá)到 14765 倍后,開(kāi)始在 2000 倍到 10000 倍之間劇烈振蕩,同時(shí),混合矩陣徹底失控。

反觀 mHC,在所有配置、所有學(xué)習(xí)率下都表現(xiàn)得平坦、穩(wěn)定且「無(wú)聊」,數(shù)值始終保持在 1.0。

意料之外:HC 模型并未崩潰



有一個(gè)作者沒(méi)想到的結(jié)果:所有的 HC(Hyper-Connections)運(yùn)行實(shí)驗(yàn)都沒(méi)有崩潰。

信號(hào)放大了 14765 倍,在深度 32 時(shí)放大了 10924 倍。Loss(損失)沒(méi)有發(fā)散,訓(xùn)練也沒(méi)有出現(xiàn) NaN。模型仍在繼續(xù)學(xué)習(xí)。

這是一種「定時(shí)炸彈」般的場(chǎng)景。不穩(wěn)定性確實(shí)存在,但尚未導(dǎo)致災(zāi)難性的失敗…… 至少目前還沒(méi)有。

為什么沒(méi)炸?作者列舉了以下幾種可能性:

  • 梯度裁剪力挽狂瀾。將范數(shù)裁剪在 1.0 防止了最嚴(yán)重的梯度爆炸,這幾乎肯定就是拯救了這次運(yùn)行的關(guān)鍵。
  • 5000 步還不夠。如果訓(xùn)練時(shí)間再長(zhǎng)一點(diǎn),它可能就會(huì)爆發(fā)。
  • 這些模型還太小。在 100B(千億)參數(shù)規(guī)模下,動(dòng)力學(xué)特性可能會(huì)有所不同。
  • 穩(wěn)妥的解讀是:HC 正在積聚不穩(wěn)定性,在不同條件下可能會(huì)被引爆,而 mHC則完全消除了這種風(fēng)險(xiǎn)

重訪守恒定律

在第 1 部分中,作者將殘差連接定義為了一種守恒定律,即「每一個(gè)殘差連接都是一條守恒定律,mHC 強(qiáng)制執(zhí)行了它!

1.7B 參數(shù)規(guī)模的結(jié)果讓這一點(diǎn)變得具體:HC 違反了守恒,信號(hào)在訓(xùn)練過(guò)程中增長(zhǎng)了 10000 多倍。而 mHC 強(qiáng)制守恒,信號(hào)保持穩(wěn)定。具體地,

  • 在 10M(一千萬(wàn))參數(shù)時(shí),違反守恒是可以存活的。作者在第 1 部分中看到的 9.2 倍放大雖然煩人,但尚在可控范圍內(nèi)。
  • 在 1.7B(十七億)參數(shù)時(shí),這就是個(gè)炸彈。10924 倍的放大意味著一個(gè)本該是量級(jí) 1 的信號(hào),現(xiàn)在變成了 10924。梯度更新在與這種放大對(duì)抗,而優(yōu)化器必須做額外的工作來(lái)補(bǔ)償網(wǎng)絡(luò)內(nèi)部的混亂。

這還僅僅是在 5000 步的時(shí)候,如果訓(xùn)練更久、推高學(xué)習(xí)率、或者擴(kuò)展到 10B 參數(shù),在某個(gè)臨界點(diǎn),炸彈就會(huì)引爆。

mHC 不僅僅是降低了不穩(wěn)定性,而是徹底消除了這種故障模式。

從這次運(yùn)行中學(xué)到了什么

一是,GPU 3 掛了。8 張 H100 中的一張?jiān)谔囟▽?shí)驗(yàn)中不斷報(bào)錯(cuò) CUDA 錯(cuò)誤。作者浪費(fèi)了一個(gè)小時(shí)調(diào)試「代碼問(wèn)題」,才意識(shí)到是硬件故障。云端 GPU 是會(huì)壞的。

二是,Batch size(批次大。┑南拗剖钦鎸(shí)的。2.5B 參數(shù)的 d48 模型無(wú)法在 batch size 為 8 時(shí)塞進(jìn)顯存。作者不得不降到 batch size 4。這意味著不同深度下的「每步 token 數(shù)」不同。

雖然同一深度下 HC 與 mHC 的對(duì)比依然有效(batch size 相同),但跨深度的對(duì)比就不那么完美了。

要點(diǎn)總結(jié)

如果正在實(shí)現(xiàn)超連接:

  • 使用 Sinkhorn 投影。這里大概只有 10 行代碼,卻消除了一種在大規(guī)模下感覺(jué)真正危險(xiǎn)的故障模式。
  • 在訓(xùn)練期間監(jiān)控 Amax。如果你看到它爬升超過(guò) 10 倍,則是在積聚不穩(wěn)定性。
  • 第 0 層是「金絲雀」(預(yù)警指標(biāo))。特別密切關(guān)注你的輸入混合矩陣。如果你的基礎(chǔ)模型有一個(gè)不穩(wěn)定的第 0 層,微調(diào)期間的詞表變更或 Embedding 漂移可能會(huì)導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定。
  • 該約束沒(méi)有性能代價(jià)。mHC 的 Loss 與 HC 完全一致。

代碼和數(shù)據(jù)

數(shù)據(jù)是公開(kāi)的,代碼即將發(fā)布。

  • 主要實(shí)驗(yàn): wandb.ai/taylorkolasinski/mhc-part2
  • 壓力測(cè)試: wandb.ai/taylorkolasinski/mhc-part2-stress

作者表示,包含訓(xùn)練腳本的倉(cāng)庫(kù)即將推出。W&B 儀表板擁有每次運(yùn)行的完整配置、指標(biāo)和系統(tǒng)日志。實(shí)驗(yàn)在一個(gè) Lambda Labs 的 8x H100 SXM5 節(jié)點(diǎn)上運(yùn)行,耗時(shí)約 17 小時(shí)。

下一步計(jì)劃

目前有兩個(gè)懸而未決的問(wèn)題:

  • HC 真的會(huì)失敗嗎? 作者看到了 10924 倍的放大,但訓(xùn)練沒(méi)有發(fā)散。這是一種潛在風(fēng)險(xiǎn),還是說(shuō)訓(xùn)練時(shí)間更長(zhǎng)就會(huì)導(dǎo)致失敗?
  • Scaling Law 是什么? 10M → 9.2 倍。1.7B → 10924 倍。到了 10B 會(huì)發(fā)生什么?

作者想探索 Scaling Law 到 10B 參數(shù),趨勢(shì)線(xiàn)表明那里可能出現(xiàn) 50000 倍的放大。那個(gè)實(shí)驗(yàn)技術(shù)上已經(jīng)準(zhǔn)備好了,但需要計(jì)算預(yù)算的大幅提升。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
震驚!耶魯大學(xué)已清除了所有支持共和黨的教授

震驚!耶魯大學(xué)已清除了所有支持共和黨的教授

大洛杉磯LA
2026-01-19 07:09:47
大滿(mǎn)貫正賽12連!袁悅苦戰(zhàn)惜敗世界第2,遺憾止步澳網(wǎng)首輪

大滿(mǎn)貫正賽12連敗!袁悅苦戰(zhàn)惜敗世界第2,遺憾止步澳網(wǎng)首輪

全景體育V
2026-01-19 18:18:33
強(qiáng)的可怕!去年GDP、人均收入均大漲5%!生娃數(shù)量驚人

強(qiáng)的可怕!去年GDP、人均收入均大漲5%!生娃數(shù)量驚人

說(shuō)財(cái)貓
2026-01-19 12:28:45
科馬材料上市:科技硬實(shí)力驅(qū)動(dòng)國(guó)產(chǎn)替代,新能源賽道開(kāi)啟倍增空間

科馬材料上市:科技硬實(shí)力驅(qū)動(dòng)國(guó)產(chǎn)替代,新能源賽道開(kāi)啟倍增空間

叩叩財(cái)訊
2026-01-06 11:22:44
特朗普突然發(fā)聲:現(xiàn)在是時(shí)候行動(dòng)了,“解決俄羅斯對(duì)格陵蘭島威脅”時(shí)機(jī)已到

特朗普突然發(fā)聲:現(xiàn)在是時(shí)候行動(dòng)了,“解決俄羅斯對(duì)格陵蘭島威脅”時(shí)機(jī)已到

魯中晨報(bào)
2026-01-19 13:31:02
難以置信!給李亞鵬基金捐款1800萬(wàn)是30萬(wàn)網(wǎng)友,無(wú)一明星發(fā)文響應(yīng)

難以置信!給李亞鵬基金捐款1800萬(wàn)是30萬(wàn)網(wǎng)友,無(wú)一明星發(fā)文響應(yīng)

火山詩(shī)話(huà)
2026-01-19 16:05:40
內(nèi)蒙古自治區(qū)成立包鋼股份板材廠爆炸事故調(diào)查組,包鋼任組長(zhǎng)

內(nèi)蒙古自治區(qū)成立包鋼股份板材廠爆炸事故調(diào)查組,包鋼任組長(zhǎng)

界面新聞
2026-01-19 14:49:47
嫣然天使兒童醫(yī)院欠租千萬(wàn)風(fēng)波始末

嫣然天使兒童醫(yī)院欠租千萬(wàn)風(fēng)波始末

新京報(bào)
2026-01-19 14:00:26
別只盯著格陵蘭島了!給美國(guó)推薦一塊更好的地方:楚科奇半島

別只盯著格陵蘭島了!給美國(guó)推薦一塊更好的地方:楚科奇半島

全城探秘
2026-01-19 14:05:03
國(guó)乒重建,新隊(duì)長(zhǎng)或鎖定,孫穎莎無(wú)緣,已5人離隊(duì),3男+2女

國(guó)乒重建,新隊(duì)長(zhǎng)或鎖定,孫穎莎無(wú)緣,已5人離隊(duì),3男+2女

卿子書(shū)
2026-01-19 07:55:43
CCTV5直播有變!中國(guó)隊(duì)大戰(zhàn)越南前,獲意外好消息,亞足聯(lián)送助攻

CCTV5直播有變!中國(guó)隊(duì)大戰(zhàn)越南前,獲意外好消息,亞足聯(lián)送助攻

侃球熊弟
2026-01-19 10:45:17
痛別!官網(wǎng)已變黑白

痛別!官網(wǎng)已變黑白

吉刻新聞
2026-01-18 09:12:36
閃電重挫!6.7萬(wàn)股民猝不及防

閃電重挫!6.7萬(wàn)股民猝不及防

看財(cái)經(jīng)show
2026-01-19 17:14:21
出生人口跌破800萬(wàn)!會(huì)對(duì)地產(chǎn)、消費(fèi)帶來(lái)巨大影響,預(yù)計(jì)明年總?cè)丝诘?4億

出生人口跌破800萬(wàn)!會(huì)對(duì)地產(chǎn)、消費(fèi)帶來(lái)巨大影響,預(yù)計(jì)明年總?cè)丝诘?4億

爆角追蹤
2026-01-19 12:55:54
牛鬼神蛇現(xiàn)原形!聶衛(wèi)平去世僅一天,私生活被扒,王剛郎平被牽連

牛鬼神蛇現(xiàn)原形!聶衛(wèi)平去世僅一天,私生活被扒,王剛郎平被牽連

春露秋霜
2026-01-16 06:27:20
六位省級(jí)黨委常委,有新職!另有多位副省級(jí)領(lǐng)導(dǎo)增補(bǔ)為省政協(xié)委員

六位省級(jí)黨委常委,有新職!另有多位副省級(jí)領(lǐng)導(dǎo)增補(bǔ)為省政協(xié)委員

上觀新聞
2026-01-19 14:48:06
打虎!顧軍被查

打虎!顧軍被查

新京報(bào)
2026-01-19 18:18:09
功夫巨星梁小龍逝世,經(jīng)紀(jì)人稱(chēng)力瞞死訊仍被曝光

功夫巨星梁小龍逝世,經(jīng)紀(jì)人稱(chēng)力瞞死訊仍被曝光

現(xiàn)代快報(bào)
2026-01-19 12:09:30
大瓜!200億元無(wú)法兌付,上萬(wàn)人投資打水漂,浙江大佬被圍堵追債

大瓜!200億元無(wú)法兌付,上萬(wàn)人投資打水漂,浙江大佬被圍堵追債

天天熱點(diǎn)見(jiàn)聞
2026-01-19 05:33:08
老紅軍、開(kāi)國(guó)大校、紅色“聽(tīng)風(fēng)者”胡正先逝世,享年108歲

老紅軍、開(kāi)國(guó)大校、紅色“聽(tīng)風(fēng)者”胡正先逝世,享年108歲

澎湃新聞
2026-01-19 14:44:27
2026-01-19 19:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12147文章數(shù) 142544關(guān)注度
往期回顧 全部

科技要聞

這一仗必須贏!馬斯克死磕芯片"9個(gè)月一更"

頭條要聞

梅德韋杰夫諷刺:讓美國(guó)再次偉大等于讓丹麥再次變小

頭條要聞

梅德韋杰夫諷刺:讓美國(guó)再次偉大等于讓丹麥再次變小

體育要聞

錯(cuò)失英超冠軍獎(jiǎng)牌,他卻在德甲成為傳奇

娛樂(lè)要聞

吳磊起訴白珊珊誹謗,白珊珊稱(chēng)被盜號(hào)

財(cái)經(jīng)要聞

公章?tīng)?zhēng)奪 家族反目 雙星為何從頂端跌落?

汽車(chē)要聞

徐軍:沖擊百萬(wàn)銷(xiāo)量,零跑一直很清醒

態(tài)度原創(chuàng)

本地
教育
藝術(shù)
房產(chǎn)
公開(kāi)課

本地新聞

云游內(nèi)蒙|黃沙與碧波撞色,烏海天生會(huì)“混搭”

教育要聞

整體法,巧求面積!

藝術(shù)要聞

有一種美,叫做中國(guó)園林!

房產(chǎn)要聞

中旅?三亞藍(lán)灣發(fā)布會(huì)揭秘自貿(mào)港好房子高階形態(tài)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版