加州大學洛杉磯分校提出NAMO優(yōu)化器

2026-02-24 21:11:02　來源: 至頂AI實驗室

北京舉報

分享至

這項由加州大學洛杉磯分校數(shù)學系研究團隊完成的研究發(fā)表于2026年2月，論文編號為arXiv:2602.17080v2。研究團隊在深度學習優(yōu)化領域取得了重要突破，開發(fā)出了名為NAMO和NAMO-D的新型優(yōu)化算法。

訓練人工智能模型就像調試一臺復雜的收音機。你需要不斷調整各種旋鈕和參數(shù)，才能收到清晰的信號。在這個過程中，有時會遇到強烈的干擾和噪聲，讓調試變得異常困難。傳統(tǒng)的優(yōu)化方法就像只有幾個基礎旋鈕的老式收音機，而研究團隊提出的NAMO系列優(yōu)化器則像是配備了智能信號處理系統(tǒng)的現(xiàn)代數(shù)字收音機，能夠自動識別和過濾噪聲，同時保持信號的清晰度。

在人工智能訓練過程中，算法需要處理大量的數(shù)據(jù)噪聲，這些噪聲就像收音機中的雜音一樣，會干擾模型的學習效果。長期以來，研究者們一直在尋找既能有效處理噪聲，又能保持訓練效率的優(yōu)化方法。目前最流行的Adam優(yōu)化器雖然具有自適應特性，但在處理某些類型的矩陣結構數(shù)據(jù)時表現(xiàn)不夠理想。而最近出現(xiàn)的Muon優(yōu)化器雖然在處理矩陣結構方面有所突破，但對噪聲的適應能力還有改進空間。

研究團隊意識到，現(xiàn)有的優(yōu)化器就像兩個各有特長但也各有短板的工具。Adam優(yōu)化器擅長適應噪聲變化，就像一個敏感的音量調節(jié)器，能根據(jù)環(huán)境噪聲自動調整音量大小。而Muon優(yōu)化器則擅長處理矩陣結構，就像一個專業(yè)的信號方向調節(jié)器，能夠精確控制信號的傳播方向。研究團隊的創(chuàng)新之處在于，他們成功地將這兩種能力結合起來，創(chuàng)造出了既能智能調節(jié)音量又能精確控制方向的綜合調節(jié)系統(tǒng)。

一、核心創(chuàng)新：智能信號處理系統(tǒng)的設計

NAMO優(yōu)化器的設計理念可以用現(xiàn)代汽車的駕駛輔助系統(tǒng)來理解。傳統(tǒng)的優(yōu)化器就像手動擋汽車，司機需要根據(jù)路況手動調節(jié)各種參數(shù)。而NAMO就像配備了智能駕駛系統(tǒng)的汽車，能夠自動感知路況變化并做出相應調整。

具體來說，NAMO的工作原理包含兩個關鍵組件。第一個組件是"方向保持器"，它繼承了Muon優(yōu)化器的優(yōu)勢，能夠保持更新方向的數(shù)學正交性。這就像汽車的方向盤控制系統(tǒng)，確保車輛始終朝著正確的方向行駛，不會因為路面顛簸而偏離軌道。第二個組件是"速度調節(jié)器"，它借鑒了Adam優(yōu)化器的自適應特性，能夠根據(jù)當前的訓練環(huán)境動態(tài)調整學習速度。這就像汽車的巡航控制系統(tǒng)，在平坦路段加速行駛，在復雜路段減速慢行。

研究團隊還開發(fā)了NAMO的增強版本NAMO-D，這個版本就像為每個車輪都配備了獨立的懸掛系統(tǒng)。普通版的NAMO使用統(tǒng)一的速度調節(jié)策略，就像四個車輪使用同樣的懸掛設置。而NAMO-D則為每個"神經(jīng)元"都配備了獨立的調節(jié)機制，就像每個車輪都有自己專門的懸掛系統(tǒng)，能夠更精細地適應各種路況變化。

在技術實現(xiàn)上，NAMO通過一個巧妙的數(shù)學技巧實現(xiàn)了這種雙重調節(jié)功能。研究團隊發(fā)現(xiàn)，可以將矩陣的正交化操作（保持方向）與基于范數(shù)的自適應縮放（調節(jié)速度）有機結合起來。這種結合方式不僅保持了原有優(yōu)勢，還產生了協(xié)同效應，使得整體性能超過了兩種方法簡單相加的效果。

NAMO-D的設計更加精妙，它采用了所謂的"對角矩陣右乘"技術。用通俗的話說，就是為每一列神經(jīng)元參數(shù)都配備了專門的調節(jié)器。這些調節(jié)器不是獨立工作的，而是在保持整體協(xié)調的前提下，各自負責自己那一部分的優(yōu)化調節(jié)。為了防止某些調節(jié)器過于激進而破壞整體平衡，研究團隊還設計了一套"夾緊"機制，就像給每個調節(jié)器都設置了安全閾值，確保所有調節(jié)器的工作都在合理范圍內。

二、理論保證：為什么這套系統(tǒng)真的有效

任何新的優(yōu)化方法都需要嚴格的理論證明來支撐其有效性，就像新藥上市前需要經(jīng)過嚴格的臨床試驗一樣。研究團隊為NAMO和NAMO-D提供了完整的理論分析，證明了這些方法在各種條件下都能保持良好的收斂性能。

在確定性環(huán)境下，也就是沒有數(shù)據(jù)噪聲干擾的理想情況下，兩種算法都能達到最優(yōu)的收斂速度。這就像在平坦無風的高速公路上駕駛，車輛能夠以最優(yōu)的速度穩(wěn)定前行。具體來說，算法的收斂速度達到了理論上的最優(yōu)界限，即O(T^(-1/2))，這意味著隨著訓練步數(shù)T的增加，算法找到最優(yōu)解的速度會以根號倒數(shù)的形式提升。

更重要的是，在隨機環(huán)境下，也就是存在數(shù)據(jù)噪聲的實際訓練場景中，NAMO和NAMO-D展現(xiàn)出了優(yōu)異的噪聲適應能力。研究團隊證明，這兩種算法的收斂保證能夠自動適應隨機梯度的噪聲水平。當訓練數(shù)據(jù)的噪聲較小時，算法接近確定性情況下的最優(yōu)性能。當噪聲較大時，算法會自動調慢收斂速度，確保訓練的穩(wěn)定性。

這種自適應特性的理論表達是O(T^(-1/4) + √(σ)b^(-1/4)T^(-1/8))，其中σ代表噪聲強度，b代表批次大小。這個公式告訴我們一個重要的實踐指導原則：當我們增加訓練批次的大小時，算法能夠更好地抵抗噪聲干擾，從而獲得更好的收斂性能。當批次大小足夠大時，噪聲項會被顯著抑制，算法的收斂速度接近理論最優(yōu)值O(T^(-1/4))。

理論分析還揭示了NAMO-D中夾緊機制的重要性。通過數(shù)學推導，研究團隊證明了適當?shù)膴A緊參數(shù)設置能夠平衡兩個相互競爭的目標：維持良好的更新方向條件數(shù)和充分利用細粒度的噪聲適應能力。這種平衡就像調節(jié)收音機時需要在信號清晰度和音量大小之間找到最佳平衡點一樣。

三、實驗驗證：在GPT-2訓練中的出色表現(xiàn)

理論再完美，也需要實際驗證來證明其價值。研究團隊選擇了GPT-2語言模型作為測試平臺，這是一個廣泛使用的基準模型，能夠很好地驗證優(yōu)化器的實際效果。

實驗設計就像一場公平的賽車比賽。研究團隊讓NAMO、NAMO-D與目前最流行的AdamW優(yōu)化器以及最新的Muon優(yōu)化器在相同的條件下競賽。所有優(yōu)化器都使用相同的數(shù)據(jù)集（包含約90億個訓練詞匯的OpenWebText數(shù)據(jù)集）、相同的模型架構、相同的硬件環(huán)境（4塊NVIDIA H100 GPU）。

實驗包含了兩個不同規(guī)模的模型：小型版本（1.24億參數(shù)）和中型版本（3.55億參數(shù)）。這種設置就像測試汽車在城市道路和高速公路兩種不同場景下的性能表現(xiàn)。

在小型模型的訓練中，NAMO和NAMO-D都展現(xiàn)出了比傳統(tǒng)方法更好的性能。具體來說，在經(jīng)過50,000步訓練后，NAMO的訓練損失降至2.9272，驗證損失為3.0351，而AdamW的相應數(shù)值分別為3.0456和3.0643，Muon的數(shù)值為3.0265和3.0435。這些數(shù)字表明，NAMO在訓練效率和泛化能力方面都有顯著提升。

更有趣的是，NAMO-D的表現(xiàn)甚至超過了NAMO，其訓練損失進一步降至2.9167，驗證損失為3.0246。這驗證了研究團隊的預期：更精細的神經(jīng)元級別適應能力確實能夠帶來額外的性能提升。

在中型模型的實驗中，優(yōu)勢變得更加明顯。經(jīng)過10,000步訓練后，NAMO的訓練損失為2.9359，驗證損失為2.9516，而AdamW的相應數(shù)值為2.9760和2.9914。NAMO-D的表現(xiàn)依然是最佳的，訓練損失為2.9351，驗證損失為2.9507。

研究團隊還進行了學習率敏感性分析，這就像測試汽車在不同速度設置下的穩(wěn)定性。結果顯示，NAMO和NAMO-D在更寬的學習率范圍內都能保持穩(wěn)定的性能，這意味著它們對超參數(shù)設置的要求更加寬松，使用起來更加方便。

特別值得注意的是，NAMO-D中的夾緊參數(shù)c發(fā)揮了重要作用。在小型模型中，最佳的c值為0.1，而在中型模型中，最佳c值為0.9。這種差異表明，不同規(guī)模的模型需要不同程度的調節(jié)約束，這為實際應用提供了重要的指導原則。

四、技術細節(jié)：算法的精妙設計

深入了解NAMO系列算法的技術細節(jié)，就像拆解一臺精密儀器，看看其內部是如何巧妙運作的。

NAMO的核心創(chuàng)新在于將兩種看似不兼容的技術巧妙融合。第一種技術是矩陣正交化，這個過程可以比作給信號"校正方向"。在數(shù)學上，給定一個矩陣M，研究團隊通過奇異值分解得到M = UΣV^T，然后取其正交因子UV^T作為更新方向。這個正交因子具有特殊的幾何性質，它保持了原始矩陣的主要方向信息，同時去除了可能導致訓練不穩(wěn)定的冗余成分。

第二種技術是自適應縮放，這個過程就像給信號"調節(jié)音量"。NAMO維護兩個統(tǒng)計量：動量的偏差校正估計和梯度平方范數(shù)的偏差校正估計。通過這兩個統(tǒng)計量的比值，算法能夠估計當前的"信噪比"，并據(jù)此調節(jié)更新步長。當噪聲較大時，這個比值較小，算法會自動減小步長以保持穩(wěn)定性。當信號較強時，算法會相應增大步長以加快收斂。

NAMO-D的設計更加精巧，它不是簡單地為整個矩陣使用統(tǒng)一的縮放因子，而是為每一列參數(shù)都計算獨立的縮放因子。這就像為一個管弦樂隊中的每種樂器都配備專門的音量控制器，而不是使用統(tǒng)一的總音量控制。具體來說，對于矩陣的第j列，算法會計算該列的范數(shù)，并基于該列對應的二階矩估計來確定縮放因子。

為了防止某些縮放因子過于極端，NAMO-D引入了夾緊機制。這個機制的工作原理是：首先計算所有縮放因子的平均值，然后將每個縮放因子限制在[c*平均值, 平均值/c]的范圍內，其中c是一個介于0和1之間的超參數(shù)。這種設計確保了所有縮放因子都在合理范圍內，避免了某些方向的更新過于激進而破壞整體平衡。

算法的計算復雜度控制得非常好。NAMO相比于基礎的Muon優(yōu)化器，額外的計算開銷幾乎可以忽略不計，只增加了O(mn)的計算量，其中m和n分別是矩陣的行數(shù)和列數(shù)。NAMO-D的額外開銷也很少，主要是計算列范數(shù)和維護列級別的統(tǒng)計量。更重要的是，兩種算法都不需要額外的內存開銷，這對于大規(guī)模模型訓練來說是一個重要優(yōu)勢。

在實際實現(xiàn)中，研究團隊還考慮了數(shù)值穩(wěn)定性問題。他們使用了Newton-Schulz迭代來近似計算矩陣正交化，這是一種數(shù)值穩(wěn)定且計算高效的方法。同時，他們在分母中添加了小的正則化項ε來避免除零錯誤，并且這個正則化項會隨著訓練進行動態(tài)調整。

五、實際應用價值：對AI訓練的深遠影響

NAMO系列優(yōu)化器的意義遠遠超出了學術研究的范疇，它們?yōu)閷嶋H的人工智能模型訓練帶來了切實的改進。

從訓練效率的角度來看，NAMO系列優(yōu)化器能夠幫助研究者和工程師更快地訓練出高質量的模型。在GPT-2的實驗中，NAMO-D相比AdamW在訓練損失上平均改進了約3-4%，這個數(shù)字看似不大，但在大規(guī)模模型訓練中，這種改進可能意味著節(jié)省數(shù)周的計算時間和大量的電力成本。

從實用性的角度來看，NAMO系列優(yōu)化器對超參數(shù)的敏感性較低，這對實際應用來說是一個重要優(yōu)勢。傳統(tǒng)的優(yōu)化器往往需要精心調節(jié)學習率、動量系數(shù)等參數(shù)，這個過程既耗時又需要經(jīng)驗。而NAMO系列優(yōu)化器在更寬的參數(shù)范圍內都能保持良好性能，這降低了使用門檻，讓更多的研究者和開發(fā)者能夠受益。

從擴展性的角度來看，NAMO的設計原理可以應用到各種不同類型的神經(jīng)網(wǎng)絡架構中。無論是用于圖像識別的卷積神經(jīng)網(wǎng)絡，還是用于自然語言處理的Transformer模型，只要涉及矩陣參數(shù)的優(yōu)化，都可以考慮使用NAMO系列優(yōu)化器。研究團隊在論文中提到，他們正在探索將這些技術擴展到更大規(guī)模的語言模型訓練中。

對于工業(yè)界而言，NAMO系列優(yōu)化器提供了一種"即插即用"的解決方案。由于它們與現(xiàn)有的訓練框架兼容，公司和研究機構可以相對容易地將現(xiàn)有的訓練流程升級到新的優(yōu)化器，而不需要大幅度改變現(xiàn)有的基礎設施。

研究團隊還開源了NAMO的完整實現(xiàn)代碼，這進一步降低了采用門檻。開源代碼包含了詳細的文檔和使用示例，使得其他研究者可以快速上手并在自己的項目中使用這些技術。

從長遠來看，NAMO系列優(yōu)化器代表了優(yōu)化算法發(fā)展的一個新方向：不是簡單地追求單一方面的改進，而是通過巧妙地結合現(xiàn)有技術的優(yōu)勢來實現(xiàn)整體性能的提升。這種思路可能會啟發(fā)更多類似的研究工作，推動整個深度學習優(yōu)化領域的發(fā)展。

研究團隊在論文中也誠實地指出了當前工作的局限性。比如，他們主要在語言模型上進行了驗證，還需要在更多類型的任務上測試算法的泛化能力。此外，對于超大規(guī)模模型（比如參數(shù)量達到千億級別的模型），NAMO系列優(yōu)化器的表現(xiàn)還需要進一步驗證。

展望未來，研究團隊計劃開發(fā)更加輕量級的NAMO-D變體，進一步降低計算開銷。他們還計劃深入研究夾緊參數(shù)c的自動調節(jié)機制，使得NAMO-D能夠在訓練過程中自動找到最佳的平衡點，進一步提升易用性。

說到底，NAMO系列優(yōu)化器的成功展示了科研中"站在巨人肩膀上"的價值。研究團隊并沒有完全重新發(fā)明輪子，而是聰明地識別出了現(xiàn)有技術的互補性，并找到了將它們有效結合的方法。這種研究思路不僅產生了實用的技術成果，也為其他研究者提供了寶貴的方法論啟示。對于那些對深度學習優(yōu)化技術感興趣的讀者，可以通過論文編號arXiv:2602.17080v2查找完整的技術細節(jié)。這項工作不僅推進了學術研究，更重要的是為實際的AI應用提供了更好的工具，這正是優(yōu)秀科研工作應有的價值體現(xiàn)。

Q&A

Q1：NAMO優(yōu)化器相比AdamW和Muon有什么優(yōu)勢？

A：NAMO優(yōu)化器結合了AdamW的噪聲適應能力和Muon的矩陣結構處理優(yōu)勢。在GPT-2訓練中，NAMO的訓練損失比AdamW改進了約3-4%，同時對學習率等超參數(shù)的敏感性更低，使用更方便，幾乎不增加額外的計算和內存開銷。

Q2：NAMO-D的夾緊機制是怎么工作的？

A：NAMO-D為每列神經(jīng)元參數(shù)配備獨立的調節(jié)器，但為防止某些調節(jié)器過于激進，設置了夾緊機制。系統(tǒng)會計算所有縮放因子的平均值，然后將每個縮放因子限制在合理范圍內，就像給每個音量調節(jié)器都設置安全閾值，確保整體平衡。

Q3：普通開發(fā)者能使用NAMO優(yōu)化器嗎？

A：可以的。研究團隊已經(jīng)開源了完整的NAMO實現(xiàn)代碼，包含詳細文檔和使用示例。由于NAMO與現(xiàn)有訓練框架兼容，開發(fā)者可以相對容易地將現(xiàn)有訓練流程升級到新優(yōu)化器，不需要大幅改變現(xiàn)有基礎設施。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.