国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek又在放假搞事!58年前的算法解決一個大問題

0
分享至

訓(xùn)練一個大模型要多久?

小模型幾天,大模型幾周,頂級模型可能要幾個月。

現(xiàn)在想象一下:你的團隊花了兩周時間、燒掉幾百萬美元的算力,眼看模型快要訓(xùn)練完成,突然,原本應(yīng)該不斷降低的loss曲線開始暴漲,所有數(shù)據(jù)全部作廢,一切從頭再來。

2025年的最后一天,DeepSeek悄悄發(fā)了一篇論文《mHC: Manifold-Constrained Hyper-Connections》,解決了這個問題。

一個讓工程師崩潰的bug

這篇論文一發(fā)布,海外AI圈就炸了。

Hugging Face上,mHC論文直接登上了 " Paper of the day",獲得73個專業(yè)點贊。

X上,AI研究者Alexander Doria的解讀帖引發(fā)了大量轉(zhuǎn)發(fā)。他寫道:

"這實際上是一篇工程論文...論文的核心是'高效訓(xùn)練設(shè)計',他們用混合精度策略最大化數(shù)值精度,用算子融合減少內(nèi)存帶寬瓶頸...整體非常優(yōu)雅。"



Hugging Face Paper of the day

這篇論文到底解決了什么問題?為什么能引起這么大的關(guān)注?

故事要從去年說起。字節(jié)跳動提出了一種叫Hyper-Connections(HC)的新技術(shù)。

簡單說,傳統(tǒng)的AI模型像一條單行道,信息排隊通過。

HC把它拓寬成了4條并行車道,讓信息可以同時在多個"通道"里流動和交換。

效果非常驚艷:根據(jù)字節(jié)跳動的論文,訓(xùn)練速度最高提升1.8倍,在ARC-Challenge基準上提升了6分。


Hyper-Connections論文結(jié)果圖(訓(xùn)練loss與ARC-Challenge表現(xiàn))

全世界的AI團隊都想用這個技術(shù),但很快,大家發(fā)現(xiàn)了一個致命的問題:訓(xùn)練到12000步左右,模型會突然"發(fā)瘋"。

代表AI錯誤率的loss曲線,本來穩(wěn)步下降,突然毫無征兆地飆升。前面十幾天的訓(xùn)練,全部白費。

更可怕的是,這個問題沒有規(guī)律可循。有時候能撐過去,有時候撐不過去,工程師們只能碰運氣。

3000倍 → 1.6倍

DeepSeek的工程師們研究后發(fā)現(xiàn)了問題所在:4條"車道"之間的信息交換,沒有任何約束。

就像高速公路上的車可以隨意變道,而且每次變道車的數(shù)量還會隨機變化。

幾十次變道之后,有的車道上擠了幾千輛車,有的車道空無一車。系統(tǒng)必然崩潰。

在AI模型里,這個"變化"有多夸張?信號放大倍數(shù)最高達到3000倍。

DeepSeek的解決方案非常優(yōu)雅:加一個數(shù)學(xué)約束,讓每次"變道"后,總車數(shù)保持不變。

他們用的工具是一個1967年就有的老算法:Sinkhorn-Knopp。

這個算法能保證信息在通道之間流動時"守恒",不會無限放大,也不會逐漸消失。

結(jié)果:信號放大倍數(shù)從3000倍降到1.6倍,訓(xùn)練過程穩(wěn)定,不再隨機崩盤。

額外的計算開銷? 僅6.7%,推理能力還額外提升了2%以上。

用一個58年前的老算法,解決了2025年最前沿的工程難題。

沒有什么驚天動地的理論突破,都是工程師的智慧:找到問題的本質(zhì),用最簡單的方法解決它。

研究,早已不在象牙塔里

看完這篇論文,相信你馬上就會明白,為什么AI研究的一線早已不在象牙塔里。

你看這篇論文的內(nèi)容:

大量篇幅在講"Kernel Fusion"(算子融合):怎么把多個計算合并成一個,減少內(nèi)存讀寫

詳細描述了"Recomputing"(重計算策略):寧可重新算一遍,也不占用寶貴的顯存

甚至專門討論了"DualPipe Schedule"(流水線調(diào)度):怎么讓通信和計算同時進行,不浪費一秒鐘

全是實打?qū)嵉墓こ虄?yōu)化。


DeepSeek

DeepSeek這篇論文的核心貢獻,就是發(fā)現(xiàn)了"訓(xùn)練會崩"這個實際問題,然后用一個58年前的老算法解決了它。

AI的"發(fā)動機"已經(jīng)基本就緒了。

大模型的核心架構(gòu)、訓(xùn)練方法、推理框架,都已經(jīng)相當成熟。

接下來的競爭,不只是"誰能造出更大的發(fā)動機",更是"誰能把發(fā)動機用得更好"。

而這種"用得更好"的優(yōu)化,會發(fā)生在AI應(yīng)用的很多環(huán)節(jié)

  • 怎么更好的使用AI大模型?

  • 哪些場景中能發(fā)揮AI潛力?

  • 怎么用更少的資源做更多的事?

這些問題,不需要你是數(shù)學(xué)天才,不需要你發(fā)明新理論。你只需要:發(fā)現(xiàn)真實的問題,找到解決它的方法。

這,就是大多數(shù)人的機會。

會"用"比會"造"更重要

吳恩達曾多次表達過類似觀點,大意是:未來最值錢的能力,不是"懂AI原理",是"會指揮AI干活"。



吳恩達(Andrew Ng)

這和很多人對AI的焦慮形成了鮮明對比:

有人擔心:"我不會寫代碼,是不是就被淘汰了?"

有人擔心:"我數(shù)學(xué)不好,是不是學(xué)不了AI?"

有人擔心:"我不是名校出身,是不是沒機會?"

但現(xiàn)實是:真正稀缺的,是"能解決問題的人"。

我們之前也為大家介紹過,Gabriel Petersson高中輟學(xué),用ChatGPT自學(xué),現(xiàn)在在OpenAI做研究科學(xué)家。

一個20歲的中國大學(xué)生,靠AI編程工具做了個GitHub熱榜第一的項目,拿到了心儀的實習(xí)offer。

他們的共同點就是用AI解決了真實的問題。

給下一代的機會

我們這代人,還在努力適應(yīng)AI。但下一代,完全可以從小學(xué)會"和AI協(xié)作"。

就像DeepSeek的工程師們,沒有從零發(fā)明了新理論,而是把已有的工具組合起來,解決了實際問題。

這種"解決問題"的能力,越早培養(yǎng)越好。

【前哨AI冬令營】專為8-16歲孩子設(shè)計

7天時間,讓孩子親手做出可上線的作品:

? 專屬小游戲(卡牌游戲、闖關(guān)冒險游戲)

? 微信小程序(卡路里識別、飯店點餐小程序)

教孩子"AI的原理是什么",更教孩子"怎么用AI解決問題"。

當DeepSeek的工程師用58年前的老算法解決最前沿的難題時,你的孩子也可以學(xué)會:用現(xiàn)有的工具,解決真實的問題。

和AI時代一起成長。

? 名額有限,先到先得,掃碼報名 ↓


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
黨史上最復(fù)雜離奇的懸案,足足困擾毛主席18年之久!究竟有何隱情

黨史上最復(fù)雜離奇的懸案,足足困擾毛主席18年之久!究竟有何隱情

貓眼觀史
2024-09-30 16:20:26
終于打穿了!美國航母神話,徹底崩了!

終于打穿了!美國航母神話,徹底崩了!

阿芒娛樂說
2026-03-07 09:40:44
這是目前為止,我見過腰最細的女生,沒有之一

這是目前為止,我見過腰最細的女生,沒有之一

草莓解說體育
2026-03-03 19:15:05
究竟遜尼派與什葉派的區(qū)別是什么?

究竟遜尼派與什葉派的區(qū)別是什么?

難得君
2026-03-07 09:53:43
太陽報:盧克-肖獲許可后砍掉了價值500萬英鎊豪宅里的櫻桃樹

太陽報:盧克-肖獲許可后砍掉了價值500萬英鎊豪宅里的櫻桃樹

懂球帝
2026-03-09 12:19:12
1900年,八國聯(lián)軍把“黃蓮圣母”當成玩物,凌辱后運往歐洲展覽?

1900年,八國聯(lián)軍把“黃蓮圣母”當成玩物,凌辱后運往歐洲展覽?

談史論天地
2026-02-08 12:00:10
楊瀚森回NBA終有進步!4分鐘得5分,防守進步,各方面有提升!

楊瀚森回NBA終有進步!4分鐘得5分,防守進步,各方面有提升!

籃球資訊達人
2026-03-09 12:01:40
美論壇:為什么中國明知很容易被摧毀,卻還要在南海建造基地?

美論壇:為什么中國明知很容易被摧毀,卻還要在南海建造基地?

深度解析熱點
2026-03-07 19:10:18
造謠害命!霍爾木茲海峽沒“只服務(wù)中俄”,但真相比封鎖更揪心

造謠害命!霍爾木茲海峽沒“只服務(wù)中俄”,但真相比封鎖更揪心

老馬拉車莫少裝
2026-03-08 13:47:13
1953年他逃亡美國,隨身帶走7.5噸黃金,晚年遙望著中國喃喃自語

1953年他逃亡美國,隨身帶走7.5噸黃金,晚年遙望著中國喃喃自語

驚視
2026-03-09 11:13:35
OpenClaw 大更新:最值得關(guān)注的不是 GPT-5.4,而是 memory

OpenClaw 大更新:最值得關(guān)注的不是 GPT-5.4,而是 memory

InfoQ
2026-03-09 13:59:27
含鉀是香蕉的12倍!春天一周吃2次,一補鉀、二通便,三排毒

含鉀是香蕉的12倍!春天一周吃2次,一補鉀、二通便,三排毒

阿龍美食記
2026-03-07 12:55:06
手機,正在毀掉中國老人

手機,正在毀掉中國老人

LULU生活家
2026-02-23 18:02:03
彩票中獎1000萬別慌!現(xiàn)金支票和轉(zhuǎn)賬支票,選錯一步麻煩不斷

彩票中獎1000萬別慌!現(xiàn)金支票和轉(zhuǎn)賬支票,選錯一步麻煩不斷

蜉蝣說
2026-03-09 11:05:04
意外發(fā)現(xiàn)他人隱私:你的反應(yīng)是怎樣的?

意外發(fā)現(xiàn)他人隱私:你的反應(yīng)是怎樣的?

特約前排觀眾
2025-11-29 00:15:03
寄宿男孩“討好式發(fā)奶”,引來3.6萬人感慨:這樣沒人會記你的好

寄宿男孩“討好式發(fā)奶”,引來3.6萬人感慨:這樣沒人會記你的好

復(fù)轉(zhuǎn)小能手
2026-03-08 21:39:47
1975年,四川挖出了一具女尸,鑒定后確定她是中央一直在找的人

1975年,四川挖出了一具女尸,鑒定后確定她是中央一直在找的人

舊史新譚
2026-03-08 17:57:51
890億美元,600架飛機,特朗普訪華之前,中國要送美國一份大禮?

890億美元,600架飛機,特朗普訪華之前,中國要送美國一份大禮?

墨蘭史書
2026-03-09 12:40:03
谷愛凌好厲害,與美國舊金山的市長合影,花游結(jié)束了仍然回味無窮

谷愛凌好厲害,與美國舊金山的市長合影,花游結(jié)束了仍然回味無窮

小娛樂悠悠
2026-03-09 09:28:57
與潘粵明離婚14年,董潔談兩人離婚內(nèi)幕,原來大家錯怪她了

與潘粵明離婚14年,董潔談兩人離婚內(nèi)幕,原來大家錯怪她了

做一個合格的吃瓜群眾
2026-03-09 09:22:26
2026-03-09 17:23:00
王煜全 incentive-icons
王煜全
王煜全帶你一起看創(chuàng)新
1045文章數(shù) 769關(guān)注度
往期回顧 全部

科技要聞

沖上熱搜,馬化騰說沒想到“龍蝦”這么火

頭條要聞

媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

頭條要聞

媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂要聞

姆巴佩戀情確認!與26歲新歡共度良宵

財經(jīng)要聞

亞太股市黑色星期一 這次A股有點不一樣

汽車要聞

對標奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

家居
親子
本地
公開課
軍事航空

家居要聞

獨棟獨院 精致親子墅

親子要聞

愛被“排卵試紙”綁架?別讓求子心切,殺死了你們的親密

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒發(fā)布小學(xué)被炸瞬間 戰(zhàn)斧導(dǎo)彈從天而降

無障礙瀏覽 進入關(guān)懷版