国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)跳動vsDeepSeek,中國AI的開年雙王炸

0
分享至



作者|周煒皓

編輯|閆俊豪

2025年12月30日,字節(jié)跳動Seed團隊發(fā)布《Dynamic Large Concept Models》論文,挑戰(zhàn)了“Token是計算的原子單位”這一根深蒂固的假設,提出計算應當是分層、動態(tài)和抽象的。

一天之后,12月31日,DeepSeek提交了一篇有梁文鋒署名的論文,論文題目是《mHC:流形約束超連接》,這篇論文直指大模型訓練中的“信號爆炸”問題,用mHC架構為打造超大模型搭建起“腳手架”

從打破“如何想得更快更深”的推理瓶頸,到解決“如何長得更大更穩(wěn)”的現(xiàn)實困境,字節(jié)跳動和DeepSeek團隊分別從兩個方向,揭開了未來AI發(fā)展的圖景一隅。

讓AI學會“速讀”與“深思”

2011年,諾貝爾獎得主丹尼爾·卡尼曼在《思考,快與慢》中提出了System 1(快思考)和System 2(慢思考)的雙系統(tǒng)理論,常被用來類比AI的推理模式。

現(xiàn)有的 Transformer 模型,無論規(guī)模多大,本質上都在執(zhí)行System 1式的直覺反應,基于統(tǒng)計規(guī)律快速預測下一個詞,缺乏System 2所具備的深思熟慮、規(guī)劃和概念抽象能力。字節(jié)跳動團隊則在論文中指出,語言模型不應受限于其輸入形式,而應具備在更高維度的“概念空間”進行操作的能力。

舉個例子,人類在理解“中華人民共和國”這個詞時,大腦激活的不僅僅是七個字的字面意義,而是一個包含政治、經(jīng)濟、文化和歷史背景的語義網(wǎng)絡。DLCM 正是試圖在神經(jīng)網(wǎng)絡中構建這種“概念”實體。

目前的 AI 模型存在一個通病,無論是處理無意義的虛詞,比如“的”、“是”,還是處理復雜的邏輯難題,消耗的計算資源是一樣的。這不僅效率低下,也限制了模型處理復雜任務的能力。DLCM通過引入“動態(tài)概念”機制,讓 AI 具備了類似人類的“速讀”和“慢思考”能力。



DLCM架構概述

這套機制將處理過程分為兩步,首先,模型不再逐字逐句看書,而是自動識別語義,將“今天天氣不錯”這樣簡單的一串詞瞬間打包成一個“概念”略過,不費腦力。其次,當遇到“相對論推導”這樣的硬骨頭時,模型會停下來,在壓縮后的“概念空間”里調動深層算力進行縝密推理。

用更容易理解的話說,過去AI就像個死板的經(jīng)理,無論是審批買文具的 5 元發(fā)票,還是審批5個億的投資項目,都要花1個小時去審核。而引入DLCM后,這個經(jīng)理就有了抓大放小的能力,審批文具發(fā)票只花1秒鐘,把節(jié)省下來的時間和精力,全部用來仔細研究那個5億的投資項目。

把好鋼用在了刀刃上,比起普通AI,DLCM在處理燒腦的邏輯推理題時更聰明,推理計算量減少了約34%,處理多步邏輯推理任務時,準確率反而平均提升了2.69%。對于擁有億級用戶的字節(jié)跳動來說,這意味著可以用更低的芯片成本,提供更聰明、反應更快的 AI 服務。

“音量守恒”魔咒

“信號爆炸”,是過去大模型訓練中的“地雷”。一旦踩中,不管你花了多少錢進行訓練,模型都可能瞬間崩潰,前功盡棄。

為了理解 DeepSeek 這項mHC技術的價值,我們可以把訓練大模型想象成一場幾百人參與的“傳話游戲”。

在這個游戲中,“人”就是神經(jīng)網(wǎng)絡的層,“話”就是數(shù)據(jù)傳輸?shù)男盘柣蛱卣餍畔?。在最早的深度網(wǎng)絡中,幾百人排成一列傳話。如果每個人都只靠“聽和說”,傳到第100個人時,消息往往已經(jīng)面目全非或者變得極其夸張。

這就是早期深層網(wǎng)絡訓練困難的原因。過去,ResNet的解決方案是制定規(guī)則,讓每個人在傳話的同時,必須把上一給人給你的“原話”寫在小紙條上,原封不動地遞給下一個人。即使某個人腦子短路了,下一個人至少還能收到那張“小紙條”,保證了最基礎的信息不會丟,這就是恒等映射。

但問題在于,這是一條“單行道”,隨著模型越來越大,這張“小紙條”上寫的字越來越多,想在上面塞進更多的邏輯、語法和知識,變得越來越困難。

為了解決“單行道”擁擠的問題,字節(jié)跳動等研究者想出了一個辦法,從過去的一列隊伍改成多排幾列,并允許這幾列隊伍之間互相交流。新的問題出現(xiàn)了,由于沒有制定嚴格的“音量規(guī)則”,大家因為能互相交流變得非常興奮。

第一列的人喊了一嗓子,第二列的人覺得很重要,于是拿個大喇叭復述,第三列的人聽到了,又把聲音放大幾倍傳回去。就這么一團亂麻傳到最后,聲音被放大幾千倍,全是噪音,根本聽不清原本的消息,導致訓練直接崩潰,這就是HC導致的大模型訓練的困境。



結果表明,mHC 在損失和梯度范數(shù)方面都表現(xiàn)出更高的穩(wěn)定性

在這個背景下,DeepSeek的研究員意識到,多列隊伍是好主意,但必須治理“噪音爆炸”。于是他們引入了數(shù)學上的流形約束,依然是多列隊伍并行,依然允許互相交流,但每個人面前放了一個分貝儀,如果你想聽其他列的消息,可以,但你從他們那里接收的“總音量”必須嚴格等于1。

你想多聽第一列的人在說什么,就得捂住另一只耳朵少聽其他列里的人說話,如果你要往后面?zhèn)髟?,你的聲音也必須?分貝。這樣的好處在于,不管隊伍排多長,不管大家怎么互相傳八卦,整個房間的總音量始終控制在一個合理的范圍內。

這就是mHC最關鍵的作用,將深層網(wǎng)絡的信號增益從3000倍壓制到1.6倍左右,實現(xiàn)了3個數(shù)量級的穩(wěn)定性提升。DeepSeek 利用 Sinkhorn-Knopp 算法強行“熨平”了所有的信號波動,無論模型有多大,內部結構都穩(wěn)如泰山。

這項技術以僅增加 6.7% 訓練時間的微小代價,換來了極度的穩(wěn)定性。

從“恐懼”到“貪婪”

這兩篇論文發(fā)布后,市場的反應也值得關注。

回想一年前的2025年1月27日,DeepSeek發(fā)布初代R1模型,全球資本市場曾陷入“算力通縮”的恐慌。當時,華爾街擔心中國廠商極高的算法效率會大幅減少對GPU的需求,導致英偉達股價單日暴跌17%,市值蒸發(fā)近5900億美元。

然而,2026 年1月2日,面對mHC和DLCM這兩項進一步大幅降低算力成本、提升模型效率的“王炸”級技術,資本市場卻表現(xiàn)出截然不同的態(tài)度。在兩篇論文發(fā)布后的首個交易日,英偉達股價并未因“需求減少”的邏輯而下跌,反而逆勢上揚1.26%,收于188.85 美元。

這種反差背后,是“杰文斯悖論”在發(fā)揮作用。早在工業(yè)革命時代,這位英國經(jīng)濟學家就發(fā)現(xiàn),當技術進步提高了使用資源的效率,但成本降低導致需求增加,會令資源消耗的速度不減反增。

比起“DeepSeek時刻”那會兒,市場擔心效率提升會導致顯卡需求下降,現(xiàn)在的投資者們想明白了一點,效率提升以后,還可以把AI塞進手機、眼鏡和汽車里,不僅不會少買,反而需要建設更龐大的推理集群來服務數(shù)十億用戶。

字節(jié)跳動的DLCM通過降低34%的推理成本,為AI落地應用掃清了障礙,DeepSeek的mHC則保證了未來更大規(guī)模模型的誕生,這兩者疊加,AI的蛋糕被做得更大了。

2026年開年的這兩篇論文,不僅是字節(jié)跳動和DeepSeek的技術秀,更是中國AI產(chǎn)業(yè)在高端芯片受限背景下走出的一條“不對稱競爭”之路。如果說過去兩年大家還在比拼誰的顯卡更多,那么從現(xiàn)在開始,比賽進入了比拼誰的腦子更快的新階段。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結局爽了

女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結局爽了

云景侃記
2026-02-28 14:23:19
美國CIA只用不到100萬美元,就將伊朗的國運改寫了足足70多年

美國CIA只用不到100萬美元,就將伊朗的國運改寫了足足70多年

爆角追蹤
2026-03-01 14:57:47
32萬彩禮不讓碰后續(xù):彩禮已花完,女方全村社死,自曝另有隱情

32萬彩禮不讓碰后續(xù):彩禮已花完,女方全村社死,自曝另有隱情

離離言幾許
2026-02-28 18:06:09
外媒稱哈梅內伊在其工作場所遇害,為何沒躲避?為何能精準定位?

外媒稱哈梅內伊在其工作場所遇害,為何沒躲避?為何能精準定位?

之乎者也小魚兒
2026-03-01 11:44:00
哈梅內伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時候

哈梅內伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時候

小蘿卜絲
2026-03-01 09:56:11
特朗普剛剛警告伊朗,若發(fā)起“歷史上最猛烈的進攻行動”,美國將以前所未見的強大力量予以回擊

特朗普剛剛警告伊朗,若發(fā)起“歷史上最猛烈的進攻行動”,美國將以前所未見的強大力量予以回擊

都市快報橙柿互動
2026-03-01 14:12:20
美以是如何快速“斬首”哈梅內伊的?但伊朗政權沒那么容易顛覆

美以是如何快速“斬首”哈梅內伊的?但伊朗政權沒那么容易顛覆

今日馬說
2026-03-01 11:28:25
伊朗最高領袖和總統(tǒng)目前狀況良好

伊朗最高領袖和總統(tǒng)目前狀況良好

環(huán)球網(wǎng)資訊
2026-02-28 21:46:30
伊朗第7輪導彈洗地開始,美航母基地遭殃,以色列先發(fā)制人成笑話

伊朗第7輪導彈洗地開始,美航母基地遭殃,以色列先發(fā)制人成笑話

黑鷹觀軍事
2026-02-28 22:32:24
不只是Seedance2.0!又一國產(chǎn)模型殺入全球榜二,改寫AI視頻格局

不只是Seedance2.0!又一國產(chǎn)模型殺入全球榜二,改寫AI視頻格局

智東西
2026-02-28 19:45:33
明天開學雨停風變大,上海到底入春了嗎?|丹丹看天氣

明天開學雨停風變大,上海到底入春了嗎?|丹丹看天氣

上觀新聞
2026-03-01 13:32:10
回顧:浙江幼師幼兒園潛伏22年,警察曝光真實身份,家長后怕不已

回顧:浙江幼師幼兒園潛伏22年,警察曝光真實身份,家長后怕不已

談史論天地
2026-03-01 09:49:38
又一個國家采取軍事行動! 瑞典在厄勒海峽上空攔截了俄羅斯無人機

又一個國家采取軍事行動! 瑞典在厄勒海峽上空攔截了俄羅斯無人機

一種觀點
2026-02-28 08:44:21
哈梅內伊身亡細節(jié)公開!美以對伊朗發(fā)動“斬首式”打擊,沖突走向難料

哈梅內伊身亡細節(jié)公開!美以對伊朗發(fā)動“斬首式”打擊,沖突走向難料

上觀新聞
2026-03-01 11:17:06
美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

知法而形
2026-03-01 10:21:49
英媒爆出猛料:中國或違反聯(lián)合國規(guī)定,運送超高音速導彈給伊朗!

英媒爆出猛料:中國或違反聯(lián)合國規(guī)定,運送超高音速導彈給伊朗!

快看張同學
2026-02-26 14:22:43
演都不演了!剛復出就開演唱會,票價賣到1280,到底誰給的自信

演都不演了!剛復出就開演唱會,票價賣到1280,到底誰給的自信

樂悠悠娛樂
2026-03-01 10:27:25
哈梅內伊身亡,布達諾夫:俄羅斯會接受美國為烏克蘭提供的安全保證 | 狼叔看世界

哈梅內伊身亡,布達諾夫:俄羅斯會接受美國為烏克蘭提供的安全保證 | 狼叔看世界

狼叔看世界
2026-03-01 11:40:52
監(jiān)獄里會發(fā)勞動報酬嗎?一網(wǎng)友稱老公2月收入83元,坐牢3年多了…

監(jiān)獄里會發(fā)勞動報酬嗎?一網(wǎng)友稱老公2月收入83元,坐牢3年多了…

火山詩話
2026-03-01 07:41:44
新加坡大滿貫賽:太遺憾!國乒男單3:4惜敗,無緣沖擊男單冠軍

新加坡大滿貫賽:太遺憾!國乒男單3:4惜敗,無緣沖擊男單冠軍

國乒二三事
2026-03-01 11:56:32
2026-03-01 15:47:00
速途網(wǎng) incentive-icons
速途網(wǎng)
互聯(lián)網(wǎng)科技資訊
2309文章數(shù) 11429關注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

專家:伊朗局勢可參考委內瑞拉 反美力量將進一步削弱

頭條要聞

專家:伊朗局勢可參考委內瑞拉 反美力量將進一步削弱

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹言陳哲遠燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

小米汽車2月交付超20000臺 雷軍:為新SU7量產(chǎn)作準備

態(tài)度原創(chuàng)

本地
游戲
親子
公開課
軍事航空

本地新聞

津南好·四時總相宜

黑客大哥又發(fā)力了!《真女神5》發(fā)售近兩年終被破解

親子要聞

寶寶起床氣嚴重,“硬碰硬”相當不靠譜,5招趕走起床氣

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實時戰(zhàn)況

無障礙瀏覽 進入關懷版