国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

字節(jié)跳動(dòng)vsDeepSeek,中國AI的開年雙王炸

0
分享至



作者|周煒皓

編輯|閆俊豪

2025年12月30日,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)發(fā)布《Dynamic Large Concept Models》論文,挑戰(zhàn)了“Token是計(jì)算的原子單位”這一根深蒂固的假設(shè),提出計(jì)算應(yīng)當(dāng)是分層、動(dòng)態(tài)和抽象的。

一天之后,12月31日,DeepSeek提交了一篇有梁文鋒署名的論文,論文題目是《mHC:流形約束超連接》,這篇論文直指大模型訓(xùn)練中的“信號(hào)爆炸”問題,用mHC架構(gòu)為打造超大模型搭建起“腳手架”

從打破“如何想得更快更深”的推理瓶頸,到解決“如何長得更大更穩(wěn)”的現(xiàn)實(shí)困境,字節(jié)跳動(dòng)和DeepSeek團(tuán)隊(duì)分別從兩個(gè)方向,揭開了未來AI發(fā)展的圖景一隅。

讓AI學(xué)會(huì)“速讀”與“深思”

2011年,諾貝爾獎(jiǎng)得主丹尼爾·卡尼曼在《思考,快與慢》中提出了System 1(快思考)和System 2(慢思考)的雙系統(tǒng)理論,常被用來類比AI的推理模式。

現(xiàn)有的 Transformer 模型,無論規(guī)模多大,本質(zhì)上都在執(zhí)行System 1式的直覺反應(yīng),基于統(tǒng)計(jì)規(guī)律快速預(yù)測下一個(gè)詞,缺乏System 2所具備的深思熟慮、規(guī)劃和概念抽象能力。字節(jié)跳動(dòng)團(tuán)隊(duì)則在論文中指出,語言模型不應(yīng)受限于其輸入形式,而應(yīng)具備在更高維度的“概念空間”進(jìn)行操作的能力。

舉個(gè)例子,人類在理解“中華人民共和國”這個(gè)詞時(shí),大腦激活的不僅僅是七個(gè)字的字面意義,而是一個(gè)包含政治、經(jīng)濟(jì)、文化和歷史背景的語義網(wǎng)絡(luò)。DLCM 正是試圖在神經(jīng)網(wǎng)絡(luò)中構(gòu)建這種“概念”實(shí)體。

目前的 AI 模型存在一個(gè)通病,無論是處理無意義的虛詞,比如“的”、“是”,還是處理復(fù)雜的邏輯難題,消耗的計(jì)算資源是一樣的。這不僅效率低下,也限制了模型處理復(fù)雜任務(wù)的能力。DLCM通過引入“動(dòng)態(tài)概念”機(jī)制,讓 AI 具備了類似人類的“速讀”和“慢思考”能力。



DLCM架構(gòu)概述

這套機(jī)制將處理過程分為兩步,首先,模型不再逐字逐句看書,而是自動(dòng)識(shí)別語義,將“今天天氣不錯(cuò)”這樣簡單的一串詞瞬間打包成一個(gè)“概念”略過,不費(fèi)腦力。其次,當(dāng)遇到“相對論推導(dǎo)”這樣的硬骨頭時(shí),模型會(huì)停下來,在壓縮后的“概念空間”里調(diào)動(dòng)深層算力進(jìn)行縝密推理。

用更容易理解的話說,過去AI就像個(gè)死板的經(jīng)理,無論是審批買文具的 5 元發(fā)票,還是審批5個(gè)億的投資項(xiàng)目,都要花1個(gè)小時(shí)去審核。而引入DLCM后,這個(gè)經(jīng)理就有了抓大放小的能力,審批文具發(fā)票只花1秒鐘,把節(jié)省下來的時(shí)間和精力,全部用來仔細(xì)研究那個(gè)5億的投資項(xiàng)目。

把好鋼用在了刀刃上,比起普通AI,DLCM在處理燒腦的邏輯推理題時(shí)更聰明,推理計(jì)算量減少了約34%,處理多步邏輯推理任務(wù)時(shí),準(zhǔn)確率反而平均提升了2.69%。對于擁有億級用戶的字節(jié)跳動(dòng)來說,這意味著可以用更低的芯片成本,提供更聰明、反應(yīng)更快的 AI 服務(wù)。

“音量守恒”魔咒

“信號(hào)爆炸”,是過去大模型訓(xùn)練中的“地雷”。一旦踩中,不管你花了多少錢進(jìn)行訓(xùn)練,模型都可能瞬間崩潰,前功盡棄。

為了理解 DeepSeek 這項(xiàng)mHC技術(shù)的價(jià)值,我們可以把訓(xùn)練大模型想象成一場幾百人參與的“傳話游戲”。

在這個(gè)游戲中,“人”就是神經(jīng)網(wǎng)絡(luò)的層,“話”就是數(shù)據(jù)傳輸?shù)男盘?hào)或特征信息。在最早的深度網(wǎng)絡(luò)中,幾百人排成一列傳話。如果每個(gè)人都只靠“聽和說”,傳到第100個(gè)人時(shí),消息往往已經(jīng)面目全非或者變得極其夸張。

這就是早期深層網(wǎng)絡(luò)訓(xùn)練困難的原因。過去,ResNet的解決方案是制定規(guī)則,讓每個(gè)人在傳話的同時(shí),必須把上一給人給你的“原話”寫在小紙條上,原封不動(dòng)地遞給下一個(gè)人。即使某個(gè)人腦子短路了,下一個(gè)人至少還能收到那張“小紙條”,保證了最基礎(chǔ)的信息不會(huì)丟,這就是恒等映射。

但問題在于,這是一條“單行道”,隨著模型越來越大,這張“小紙條”上寫的字越來越多,想在上面塞進(jìn)更多的邏輯、語法和知識(shí),變得越來越困難。

為了解決“單行道”擁擠的問題,字節(jié)跳動(dòng)等研究者想出了一個(gè)辦法,從過去的一列隊(duì)伍改成多排幾列,并允許這幾列隊(duì)伍之間互相交流。新的問題出現(xiàn)了,由于沒有制定嚴(yán)格的“音量規(guī)則”,大家因?yàn)槟芑ハ嘟涣髯兊梅浅Ed奮。

第一列的人喊了一嗓子,第二列的人覺得很重要,于是拿個(gè)大喇叭復(fù)述,第三列的人聽到了,又把聲音放大幾倍傳回去。就這么一團(tuán)亂麻傳到最后,聲音被放大幾千倍,全是噪音,根本聽不清原本的消息,導(dǎo)致訓(xùn)練直接崩潰,這就是HC導(dǎo)致的大模型訓(xùn)練的困境。



結(jié)果表明,mHC 在損失和梯度范數(shù)方面都表現(xiàn)出更高的穩(wěn)定性

在這個(gè)背景下,DeepSeek的研究員意識(shí)到,多列隊(duì)伍是好主意,但必須治理“噪音爆炸”。于是他們引入了數(shù)學(xué)上的流形約束,依然是多列隊(duì)伍并行,依然允許互相交流,但每個(gè)人面前放了一個(gè)分貝儀,如果你想聽其他列的消息,可以,但你從他們那里接收的“總音量”必須嚴(yán)格等于1。

你想多聽第一列的人在說什么,就得捂住另一只耳朵少聽其他列里的人說話,如果你要往后面?zhèn)髟挘愕穆曇粢脖仨毷?分貝。這樣的好處在于,不管隊(duì)伍排多長,不管大家怎么互相傳八卦,整個(gè)房間的總音量始終控制在一個(gè)合理的范圍內(nèi)。

這就是mHC最關(guān)鍵的作用,將深層網(wǎng)絡(luò)的信號(hào)增益從3000倍壓制到1.6倍左右,實(shí)現(xiàn)了3個(gè)數(shù)量級的穩(wěn)定性提升。DeepSeek 利用 Sinkhorn-Knopp 算法強(qiáng)行“熨平”了所有的信號(hào)波動(dòng),無論模型有多大,內(nèi)部結(jié)構(gòu)都穩(wěn)如泰山。

這項(xiàng)技術(shù)以僅增加 6.7% 訓(xùn)練時(shí)間的微小代價(jià),換來了極度的穩(wěn)定性。

從“恐懼”到“貪婪”

這兩篇論文發(fā)布后,市場的反應(yīng)也值得關(guān)注。

回想一年前的2025年1月27日,DeepSeek發(fā)布初代R1模型,全球資本市場曾陷入“算力通縮”的恐慌。當(dāng)時(shí),華爾街擔(dān)心中國廠商極高的算法效率會(huì)大幅減少對GPU的需求,導(dǎo)致英偉達(dá)股價(jià)單日暴跌17%,市值蒸發(fā)近5900億美元。

然而,2026 年1月2日,面對mHC和DLCM這兩項(xiàng)進(jìn)一步大幅降低算力成本、提升模型效率的“王炸”級技術(shù),資本市場卻表現(xiàn)出截然不同的態(tài)度。在兩篇論文發(fā)布后的首個(gè)交易日,英偉達(dá)股價(jià)并未因“需求減少”的邏輯而下跌,反而逆勢上揚(yáng)1.26%,收于188.85 美元。

這種反差背后,是“杰文斯悖論”在發(fā)揮作用。早在工業(yè)革命時(shí)代,這位英國經(jīng)濟(jì)學(xué)家就發(fā)現(xiàn),當(dāng)技術(shù)進(jìn)步提高了使用資源的效率,但成本降低導(dǎo)致需求增加,會(huì)令資源消耗的速度不減反增。

比起“DeepSeek時(shí)刻”那會(huì)兒,市場擔(dān)心效率提升會(huì)導(dǎo)致顯卡需求下降,現(xiàn)在的投資者們想明白了一點(diǎn),效率提升以后,還可以把AI塞進(jìn)手機(jī)、眼鏡和汽車?yán)?,不僅不會(huì)少買,反而需要建設(shè)更龐大的推理集群來服務(wù)數(shù)十億用戶。

字節(jié)跳動(dòng)的DLCM通過降低34%的推理成本,為AI落地應(yīng)用掃清了障礙,DeepSeek的mHC則保證了未來更大規(guī)模模型的誕生,這兩者疊加,AI的蛋糕被做得更大了。

2026年開年的這兩篇論文,不僅是字節(jié)跳動(dòng)和DeepSeek的技術(shù)秀,更是中國AI產(chǎn)業(yè)在高端芯片受限背景下走出的一條“不對稱競爭”之路。如果說過去兩年大家還在比拼誰的顯卡更多,那么從現(xiàn)在開始,比賽進(jìn)入了比拼誰的腦子更快的新階段。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
如果不出意外,2026年5月開始,中國房價(jià)、樓市或迎來“4大轉(zhuǎn)變”

如果不出意外,2026年5月開始,中國房價(jià)、樓市或迎來“4大轉(zhuǎn)變”

混沌錄
2026-04-23 16:50:14
112名“中國留學(xué)生”,被調(diào)查

112名“中國留學(xué)生”,被調(diào)查

中國新聞周刊
2026-04-22 07:35:10
狄龍:季后賽應(yīng)該像喬丹、詹姆斯一樣強(qiáng)硬,亞歷山大有點(diǎn)脆弱

狄龍:季后賽應(yīng)該像喬丹、詹姆斯一樣強(qiáng)硬,亞歷山大有點(diǎn)脆弱

懂球帝
2026-04-23 13:41:07
勸退!“去客廳化”火了5年,為什么70%家庭最后都偷偷把沙發(fā)搬了回來?

勸退!“去客廳化”火了5年,為什么70%家庭最后都偷偷把沙發(fā)搬了回來?

繪本家居
2026-04-10 11:13:39
賴清德等一伙臺(tái)獨(dú)首惡分子準(zhǔn)備逃跑

賴清德等一伙臺(tái)獨(dú)首惡分子準(zhǔn)備逃跑

小馬姨
2026-04-23 08:58:35
皇馬遭重創(chuàng):居勒爾與米利唐賽季報(bào)銷,巴西中衛(wèi)世界杯前景堪憂

皇馬遭重創(chuàng):居勒爾與米利唐賽季報(bào)銷,巴西中衛(wèi)世界杯前景堪憂

星耀國際足壇
2026-04-24 02:05:50
看完這7件事,我終于懂了:中國足球的離譜,早就超出了人類認(rèn)知

看完這7件事,我終于懂了:中國足球的離譜,早就超出了人類認(rèn)知

圣西羅的太陽
2026-04-23 13:24:10
真主黨最后的榮耀:指揮官陣亡,800死士被鐵桶合圍死戰(zhàn)不退

真主黨最后的榮耀:指揮官陣亡,800死士被鐵桶合圍死戰(zhàn)不退

民間胡扯老哥
2026-04-22 13:40:23
央視八套明晚雙劇連播!40集豪華陣容,愛奇藝騰訊同步開播,這排面太強(qiáng)了!

央視八套明晚雙劇連播!40集豪華陣容,愛奇藝騰訊同步開播,這排面太強(qiáng)了!

草莓解說體育
2026-04-23 17:52:46
伊朗不談,特朗普再給5天時(shí)間:只有我敢打伊朗!打越南我也能贏

伊朗不談,特朗普再給5天時(shí)間:只有我敢打伊朗!打越南我也能贏

王姐懶人家常菜
2026-04-23 18:02:03
寧王的閃充發(fā)布會(huì),堪稱大型翻車現(xiàn)場,用PPT上的錯(cuò)別字致敬2019

寧王的閃充發(fā)布會(huì),堪稱大型翻車現(xiàn)場,用PPT上的錯(cuò)別字致敬2019

音樂時(shí)光的娛樂
2026-04-23 12:53:20
錢天一:嫁給王昶靠婚姻逆天改運(yùn),網(wǎng)傳閨蜜因羨慕最終與男友分手

錢天一:嫁給王昶靠婚姻逆天改運(yùn),網(wǎng)傳閨蜜因羨慕最終與男友分手

科學(xué)發(fā)掘
2026-04-23 21:24:47
39萬億美債還不起,特朗普決定“干掉”大債主,為此不惜自曝家丑

39萬億美債還不起,特朗普決定“干掉”大債主,為此不惜自曝家丑

古史青云啊
2026-04-23 10:04:31
炸鍋!美商務(wù)部長親口承認(rèn):中國一塊H200芯片都沒買,原因不簡單

炸鍋!美商務(wù)部長親口承認(rèn):中國一塊H200芯片都沒買,原因不簡單

普陀動(dòng)物世界
2026-04-23 17:41:15
陪睡陪玩不算啥!繼注射藥物后,王陽被曝“大丑聞”,又有人遭殃

陪睡陪玩不算啥!繼注射藥物后,王陽被曝“大丑聞”,又有人遭殃

墨印齋
2026-04-16 15:52:26
終于判了!幫恒大做假賬的,賠10億給股民

終于判了!幫恒大做假賬的,賠10億給股民

說財(cái)貓
2026-04-23 20:42:48
內(nèi)心強(qiáng)大到可怕的12種境界,讀完一身冷汗,建議收藏

內(nèi)心強(qiáng)大到可怕的12種境界,讀完一身冷汗,建議收藏

金沛的國學(xué)筆記
2026-04-12 20:56:09
墮落的“清純女星”酒井法子,這張腿間蝴蝶背后,隱藏著的故事

墮落的“清純女星”酒井法子,這張腿間蝴蝶背后,隱藏著的故事

七阿姨愛八卦
2026-03-29 10:12:33
調(diào)查發(fā)現(xiàn):每天都走路的人,大多到了75歲后,身體或有5種變化

調(diào)查發(fā)現(xiàn):每天都走路的人,大多到了75歲后,身體或有5種變化

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-03-27 23:34:03
越南談中越戰(zhàn)爭:中國不是給越南一個(gè)教訓(xùn),而是摧毀,他們做到了

越南談中越戰(zhàn)爭:中國不是給越南一個(gè)教訓(xùn),而是摧毀,他們做到了

鶴羽說個(gè)事
2026-04-23 22:56:07
2026-04-24 02:23:03
速途網(wǎng) incentive-icons
速途網(wǎng)
17年歷史深度科技內(nèi)容平臺(tái),長期追蹤AI、機(jī)器人、智能出行等前沿領(lǐng)域,助力中國硬科技每一次躍遷。
2335文章數(shù) 11433關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預(yù)售30.29萬起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

教育
旅游
房產(chǎn)
本地
公開課

教育要聞

推薦一款高考志愿卡,五大功能助你解決志愿疑難

旅游要聞

來廣州,分享10億元“中國旅游日”專屬優(yōu)惠福利

房產(chǎn)要聞

三亞安居房,突然官宣!

本地新聞

SAGA GIRLS 2026女團(tuán)選秀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版