国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

百度開(kāi)源訓(xùn)練框架,國(guó)產(chǎn)芯片也能跑千億模型了

0
分享至

4月24日,DeepSeek V4 雖遲但到。

1.6T 參數(shù),MIT 協(xié)議全量開(kāi)源,百萬(wàn)級(jí)上下文直接拉滿(mǎn)。


鼓掌的除了整個(gè)科技圈,還有那些在前一天賣(mài)空 Minimax 和智譜股票的股民們。

但內(nèi)行人更關(guān)注的是,DeepSeek V4 創(chuàng)新性地用了兩套全新的底層設(shè)計(jì):Engram 條件記憶模塊和 mHC(流形約束超連接)。

核心目的只有一個(gè):在保持模型效果的前提下,把訓(xùn)練和推理的成本打下來(lái)。

這說(shuō)明了一件事:模型層面的創(chuàng)新,正在和基礎(chǔ)設(shè)施層面的創(chuàng)新深度綁定。

一個(gè)月前,OpenAI 核心基礎(chǔ)設(shè)施團(tuán)隊(duì)的大牛翁家翌說(shuō)了一段話(huà),在技術(shù)圈瘋傳:"現(xiàn)在的大模型競(jìng)爭(zhēng),拼的不是 Idea 多精妙,而是 AI Infra 的正確性與單位時(shí)間內(nèi)的迭代次數(shù)。Idea 是廉價(jià)的,能被快速驗(yàn)證的 Idea 才值錢(qián)。"

這句話(huà),百度智能云的百舸團(tuán)隊(duì)顯然聽(tīng)進(jìn)去了。

最近,他們開(kāi)源了一個(gè) AI 訓(xùn)練框架,直接把這場(chǎng)"速度戰(zhàn)"的烈度往上抬了一個(gè)量級(jí)。

一個(gè)幾百億參數(shù)的模型,一張 GPU 卡裝不下,得"切"成很多塊,放到幾十張甚至幾千張卡上同時(shí)訓(xùn)練。

怎么切?模型有幾百層,每層都要切,切錯(cuò)了就跑不起來(lái)。

怎么通信?幾千張卡在訓(xùn)練,每張卡算完自己的部分,要和其他卡交換數(shù)據(jù)。交換慢了,整個(gè)訓(xùn)練就慢了。

怎么管理顯存?模型參數(shù)、梯度、優(yōu)化器狀態(tài),都要占顯存。顯存不夠,訓(xùn)練就崩了。

怎么保證穩(wěn)定?幾千張卡跑幾天幾夜,中間某張卡出問(wèn)題了,整個(gè)訓(xùn)練要重來(lái)嗎?

這些問(wèn)題,如果讓每個(gè)工程師自己解決,那得累死。于是就有了"訓(xùn)練框架"。

它像一個(gè)智能管家——自動(dòng)切分模型、優(yōu)化通信、管理顯存、保證容錯(cuò)。

有了這個(gè)"老師傅",工程師才能專(zhuān)注于模型創(chuàng)新,而不是被工程細(xì)節(jié)拖死。

把時(shí)間拉回兩年前,那時(shí)大模型基本都是"純文字",訓(xùn)練框架早就很成熟了,而且綁在 NVIDIA 一棵樹(shù)上。

但到了現(xiàn)在,情況變了:文生圖、圖生文、視頻理解、機(jī)器人控制……所有最性感的 AI 方向,都是多模態(tài)。

訓(xùn)練多模態(tài)模型,和訓(xùn)練純文字大模型,完全不是一個(gè)概念。

多模態(tài)模型——視覺(jué)編碼器(ViT)+ 語(yǔ)言模型(LLM)+ 投影層,三個(gè)模塊參數(shù)量差了上百倍。傳統(tǒng)框架只能給它們強(qiáng)制套用同一套并行策略——小的模塊閑死,大的模塊累死。

多模態(tài)數(shù)據(jù)差異巨大:?jiǎn)螐垐D片約 256 token,20 分鐘視頻超 10 萬(wàn) token。

Attention 的計(jì)算復(fù)雜度是序列長(zhǎng)度的平方級(jí),分到視頻的那塊 GPU,計(jì)算量是分到圖片的上萬(wàn)倍。

國(guó)產(chǎn)芯片越來(lái)越多地進(jìn)入大模型訓(xùn)練場(chǎng)景,但訓(xùn)練框架是深度綁定英偉達(dá) GPU。換芯片?重寫(xiě)一遍,維護(hù)兩套代碼,成本極高。好不容易遷移完了,還發(fā)現(xiàn)性能對(duì)不上。

老框架們面對(duì)多模態(tài),就像中年人面對(duì) 996,力不從心。

百度智能云百舸團(tuán)隊(duì)給出的答案,是一個(gè)全模態(tài)訓(xùn)練框架——覆蓋純文字(LLM)、視覺(jué)語(yǔ)言(VLM)、機(jī)器人控制(VLA),甚至文生圖(Diffusion)場(chǎng)景。

但說(shuō)人話(huà)就是:他們把上面那三個(gè)坑,一個(gè)一個(gè)填了。

傳統(tǒng)框架"一刀切"的并行策略,對(duì)視覺(jué)編碼器和語(yǔ)言模型都不友好。

新框架的做法是:把這兩者解耦,各自獨(dú)立配置最優(yōu)的并行方案。

這相當(dāng)于什么?以前是三個(gè)人擠一張桌子吃飯,小個(gè)子夠不著,大個(gè)子伸不開(kāi)腿?,F(xiàn)在是各坐各的桌椅,各用各的餐具,誰(shuí)也不耽誤誰(shuí)。

傳統(tǒng)框架的"大鍋飯"思路,不只耽誤效率,還浪費(fèi)成本。

新框架引入了一套自動(dòng)負(fù)載均衡機(jī)制:計(jì)算量大的樣本(比如長(zhǎng)視頻),少分配一些;計(jì)算量小的樣本(比如單張圖片),多分配一些。目標(biāo)是讓每塊 GPU 拿到的計(jì)算量盡量相當(dāng)。

這就像一個(gè)聰明的項(xiàng)目經(jīng)理,給能力強(qiáng)的人多分配任務(wù),讓團(tuán)隊(duì)整體效率最高。

解釋一下這個(gè) 90%+ 是什么概念——千卡規(guī)模下,很多框架的擴(kuò)展效率掉到 60-70% 就已經(jīng)算不錯(cuò)了。90%+ 意味著幾乎線性擴(kuò)展,每一分算力都花在了刀刃上。

針對(duì)芯片綁定的問(wèn)題,新框架做了一個(gè)叫 XPU_Plugin 的硬件接入層——底層硬件差異被這層插件吃掉。同一份訓(xùn)練代碼,只改一個(gè)環(huán)境變量,就能在 GPU 和昆侖芯之間無(wú)縫切換。想"兩條腿走路"的公司,不需要維護(hù)兩套代碼庫(kù)了。

這甚至意味著,NVIDIA 的生態(tài)壁壘,被拆掉了一層。

新框架還解決了一個(gè)更刁鉆的問(wèn)題:MoE 模型的通信瓶頸。

MoE 有大量"專(zhuān)家"分散在不同 GPU 上,訓(xùn)練要頻繁跨 GPU 通信,長(zhǎng)序列時(shí)通信成百上千次,速度被拖死。業(yè)界常規(guī)做法是讓計(jì)算和通信"重疊"——GPU 算當(dāng)前數(shù)據(jù)時(shí),同時(shí)傳輸下一批,通信時(shí)間"藏"在計(jì)算里。但提前存下一批數(shù)據(jù),顯存會(huì)爆炸,長(zhǎng)序列時(shí)這塊顯存可能比模型本身還大。

所以 MoE 訓(xùn)練要么顯存爆炸,要么通信慢。

新框架的解法是一套組合拳。DeepSeek v3.2 用了稀疏注意力技術(shù),只計(jì)算重要關(guān)系,忽略不重要的,大幅降低計(jì)算量。新框架對(duì)此做了深度優(yōu)化:算子融合、索引優(yōu)化、KV 布局優(yōu)化、序列拼接。

另一個(gè)痛點(diǎn)是新模型接入。傳統(tǒng)框架的模型定義和分布式策略深度耦合,每來(lái)一個(gè)新模型,得深入底層改代碼,周期以周計(jì)。新框架把兩者解耦,模型定義完全獨(dú)立,接入周期縮短到小時(shí)級(jí)。

翁家翌那句話(huà)的含金量還在上升:能被快速驗(yàn)證的 Idea 才值錢(qián)。框架把工程門(mén)檻打下來(lái),驗(yàn)證速度才能上去。

從更宏觀的視角看,這件事的意義不止于技術(shù)層面。

訓(xùn)練框架是 AI 基礎(chǔ)設(shè)施的核心組件,之前基本是海外巨頭的天下。百度這次開(kāi)源,意味著國(guó)產(chǎn) AI 基礎(chǔ)設(shè)施又多了一塊關(guān)鍵拼圖。

對(duì)于想做大模型的公司來(lái)說(shuō),多了一個(gè)不綁定單一芯片的選擇。對(duì)于國(guó)產(chǎn)芯片來(lái)說(shuō),多了一個(gè)能被真正用起來(lái)的軟件生態(tài)。

模型創(chuàng)新 + 基礎(chǔ)設(shè)施創(chuàng)新,兩條腿走路的范式,正在變成現(xiàn)實(shí)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
八路軍最慘痛一戰(zhàn),看完?duì)奚呒?jí)將領(lǐng)名單,主席:取消政委決定權(quán)

八路軍最慘痛一戰(zhàn),看完?duì)奚呒?jí)將領(lǐng)名單,主席:取消政委決定權(quán)

馬捗在解說(shuō)
2026-05-08 14:50:30
連續(xù)三天嫖娼一次嫖倆,花800元?dú)У粢皇峙窈门?,他圖什么?

連續(xù)三天嫖娼一次嫖倆,花800元?dú)У粢皇峙窈门?,他圖什么?

街上的行人很刺眼
2026-04-25 10:55:49
廣東隊(duì)投資人遭薩林杰強(qiáng)制“撤回” 慶祝:賽后擁抱張皓嘉難掩喜悅

廣東隊(duì)投資人遭薩林杰強(qiáng)制“撤回” 慶祝:賽后擁抱張皓嘉難掩喜悅

狼叔評(píng)論
2026-05-10 11:54:05
錢(qián)再多有什么用?68歲劉莉莉東京豪宅養(yǎng)老,卻為女兒一事夜夜難眠

錢(qián)再多有什么用?68歲劉莉莉東京豪宅養(yǎng)老,卻為女兒一事夜夜難眠

南萬(wàn)說(shuō)娛26
2026-05-10 11:46:09
16歲女孩景區(qū)內(nèi)墜亡,目擊者發(fā)聲,賠償金額曝光,景區(qū)運(yùn)營(yíng)僅49天

16歲女孩景區(qū)內(nèi)墜亡,目擊者發(fā)聲,賠償金額曝光,景區(qū)運(yùn)營(yíng)僅49天

溫柔看世界
2026-05-06 11:48:44
英國(guó)大選,綠黨被“奪舍”

英國(guó)大選,綠黨被“奪舍”

南文視界
2026-05-09 22:43:03
真被馬斯克說(shuō)中,全球爭(zhēng)搶的不是芯片,而是中國(guó)20萬(wàn)一臺(tái)的變壓器

真被馬斯克說(shuō)中,全球爭(zhēng)搶的不是芯片,而是中國(guó)20萬(wàn)一臺(tái)的變壓器

說(shuō)歷史的老牢
2026-05-09 12:34:09
哈啰回應(yīng)“員工疑將青桔美團(tuán)單車(chē)放倒合照”:已展開(kāi)內(nèi)部調(diào)查

哈啰回應(yīng)“員工疑將青桔美團(tuán)單車(chē)放倒合照”:已展開(kāi)內(nèi)部調(diào)查

財(cái)聞
2026-05-10 09:31:35
凌晨咳到吐!全國(guó)多地中招“干咳毒株”,患者猜疑新冠病毒新變種

凌晨咳到吐!全國(guó)多地中招“干咳毒株”,患者猜疑新冠病毒新變種

譚談社會(huì)
2026-05-08 23:19:21
把中國(guó)踢出局,爛尾的英國(guó)核電站,混成了核電界里的“喜劇之王”

把中國(guó)踢出局,爛尾的英國(guó)核電站,混成了核電界里的“喜劇之王”

傾世璃歌
2026-05-09 20:14:41
戴安斯抵京后,開(kāi)口就提出硬性要求,王毅斬釘截鐵,對(duì)美反將一軍

戴安斯抵京后,開(kāi)口就提出硬性要求,王毅斬釘截鐵,對(duì)美反將一軍

悅心知足
2026-05-09 16:09:34
1938年,王耀武發(fā)現(xiàn)日軍身材矮小,想出一條妙計(jì),一夜全殲日軍

1938年,王耀武發(fā)現(xiàn)日軍身材矮小,想出一條妙計(jì),一夜全殲日軍

飯小妹說(shuō)歷史
2026-05-06 09:28:08
“我們絕不向朋友的船開(kāi)火” 伊朗駐華大使表態(tài)

“我們絕不向朋友的船開(kāi)火” 伊朗駐華大使表態(tài)

看看新聞Knews
2026-05-09 23:24:04
大瓜!許家印昔日恒大奢靡細(xì)節(jié)流出,丁玉梅海外包養(yǎng)30歲白人小伙

大瓜!許家印昔日恒大奢靡細(xì)節(jié)流出,丁玉梅海外包養(yǎng)30歲白人小伙

壹月情感
2026-05-09 00:00:07
白打一輪!英超升級(jí)迎來(lái)大變革,四隊(duì)零進(jìn)球,全部都在“演戲”?

白打一輪!英超升級(jí)迎來(lái)大變革,四隊(duì)零進(jìn)球,全部都在“演戲”?

嗨皮看球
2026-05-10 00:35:15
重磅:烏克蘭在俄羅斯領(lǐng)土庫(kù)爾斯克構(gòu)建90平方公里緩沖區(qū)!

重磅:烏克蘭在俄羅斯領(lǐng)土庫(kù)爾斯克構(gòu)建90平方公里緩沖區(qū)!

項(xiàng)鵬飛
2026-05-09 20:32:37
山東出局!邱彪爆粗口“有的球員就XX不是職業(yè)球員”,矛頭指3人

山東出局!邱彪爆粗口“有的球員就XX不是職業(yè)球員”,矛頭指3人

南海浪花
2026-05-10 06:23:49
明明有133套湯臣一品的房子,卻過(guò)得想自殺,一個(gè)月才花一萬(wàn)塊錢(qián)

明明有133套湯臣一品的房子,卻過(guò)得想自殺,一個(gè)月才花一萬(wàn)塊錢(qián)

人生錄
2026-05-08 19:07:58
白酒大逃殺

白酒大逃殺

虎嗅APP
2026-05-10 05:30:10
國(guó)際足聯(lián)主動(dòng)妥協(xié),五折甩賣(mài)世界杯版權(quán),央視為何拒不買(mǎi)單

國(guó)際足聯(lián)主動(dòng)妥協(xié),五折甩賣(mài)世界杯版權(quán),央視為何拒不買(mǎi)單

蕭祃記錄風(fēng)土人情
2026-05-10 10:50:41
2026-05-10 14:08:49
報(bào)錯(cuò)免疫體
報(bào)錯(cuò)免疫體
一名在需求評(píng)審和數(shù)據(jù)異常中反復(fù)橫跳的產(chǎn)品運(yùn)營(yíng)。
2468文章數(shù) 24關(guān)注度
往期回顧 全部

科技要聞

DeepSeek融資,改寫(xiě)所有人的估值

頭條要聞

美貿(mào)易代表:中國(guó)在很大程度上限制大量美商品對(duì)華出口

頭條要聞

美貿(mào)易代表:中國(guó)在很大程度上限制大量美商品對(duì)華出口

體育要聞

詹姆斯生涯第6次0-3困境:今年會(huì)被橫掃嗎

娛樂(lè)要聞

大S女兒玥兒開(kāi)通賬號(hào),用煙花緬懷母親

財(cái)經(jīng)要聞

白酒大逃殺

汽車(chē)要聞

軸距加長(zhǎng)/智駕拉滿(mǎn) 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

教育
數(shù)碼
時(shí)尚
藝術(shù)
房產(chǎn)

教育要聞

高校爭(zhēng)開(kāi)新增本科新專(zhuān)業(yè),內(nèi)幕來(lái)啦

數(shù)碼要聞

3500元買(mǎi)蘋(píng)果本?MacBook Neo血洗入門(mén)市場(chǎng),庫(kù)克都算錯(cuò)產(chǎn)能

今年最好看的襯衫竟然是它?太減齡了!

藝術(shù)要聞

毛主席83歲時(shí)寫(xiě)給華國(guó)鋒的6字真相令人震驚!

房產(chǎn)要聞

低價(jià)甩賣(mài)!海口這個(gè)地標(biāo)商業(yè),無(wú)人接盤(pán)!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版