国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

阿里開源全新MoE架構(gòu)Qwen3-Next,是不是在適配它的自研芯片

0
分享至

就在市場傳聞阿里已經(jīng)開始使用自研芯片訓(xùn)練AI模型時,阿里推出了其下一代模型的雛形Qwen3-Next。

阿里巴巴正式開源的兩款模型,分別是Qwen3-Next-80B-A3B的指令(Insctruct)模型和推理(Thinking)模型。兩者在在大多數(shù)標(biāo)準(zhǔn)化基準(zhǔn)測試中,接近阿里旗下旗艦?zāi)P蚎wen3-235B-A22B系列對應(yīng)最新模型。相當(dāng)于在總參數(shù)規(guī)模下降2/3,激活參數(shù)規(guī)模下降5/6的前提下,輸出大致相當(dāng)?shù)慕Y(jié)果。

這不是一次常規(guī)的模型迭代。通義千問大模型負(fù)責(zé)人林俊旸自稱為“大膽”。它嘗試用極致稀疏MoE,低成本擴展模型的智能涌現(xiàn)的上限;邁出了高度復(fù)雜的混合注意力(Hybrid Attention)的一大步,既高效又精準(zhǔn)地擴展上下文長度。


這背后是阿里通義千問團隊對大模型技術(shù)趨勢的兩大預(yù)判,即未來將主要依賴總參數(shù)規(guī)模和上下文長度的擴展??倕?shù)規(guī)模越大,模型潛在能力和智能涌現(xiàn)上限越高;上下文長度越長,模型的記憶能力和持續(xù)交互能力也隨之增強。

在一片阿里開始使用自研芯片訓(xùn)練模型的傳聞中,阿里并沒有透露它用什么芯片訓(xùn)練出來的。而軟硬件之間的高效協(xié)調(diào)適配,降低token成本,已經(jīng)成為定制芯片(ASIC)的趨勢。

據(jù)科技媒體Information報道,阿里的Zhenwu處理器今年已經(jīng)投入實用,性能略優(yōu)于英偉達(dá)的A100,目前主要用于較小模型的訓(xùn)練。

隨著稠密模型參數(shù)規(guī)模接近萬億,繼續(xù)擴展變得愈發(fā)昂貴。受限于先進(jìn)芯片供給,中國開源模型陣營普遍轉(zhuǎn)向稀疏專家模型,以實現(xiàn)知識容量與計算成本的解耦。而且,通義千問團隊發(fā)現(xiàn),增加總專家數(shù)量往往可以持續(xù)降低訓(xùn)練損失。因此,通過壓縮每次激活參數(shù)規(guī)模的占比,就可以盡可能地擴展總參數(shù)規(guī)模;當(dāng)然,實現(xiàn)它仍然需要非常多的技術(shù)創(chuàng)新,包括更精準(zhǔn)的路由策略。

Qwen3-Next要比之前的Qwen3-MoE稀疏得多。Qwen3-MoE擁有128個專家模型和8個路由專家,Qwen3-Next則擴展到了512個總專家,10路由專家與1共享專家的組合。同行最近發(fā)布的Kimi-K2模型,也實現(xiàn)了384 個專家激活8個的配置。

Qwen3-Next系列的總參數(shù)規(guī)模不會止步于800億。在GPT時代之前,阿里巴巴就嘗試過萬億參數(shù)級稀疏模型;近期又預(yù)覽了1萬億參數(shù)規(guī)模的Qwen3-Max-Preview。本次Qwen3-Next的預(yù)訓(xùn)練僅使用了15T tokens,相比Qwen3的36T tokens顯著減少??梢詫⑵淇醋饕淮螌ΜF(xiàn)有技術(shù)的“中試”,為未來工程優(yōu)化后的“量產(chǎn)”版本奠定基礎(chǔ)。真正的“Qwen 3.5”將提供更多可選配置,在相同硬件和工作負(fù)載條件下,不同的總參數(shù)規(guī)模與激活參數(shù)規(guī)模組合將影響模型部署成本,并在推理階段決定成本、速度與性能的權(quán)衡空間。

上下文長度是另一個關(guān)鍵維度。目前Qwen3-Next系列原生支持262k上下文長度,并可擴展至百萬tokens。理論上,上下文越長越好。然而,作為Transformer的核心創(chuàng)新,大模型與生成式AI的基礎(chǔ),標(biāo)準(zhǔn)自注意力機制在長序列下的計算復(fù)雜度呈二次增長:在預(yù)填充(prefill)階段主要體現(xiàn)為算力需求的急劇增加,而在解碼(decode)階段則受內(nèi)存帶寬限制成為瓶頸。

這也是為什么中國開源大模型普遍將自注意力機制的優(yōu)化作為重點。DeepSeek提出了潛在多頭注意力(MLA),嘗試減少內(nèi)存占用;MiniMax的閃電注意力(Lightning Attention)則是線性注意力(Linear Attention)的變體,旨在降低算力消耗;月之暗面的MoBA,事實上是基于塊(Block)的稀疏注意力(Sparse Attention)。這些優(yōu)化路線雖各具特色,但并不適用于所有任務(wù),尤其在需要高精度和復(fù)雜推理的場景下仍存在局限。

混合注意力正成為下一代大模型中被廣泛關(guān)注的重點探索方向。幾個月前,MiniMax-01架構(gòu)負(fù)責(zé)人在采訪中承認(rèn),完全的線性注意力在長上下文里準(zhǔn)確“找回”關(guān)鍵信息的能力并不好。MiniMax判斷,未來將屬于混合注意力機制,M1就是該公司對此的初步驗證;英偉達(dá)的Nemotron-H同樣如此。


目前,Qwen3-Next邁出的步子最大,75%采用線性注意力,25%保留標(biāo)準(zhǔn)注意力。線性注意力的Gated DeltaNet用于長程信息掃描,并可及時清除無關(guān)歷史信息;阿里自研的Gated Attention則專注捕獲關(guān)鍵局部信息。這一比例顯示,每一項改進(jìn)都是整套混合注意力機制的核心,而非點綴。在發(fā)布前,通義千問團隊已對線性注意力進(jìn)行了約一年的持續(xù)探索,用林俊旸的話說,期間經(jīng)歷了“大量試錯”。

越是稀疏的模型,越是難以訓(xùn)練。此前,Meta在Llama 4中首次嘗試引入MoE架構(gòu)就遇到挫折。針對這一挑戰(zhàn),通義千問團隊設(shè)計了多項訓(xùn)練優(yōu)化措施,確保訓(xùn)練過程的穩(wěn)定性。同時,Qwen3-Next原生集成了多token預(yù)測(MTP)技術(shù),有效提升了解碼階段的推理速度。

Qwen3-Next終將向各類應(yīng)用場景落地。未來,硬件定制、軟硬件協(xié)同以及工作負(fù)載優(yōu)化,仍是在實踐中提升AI體驗的關(guān)鍵路徑。英偉達(dá)為上下文處理專門定制了Rubin CPX芯片,阿里巴巴自研芯片與新模型架構(gòu)之間的協(xié)同,也是令人興奮的關(guān)注點。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
不戰(zhàn)而勝!對手門??艘騻速?,德約生涯第65次躋身大滿貫八強

不戰(zhàn)而勝!對手門希克因傷退賽,德約生涯第65次躋身大滿貫八強

全景體育V
2026-01-25 17:37:59
“美國斬殺線”事件詳細(xì)梳理:最新爆料美女留學(xué)生當(dāng)“狗”太辣眼

“美國斬殺線”事件詳細(xì)梳理:最新爆料美女留學(xué)生當(dāng)“狗”太辣眼

聽風(fēng)聽你
2026-01-24 20:54:06
替補出場2分鐘染黃!拜合拉木賽后手指著裁判說話 39度高燒仍拼命

替補出場2分鐘染黃!拜合拉木賽后手指著裁判說話 39度高燒仍拼命

風(fēng)過鄉(xiāng)
2026-01-25 10:59:52
國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

國家下狠手了!體制內(nèi)大地震,少爺、公主們的“天”,要塌了

霹靂炮
2026-01-19 22:24:13
雷軍無奈宣布:全部下架!

雷軍無奈宣布:全部下架!

電動知家
2026-01-25 15:31:25
記者:徐彬與中國U23在吉達(dá)告別,已正式啟程前往英國迎接新挑戰(zhàn)

記者:徐彬與中國U23在吉達(dá)告別,已正式啟程前往英國迎接新挑戰(zhàn)

懂球帝
2026-01-25 16:26:22
58歲那英改走顏值路線?過度醫(yī)美變化大到認(rèn)不出,這是要鬧哪出?

58歲那英改走顏值路線?過度醫(yī)美變化大到認(rèn)不出,這是要鬧哪出?

鋒哥與八卦哥
2026-01-25 13:26:51
出大事了!中國收到“戰(zhàn)書”,這次不是美國,中方已經(jīng)做好準(zhǔn)備

出大事了!中國收到“戰(zhàn)書”,這次不是美國,中方已經(jīng)做好準(zhǔn)備

愛吃醋的貓咪
2026-01-23 20:27:00
武漢理工畢業(yè)做保安!男子被學(xué)校約談后,稱保安比送外賣掙得多…

武漢理工畢業(yè)做保安!男子被學(xué)校約談后,稱保安比送外賣掙得多…

火山詩話
2026-01-25 09:02:44
一語道破女留學(xué)生的牢A,親眼目睹陪讀媽媽的悲哀,到底真還是假

一語道破女留學(xué)生的牢A,親眼目睹陪讀媽媽的悲哀,到底真還是假

每日一見
2026-01-23 15:07:50
云南毒紅薯升級!調(diào)查組介入,網(wǎng)友扒出黑幕,難怪商戶敢主動投毒

云南毒紅薯升級!調(diào)查組介入,網(wǎng)友扒出黑幕,難怪商戶敢主動投毒

云舟史策
2026-01-24 16:14:54
李亞鵬曝光捐贈名單,向太發(fā)聲:我捐了幾百萬,王菲默默支持了幾千萬,也是不夠的……

李亞鵬曝光捐贈名單,向太發(fā)聲:我捐了幾百萬,王菲默默支持了幾千萬,也是不夠的……

都市快報橙柿互動
2026-01-24 19:48:42
首映僅150萬,《舒克貝塔》票房撲街,鄭淵潔父子虧到懷疑人生

首映僅150萬,《舒克貝塔》票房撲街,鄭淵潔父子虧到懷疑人生

電影票房預(yù)告片
2026-01-25 00:00:56
個稅降了,2026年1月15日起執(zhí)行

個稅降了,2026年1月15日起執(zhí)行

會計人
2026-01-25 12:03:57
女友懷孕收15萬元彩禮,被退婚后控告男友強奸,男方起訴退還全部彩禮,法院判了

女友懷孕收15萬元彩禮,被退婚后控告男友強奸,男方起訴退還全部彩禮,法院判了

南國今報
2026-01-25 17:09:35
安東尼奧即將成為國奧主帥,兩年后將挑戰(zhàn)40年魔咒

安東尼奧即將成為國奧主帥,兩年后將挑戰(zhàn)40年魔咒

澎湃新聞
2026-01-25 14:07:05
好消息!鐵路新規(guī):60歲以上老人乘坐高鐵火車,可享受5大福利

好消息!鐵路新規(guī):60歲以上老人乘坐高鐵火車,可享受5大福利

巢客HOME
2026-01-25 06:50:03
青島回應(yīng)“學(xué)生械斗”:系A(chǔ)I生成的不實信息

青島回應(yīng)“學(xué)生械斗”:系A(chǔ)I生成的不實信息

極目新聞
2026-01-24 23:30:18
株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

以茶帶書
2026-01-24 23:18:39
1550億美元身家的黃仁勛現(xiàn)身上海一菜場,商戶:他在我的栗子店消費65元,還給我簽名紅包

1550億美元身家的黃仁勛現(xiàn)身上海一菜場,商戶:他在我的栗子店消費65元,還給我簽名紅包

極目新聞
2026-01-25 15:58:12
2026-01-25 19:08:49
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
292文章數(shù) 61關(guān)注度
往期回顧 全部

科技要聞

黃仁勛在上海逛菜市場,可能惦記著三件事

頭條要聞

游客自稱爬衡山時掛脖子上80克金牌遺失 價值超10萬元

頭條要聞

游客自稱爬衡山時掛脖子上80克金牌遺失 價值超10萬元

體育要聞

中國足球不會一夜變強,但他們已經(jīng)創(chuàng)造歷史

娛樂要聞

王玉雯方嚴(yán)正聲明 劇方回應(yīng):涉事人員已被開除

財經(jīng)要聞

隋廣義等80人被公訴 千億騙局進(jìn)入末路

汽車要聞

別克至境E7內(nèi)飾圖曝光 新車將于一季度正式發(fā)布

態(tài)度原創(chuàng)

本地
時尚
旅游
游戲
公開課

本地新聞

云游中國|格爾木的四季朋友圈,張張值得你點贊

2025年度榜單|| 真金白銀票選出來的“真愛”,今天破價1.6折!

旅游要聞

一秒入仙境!金佛山冬雪、日出、云海絕美同框

《怪獵物語3》藝術(shù)插畫公開!火龍騎士御風(fēng)飛翔

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版