国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

3倍吞吐量、訪存減至1/10!螞蟻甩出兩大萬億參數(shù)開源模型,背后架構(gòu)成關(guān)鍵

0
分享至

  

智東西
作者 陳駿達(dá)
編輯 漠影

  當(dāng)大模型在推理、編程等能力上不斷刷新紀(jì)錄時(shí),一個(gè)新的問題也愈發(fā)突出:如何在持續(xù)提升模型能力的同時(shí),控制算力與資源消耗?

  就在本月,螞蟻集團(tuán)inclusionAI團(tuán)隊(duì)交出了一份頗具分量的答卷——百靈大模型家族新一代開源萬億參數(shù)模型Ling-2.5-1T(即時(shí)模型)與Ring-2.5-1T(思考模型)。

  這兩款模型并非僅靠“堆參數(shù)”取勝,它們共享的技術(shù)底座——混合線性注意力架構(gòu)“Ling 2.5”,才是此次發(fā)布的關(guān)鍵。在當(dāng)前主流大模型仍以改進(jìn)型傳統(tǒng)注意力機(jī)制為核心架構(gòu)的背景下,Ling-2.5-1T是業(yè)內(nèi)少見的超大型混合線性注意力架構(gòu)模型,而Ring-2.5-1T成為了全球首個(gè)混合線性注意力架構(gòu)的萬億參數(shù)思考模型。

  得益于Ling 2.5這一新架構(gòu),模型在長文本生成與長程推理場景中,將訪存規(guī)模壓縮至傳統(tǒng)架構(gòu)的1/10,生成吞吐量達(dá)原來的3倍。換言之,它讓模型在“變聰明”的同時(shí),也學(xué)會了“省著花”。

  同時(shí),效率的提升并未以性能為代價(jià)。在涉及推理、智能體、指令遵循、長上下文等場景的多項(xiàng)基準(zhǔn)測試中,Ling-2.5-1T超越了DeepSeek-V3.2-nothink、Kimi-K2.5-Instant和GPT-5.2-chat等同類型的即時(shí)模型。

  

  而Ring-2.5-1T則在國際數(shù)學(xué)奧林匹克競賽(IMO 2025)和中國數(shù)學(xué)奧林匹克(CMO 2025)達(dá)到金牌水平(自測分?jǐn)?shù)為IMO 35分、CMO 105分),開啟重度思考(Heavy Thinking)模式后,它在IMOAnswerBench、HMMT-25等數(shù)學(xué)競賽推理基準(zhǔn)和LiveCodeBench-v6代碼生成基準(zhǔn)中,超越所有對比模型,無論開源閉源。

  

  那么,螞蟻百靈的混合線性架構(gòu)的技術(shù)路線究竟是如何實(shí)現(xiàn)的?又是如何在不犧牲性能的前提下,撬動如此顯著的效率提升?

  一、萬億參數(shù)時(shí)代,傳統(tǒng)架構(gòu)還能走多遠(yuǎn)?

  在大模型持續(xù)躍遷的進(jìn)程中,注意力機(jī)制始終處于舞臺中央,影響著模型理解長文本、捕捉復(fù)雜語義以及生成高質(zhì)量內(nèi)容的能力。而Softmax一直是主流架構(gòu)的核心注意力計(jì)算機(jī)制,幾乎所有Transformer模型都以此為基礎(chǔ)。

  這種機(jī)制每次計(jì)算都“翻閱”完整上下文,精準(zhǔn)捕捉詞與詞的關(guān)聯(lián),賦予模型強(qiáng)大表達(dá)力和細(xì)粒度對齊能力。但其代價(jià)明顯:隨著文本長度增加,其計(jì)算量呈平方級增長,算力和顯存消耗迅速攀升。

  隨著應(yīng)用場景向超長上下文延展,這種“精細(xì)化”的成本被重新審視。線性注意力(Linear Attention)由此進(jìn)入主流視野。

  線性注意力通過數(shù)學(xué)重構(gòu),降低計(jì)算復(fù)雜度,不再為每一個(gè)token反復(fù)回溯全部序列,而是依托狀態(tài)記憶持續(xù)傳遞核心信息——更像是一場接力賽,每一步都承接前一步的成果,無需重走來路。效率的躍升是顯而易見的:更低的FLOPs、更小的顯存占用、更快的生成速度。

  然而,線性機(jī)制也并非萬能。在需要精準(zhǔn)定位關(guān)鍵信息、進(jìn)行細(xì)粒度語義對齊或復(fù)雜長程依賴建模的任務(wù)中,其表現(xiàn)有時(shí)難以匹敵傳統(tǒng)注意力。于是,一條兼顧性能與效率的技術(shù)路徑逐漸成型——混合線性注意力架構(gòu)(Hybrid Linear Attention)。

  這一思路其實(shí)很直觀。同一模型中進(jìn)行“分層分工”。部分層保留傳統(tǒng)注意力處理復(fù)雜語義與全局依賴,部分層采用線性機(jī)制以降低計(jì)算負(fù)擔(dān),從而讓模型在表達(dá)能力與計(jì)算效率之間實(shí)現(xiàn)動態(tài)平衡。

  然而,理念清晰并不意味著實(shí)現(xiàn)簡單。真正將混合架構(gòu)推向超大規(guī)模參數(shù)訓(xùn)練,仍面臨多重挑戰(zhàn)。

  首先是訓(xùn)練穩(wěn)定性問題,兩種機(jī)制在同一網(wǎng)絡(luò)中協(xié)同運(yùn)行,在超大規(guī)模預(yù)訓(xùn)練下容易引發(fā)數(shù)值震蕩,影響收斂與梯度穩(wěn)定。

  其次是比例調(diào)優(yōu)難題,多少層采用傳統(tǒng)注意力、多少層采用線性機(jī)制,并無通用公式,研究者需在工程與實(shí)驗(yàn)中反復(fù)權(quán)衡。

  再者,在上下文不斷擴(kuò)展的背景下,如何確保線性部分高效傳遞狀態(tài)而不丟失關(guān)鍵語義信息,也成為架構(gòu)設(shè)計(jì)的核心瓶頸之一。

  二、告別暴力堆算力、堆參數(shù),如何實(shí)現(xiàn)混合架構(gòu)的萬億級工程化躍遷

  當(dāng)前,包括Minimax、月之暗面、阿里以及OpenAI等機(jī)構(gòu)均已探索了混合線性注意力架構(gòu)的應(yīng)用潛力,行業(yè)逐漸形成共識:混合結(jié)構(gòu)是突破大模型效率瓶頸的重要路徑之一。

  在這一趨勢之中,螞蟻百靈的研究同樣圍繞上述核心問題展開。如果將其在混合線性注意力上的探索濃縮為一條清晰主線,可以分成兩個(gè)階段:技術(shù)可行性驗(yàn)證階段萬億規(guī)模工程化落地階段。

  早在去年9月,螞蟻百靈團(tuán)隊(duì)便開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0,并發(fā)布技術(shù)報(bào)告,驗(yàn)證了線性注意力在真實(shí)工業(yè)規(guī)模訓(xùn)練和長上下文推理中的可用性。

  報(bào)告中給出的核心架構(gòu)思想是將線性注意力與Softmax注意力進(jìn)行分組混合,每個(gè)layer group中包含M層線性attention加1層Softmax注意力,從而在保持表達(dá)能力的前提下,把復(fù)雜度從O(n2)拉向近似O(n)。

  通過Scaling Law實(shí)驗(yàn),他們驗(yàn)證了當(dāng)M=7(即1:7的混合比例)時(shí),在高FLOP預(yù)算下表現(xiàn)優(yōu)于純softmax結(jié)構(gòu)。這個(gè)結(jié)論至關(guān)重要,因?yàn)樗C明:在大模型規(guī)模下,“線性為主、softmax為輔”的結(jié)構(gòu)不是性能退化,而是效率與效果的更優(yōu)平衡。

  在這項(xiàng)研究中,螞蟻還發(fā)布了兩大自研高性能融合算子。一方面,通過精細(xì)化的算子融合和自適應(yīng)重計(jì)算量化技術(shù),更高效的FP8融合算子將FP8混合精度訓(xùn)練的計(jì)算效率提升至原來的1.5-1.7倍左右。

  

  在推理端,他們開發(fā)了更高效的線性注意力融合算子,支持更多的推理模式,進(jìn)一步提升推理引擎的吞吐。

  架構(gòu)優(yōu)化與高性能算子協(xié)同之下,兩款Ring-linear模型在深度推理場景下的推理成本僅為同尺寸Dense模型的約1/10,相較原有Ring系列成本也下降超過50%。

  完成初步探索后,螞蟻百靈團(tuán)隊(duì)在其基礎(chǔ)上提出了Ling 2.5 架構(gòu):在Ling 2.0的基礎(chǔ)之上,通過“增量訓(xùn)練”的方式,將原有GQA(改進(jìn)版的注意力機(jī)制,仍然基于Softmax)升級為1:7的MLA + Lightning Linear混合結(jié)構(gòu),把混合線性注意力架構(gòu)真正推向萬億規(guī)模。

  

  在Ling 2.5架構(gòu)中,大部分GQA層都被改造為了Lightning Linear Attention,以提升長程推理的吞吐能力;剩余GQA層近似轉(zhuǎn)為MLA,以壓縮KV Cache并保留表達(dá)能力。

  整個(gè)改造過程中保留QK Norm、Partial RoPE等關(guān)鍵機(jī)制,并進(jìn)行了針對性適配,從而保證模型架構(gòu)遷移過程中表達(dá)能力不塌陷。

  改造完成后,Ling-2.5-1T和Ring-2.5-1T的激活參數(shù)從51B提升至63B,但在混合線性架構(gòu)支持下,推理吞吐仍然顯著提升,這說明架構(gòu)優(yōu)化帶來的收益,已經(jīng)超過參數(shù)規(guī)模增加帶來的負(fù)擔(dān)。

  在架構(gòu)改造之后,螞蟻還進(jìn)一步對Ling-2.5-1T-base進(jìn)行了基于9T優(yōu)質(zhì)語料的持續(xù)預(yù)訓(xùn)練,重點(diǎn)強(qiáng)化了預(yù)訓(xùn)練基座的世界知識覆蓋與智能體交互的基礎(chǔ)能力。

  同時(shí),憑借混合線性注意力架構(gòu)在長文本處理上的高計(jì)算效率與可擴(kuò)展性,他們將Ling-2.5-1T的上下文窗口擴(kuò)展訓(xùn)練至256K tokens,并通過YaRN外推支持最高1M tokens的超長上下文處理能力。

  三、從實(shí)驗(yàn)室到真實(shí)場景:架構(gòu)優(yōu)化帶來了什么?

  在螞蟻對外發(fā)布的基準(zhǔn)測試中,我們能直觀感受到混合線性注意力帶來的性能提升。

  以AIME 2026評測為例,當(dāng)平均輸出長度約為5890個(gè)token時(shí),新一代Ling-2.5-1T模型的表現(xiàn)顯著超越前代Ling-1T,并已逼近前沿思考模型的水平。值得注意的是,后者通常需要生成15000到23000個(gè)token才能完成同樣復(fù)雜的任務(wù)。

  

  在衡量長文本處理能力的RULER與MRCR基準(zhǔn)測試(覆蓋16K至256K token范圍)中,Ling-2.5-1T取得了優(yōu)于采用MLA/DSA架構(gòu)的主流大型即時(shí)模型(如Kimi K2.5、DeepSeek V3.2)的分?jǐn)?shù)。

  Ring-2.5-1T則在數(shù)學(xué)、代碼、邏輯等高難推理任務(wù)和智能體搜索、軟件工程、工具調(diào)用等長程任務(wù)執(zhí)行上均達(dá)到了開源領(lǐng)先水平。這些任務(wù)的性能提升,與混合線性注意力架構(gòu)在處理長程依賴和狀態(tài)壓縮方面的優(yōu)勢密切相關(guān)。線性機(jī)制實(shí)現(xiàn)了高效的上下文信息傳遞,有效支撐了復(fù)雜推理任務(wù)對長序列建模的需求。

  這種架構(gòu)上的優(yōu)勢也直接轉(zhuǎn)化為工程實(shí)踐上的紅利。即便在激活參數(shù)量增加至63B的情況下,基于混合線性注意力的Ling-2.5在單機(jī)8卡H200的配置下,其長文本生成的解碼吞吐量(decode throughput)仍顯著優(yōu)于前代1T規(guī)模模型以及同等參數(shù)量的Kimi K2。

  并且,隨著生成文本長度的增加,這種吞吐量優(yōu)勢變得越發(fā)明顯,充分展現(xiàn)了混合線性注意力在長程推理場景下的效率優(yōu)越性。

  

  模型能力的提升在實(shí)際應(yīng)用案例中同樣得到了體現(xiàn)。在下方這個(gè)關(guān)于《知識產(chǎn)權(quán)質(zhì)押糾紛》的復(fù)雜法律指令遵循任務(wù)中,Ling-2.5-1T能夠嚴(yán)格遵循超過10項(xiàng)涵蓋內(nèi)容框架、細(xì)節(jié)、格式和字?jǐn)?shù)等多維度的指令約束,生成條理清晰、邏輯連貫的答復(fù)。

  這得益于優(yōu)化后的長上下文能力,確保了模型能在跨越多個(gè)細(xì)分指令的過程中始終保持一致性,避免信息斷裂。

  

  而在這個(gè)財(cái)報(bào)解讀案例中,模型可以對數(shù)十頁的財(cái)報(bào)進(jìn)行信息的抽取匯總,并對重點(diǎn)財(cái)務(wù)衍生指標(biāo)進(jìn)行計(jì)算,得到財(cái)報(bào)的深度分析結(jié)論。

  

  龐大的長上下文窗口與高效的token利用率,使得這類復(fù)雜任務(wù)無需分解,即可一次性流暢完成。

  這些技術(shù)特性在實(shí)際應(yīng)用中具有明確的商業(yè)價(jià)值。長期以來,大模型在規(guī)?;渴鹬兄饕芟抻谕评沓杀?,而此次架構(gòu)層面的優(yōu)化直接降低了單位請求的算力開銷,使企業(yè)能夠在同等硬件條件下支持更高并發(fā),進(jìn)而降低AI功能集成的門檻。

  百萬token級別的長上下文支持,拓展了模型在復(fù)雜文檔處理場景中的可用性,例如長篇幅法律文書的語義解析、科研文獻(xiàn)的批量梳理等。同時(shí),模型在多步推理與跨段落信息整合方面的表現(xiàn),也為構(gòu)建企業(yè)級智能體及知識處理自動化系統(tǒng)提供了更穩(wěn)定的技術(shù)基礎(chǔ)。

  結(jié)語:跳出“參數(shù)競賽”,回歸架構(gòu)進(jìn)化的本質(zhì)

  就在2月,螞蟻百靈大模型家族迎來了一系列重要開源與發(fā)布:原生全模態(tài)模型Ming-flash-2.0、擴(kuò)散語言模型LLaDA2.1、思考模型Ring-2.5-1T,以及旗艦基座即時(shí)模型Ling-2.5-1T。這一系列模型在多個(gè)關(guān)鍵基準(zhǔn)上具備競爭力,讓螞蟻穩(wěn)居國內(nèi)大模型行業(yè)第一梯隊(duì),而全系列開源的策略,也讓其成為當(dāng)下AI開源生態(tài)中不可忽視的新力量。

  回溯百靈家族的整體布局,其演進(jìn)邏輯清晰可見:并非單一追求參數(shù)規(guī)模攀升,而是在多模態(tài)感知、語言生成機(jī)制、深度推理能力與即時(shí)響應(yīng)效率等核心維度上全面布局,構(gòu)建互為補(bǔ)充、協(xié)同進(jìn)化的模型矩陣。

  而站在更宏觀的行業(yè)視角,Ling 2.5架構(gòu)的成功,傳遞出一個(gè)重要信號:架構(gòu)創(chuàng)新仍是大模型演進(jìn)的關(guān)鍵變量。更高的推理效率、更長的上下文處理、更低的部署成本——這些由架構(gòu)革新帶來的系統(tǒng)性優(yōu)勢,正在重新定義大模型的能力邊界。

  當(dāng)技術(shù)路線趨于多元,當(dāng)開源生態(tài)持續(xù)繁榮,開發(fā)者也就擁有了更靈活的工具組合來應(yīng)對不同場景的挑戰(zhàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一年流出視頻294部的小寶到底探過多少朵花?

一年流出視頻294部的小寶到底探過多少朵花?

挪威森林
2026-01-25 17:18:42
尊界S800和問界M9首發(fā)搭載全新一代激光雷達(dá) 將于3月4日正式發(fā)布

尊界S800和問界M9首發(fā)搭載全新一代激光雷達(dá) 將于3月4日正式發(fā)布

太平洋汽車
2026-03-02 11:11:17
諾基亞N97復(fù)刻曝光 2026年底或?qū)⒌菆?情懷旗艦值不值得等?

諾基亞N97復(fù)刻曝光 2026年底或?qū)⒌菆?情懷旗艦值不值得等?

小柱解說游戲
2026-03-01 08:08:57
英媒:曼聯(lián)管理層對卡里克的轉(zhuǎn)正持謹(jǐn)慎態(tài)度

英媒:曼聯(lián)管理層對卡里克的轉(zhuǎn)正持謹(jǐn)慎態(tài)度

懂球帝
2026-03-02 18:56:06
年還沒有過完,揚(yáng)州三甲醫(yī)院院長殷旭東被查,估計(jì)吃不上元宵了

年還沒有過完,揚(yáng)州三甲醫(yī)院院長殷旭東被查,估計(jì)吃不上元宵了

小陸搞笑日常
2026-03-02 16:11:47
2026手機(jī)套餐新規(guī):老用戶多等7天,續(xù)約可省數(shù)百元

2026手機(jī)套餐新規(guī):老用戶多等7天,續(xù)約可省數(shù)百元

透視到底
2026-03-01 10:16:29
9000萬人點(diǎn)燃怒火!伊朗1200枚導(dǎo)彈反擊,中俄緊急通話表態(tài)!

9000萬人點(diǎn)燃怒火!伊朗1200枚導(dǎo)彈反擊,中俄緊急通話表態(tài)!

薛小榮
2026-03-02 19:03:17
男子高鐵商務(wù)座車廂內(nèi)抽煙,還脫鞋將雙腳架在車窗處,12306客服回應(yīng):全列禁煙,遇到可舉報(bào)

男子高鐵商務(wù)座車廂內(nèi)抽煙,還脫鞋將雙腳架在車窗處,12306客服回應(yīng):全列禁煙,遇到可舉報(bào)

都市快報(bào)橙柿互動
2026-03-02 12:56:36
街頭,伊朗人悲傷地跳了起來?

街頭,伊朗人悲傷地跳了起來?

關(guān)爾東
2026-03-01 23:02:58
學(xué)費(fèi)太貴!一家長哭訴繳費(fèi)11000多,網(wǎng)友:上私立高中就不要抱怨

學(xué)費(fèi)太貴!一家長哭訴繳費(fèi)11000多,網(wǎng)友:上私立高中就不要抱怨

火山詩話
2026-03-01 12:06:34
冰火兩重天!孫穎莎4-2奪冠,與頒獎嘉賓熱聊,王曼昱神情落寞

冰火兩重天!孫穎莎4-2奪冠,與頒獎嘉賓熱聊,王曼昱神情落寞

TVB的四小花
2026-03-02 12:39:30
女員工“胸大奶多”惹爭議,椰樹大尺度自爆炸裂全網(wǎng)

女員工“胸大奶多”惹爭議,椰樹大尺度自爆炸裂全網(wǎng)

首席品牌觀察
2026-03-02 11:09:54
娛樂圈的對賭協(xié)議有多恐怖?贏的人就是楊冪,輸者直接變成張國立

娛樂圈的對賭協(xié)議有多恐怖?贏的人就是楊冪,輸者直接變成張國立

林輕吟
2026-03-01 19:35:00
全局解析:美國最大戰(zhàn)略誤判,這一仗將打醒伊朗

全局解析:美國最大戰(zhàn)略誤判,這一仗將打醒伊朗

兵國大事
2026-03-02 00:00:35
中東最大港口暫停運(yùn)營

中東最大港口暫停運(yùn)營

時(shí)間財(cái)經(jīng)
2026-03-02 16:17:05
59歲宋祖英現(xiàn)身活動狀態(tài)驚艷!短發(fā)利落大氣,黑色套裝優(yōu)雅端莊

59歲宋祖英現(xiàn)身活動狀態(tài)驚艷!短發(fā)利落大氣,黑色套裝優(yōu)雅端莊

琴聲飛揚(yáng)
2026-02-12 11:51:25
張?jiān)迄i家環(huán)境不錯(cuò)是小區(qū) 1個(gè)細(xì)節(jié)看出云鵬單純 旭平首飾又做好事

張?jiān)迄i家環(huán)境不錯(cuò)是小區(qū) 1個(gè)細(xì)節(jié)看出云鵬單純 旭平首飾又做好事

離離言幾許
2026-03-02 12:55:09
公積金繳納等級,你在幾級?

公積金繳納等級,你在幾級?

新浪財(cái)經(jīng)
2026-02-04 05:17:52
大陸為什么總是演習(xí),遲遲不進(jìn)攻臺灣?看看金門島戰(zhàn)役就知道了!

大陸為什么總是演習(xí),遲遲不進(jìn)攻臺灣?看看金門島戰(zhàn)役就知道了!

煙斂的寒林
2026-02-11 22:31:12
明星過年大型 “卸妝現(xiàn)場”!全員恢復(fù)出廠設(shè)置,最接地氣竟是他

明星過年大型 “卸妝現(xiàn)場”!全員恢復(fù)出廠設(shè)置,最接地氣竟是他

藝能八卦局
2026-03-01 09:00:30
2026-03-02 23:03:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11278文章數(shù) 116984關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

頭條要聞

美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

家居
本地
房產(chǎn)
教育
公開課

家居要聞

萬物互聯(lián) 享科技福祉

本地新聞

津南好·四時(shí)總相宜

房產(chǎn)要聞

方案突然曝光!海口北師大附校,又有書包大盤殺出!

教育要聞

石室小學(xué)育賢分校:騏驥少年馭“機(jī)”而上 科技體育點(diǎn)亮校園新程

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版