萬億參數(shù)Yuan3.0 Ultra開源，企業(yè)Agent AI核心能力領(lǐng)先

2026-03-05 18:06:37　來源: wisemodel開源社區(qū)

北京舉報

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)，始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則，歡迎加入共同成長。

YuanLab.ai團(tuán)隊正式開源發(fā)布源Yuan3.0 Ultra 多模態(tài)基礎(chǔ)大模型。作為源3.0系列面向萬億參數(shù)規(guī)模打造的旗艦?zāi)Ｐ停?strong>Yuan3.0 Ultra的發(fā)布使全球萬億級開源大模型生態(tài)進(jìn)一步豐富，成為當(dāng)前業(yè)界僅有的三個萬億級開源多模態(tài)大模型之一。

Yuan3.0 Ultra將MoE大模型的訓(xùn)練效率優(yōu)化系統(tǒng)性引入模型結(jié)構(gòu)設(shè)計之中，并圍繞企業(yè)應(yīng)用及智能體工具調(diào)用等方面開展了深度優(yōu)化，在多模態(tài)文檔理解、檢索增強生成（RAG）、表格數(shù)據(jù)分析、內(nèi)容摘要與工具調(diào)用等企業(yè)級任務(wù)中表現(xiàn)突出。這些能力使源Yuan大模型能夠高質(zhì)量處理企業(yè)環(huán)境中的復(fù)雜信息形態(tài)，如圖文混排文檔、多級結(jié)構(gòu)表格以及跨文檔知識檢索，為基于OpenClaw等智能體框架構(gòu)建多模態(tài)數(shù)據(jù)驅(qū)動的企業(yè)Agent AI提供核心能力支撐。

Yuan3.0 Ultra采用統(tǒng)一多模態(tài)模型架構(gòu)，由視覺編碼器、語言主干網(wǎng)絡(luò)與多模態(tài)對齊模塊組成，實現(xiàn)視覺與語言信息的協(xié)同建模。其中，語言主干網(wǎng)絡(luò)基于混合專家（MoE）架構(gòu)構(gòu)建，包含103層Transformer，訓(xùn)練初始階段參數(shù)規(guī)模1515B，通過LAEP方法創(chuàng)新，團(tuán)隊在預(yù)訓(xùn)練過程中將模型參數(shù)優(yōu)化至1010B，預(yù)訓(xùn)練算力效率提升49%。Yuan3.0 Ultra的激活參數(shù)為68.8B。此外，模型還引入了Localized Filtering Attention（LFA）機制，有效強化對語義關(guān)系的建模能力，相比經(jīng)典Attention結(jié)構(gòu)可獲得更高的模型精度表現(xiàn)。Yuan3.0 Ultra在持續(xù)提升模型能力的同時，為大模型發(fā)展提供了一條“更高效率、更強智能”的新路徑。

△圖1：Yuan3.0 Ultra在面向企業(yè)應(yīng)用的多模態(tài)檢索、文本檢索、摘要生成、表格理解、工具調(diào)用評測中表現(xiàn)出色

Yuan3.0 Ultra全面開源，模型參數(shù)和代碼均可免費下載使用：https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra

模型地址

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Ultra

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Ultra-int4

01.

面向企業(yè)復(fù)雜業(yè)務(wù)場景的多模態(tài)能力

企業(yè)級Agent通常需要同時處理文檔、表格與數(shù)據(jù)庫等多種信息形態(tài)，并通過多步驟推理與工具調(diào)用完成任務(wù)。Yuan3.0 Ultra在設(shè)計階段即圍繞企業(yè)真實業(yè)務(wù)流程中的信息處理與任務(wù)執(zhí)行需求進(jìn)行能力構(gòu)建。

■ 復(fù)雜文檔與圖表信息理解

在企業(yè)實際業(yè)務(wù)中，大量關(guān)鍵信息存在于技術(shù)方案、財報報告、行業(yè)研究材料等文檔中，這些內(nèi)容通常包含圖文混排結(jié)構(gòu)、復(fù)雜表格以及跨頁面信息關(guān)聯(lián)，是企業(yè)構(gòu)建知識體系過程的難點。

Yuan3.0 Ultra在DocMatix、MMTab等多模態(tài)文檔理解評測中領(lǐng)先于Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.2等最新前沿模型，體現(xiàn)出模型在圖文結(jié)構(gòu)解析與表格語義理解方面的領(lǐng)先能力�；谶@一能力，模型能夠準(zhǔn)確解析圖文混排文檔結(jié)構(gòu)并提取關(guān)鍵數(shù)據(jù)指標(biāo)，有力支撐智能體系統(tǒng)高質(zhì)量完成文檔理解、數(shù)據(jù)提取與報告總結(jié)等任務(wù)，使企業(yè)能夠從容構(gòu)建面向文檔處理的Agent系統(tǒng)，例如財報分析、合同審閱以及技術(shù)文檔解析等場景，從而顯著提升信息處理質(zhì)量。

■ 多源信息檢索與整合

企業(yè)內(nèi)部知識通常分散在文檔庫、知識庫系統(tǒng)以及業(yè)務(wù)數(shù)據(jù)庫中，信息來源復(fù)雜且結(jié)構(gòu)不統(tǒng)一。要在這樣的環(huán)境中獲取有效信息，不僅需要檢索能力，還需要對多源內(nèi)容進(jìn)行語義整合與綜合分析，而傳統(tǒng)檢索系統(tǒng)往往只能返回零散結(jié)果，難以形成完整結(jié)論。

Yuan3.0 Ultra在ChatRAG、SummEval等檢索增強生成評測中表現(xiàn)領(lǐng)先于 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.2等最新前沿模型，體現(xiàn)出模型在檢索結(jié)果基礎(chǔ)上進(jìn)行深度語義整合與生成回答的能力。依托這一能力，模型可以在企業(yè)知識環(huán)境中完成檢索、理解與綜合生成的完整信息處理流程，有力支持 OpenClaw 等智能體利用企業(yè)私有知識完成復(fù)雜任務(wù)。

■ 數(shù)據(jù)分析與業(yè)務(wù)決策輔助

在企業(yè)運營場景中，大量業(yè)務(wù)決策依賴數(shù)據(jù)庫查詢、報表分析以及跨系統(tǒng)數(shù)據(jù)整合。在這些場景下，企業(yè)往往需要將業(yè)務(wù)問題轉(zhuǎn)化為數(shù)據(jù)庫查詢，并結(jié)合數(shù)據(jù)結(jié)果進(jìn)行分析與總結(jié)，而傳統(tǒng)流程通常需要人工編寫數(shù)據(jù)庫查詢語句（SQL）并整理分析報告，效率較低。

Yuan3.0 Ultra在Spider 與 BIRD等Text-to-SQL基準(zhǔn)評測中表現(xiàn)出色，在 Spider評測中領(lǐng)先Kimi K2.5, DeepSeek V3.2等前沿大模型，體現(xiàn)出模型在自然語言理解與結(jié)構(gòu)化查詢生成方面的能力。依托這一能力，模型能夠高質(zhì)量支持OpenClaw等智能體的數(shù)據(jù)查詢、運營分析以及報告生成等任務(wù)，有力支撐企業(yè)基于OpenClaw等智能體構(gòu)建業(yè)務(wù)分析與決策系統(tǒng)。

02.

LAEP方法創(chuàng)新，不追求更多專家，而是更有效專家

研究團(tuán)隊在長期的大模型算法研究中發(fā)現(xiàn)，大模型預(yù)訓(xùn)練過程的專家負(fù)載演化可分為兩個階段：

第一階段：初始過渡階段，發(fā)生在模型預(yù)訓(xùn)練早期，此時專家負(fù)載波動劇烈，受隨機初始化影響明顯，同一專家所接收的token數(shù)量可能在數(shù)量級上存在顯著差異；
第二階段：穩(wěn)定階段，此時各專家之間的token負(fù)載趨于穩(wěn)定，每個專家接收的token數(shù)量僅呈現(xiàn)相對較小的波動；

在訓(xùn)練穩(wěn)定階段，專家的token負(fù)載極不均衡，少數(shù)專家承擔(dān)大量計算，而部分專家長期處于低負(fù)載狀態(tài)，導(dǎo)致算力資源浪費。由圖2可以看到，訓(xùn)練穩(wěn)定階段最高專家與最低專家負(fù)載差異近500倍。

△圖2：MoE模型訓(xùn)練過程中存在專家訓(xùn)練不均衡問題

從學(xué)習(xí)機制角度來看，這一現(xiàn)象實際上是大模型在訓(xùn)練過程中形成Functional Specialization（功能專一化）的體現(xiàn)——不同專家在長期訓(xùn)練中逐漸對特定模式、語義結(jié)構(gòu)或任務(wù)類型形成穩(wěn)定偏好，在模型內(nèi)部自發(fā)涌現(xiàn)出專業(yè)化的分工結(jié)構(gòu)。

這與人類大腦的認(rèn)知組織方式具有一定相似性。神經(jīng)科學(xué)研究表明，大腦皮層并不對所有任務(wù)平均分配神經(jīng)元資源，而是逐漸形成視覺區(qū)、語言區(qū)、運動區(qū)等功能專一化區(qū)域，從而顯著提升信息處理效率。MoE模型中專家的自發(fā)分化，與這一認(rèn)知機制在本質(zhì)上一脈相承。

因此，對于大規(guī)模MoE模型而言，關(guān)鍵問題在于如何識別并剔除訓(xùn)練后逐漸固化的冗余結(jié)構(gòu)，在保持模型專業(yè)化能力的同時，實現(xiàn)算力資源的高效利用。

為解決這一問題，Yuan3.0 Ultra提出針對預(yù)訓(xùn)練的Layer-Adaptive Expert Pruning（LAEP）算法。LAEP能夠根據(jù)預(yù)訓(xùn)練過程中形成的專家負(fù)載統(tǒng)計信息，動態(tài)識別低貢獻(xiàn)專家，并對模型結(jié)構(gòu)進(jìn)行自適應(yīng)裁剪與專家重排，使計算資源集中于真正發(fā)揮作用的專家。從神經(jīng)科學(xué)視角看，這一過程類似于大腦在長期學(xué)習(xí)過程中對神經(jīng)連接進(jìn)行優(yōu)化與重組：保留高效的信息處理通路，削弱低效連接，從而在維持功能分工的同時提升整體認(rèn)知效率。

△表1：Yuan3.0 Ultra采用LAEP顯著提升預(yù)訓(xùn)練效率

實驗結(jié)果顯示：

模型參數(shù)減少33.3%
整體預(yù)訓(xùn)練效率提升49%

這一研究也揭示了一個重要現(xiàn)象：大模型結(jié)構(gòu)不應(yīng)只是簡單擴大參數(shù)規(guī)模，而應(yīng)逐漸演化為具有結(jié)構(gòu)分工與專業(yè)化能力的“認(rèn)知系統(tǒng)”。如何利用訓(xùn)練過程中自然形成的專家分化，并通過結(jié)構(gòu)優(yōu)化進(jìn)一步提升學(xué)習(xí)及計算效率，將成為未來基礎(chǔ)大模型結(jié)構(gòu)設(shè)計及優(yōu)化的一個重要方向。

03.

不追求“更長思考”，而是“更有效思考”

Yuan3.0 Ultra的訓(xùn)練策略聚焦于Fast-thinking 強化學(xué)習(xí)范式。與單純延長推理鏈條不同，模型默認(rèn)采用高效的短路徑推理方式，使計算資源優(yōu)先用于高信息增益的步驟，而非無約束的反思擴展。

在大規(guī)模強化學(xué)習(xí)過程中，團(tuán)隊圍繞反思抑制獎勵機制（RIRM）進(jìn)行了系統(tǒng)優(yōu)化，通過對反思次數(shù)引入獎勵約束，使模型在獲得可靠答案后主動減少無效反思，同時在復(fù)雜問題中保留必要的推理深度。這一機制有效緩解了快思考模式下的“過度思考”（overthinking）現(xiàn)象。

△圖3：RIRM優(yōu)化下的推理效率提升與 Token 消耗對比

訓(xùn)練結(jié)果表明，在這一受控快思考策略下，模型精度顯著提升，同時推理過程中生成的token數(shù)量持續(xù)下降，實現(xiàn)了準(zhǔn)確性與計算效率的同步優(yōu)化。

04.

開源基礎(chǔ)模型，推動可落地的大模型智能

Yuan3.0 Ultra大模型全面開源，不僅包括模型權(quán)重（16bit 與 4bit 模型）、技術(shù)報告，也涵蓋完整的訓(xùn)練方法與評測結(jié)果，支持社區(qū)在此基礎(chǔ)上進(jìn)行二次訓(xùn)練與行業(yè)定制。Yuan3.0 Ultra提出的LAEP方法是YuanLab.ai團(tuán)隊對下一代基礎(chǔ)大模型結(jié)構(gòu)的又一次探索與實踐，為業(yè)界MoE大模型結(jié)構(gòu)創(chuàng)新、預(yù)訓(xùn)練算力效率提升帶來新的路徑。

YuanLab.ai團(tuán)隊希望通過Yuan3.0 Ultra的開源，推動大模型從“能力展示”走向“規(guī)�；涞亍保瑸槠髽I(yè)用戶提供深度優(yōu)化的、面向Agent應(yīng)用的多模態(tài)基礎(chǔ)大模型。

源Yuan3.0基礎(chǔ)大模型將包含F(xiàn)lash、Pro和Ultra等版本，模型參數(shù)量為40B、200B和1T等，相關(guān)成果將陸續(xù)發(fā)布。

「開源地址」

代碼開源鏈接：

https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra

論文鏈接：

https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra/blob/main/Docs/Yuan3.0_Ultra%20Paper.pdf

模型下載鏈接：

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Ultra

https://www.wisemodel.cn/models/YuanLabAI/Yuan3.0-Ultra-int4

----- END -----

wisemodel相關(guān)：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù)，歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵高校實驗室、大企業(yè)研究團(tuán)隊、個人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者，以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等，還有投資機構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.