網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

細(xì)說｜文心5.0 ：2.4萬億參數(shù)、原生全模態(tài)架構(gòu)

2025-11-13 20:51:33　來源: 賽博禪心

北京舉報

分享至

今天是百度世界大會，文心 5.0 發(fā)布

對于這個模型，要點(diǎn)歸結(jié)如下：

? 2.4 萬億參數(shù) ：MoE架構(gòu)，激活參數(shù)低于 3%
? 原生全模態(tài) ：不同的路線選擇， 我覺得這是最大的發(fā)布，會細(xì)說
? 40 余測試領(lǐng)先 ：語言與多模態(tài)的綜合能力，與 Gemini-2.5-Pro、GPT-5-High 等模型持平

語言能力 BenchMark “原生全模態(tài)”

這次發(fā)布最大的信息點(diǎn)，是原生全模態(tài)這個架構(gòu)

要理解全模態(tài)，得從多模態(tài)說起

這個詞，大家不陌生，最基礎(chǔ)的就是 AI 能看圖，后續(xù)還有能聽聲音、能看視頻，乃至能畫圖，這是怎么做的呢？

最開始：假裝多模態(tài)

最開始是純工程技巧，看圖靠 OCR、看視頻靠識別字幕、聽聲音靠 ASR（語音轉(zhuǎn)文字，然后再理解）

OpenAI 的手搓規(guī)范： 讓 GPT 假裝學(xué)會多模態(tài) 接下來：學(xué)會多模態(tài)

再之后，來到了「多模態(tài)」時代，廠商們也各自推出了「多模態(tài)模型」，一種做法是采用“后期融合”（Late Fusion），或者...我愿稱之為稱之為“拼好模”的策略

簡單來說，就是為不同的信息模態(tài)（如文本、圖像、音頻）分別訓(xùn)練獨(dú)立的編碼器（Encoder）。這就像是為不同的語言分別找了專家翻譯（差不多就這個意思）。一個圖像專家負(fù)責(zé)把圖片“翻譯”成機(jī)器能理解的數(shù)字特征，一個文本專家負(fù)責(zé)處理文字

這事兒，最典型的就是當(dāng)年的 GPT4-Vision，圖片到代碼

舉個例子，當(dāng)模型接到一個圖文任務(wù)時，它會先把這些專家的“翻譯稿”收集起來，再交給一個更高層的模塊進(jìn)行整合，最終輸出結(jié)果。當(dāng)然了，在多次“翻譯”和“整合”的過程中，信息不可避免地會產(chǎn)生損耗和偏差

到現(xiàn)在：成為全模態(tài)（還在進(jìn)行）

原生全模態(tài)，則是想從根上解決問題，讓大模型能夠融合的處理各種信息

換句話說：只有融合了全模態(tài)，才能把 AI 真當(dāng)個人用

這個方向，從原生多模態(tài)開始，Google 的 Gemini 是第一個大規(guī)模商業(yè)化并強(qiáng)調(diào) 原生多模態(tài)(natively multimodal) 概念的主流大模型，支持多模態(tài)的輸入，和文字的輸出。再之前，OpenAI 的 GPT-4V、Google 自己的 PaLM 等都是后期融合方式

百度也在這個方向進(jìn)行了探索，理論上還更進(jìn)一步，就是這個文心 5.0，是按原生全模態(tài)來做的，架構(gòu)上支持全模態(tài)的理解和輸出（文字、圖像、聲音和視頻）

原生全模態(tài) 不同于業(yè)界多數(shù)的多模態(tài)模型采用后期融合的方式，文心 5.0 的技術(shù)路線是采用統(tǒng)一的自回歸架構(gòu)進(jìn)行原生全模態(tài)建模，理解與生成一體化。 ——王海峰，百度首席技術(shù)官

這里面有幾個硬骨頭要啃：

第一個：理解生成一體化
多模態(tài)的理解和生成，在技術(shù)上是兩種不同的任務(wù)，需要模型在學(xué)習(xí)生成一張圖片的同時，也在提升它對圖片的理解能力，反之亦然

第二個：統(tǒng)一架構(gòu)下的訓(xùn)練效率
把不同模態(tài)的數(shù)據(jù)硬塞進(jìn)一個統(tǒng)一的自回歸架構(gòu)，需要極強(qiáng)的工程能力，也需要非常多的試錯（這個免不了）

第三個：推理成本優(yōu)化
這事兒我還去專門問了，以百度這個為例，干了很多臟活累活辛苦活，包括不僅限于多模態(tài)編碼器分離異步訓(xùn)練、動態(tài)自適應(yīng)顯存卸載、FP8 混合精度訓(xùn)練等

沒辦法...搞模型的也是得為了用，控制好計算與推理成本，才能讓東西有上線的可能

當(dāng)然，理想和現(xiàn)實(shí)總有差距，大家都在往這個方向嘗試，但迄今為止，誰都沒完整放出來

期待全模態(tài)輸入+全模態(tài)輸出（能輸出各類內(nèi)容）目前全模態(tài)輸入+多模態(tài)輸出（輸出圖片+文字）

順便說下 MoE

這里額外提一下，國內(nèi)最早公開大規(guī)模落地 MoE 架構(gòu)的，是“悟道”團(tuán)隊(duì)（北京智源研究院）2021年，他們訓(xùn)練了一個 1.75 萬億參數(shù)的模型

悟道2.0...這是許多東西，開始的地方

這兩年 MoE 也是體量模型的主流，從 Mistral-8x22B （還有人記得這個么）到 DeepSeek 671B、到 Kimi K2 和 MiniMax M2（這倆萬億參數(shù)），反正一個比一個大

去年初的 Mistral，恍如隔世...

百度這個文心5.0，參數(shù)又翻了一倍，到了2.4 萬億，應(yīng)該是目前業(yè)界已公開參數(shù)的模型中，體量最大的

能力表現(xiàn)

這塊分為兩部分，先說說多模態(tài)帶來能力提升，再說說官方給到的評分榜單

多模態(tài)能力

音視頻理解
先給大家洗洗耳朵，這首歌我聽了好多遍

真的，這首《遇害》，我聽了好多好多遍，希望你也喜歡

多圖/視頻比較
這里有一個非常獨(dú)特的 case：圖片找不同

在【找不同】的場景下，如果大模型是工程做法，則難以完成，比如：先把圖片轉(zhuǎn)化成文字描述，像這樣

[第一張圖片：一只貓?jiān)谕媲?，背后是xxxx]
[第二張圖片：一只貓?jiān)谕媲颍澈笫莤xxx]

工程做法中，大模型會把這兩個描述塞進(jìn)上下文里，然后對這兩個這兩個描述詞進(jìn)行比較。自然的，完成不了【找不同】的這個任務(wù)

但你會發(fā)現(xiàn)，如果 AI 能過全模態(tài)的進(jìn)行理解，是會把我的文字提問、兩張圖的信息，都進(jìn)行處理，并得到正確的結(jié)果

細(xì)節(jié)捕捉&推理
我們都知道，華強(qiáng)喜歡吃西瓜

但華強(qiáng)不是孔融，西瓜肯定得拿大的

那么，劈開的瓜中，是左邊大，還是右邊大？

這里我也校驗(yàn)了一下，確實(shí)是左邊瓜大

評分榜單

語言的相關(guān)榜單，對比 Deepseek-V3.2-Exp/Gemini-2.5-Pro/GPT-5(high)，從左往右依次為：

(平均值)
知識：SimpleQA、ChineseSimpleQA
指令遵循：IFEval、MultiChallenge
學(xué)科綜合：MMLU-Pro、Hulmanity's Last Exam
邏輯推理：ZebraLogic、BBEH
數(shù)學(xué)：AIME 2025、HMMT 2025
代碼：LiveCodeBench v6(24.08-25.05)、HumanEval+、MBPP+
智能體：TAU2-Bench、ACEBbench-en、ACEBbench-zh、BFCL V4、terminal-benc@1.0、BrowseComp-zh、SpreadSheetBench
多語言：MMMLU-Lite、Multi-IF

語言相關(guān)榜單

音頻理解的相關(guān)榜單，對比 GPT-4o Audio/Gemini 2.5 Pro，從左往右依次為：

音頻理解：MMAU、TUT2017、CochScene
文本語音對話：OpenAudioBench-AlpacaEval、OpenAudioBench-Llama Questions、OpenAudioBench-Reasoning QA、OpenAudioBench-TriviaQA、OpenAudioBench-Web Question
語音識別(數(shù)值越低越好)：LibriSpeech(avg)-EN、Fleurs-EN、Fleurs-ZH、AISHELL-2-ZH

音頻理解相關(guān)榜單

視覺理解的相關(guān)榜單，對比 Gemini-2.5-Pro，GPT-5(high)，從左往右依次為

（平均值）
理科&推理：MathVista、MathVerse、MathVision、MMMU、VLM are Blind、VisuLogic、VisualPuzzle
文檔理解：ChartQA、AI2D、DocVQA(val)、OCRBench、CharXiv-RQ、CharXiv-DQ
通用視覺問答：SimpleVQA、HallusionBench、MMStar、BLINK、CV-Bench、CountBench

視覺理解相關(guān)榜單最后

講個冷知識，百度是第一批整大模型的

在 2019 年 3 月，百度弄了文心1.0

https://arxiv.org/abs/1904.09223

在 ChatGPT 誕生后，百度也是發(fā)布了文心一言

2023年3月16日

后續(xù)幾年，節(jié)奏似乎就放緩了..

到了 2025，有點(diǎn)抬頭的意思了，能感到是開始重新做了投入，包括PaddleOCR-VL和這次的模型發(fā)布，就給人一種感覺（也不知道對不對）

百度回歸牌桌

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.