国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

細(xì)說|文心5.0 :2.4萬億參數(shù)、原生全模態(tài)架構(gòu)

0
分享至

今天是百度世界大會,文心 5.0 發(fā)布

對于這個模型,要點(diǎn)歸結(jié)如下:

  • ? 2.4 萬億參數(shù) :MoE架構(gòu),激活參數(shù)低于 3%

  • ? 原生全模態(tài) :不同的路線選擇, 我覺得這是最大的發(fā)布,會細(xì)說

  • ? 40 余測試領(lǐng)先 :語言與多模態(tài)的綜合能力,與 Gemini-2.5-Pro、GPT-5-High 等模型持平

語言能力 BenchMark “原生全模態(tài)”

這次發(fā)布最大的信息點(diǎn),是原生全模態(tài)這個架構(gòu)

要理解全模態(tài),得從多模態(tài)說起

這個詞,大家不陌生,最基礎(chǔ)的就是 AI 能看圖,后續(xù)還有能聽聲音、能看視頻,乃至能畫圖,這是怎么做的呢?

最開始:假裝多模態(tài)

最開始是純工程技巧,看圖靠 OCR、看視頻靠識別字幕、聽聲音靠 ASR(語音轉(zhuǎn)文字,然后再理解)


OpenAI 的手搓規(guī)范: 讓 GPT 假裝學(xué)會多模態(tài) 接下來:學(xué)會多模態(tài)

再之后,來到了「多模態(tài)」時代,廠商們也各自推出了「多模態(tài)模型」,一種做法是采用“后期融合”(Late Fusion),或者...我愿稱之為稱之為“拼好模”的策略

簡單來說,就是為不同的信息模態(tài)(如文本、圖像、音頻)分別訓(xùn)練獨(dú)立的編碼器(Encoder)。這就像是為不同的語言分別找了專家翻譯(差不多就這個意思)。一個圖像專家負(fù)責(zé)把圖片“翻譯”成機(jī)器能理解的數(shù)字特征,一個文本專家負(fù)責(zé)處理文字


這事兒,最典型的就是當(dāng)年的 GPT4-Vision,圖片到代碼

舉個例子,當(dāng)模型接到一個圖文任務(wù)時,它會先把這些專家的“翻譯稿”收集起來,再交給一個更高層的模塊進(jìn)行整合,最終輸出結(jié)果。當(dāng)然了,在多次“翻譯”和“整合”的過程中,信息不可避免地會產(chǎn)生損耗和偏差

到現(xiàn)在:成為全模態(tài)(還在進(jìn)行)

原生全模態(tài),則是想從根上解決問題,讓大模型能夠融合的處理各種信息


換句話說:只有融合了全模態(tài),才能把 AI 真當(dāng)個人用

這個方向,從原生多模態(tài)開始,Google 的 Gemini 是第一個大規(guī)模商業(yè)化并強(qiáng)調(diào) 原生多模態(tài)(natively multimodal) 概念的主流大模型,支持多模態(tài)的輸入,和文字的輸出。再之前,OpenAI 的 GPT-4V、Google 自己的 PaLM 等都是后期融合方式

百度也在這個方向進(jìn)行了探索,理論上還更進(jìn)一步,就是這個文心 5.0,是按原生全模態(tài)來做的,架構(gòu)上支持全模態(tài)的理解和輸出(文字、圖像、聲音和視頻)

原生全模態(tài) 不同于業(yè)界多數(shù)的多模態(tài)模型采用后期融合的方式,文心 5.0 的技術(shù)路線是采用統(tǒng)一的自回歸架構(gòu)進(jìn)行原生全模態(tài)建模,理解與生成一體化。 ——王海峰,百度首席技術(shù)官

這里面有幾個硬骨頭要啃:

第一個:理解生成一體化
多模態(tài)的理解和生成,在技術(shù)上是兩種不同的任務(wù),需要模型在學(xué)習(xí)生成一張圖片的同時,也在提升它對圖片的理解能力,反之亦然

第二個:統(tǒng)一架構(gòu)下的訓(xùn)練效率
把不同模態(tài)的數(shù)據(jù)硬塞進(jìn)一個統(tǒng)一的自回歸架構(gòu),需要極強(qiáng)的工程能力,也需要非常多的試錯(這個免不了)

第三個:推理成本優(yōu)化
這事兒我還去專門問了,以百度這個為例,干了很多臟活累活辛苦活,包括不僅限于多模態(tài)編碼器分離異步訓(xùn)練、動態(tài)自適應(yīng)顯存卸載、FP8 混合精度訓(xùn)練等

沒辦法...搞模型的也是得為了用,控制好計算與推理成本,才能讓東西有上線的可能

當(dāng)然,理想和現(xiàn)實(shí)總有差距,大家都在往這個方向嘗試,但迄今為止,誰都沒完整放出來

期待 全模態(tài)輸入+全模態(tài)輸出(能輸出各類內(nèi)容) 目前 全模態(tài)輸入+多模態(tài)輸出(輸出圖片+文字)

順便說下 MoE

這里額外提一下,國內(nèi)最早公開大規(guī)模落地 MoE 架構(gòu)的,是“悟道”團(tuán)隊(duì)(北京智源研究院)2021年,他們訓(xùn)練了一個 1.75 萬億參數(shù)的模型


悟道2.0...這是許多東西,開始的地方

這兩年 MoE 也是體量模型的主流,從 Mistral-8x22B (還有人記得這個么)到 DeepSeek 671B、到 Kimi K2 和 MiniMax M2(這倆萬億參數(shù)),反正一個比一個大


去年初的 Mistral,恍如隔世...

百度這個文心5.0,參數(shù)又翻了一倍,到了2.4 萬億,應(yīng)該是目前業(yè)界已公開參數(shù)的模型中,體量最大的

能力表現(xiàn)

這塊分為兩部分,先說說多模態(tài)帶來能力提升,再說說官方給到的評分榜單

多模態(tài)能力

音視頻理解
先給大家洗洗耳朵,這首歌我聽了好多遍

真的,這首《遇害》,我聽了好多好多遍,希望你也喜歡


多圖/視頻比較
這里有一個非常獨(dú)特的 case:圖片找不同


在【找不同】的場景下,如果大模型是工程做法,則難以完成,比如:先把圖片轉(zhuǎn)化成文字描述,像這樣

  • [第一張圖片:一只貓?jiān)谕媲?,背后是xxxx]

  • [第二張圖片:一只貓?jiān)谕媲颍澈笫莤xxx]

工程做法中,大模型會把這兩個描述塞進(jìn)上下文里,然后對這兩個這兩個描述詞進(jìn)行比較。自然的,完成不了【找不同】的這個任務(wù)

但你會發(fā)現(xiàn),如果 AI 能過全模態(tài)的進(jìn)行理解,是會把我的文字提問、兩張圖的信息,都進(jìn)行處理,并得到正確的結(jié)果



細(xì)節(jié)捕捉&推理
我們都知道,華強(qiáng)喜歡吃西瓜

但華強(qiáng)不是孔融,西瓜肯定得拿大的

那么,劈開的瓜中,是左邊大,還是右邊大?


這里我也校驗(yàn)了一下,確實(shí)是左邊瓜大


評分榜單

語言的相關(guān)榜單,對比 Deepseek-V3.2-Exp/Gemini-2.5-Pro/GPT-5(high),從左往右依次為:

  • (平均值)

  • 知識:SimpleQA、ChineseSimpleQA

  • 指令遵循:IFEval、MultiChallenge

  • 學(xué)科綜合:MMLU-Pro、Hulmanity's Last Exam

  • 邏輯推理:ZebraLogic、BBEH

  • 數(shù)學(xué):AIME 2025、HMMT 2025

  • 代碼:LiveCodeBench v6(24.08-25.05)、HumanEval+、MBPP+

  • 智能體:TAU2-Bench、ACEBbench-en、ACEBbench-zh、BFCL V4、terminal-benc@1.0、BrowseComp-zh、SpreadSheetBench

  • 多語言:MMMLU-Lite、Multi-IF

語言相關(guān)榜單

音頻理解的相關(guān)榜單,對比 GPT-4o Audio/Gemini 2.5 Pro,從左往右依次為:

  • 音頻理解:MMAU、TUT2017、CochScene

  • 文本語音對話:OpenAudioBench-AlpacaEval、OpenAudioBench-Llama Questions、OpenAudioBench-Reasoning QA、OpenAudioBench-TriviaQA、OpenAudioBench-Web Question

  • 語音識別(數(shù)值越低越好):LibriSpeech(avg)-EN、Fleurs-EN、Fleurs-ZH、AISHELL-2-ZH

音頻理解相關(guān)榜單

視覺理解的相關(guān)榜單,對比 Gemini-2.5-Pro,GPT-5(high),從左往右依次為

  • (平均值)

  • 理科&推理:MathVista、MathVerse、MathVision、MMMU、VLM are Blind、VisuLogic、VisualPuzzle

  • 文檔理解:ChartQA、AI2D、DocVQA(val)、OCRBench、CharXiv-RQ、CharXiv-DQ

  • 通用視覺問答:SimpleVQA、HallusionBench、MMStar、BLINK、CV-Bench、CountBench

視覺理解相關(guān)榜單 最后

講個冷知識,百度是第一批整大模型的

在 2019 年 3 月,百度弄了文心1.0


https://arxiv.org/abs/1904.09223

在 ChatGPT 誕生后,百度也是發(fā)布了文心一言


2023年3月16日

后續(xù)幾年,節(jié)奏似乎就放緩了..

到了 2025,有點(diǎn)抬頭的意思了,能感到是開始重新做了投入,包括PaddleOCR-VL和這次的模型發(fā)布,就給人一種感覺(也不知道對不對)

百度回歸牌桌

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
73年王洪文提名中央副主席,一上將當(dāng)場怒懟:你憑什么?現(xiàn)場炸鍋

73年王洪文提名中央副主席,一上將當(dāng)場怒懟:你憑什么?現(xiàn)場炸鍋

元哥說歷史
2025-12-26 18:50:03
美國也救不了賴清德!臺軍高層已有被斬首的覺悟,統(tǒng)一的時刻到了

美國也救不了賴清德!臺軍高層已有被斬首的覺悟,統(tǒng)一的時刻到了

boss外傳
2025-12-26 12:00:06
女子獨(dú)自遠(yuǎn)嫁江蘇,公婆卻不露面,家里冷鍋冷灶全是灰,網(wǎng)友炸鍋

女子獨(dú)自遠(yuǎn)嫁江蘇,公婆卻不露面,家里冷鍋冷灶全是灰,網(wǎng)友炸鍋

另子維愛讀史
2025-12-24 17:09:25
湖北男子到杭州旅游,在公交車上差點(diǎn)“社死”,被3個小學(xué)生“感動到涌泉相報”

湖北男子到杭州旅游,在公交車上差點(diǎn)“社死”,被3個小學(xué)生“感動到涌泉相報”

瀟湘晨報
2025-12-26 17:35:18
除了性生活,就是打麻將,中國2000多個縣城普通人的生活現(xiàn)狀

除了性生活,就是打麻將,中國2000多個縣城普通人的生活現(xiàn)狀

花小貓的美食日常
2025-12-12 12:03:15
“向14億國人道歉!”亂港暴徒在法庭上大喊:是美國間諜指使的!

“向14億國人道歉!”亂港暴徒在法庭上大喊:是美國間諜指使的!

來科點(diǎn)譜
2025-12-24 09:01:30
高盛:中國房地產(chǎn)市場現(xiàn)狀

高盛:中國房地產(chǎn)市場現(xiàn)狀

譚談投研
2025-12-24 18:58:11
同樣是丈夫落難,浦安修棄彭總而去,任桂蘭對梁為何不離不棄?

同樣是丈夫落難,浦安修棄彭總而去,任桂蘭對梁為何不離不棄?

安欲喜歡
2025-12-05 11:15:12
殲-36第二架原型機(jī)曝光?序列號36011,這數(shù)字太囂張了

殲-36第二架原型機(jī)曝光?序列號36011,這數(shù)字太囂張了

武器鑒賞
2025-12-27 08:50:59
一覺醒來,俄羅斯怎么給整成戰(zhàn)敗國了?

一覺醒來,俄羅斯怎么給整成戰(zhàn)敗國了?

西府趙王爺
2025-12-25 22:48:41
沖6億!《用武之地》提前鎖定跨年檔冠軍,雷軍和寧浩成最大贏家

沖6億!《用武之地》提前鎖定跨年檔冠軍,雷軍和寧浩成最大贏家

電影票房預(yù)告片
2025-12-26 23:49:04
毛主席微服察訪北平后勃然大怒,嚴(yán)令羅瑞卿徹查此事,最終七人被執(zhí)行槍決,究竟發(fā)生了何等嚴(yán)重事端?

毛主席微服察訪北平后勃然大怒,嚴(yán)令羅瑞卿徹查此事,最終七人被執(zhí)行槍決,究竟發(fā)生了何等嚴(yán)重事端?

桃煙讀史
2025-12-20 17:37:11
爆冷輸國王!杜蘭特空砍24+10,威少21+13再這么打,你要被哄搶了

爆冷輸國王!杜蘭特空砍24+10,威少21+13再這么打,你要被哄搶了

巴叔GO聊體育
2025-12-27 09:18:41
里程碑!洛佩茲生涯蓋帽數(shù)2083次,升至NBA歷史第17位

里程碑!洛佩茲生涯蓋帽數(shù)2083次,升至NBA歷史第17位

懂球帝
2025-12-27 13:16:13
驚呆!26歲新手媽媽被當(dāng)成初中生,喂水時老公成“爸爸”?

驚呆!26歲新手媽媽被當(dāng)成初中生,喂水時老公成“爸爸”?

特約前排觀眾
2025-12-24 00:10:06
“退坑率”最高的十款游戲!前三名都是國產(chǎn)游戲

“退坑率”最高的十款游戲!前三名都是國產(chǎn)游戲

游民星空
2025-12-26 12:12:10
據(jù)說全球僅20例!巴西一女子在同一晚與2名男子發(fā)生了關(guān)系

據(jù)說全球僅20例!巴西一女子在同一晚與2名男子發(fā)生了關(guān)系

忠于法紀(jì)
2025-12-04 11:25:07
小米YU7車主TICC再發(fā)聲:因車禍截肢,與女友婚事作廢,大感遺憾

小米YU7車主TICC再發(fā)聲:因車禍截肢,與女友婚事作廢,大感遺憾

娜烏和西卡
2025-12-26 17:09:13
舒淇在節(jié)目里第一次承認(rèn),她和馮德倫為了要孩子已經(jīng)折騰了九年。

舒淇在節(jié)目里第一次承認(rèn),她和馮德倫為了要孩子已經(jīng)折騰了九年。

歲月有情1314
2025-11-29 15:40:25
山東打響第一槍,38名在編教師集體轉(zhuǎn)崗

山東打響第一槍,38名在編教師集體轉(zhuǎn)崗

山東教育
2025-12-26 08:09:47
2025-12-27 13:28:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
225文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

賈國龍首次回應(yīng)西貝風(fēng)波 稱自己連續(xù)40天靠安眠藥入睡

頭條要聞

賈國龍首次回應(yīng)西貝風(fēng)波 稱自己連續(xù)40天靠安眠藥入睡

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

劉宇寧:我的價值不需要靠番位來證明

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

教育
藝術(shù)
手機(jī)
時尚
房產(chǎn)

教育要聞

3甲=2乙,就他們的乘積

藝術(shù)要聞

毛主席致徐悲鴻信件曝光,書法風(fēng)格引關(guān)注。

手機(jī)要聞

華為Mate 70 Air 16GB版開售:沉浸大屏+鴻蒙6重構(gòu)輕薄旗艦體驗(yàn)

推廣中獎名單-更新至2025年12月15日推廣

房產(chǎn)要聞

炸裂,三亞360億超級清單發(fā)布,又一批重大配套要來了!

無障礙瀏覽 進(jìn)入關(guān)懷版