国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型解剖圖火了,30多個(gè)開源模型架構(gòu)差異一目了然,還可接入AI

0
分享至

2026 年的前兩個(gè)月,開源大模型的發(fā)布節(jié)奏已快至令人應(yīng)接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智譜 AI 的 GLM-5、Cohere 的 Tiny Aya……它們的名稱如流水般接踵而至,參數(shù)量從 3B 至 1T 不等,每一款都宣稱是“SOTA”或者“最強(qiáng)開源”。

然而,如此快的更新速度,對(duì)于普通開發(fā)者而言,莫說(shuō)深入研究,僅僅是分辨區(qū)別就已經(jīng)耗費(fèi)大量精力。更不用提許多技術(shù)報(bào)告的表述含糊,架構(gòu)圖繪制風(fēng)格各異,想要進(jìn)行橫向?qū)Ρ仁掷щy。

為了解決這些問(wèn)題,一個(gè)名為“LLM Architecture Gallery”(大語(yǔ)言模型架構(gòu)畫廊)的項(xiàng)目上線了。顧名思義,就是讓你像逛“畫廊”一樣,瀏覽不同模型的架構(gòu)圖。


(來(lái)源:X)

這個(gè)項(xiàng)目的作者是 Sebastian Raschka,是機(jī)器學(xué)習(xí)領(lǐng)域的知名研究者,寫過(guò)《Python Machine Learning》和《Build a Large Language Model (From Scratch)》這兩本深受歡迎的專業(yè)書籍。


(來(lái)源:Sebastian Raschka.com)

他把過(guò)去幾個(gè)月撰寫的兩篇長(zhǎng)文《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》中繪制的所有架構(gòu)圖抽取出來(lái),用統(tǒng)一的視覺語(yǔ)言重新呈現(xiàn),集中放在一個(gè)頁(yè)面上。點(diǎn)擊任意一張圖可以放大,每張圖下方附帶一份“規(guī)格表”,列出模型的參數(shù)量、發(fā)布時(shí)間、注意力機(jī)制類型等關(guān)鍵信息。想深入某個(gè)模型,可以點(diǎn)開“view in article”頁(yè)面會(huì)直接跳轉(zhuǎn)到原文對(duì)應(yīng)章節(jié)。


(來(lái)源:LLM Architecture Gallery)

項(xiàng)目上線幾小時(shí)后,Andrej Karpathy 在 X 上回復(fù)了 Raschka 的推文:“太好了!我的自動(dòng)研究功能很需要這個(gè)內(nèi)容的 Markdown 版本——一個(gè)創(chuàng)意池?!彼罱l(fā)布的 autoresearch 項(xiàng)目:一個(gè)讓 AI 自主跑實(shí)驗(yàn)的開源工具,正需要這類結(jié)構(gòu)化的架構(gòu)信息作為創(chuàng)意來(lái)源。

Raschka 也很快作出回復(fù),并提供了 YAML 格式的元數(shù)據(jù) GitHub 鏈接。Karpathy 隨后表示他已經(jīng)用 Obsidian 把博客文章導(dǎo)出成 markdown,并且“輸入到了 autoresearch 循環(huán)中”。一個(gè)本意是方便人類閱讀的架構(gòu)圖集,就這樣被接入了 AI 自動(dòng)化研究的工作流。


(來(lái)源;X)

就在今天,這個(gè)項(xiàng)目也沖上了 Hacker News 首頁(yè)。一位用戶評(píng)論說(shuō):“這讓我想起了當(dāng)年的 Neural Network Zoo,也是用可視化的方式展示不同架構(gòu)?!币灿腥死^續(xù)幫忙優(yōu)化細(xì)節(jié):“能不能按時(shí)間排序,畫出架構(gòu)演化的家譜樹?能不能加一個(gè)比例視圖,讓參數(shù)量的差異在視覺上直觀可感?”對(duì)于這些建議,Sebastian 表示他后續(xù)會(huì)持續(xù)完善。

回到項(xiàng)目本身,目前,這份圖集收錄了三十多個(gè)模型架構(gòu),從 Llama 38B 到最新的 Qwen3.5、Sarvam 105B、Ling 2.5 1T。所有圖都按同一套視覺規(guī)范繪制:配色、圖例、字體統(tǒng)一,DeepSeek V3 和 Qwen3 235B-A22B 被放在一起時(shí),你一眼就能看出前者用了 MLA(Multi-Head Latent Attention,多頭潛在注意力),后者用的是 GQA(Grouped-Query Attention,分組查詢注意力);DeepSeek V3 有一個(gè)“共享專家”模塊,Qwen3 沒有。

這類信息原本散落在幾十頁(yè)技術(shù)報(bào)告的不同角落,現(xiàn)在被壓縮成一張對(duì)比圖。

MoE(Mixture-of-Experts,混合專家模型)是 2025 年開源 LLM 的主旋律。所有主流的前沿開放權(quán)重模型都采用了這種架構(gòu)。傳統(tǒng)的“稠密”Transformer 會(huì)在每次生成 token 時(shí)激活全部參數(shù),參數(shù)越多,算力成本越高。而 MoE 把參數(shù)分成若干“專家”,每次只激活其中一部分。DeepSeek V3 名義上有 6,710 億參數(shù),但實(shí)際運(yùn)行時(shí)只激活 370 億;Llama 4 Maverick 號(hào)稱 4,000 億參數(shù),激活的只有 170 億。

Raschka 在圖集中把各模型的專家數(shù)量、激活比例、專家隱藏層尺寸都標(biāo)注出來(lái),讓稀疏程度一目了然。Hacker News 上有人感慨:“我很驚訝這些模型在結(jié)構(gòu)上有多相似,主要差異就是層的大小?!?/p>

另一位用戶則看出了一些端倪,辣評(píng)“過(guò)去七年,LLM 架構(gòu)有很多改進(jìn),但沒有根本性的創(chuàng)新。今天最好的開放權(quán)重模型,如果你縮遠(yuǎn)了看,仍然很像 GPT-2,就是一堆注意力層和前饋層堆起來(lái)?!?/p>

這可以說(shuō)是一個(gè)重要的觀察。LLM 能力的驚人提升,更多來(lái)自訓(xùn)練方法的革新。比如 RLVR(Reinforcement Learning with Verifiable Rewards,可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)),而不是架構(gòu)本身的突破。架構(gòu)層面的優(yōu)化,更多是為了讓訓(xùn)練和推理更高效、成本更低,而不是讓模型根本上更聰明。理解這一點(diǎn),對(duì)選型和預(yù)期管理都有幫助。

最后總結(jié)一下,這個(gè)大模型架構(gòu)的圖集的實(shí)際用法很簡(jiǎn)單。

首先,你可以把它當(dāng)作速查手冊(cè):想知道 Qwen3 和 DeepSeek V3 在注意力機(jī)制上有什么區(qū)別?打開頁(yè)面,找到兩張圖,直接對(duì)比。規(guī)格表里會(huì)告訴你 Qwen3 用 GQA,DeepSeek V3 用 MLA;前者沒有共享專家,后者有。

其次,每張架構(gòu)圖都鏈接到 Raschka 原文中的對(duì)應(yīng)章節(jié),如果你想深入了解某個(gè)技術(shù)細(xì)節(jié):比如 QK-Norm(一種應(yīng)用于查詢和鍵向量的歸一化技術(shù))是什么、為什么能穩(wěn)定訓(xùn)練,點(diǎn)進(jìn)去就能讀到解釋。

第三,圖集附帶一份“概念速查”,解釋 GQA、MLA、SWA(Sliding Window Attention,滑動(dòng)窗口注意力)、NoPE(No Positional Encoding,無(wú)位置編碼)、Gated DeltaNet 等術(shù)語(yǔ),適合快速補(bǔ)課。

并且,正如 Karpathy 的用法所示,這份圖集的價(jià)值不僅在于人類可讀,還在于它的結(jié)構(gòu)化程度足以被機(jī)器解析。Raschka 在 GitHub 上提供了 YAML 格式的元數(shù)據(jù),包含每個(gè)模型的參數(shù)量、發(fā)布日期、技術(shù)報(bào)告鏈接、注意力類型等字段。如果你想寫腳本批量分析這些模型的共性和差異,或者像 Karpathy 那樣把它們喂給 AI 做自動(dòng)化研究,這份元數(shù)據(jù)是現(xiàn)成的起點(diǎn)。

Raschka 還把整套架構(gòu)圖打包成一個(gè)超高分辨率的 PNG 文件(56M,182 百萬(wàn)像素,上傳到 Zazzle,可以直接下單打印成實(shí)體海報(bào)。他自己也訂了一張,但“還沒收到貨,暫時(shí)不能保證印刷質(zhì)量”。頁(yè)面底部留了一個(gè) Issue Tracker 鏈接,歡迎任何人提交糾錯(cuò)或建議。

對(duì)于正在選型的工程師來(lái)說(shuō),這份圖集的價(jià)值在于節(jié)省時(shí)間。你不用再翻幾十頁(yè)技術(shù)報(bào)告去找一個(gè)數(shù)字,也不用自己畫對(duì)比表格。對(duì)于想搞懂“這些模型到底在結(jié)構(gòu)上有什么區(qū)別”的研究者來(lái)說(shuō),統(tǒng)一的視覺語(yǔ)言讓跨模型對(duì)比成為可能。

1.項(xiàng)目地址:https://sebastianraschka.com/llm-architecture-gallery/#card-qwen3-5-397b

2.開發(fā)者主頁(yè):https://x.com/rasbt/status/2033167146302210058

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
色膽包天!泰國(guó)一大巴,僅剩1名21歲女孩,56歲司機(jī),鎖門猥褻!

色膽包天!泰國(guó)一大巴,僅剩1名21歲女孩,56歲司機(jī),鎖門猥褻!

川渝視覺
2026-04-26 21:05:13
20句殘忍但很現(xiàn)實(shí)的話!認(rèn)知越高,越有人生閱歷的人,越能認(rèn)同!

20句殘忍但很現(xiàn)實(shí)的話!認(rèn)知越高,越有人生閱歷的人,越能認(rèn)同!

遇見洞見
2026-04-28 20:55:06
華誼兄弟7年虧80億申請(qǐng)破產(chǎn),王中磊落魄兒子美國(guó)瀟灑

華誼兄弟7年虧80億申請(qǐng)破產(chǎn),王中磊落魄兒子美國(guó)瀟灑

圓夢(mèng)的小老頭
2026-04-25 08:49:42
羅馬諾:今夏世界杯是奧喬亞的最后一舞,他將在世界杯后退役

羅馬諾:今夏世界杯是奧喬亞的最后一舞,他將在世界杯后退役

懂球帝
2026-05-01 00:19:26
4月27日澎湖出事了!臺(tái)當(dāng)局慌了!

4月27日澎湖出事了!臺(tái)當(dāng)局慌了!

果媽聊娛樂
2026-04-29 19:57:50
2022 年,知名校長(zhǎng)杜英哲公開炫耀:“我睡過(guò) 100 多個(gè)女學(xué)生?!?>
    </a>
        <h3>
      <a href=大秦共和國(guó)
2026-04-24 10:34:25
小米/華為假期活動(dòng)開啟:5月1日,正式上線

小米/華為假期活動(dòng)開啟:5月1日,正式上線

科技堡壘
2026-05-01 02:00:10
華潤(rùn)7.64億競(jìng)得寧波海曙原電視臺(tái)地塊 溢價(jià)率6.11%

華潤(rùn)7.64億競(jìng)得寧波海曙原電視臺(tái)地塊 溢價(jià)率6.11%

觀點(diǎn)機(jī)構(gòu)
2026-04-30 19:22:17
2026年17部美劇集體謝幕:流媒體時(shí)代的終局邏輯

2026年17部美劇集體謝幕:流媒體時(shí)代的終局邏輯

熱搜摘要官
2026-05-01 00:44:11
“小女孩擰油門”是為傳遞陌生人溫柔?視頻發(fā)布者回應(yīng):女孩并非陌生人

“小女孩擰油門”是為傳遞陌生人溫柔?視頻發(fā)布者回應(yīng):女孩并非陌生人

極目新聞
2026-04-30 19:45:58
遼寧省交投集團(tuán)原董事長(zhǎng)被帶走調(diào)查

遼寧省交投集團(tuán)原董事長(zhǎng)被帶走調(diào)查

地產(chǎn)微資訊
2026-04-30 14:26:19
安切洛蒂立下世界杯硬性規(guī)定!巴西首戰(zhàn)摩洛哥直接決定沖冠命運(yùn)

安切洛蒂立下世界杯硬性規(guī)定!巴西首戰(zhàn)摩洛哥直接決定沖冠命運(yùn)

生活新鮮市
2026-04-30 13:23:53
25歲斬獲西甲金靴,26歲卻被馬競(jìng)清洗,神射手射術(shù)之外太過(guò)平庸

25歲斬獲西甲金靴,26歲卻被馬競(jìng)清洗,神射手射術(shù)之外太過(guò)平庸

足籃大世界
2026-04-30 18:09:29
晚年顧秋妍打開組織寄來(lái)的舊檔案,看到周乙的真實(shí)身份后懵了

晚年顧秋妍打開組織寄來(lái)的舊檔案,看到周乙的真實(shí)身份后懵了

卡西莫多的故事
2026-04-16 10:52:01
第三批禁足名單最快勞動(dòng)節(jié)后公布!不乏現(xiàn)任高管,中超9隊(duì)或在列

第三批禁足名單最快勞動(dòng)節(jié)后公布!不乏現(xiàn)任高管,中超9隊(duì)或在列

奧拜爾
2026-04-30 10:44:11
互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆?。?>
    </a>
        <h3>
      <a href=互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆?。?/a> BenSir本色說(shuō)
2026-04-15 22:38:07
鐵人也有些頂不住了!火箭后場(chǎng)新星到了季后賽場(chǎng)均要出場(chǎng)44分鐘?

鐵人也有些頂不住了!火箭后場(chǎng)新星到了季后賽場(chǎng)均要出場(chǎng)44分鐘?

稻谷與小麥
2026-04-30 22:07:57
還是要打了,美不宣而戰(zhàn),重啟斬首計(jì)劃,這一次伊朗決定拿出家底

還是要打了,美不宣而戰(zhàn),重啟斬首計(jì)劃,這一次伊朗決定拿出家底

南宗歷史
2026-04-26 09:49:02
云南一方丈意外身亡,整理遺物銀行卡有498萬(wàn),方丈女兒提出繼承,寺廟拒絕:出家人,這筆錢屬于寺廟!

云南一方丈意外身亡,整理遺物銀行卡有498萬(wàn),方丈女兒提出繼承,寺廟拒絕:出家人,這筆錢屬于寺廟!

大愛三湘
2026-04-28 19:39:12
最高優(yōu)惠90萬(wàn)!剛剛!蘇州發(fā)布樓市新政!

最高優(yōu)惠90萬(wàn)!剛剛!蘇州發(fā)布樓市新政!

華瑤說(shuō)房
2026-04-30 21:13:13
2026-05-01 05:32:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16647文章數(shù) 514912關(guān)注度
往期回顧 全部

科技要聞

9000億美元估值,Anthropic即將反超OpenAI

頭條要聞

英國(guó)國(guó)王給特朗普送了口鐘 還貼臉開大"有需要盡管敲"

頭條要聞

英國(guó)國(guó)王給特朗普送了口鐘 還貼臉開大"有需要盡管敲"

體育要聞

季后賽場(chǎng)均5.4分,他憑啥在騎士打首發(fā)?

娛樂要聞

孫楊博士學(xué)歷有問(wèn)題?官方含糊其辭

財(cái)經(jīng)要聞

易會(huì)滿被“雙開”!

汽車要聞

專訪捷途汪如生:捷途雙線作戰(zhàn) 全球化全面落地

態(tài)度原創(chuàng)

教育
健康
游戲
親子
公開課

教育要聞

高考地理中的數(shù)字文旅

干細(xì)胞治燒燙傷面臨這些“瓶頸”

《007 初露鋒芒》制作成員采訪:潛龍騰淵"/> 主站 商城 論壇 自運(yùn)營(yíng) 登錄 注冊(cè) 《007 初露鋒芒》制作成員采訪:潛龍騰淵 神堡薛師傅 2026...

親子要聞

接不到活的月嫂越來(lái)越多

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版