国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

大模型解剖圖火了,30多個開源模型架構差異一目了然,還可接入AI

0
分享至

2026 年的前兩個月,開源大模型的發(fā)布節(jié)奏已快至令人應接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智譜 AI 的 GLM-5、Cohere 的 Tiny Aya……它們的名稱如流水般接踵而至,參數量從 3B 至 1T 不等,每一款都宣稱是“SOTA”或者“最強開源”。

然而,如此快的更新速度,對于普通開發(fā)者而言,莫說深入研究,僅僅是分辨區(qū)別就已經耗費大量精力。更不用提許多技術報告的表述含糊,架構圖繪制風格各異,想要進行橫向對比十分困難。

為了解決這些問題,一個名為“LLM Architecture Gallery”(大語言模型架構畫廊)的項目上線了。顧名思義,就是讓你像逛“畫廊”一樣,瀏覽不同模型的架構圖。


(來源:X)

這個項目的作者是 Sebastian Raschka,是機器學習領域的知名研究者,寫過《Python Machine Learning》和《Build a Large Language Model (From Scratch)》這兩本深受歡迎的專業(yè)書籍。


(來源:Sebastian Raschka.com)

他把過去幾個月撰寫的兩篇長文《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》中繪制的所有架構圖抽取出來,用統(tǒng)一的視覺語言重新呈現(xiàn),集中放在一個頁面上。點擊任意一張圖可以放大,每張圖下方附帶一份“規(guī)格表”,列出模型的參數量、發(fā)布時間、注意力機制類型等關鍵信息。想深入某個模型,可以點開“view in article”頁面會直接跳轉到原文對應章節(jié)。


(來源:LLM Architecture Gallery)

項目上線幾小時后,Andrej Karpathy 在 X 上回復了 Raschka 的推文:“太好了!我的自動研究功能很需要這個內容的 Markdown 版本——一個創(chuàng)意池?!彼罱l(fā)布的 autoresearch 項目:一個讓 AI 自主跑實驗的開源工具,正需要這類結構化的架構信息作為創(chuàng)意來源。

Raschka 也很快作出回復,并提供了 YAML 格式的元數據 GitHub 鏈接。Karpathy 隨后表示他已經用 Obsidian 把博客文章導出成 markdown,并且“輸入到了 autoresearch 循環(huán)中”。一個本意是方便人類閱讀的架構圖集,就這樣被接入了 AI 自動化研究的工作流。


(來源;X)

就在今天,這個項目也沖上了 Hacker News 首頁。一位用戶評論說:“這讓我想起了當年的 Neural Network Zoo,也是用可視化的方式展示不同架構?!币灿腥死^續(xù)幫忙優(yōu)化細節(jié):“能不能按時間排序,畫出架構演化的家譜樹?能不能加一個比例視圖,讓參數量的差異在視覺上直觀可感?”對于這些建議,Sebastian 表示他后續(xù)會持續(xù)完善。

回到項目本身,目前,這份圖集收錄了三十多個模型架構,從 Llama 38B 到最新的 Qwen3.5、Sarvam 105B、Ling 2.5 1T。所有圖都按同一套視覺規(guī)范繪制:配色、圖例、字體統(tǒng)一,DeepSeek V3 和 Qwen3 235B-A22B 被放在一起時,你一眼就能看出前者用了 MLA(Multi-Head Latent Attention,多頭潛在注意力),后者用的是 GQA(Grouped-Query Attention,分組查詢注意力);DeepSeek V3 有一個“共享專家”模塊,Qwen3 沒有。

這類信息原本散落在幾十頁技術報告的不同角落,現(xiàn)在被壓縮成一張對比圖。

MoE(Mixture-of-Experts,混合專家模型)是 2025 年開源 LLM 的主旋律。所有主流的前沿開放權重模型都采用了這種架構。傳統(tǒng)的“稠密”Transformer 會在每次生成 token 時激活全部參數,參數越多,算力成本越高。而 MoE 把參數分成若干“專家”,每次只激活其中一部分。DeepSeek V3 名義上有 6,710 億參數,但實際運行時只激活 370 億;Llama 4 Maverick 號稱 4,000 億參數,激活的只有 170 億。

Raschka 在圖集中把各模型的專家數量、激活比例、專家隱藏層尺寸都標注出來,讓稀疏程度一目了然。Hacker News 上有人感慨:“我很驚訝這些模型在結構上有多相似,主要差異就是層的大小。”

另一位用戶則看出了一些端倪,辣評“過去七年,LLM 架構有很多改進,但沒有根本性的創(chuàng)新。今天最好的開放權重模型,如果你縮遠了看,仍然很像 GPT-2,就是一堆注意力層和前饋層堆起來?!?/p>

這可以說是一個重要的觀察。LLM 能力的驚人提升,更多來自訓練方法的革新。比如 RLVR(Reinforcement Learning with Verifiable Rewards,可驗證獎勵的強化學習),而不是架構本身的突破。架構層面的優(yōu)化,更多是為了讓訓練和推理更高效、成本更低,而不是讓模型根本上更聰明。理解這一點,對選型和預期管理都有幫助。

最后總結一下,這個大模型架構的圖集的實際用法很簡單。

首先,你可以把它當作速查手冊:想知道 Qwen3 和 DeepSeek V3 在注意力機制上有什么區(qū)別?打開頁面,找到兩張圖,直接對比。規(guī)格表里會告訴你 Qwen3 用 GQA,DeepSeek V3 用 MLA;前者沒有共享專家,后者有。

其次,每張架構圖都鏈接到 Raschka 原文中的對應章節(jié),如果你想深入了解某個技術細節(jié):比如 QK-Norm(一種應用于查詢和鍵向量的歸一化技術)是什么、為什么能穩(wěn)定訓練,點進去就能讀到解釋。

第三,圖集附帶一份“概念速查”,解釋 GQA、MLA、SWA(Sliding Window Attention,滑動窗口注意力)、NoPE(No Positional Encoding,無位置編碼)、Gated DeltaNet 等術語,適合快速補課。

并且,正如 Karpathy 的用法所示,這份圖集的價值不僅在于人類可讀,還在于它的結構化程度足以被機器解析。Raschka 在 GitHub 上提供了 YAML 格式的元數據,包含每個模型的參數量、發(fā)布日期、技術報告鏈接、注意力類型等字段。如果你想寫腳本批量分析這些模型的共性和差異,或者像 Karpathy 那樣把它們喂給 AI 做自動化研究,這份元數據是現(xiàn)成的起點。

Raschka 還把整套架構圖打包成一個超高分辨率的 PNG 文件(56M,182 百萬像素,上傳到 Zazzle,可以直接下單打印成實體海報。他自己也訂了一張,但“還沒收到貨,暫時不能保證印刷質量”。頁面底部留了一個 Issue Tracker 鏈接,歡迎任何人提交糾錯或建議。

對于正在選型的工程師來說,這份圖集的價值在于節(jié)省時間。你不用再翻幾十頁技術報告去找一個數字,也不用自己畫對比表格。對于想搞懂“這些模型到底在結構上有什么區(qū)別”的研究者來說,統(tǒng)一的視覺語言讓跨模型對比成為可能。

1.項目地址:https://sebastianraschka.com/llm-architecture-gallery/#card-qwen3-5-397b

2.開發(fā)者主頁:https://x.com/rasbt/status/2033167146302210058

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

南權先生
2026-01-29 15:57:27
山姆超市最值得買的10樣美食,基本都口碑封神,性價比拉滿

山姆超市最值得買的10樣美食,基本都口碑封神,性價比拉滿

市井覓食記
2026-03-09 00:59:33
為了給前NBA狀元霍華德生孩子,籃球寶貝壯壯究竟付出了多大代價

為了給前NBA狀元霍華德生孩子,籃球寶貝壯壯究竟付出了多大代價

羅氏八卦
2026-03-10 18:00:03
別再被啤酒豬肘騙了!我在德國朋友家住一周,真實的餐桌讓人意外

別再被啤酒豬肘騙了!我在德國朋友家住一周,真實的餐桌讓人意外

天下霸奇
2026-03-16 10:16:58
樊振東官宣轉會!暫不回歸國家隊,本人發(fā)文回應,王勵勤尊重選擇

樊振東官宣轉會!暫不回歸國家隊,本人發(fā)文回應,王勵勤尊重選擇

隱于山海
2026-03-17 00:00:52
前國乒名將批評蒯曼:非常非常難受!不能接受這個結果 真不該輸

前國乒名將批評蒯曼:非常非常難受!不能接受這個結果 真不該輸

念洲
2026-03-16 08:24:28
央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

番外行
2026-03-10 08:01:42
DeepSeek:推薦26028期大樂透五注號碼

DeepSeek:推薦26028期大樂透五注號碼

小李子體育
2026-03-17 00:16:09
伊朗首次使用新武器,襲擊精確命中!突發(fā):美國駐以色列領事官邸,被伊朗導彈碎片擊中

伊朗首次使用新武器,襲擊精確命中!突發(fā):美國駐以色列領事官邸,被伊朗導彈碎片擊中

揚子晚報
2026-03-16 07:29:09
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點
2025-11-22 10:36:39
51:46!美國投票結果公布,美基地被接管,日本逮捕美軍

51:46!美國投票結果公布,美基地被接管,日本逮捕美軍

健身狂人
2026-03-17 00:27:17
費德勒遭批評!內部人士:他滿腦子想的都是錢,納達爾更真實

費德勒遭批評!內部人士:他滿腦子想的都是錢,納達爾更真實

網球之家
2026-03-16 22:19:56
詐騙13.9億、金條茅臺墊桌腿:王麗坤夫婦生活奢靡,劉濤深受其害

詐騙13.9億、金條茅臺墊桌腿:王麗坤夫婦生活奢靡,劉濤深受其害

地理三體說
2026-03-17 02:20:03
600年前城磚上出現(xiàn)“劉德華”?南京官方回應

600年前城磚上出現(xiàn)“劉德華”?南京官方回應

澎湃新聞
2026-03-14 20:02:09
鄭麗文終于翻身!國民黨“一日三喜”、奪回11億,賴清德一敗涂地

鄭麗文終于翻身!國民黨“一日三喜”、奪回11億,賴清德一敗涂地

王姐懶人家常菜
2026-03-17 00:26:37
伊朗全球首次超重型高超音速子母彈實戰(zhàn),其性能世界排名如何?

伊朗全球首次超重型高超音速子母彈實戰(zhàn),其性能世界排名如何?

止戈軍是我
2026-03-14 19:46:09
能否逆轉?瓜帥帶隊近5次歐冠淘汰賽首回合輸球全部被淘汰

能否逆轉?瓜帥帶隊近5次歐冠淘汰賽首回合輸球全部被淘汰

懂球帝
2026-03-17 02:17:08
中國手機市場迎來eSIM時代,三款終端齊發(fā)!

中國手機市場迎來eSIM時代,三款終端齊發(fā)!

環(huán)球通信
2026-03-16 14:53:34
各大城市,很多人紛紛開始買房子,到底是不是真的?

各大城市,很多人紛紛開始買房子,到底是不是真的?

正經說個事兒
2026-03-15 23:33:52
安理會13:0高票通過!135國聯(lián)手定性:伊朗越線,中東必須剎車

安理會13:0高票通過!135國聯(lián)手定性:伊朗越線,中東必須剎車

老馬拉車莫少裝
2026-03-12 15:09:59
2026-03-17 03:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16429文章數 514753關注度
往期回顧 全部

科技要聞

“龍蝦”當道,五位養(yǎng)蝦人探討人類出路

頭條要聞

馬拉松冠軍選手沖線時被攔停并強行帶離賽道 本人發(fā)文

頭條要聞

馬拉松冠軍選手沖線時被攔停并強行帶離賽道 本人發(fā)文

體育要聞

那個送老奶奶去醫(yī)院的球員 成了隊史第一人

娛樂要聞

姚晨曹郁發(fā)離婚聲明 多年前已結束婚姻

財經要聞

梁文鋒推遲V4,是為根治龍蝦的健忘癥?

汽車要聞

大眾全球首款9系旗艦SUV 上汽大眾ID.ERA 9X首秀

態(tài)度原創(chuàng)

家居
藝術
教育
數碼
軍事航空

家居要聞

簡約之美 塵埃落定

藝術要聞

你絕對想不到,東方最美“腰精”的驚艷身材!

教育要聞

高考地理中的熱點火山

數碼要聞

雷科技AWE報道團凱旋!純手工飽和式報道,DS們集體認證“最佳”

軍事要聞

伊朗最高領袖重申“將向敵人索賠”

無障礙瀏覽 進入關懷版