国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華TsinghuaNLP團隊,登上Nature子刊封面:“模型的能力密度,每3.5個月翻倍”

0
分享至


Nature Machine Intelligence 封面

《Densing Law of LLMs》 論文,登上 Nature Machine Intelligence 封面

這篇論文,提出了一個很有趣的點

Densing Law 模型的能力密度,每 3.5 個月翻倍

通過分析了 51 個開源模型,量化了一個現(xiàn)象:

  • ? 模型能力密度,呈指數(shù)級增長, 倍增周期約 3.5 個月

  • ? 這意味著達到同等性能水平,所需的參數(shù)量 每 3.5 個月減少一半

  • ? 伴隨參數(shù)效率的提升,同等性能下的 推理成本每 2.6 個月腰斬

本論文的第一作者為肖朝軍,通訊作者為韓旭、劉知遠、孫茂松,來自清華TsinghuaNLP團隊

論文回顧

讓我先用簡明的方式,簡單講下論文:能力密度,每 3.5 個月翻倍,這里的能力密度是什么?

能力密度 = 等效參數(shù)量 ÷ 實際參數(shù)量


「能力密度」是怎么得來的

換句話說:
2B 模型跑出 4B 的成績,密度就是 2

Llama-1 發(fā)布時,密度不到 0.1

兩年后,Gemma-2-9B 和 MiniCPM-3-4B 接近 2


模型能力密度趨勢圖

兩年,能力密度提高 20 倍
和體感是不是很接近?模型咔咔在變聰明

那么...怎么漲的?
你可能聽說過小模型變強的兩種做法:

  • ? 剪枝 :把大模型參數(shù)砍掉一部分

  • ? 量化 :把參數(shù)精度從 32 位降到 8 位

但論文發(fā)現(xiàn),這兩種方法都會讓密度下降

  • ? Llama-3.2-3B/1B 從 8B 剪枝來,密度比原模型低

  • ? Llama-3.1-minitron-4B 也是,密度也低

  • ? GPTQ 量化后,密度同樣下降

剪枝/量化都沒啥用,圖自論文 Fig.3b

論文解釋:
壓縮過程中訓練不充分,能力沒塞回去

密度提升靠的是更好的預訓練數(shù)據(jù),更好的架構(gòu),后期壓縮是沒用的
那如果 3.5 個月翻倍這個規(guī)律持續(xù)下去,會怎樣?
論文給了幾個推論

密度提升靠的是更好的預訓練數(shù)據(jù),更好的架構(gòu),后期壓縮是沒用的

那如果 3.5 個月翻倍這個規(guī)律持續(xù)下去,會怎樣?

論文給了幾個推論

推論一:推理成本指數(shù)下降

密度翻倍,同等性能所需參數(shù)量減半,算力顯存跟著減半

論文算了一下:同等性能的推理成本,每 2.6 個月腰斬


各種模型的調(diào)用價格,飛速下降,圖自論文 Fig.3a 推論二:ChatGPT 加速了密度增長

ChatGPT 發(fā)布前,密度增長斜率是 0.0048,發(fā)布后變成了 0.0073


ChatGPT 發(fā)布后,斜率明顯上升,圖自論文 Fig.3c

增速提升 50%

這說明... AI 大火之后,人、錢、資源都涌了進來,增速實打?qū)嵦岣吡?/p>

推論三:端側(cè)設(shè)備會越來越能打

在過去幾年里,相同價格芯片的計算能力大約每 2.1 年翻一番

而根據(jù)上面的結(jié)論,模型密度每 3.5 個月翻倍

疊加一下:固定價格端側(cè)設(shè)備,能跑的有效參數(shù)量每 88 天翻番

emmmmnm...未來可期


又不是不可能... 歷史回顧

這部分和論文無關(guān),是我自己整理的行業(yè)數(shù)據(jù),我們來看看實際價格


先說量販式

2022 年底,ChatGPT 發(fā)布的時候,能用到的模型叫text-davinci-003 ,后面也被稱作 GPT-3,定價是 20 美元/百萬 token

2024 年 7 月,GPT-4o mini 出來了,0.15 美元/百萬輸入 token,比 GPT-3.5 Turbo 便宜 60%,MMLU 跑分還更高——82% vs 69.8%

2024 年 8 月,Gemini-1.5-Flash,0.075 美元/百萬 token

text-davinci-003Gemini Flash,20 個月,降了 266 倍

旗艦模型呢?

最開始的 GPT-4,是 23年6月13日發(fā)布的,輸入是 60 美元/百萬 token。還有個更貴的 GPT-4-32k,輸入是 60美金/百萬 token

而最新的 GPT-5.1 則只需要 1.25 美元/百萬 token


OpenAI 的模型價格

順便說一下,國產(chǎn)平替 GLM-4.6 更是低至 0.3 美元/百萬 token,要啥自行車


GLM 的模型價格

不僅僅是價格巨幅降低,性能也是節(jié)節(jié)攀升,曾經(jīng)的模型能力,從現(xiàn)在的角度,完全不夠看


模型能力進化史 再看小模型

2024 年 2 月,MiniCPM-2.4B 發(fā)布,參數(shù)量只有 Mistral-7B 的 35%,跑分接近 Mistral-7B,中文、數(shù)學、代碼還更強,整體超過 Llama2-13B、MPT-30B、Falcon-40B


還是看這個圖,圈子大小表示參數(shù)量

考慮到 Mistral-7B 是 2023 年 9 月發(fā)布的,那么...

4 個月,參數(shù)量砍到 35%,性能不降

這樣的例子還很多,大致都可以和論文的 Densing Law 對得上,未來大模型的發(fā)展都可以參照這個來評判

穿插個題外話:Dense vs MoE

上文中,我提到過兩種模型,一種是幾百B的,另一種則是幾B的...

一些朋友可能會好奇,為啥都是大模型,有的賊大,有的賊小...

這其實是個架構(gòu)問題,有些是 MoE 架構(gòu),體積大,適合服務器部署(訓練/規(guī)模化推理成本有優(yōu)勢);有些是 Dense 架構(gòu),體積小,適合本地部署(尺寸上有優(yōu)勢),詳細的解釋可以看這里:

總結(jié)

一句話展望
按這個發(fā)展速度,在小天才手表上,跑 Nano Banana,指日可待


圖是ai畫的,但我是認真的...現(xiàn)在的小天才,已經(jīng)比安尼亞克(ENIAC)強太多了

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
胖東來賣喬丹親簽球衣,售價13.8萬元,工作人員回應:保真!定價受收購價影響,存在差異

胖東來賣喬丹親簽球衣,售價13.8萬元,工作人員回應:保真!定價受收購價影響,存在差異

魯中晨報
2025-12-25 15:57:08
人口告別世界第一?二孩催生無效后,國家終于向住房出手了

人口告別世界第一?二孩催生無效后,國家終于向住房出手了

春秋論娛
2025-12-25 07:11:24
美國中產(chǎn)都擋不住“斬殺線”,為何要飯的華人“講師”越活越滋潤

美國中產(chǎn)都擋不住“斬殺線”,為何要飯的華人“講師”越活越滋潤

凡知
2025-12-25 17:34:58
確認了!右膝骨挫傷!NBA最慘強隊誕生

確認了!右膝骨挫傷!NBA最慘強隊誕生

籃球?qū)崙?zhàn)寶典
2025-12-25 19:19:48
新加坡人直言:比起海南封關(guān)帶來的威脅,更怕中國會幫泰國挖運河

新加坡人直言:比起海南封關(guān)帶來的威脅,更怕中國會幫泰國挖運河

阿萊美食匯
2025-12-26 04:40:03
“預制菜風波”后賈國龍首發(fā)聲,稱回看當初犯了三個錯誤

“預制菜風波”后賈國龍首發(fā)聲,稱回看當初犯了三個錯誤

揚子晚報
2025-12-25 15:08:10
濃眉傷退!獨行俠無緣17分逆轉(zhuǎn)!庫里三分10中2,弗拉格創(chuàng)紀錄

濃眉傷退!獨行俠無緣17分逆轉(zhuǎn)!庫里三分10中2,弗拉格創(chuàng)紀錄

體壇小李
2025-12-26 09:02:41
恭喜!個人所得稅個人養(yǎng)老金扣除:每年可多抵扣12000元!

恭喜!個人所得稅個人養(yǎng)老金扣除:每年可多抵扣12000元!

河南交通廣播1041
2025-12-25 17:29:18
真當中國不敢動手?中方向全世界宣布:退出1900億大項目

真當中國不敢動手?中方向全世界宣布:退出1900億大項目

李健政觀察
2025-12-25 13:41:44
冷冷冷!今晨最低-3℃,周末回暖 | 天氣早知道

冷冷冷!今晨最低-3℃,周末回暖 | 天氣早知道

上海楊浦
2025-12-26 08:01:21
1960年春節(jié),周總理請溥儀吃飯,酒桌上溥儀講了個慈禧的“笑話”,總理聽完,當場陷入了沉思

1960年春節(jié),周總理請溥儀吃飯,酒桌上溥儀講了個慈禧的“笑話”,總理聽完,當場陷入了沉思

歷史回憶室
2025-12-24 10:29:12
圣誕大戰(zhàn)場邊美女有多絕?2019年洛城德比 她讓霍華德目不轉(zhuǎn)睛

圣誕大戰(zhàn)場邊美女有多絕?2019年洛城德比 她讓霍華德目不轉(zhuǎn)睛

Emily說個球
2025-12-25 22:53:42
明著吃軟飯?17次上春晚全靠老婆,結(jié)婚28年身上沒有一分積蓄

明著吃軟飯?17次上春晚全靠老婆,結(jié)婚28年身上沒有一分積蓄

以茶帶書
2025-12-25 17:05:32
兩位90后,又融8億

兩位90后,又融8億

華爾街見聞官方
2025-12-25 19:00:37
關(guān)系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

關(guān)系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

誮惜顏a
2025-12-24 05:53:10
離譜!唐僧師徒直播取經(jīng),直播間擠爆上萬人,化緣直接日入過萬!

離譜!唐僧師徒直播取經(jīng),直播間擠爆上萬人,化緣直接日入過萬!

可樂談情感
2025-12-26 00:54:17
順差一萬億美元你知道是啥概念不?放200年前八國聯(lián)軍早到家門口

順差一萬億美元你知道是啥概念不?放200年前八國聯(lián)軍早到家門口

沈言論
2025-12-21 11:50:03
不想走!中超前外援:中國是最棒的國家,生活太便利!簡直是奇跡

不想走!中超前外援:中國是最棒的國家,生活太便利!簡直是奇跡

國足風云
2025-12-25 10:12:16
陪睡陪玩只是冰山一角!萬達蒸發(fā)800億后,王思聰再次傳出大丑聞

陪睡陪玩只是冰山一角!萬達蒸發(fā)800億后,王思聰再次傳出大丑聞

甜檸聊史
2025-12-24 14:53:56
過山車上嘔吐物從天而降弄臟羽絨服,男子起訴游樂園索賠2.8萬余元,法院判賠清洗費1000元,退還VIP門票費

過山車上嘔吐物從天而降弄臟羽絨服,男子起訴游樂園索賠2.8萬余元,法院判賠清洗費1000元,退還VIP門票費

極目新聞
2025-12-25 18:27:41
2025-12-26 09:19:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
224文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

“不再是機器人大國”,日本錯過了什么?

頭條要聞

網(wǎng)友取300元少5元被銀行員工拿走 公開后被人上門威脅

頭條要聞

網(wǎng)友取300元少5元被銀行員工拿走 公開后被人上門威脅

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天把阿信好意當球踢!

財經(jīng)要聞

涉案近300億元 多方圍剿金融“黑灰產(chǎn)”

汽車要聞

速來!智界在上海西岸準備了年末潮流盛典

態(tài)度原創(chuàng)

時尚
藝術(shù)
健康
公開課
軍事航空

冬季穿衣別顯得太臃腫!大衣收腰、搭配圍巾,有質(zhì)感又高級

藝術(shù)要聞

毛主席草書作品展現(xiàn)清雅詩句,藝苑中熠熠生輝

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

多國取消訂單 美報告:F-35"去年有一半時間無法升空"

無障礙瀏覽 進入關(guān)懷版