国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

“密度法則”登上Nature子刊封面,揭示高效大模型發(fā)展路徑

0
分享至

近日,清華大學(xué)聯(lián)合 OpenBMB 研究成果《Densing Law of LLMs》(大模型密度法則)正式在《自然 · 機(jī)器智能》(Nature Machine Intelligence)上 作為封面文章正式發(fā)表。


文章題目: Densing law of LLMs 文章鏈接: https://www.nature.com/articles/s42256-025-01137-0

密度法則指出,大語言模型的最大能力密度隨時(shí)間呈指數(shù)級(jí)增長(zhǎng),2023 年 2 月至 2025 年 4 月,大模型最大能力密度約每 3.5 個(gè)月翻一倍。這意味著每隔 3.5 個(gè)月,即可用一半?yún)?shù)量的模型實(shí)現(xiàn)當(dāng)前最優(yōu)性能。這一發(fā)現(xiàn)為理解大模型發(fā)展規(guī)律提供了新的視角,揭示了大模型高效化發(fā)展的內(nèi)在趨勢(shì)。

大模型的快速發(fā)展給通用人工智能的研究帶來了曙光。自 2020 年以來,大模型在尺度定律(Scaling Law)的指導(dǎo)下,不斷增加訓(xùn)練數(shù)據(jù)和模型參數(shù)的規(guī)模,在自然語言理解、生成和推理任務(wù)上的取得了顯著的能力提升。這推動(dòng)了一系列參數(shù)量超過千億的超大規(guī)模模型的涌現(xiàn)。然而,隨著訓(xùn)練規(guī)模的膨脹,大模型的訓(xùn)練和推理成本急劇上升:一方面,公開可用數(shù)據(jù)的增長(zhǎng)難以匹配模型需求的指數(shù)級(jí)擴(kuò)張;另一方面,計(jì)算資源和能源消耗成為大模型訓(xùn)練與部署的瓶頸。為應(yīng)對(duì)這些挑戰(zhàn),研究者亟需探索大模型的可持續(xù)發(fā)展路徑。

信息技術(shù)發(fā)展史提供了重要借鑒。摩爾法則通過優(yōu)化芯片制造工藝、提升晶體管密度,持續(xù)提升芯片計(jì)算能力,推動(dòng)了計(jì)算設(shè)備的普及化進(jìn)程。受此啟發(fā),研究團(tuán)隊(duì)思考:大模型是否也存在類似的“密度提升”規(guī)律?研究團(tuán)隊(duì)提出了大模型“能力密度”(Capability Density)概念,用于評(píng)估大模型單位參數(shù)內(nèi)蘊(yùn)含的智能水平。該概念基于一個(gè)核心假設(shè):采用相同制造工藝、經(jīng)過充分訓(xùn)練的不同尺寸模型,其能力密度應(yīng)當(dāng)相同。

為了量化能力密度,研究團(tuán)隊(duì)設(shè)計(jì)了相對(duì)能力密度的評(píng)估框架。首先選取一系列基準(zhǔn)模型,通過擬合這些模型在不同參數(shù)規(guī)模下的性能表現(xiàn),建立參數(shù)量與性能之間的映射關(guān)系。在此基礎(chǔ)上,研究團(tuán)隊(duì)設(shè)定基準(zhǔn)模型的能力密度為 1,作為衡量其他模型能力密度的基線。給定目標(biāo)模型的能力密度被定義為:目標(biāo)模型的參數(shù)量與達(dá)到相同效果的基準(zhǔn)模型參數(shù)量的比值。


能力密度計(jì)算方法示意圖

團(tuán)隊(duì)對(duì) 51 個(gè)近年來發(fā)布的開源大模型進(jìn)行了密度分析。結(jié)果顯示,這些模型的最大能力密度隨時(shí)間呈指數(shù)增長(zhǎng)趨勢(shì),大約每過 3.5 個(gè)月,就能用參數(shù)量減半的模型達(dá)到當(dāng)前最先進(jìn)模型的性能水平。這一規(guī)律揭示了大模型技術(shù)的飛速進(jìn)展,以及在算力和算法的協(xié)同作用下,模型能力的持續(xù)提升。


image.png 開源大模型能力密度的變化趨勢(shì)圖

根據(jù)密度法則,研究團(tuán)隊(duì)得出了若干重要推論:

推論1:同能力模型的推理開銷隨時(shí)間指數(shù)級(jí)下降

一方面,密度法則指出同能力的大模型參數(shù)每 3.5 個(gè)月減半。同時(shí)在推理系統(tǒng)優(yōu)化方面,摩爾定律驅(qū)動(dòng)芯片算力持續(xù)增強(qiáng),而模型量化、投機(jī)采樣、顯存優(yōu)化等算法技術(shù)也在不斷突破,相同推理成本下,能夠運(yùn)行的模型大小不斷提升。實(shí)證數(shù)據(jù)顯示,GPT-3.5 級(jí)模型 API 價(jià)格在 20 個(gè)月內(nèi)下降 266.7 倍,約每 2.5 個(gè)月下降一倍。


GPT-3.5 級(jí)模型 API 價(jià)格

推論2:大模型能力密度正在加速增強(qiáng)

以 MMLU 為評(píng)測(cè)基準(zhǔn)的統(tǒng)計(jì)顯示,ChatGPT 發(fā)布前能力密度每 4.8 個(gè)月翻倍,而 ChatGPT 發(fā)布后能力密度每 3.2 個(gè)月翻倍,密度增強(qiáng)速度提升了 50%。這表明,隨著大模型技術(shù)的成熟和開源生態(tài)的繁榮,能力密度提升正在加速。


以 MMLU 為基準(zhǔn)測(cè)量的能力密度變化情況

推論3:模型壓縮算法并不總能增強(qiáng)模型能力密度

研究團(tuán)隊(duì)對(duì)比了多個(gè)模型與其壓縮版本的能力密度,發(fā)現(xiàn)除了 Gemma-2-9B 以外,如 Llama-3.2-3B/1B、Llama-3.1-minitron-4B 等其他壓縮模型的密度都低于原始模型。量化技術(shù)同樣會(huì)降低模型性能和能力密度。這一發(fā)現(xiàn)揭示了當(dāng)前模型壓縮技術(shù)的局限性:壓縮過程中較小模型的訓(xùn)練往往不夠充分,無法達(dá)到最優(yōu)密度。


模型壓縮對(duì)能力密度的影響

推論4:模型小型化揭示端側(cè)智能巨大潛力

芯片電路密度(摩爾定律)和模型能力密度(密度法則)兩條曲線的交匯,意味著端側(cè)設(shè)備將能夠運(yùn)行更高性能的大模型,邊緣計(jì)算和終端智能將迎來爆發(fā)式增長(zhǎng),算力普惠將從云端走向終端。


發(fā)表在《Nature Communications》上的論文(Efficient GPT-4V level multimodal large language model for deployment on edge devices)刻畫了這一變化趨勢(shì)

基于密度法則的理論指導(dǎo),清華大學(xué)、OpenBMB 及面壁智能團(tuán)隊(duì)圍繞模型架構(gòu)、算法、數(shù)據(jù)等方面持續(xù)創(chuàng)新,加速推進(jìn)高密度模型研發(fā)。自 2024 年以來,陸續(xù)發(fā)布了面壁小鋼炮 MiniCPM、MiniCPM-V/o、VoxCPM 等一系列端側(cè)「高密度」模型,憑借高效低成本的特性享譽(yù)全球,被評(píng)為 2024 年 Hugging Face 最多下載、最受歡迎的中國(guó)大模型。截至 2025 年 10 月,模型下載量接近 1500 萬次, GitHub 星標(biāo)接近 3 萬次。

該研究成果由計(jì)算機(jī)系孫茂松、劉知遠(yuǎn)、韓旭老師團(tuán)隊(duì)與大模型開源社區(qū) OpenBMB 合作完成。計(jì)算機(jī)系博士后肖朝軍為第一作者,助理研究員韓旭、長(zhǎng)聘副教授劉知遠(yuǎn)、教授孫茂松為通訊作者。該研究獲國(guó)家自然科學(xué)基金、北京市科技計(jì)劃項(xiàng)目、博士后創(chuàng)新人才支持計(jì)劃及清華大學(xué)水木學(xué)者計(jì)劃支持。

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線700+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

michellechang@thejiangmen.com

或添加工作人員微信(michelle333_)投稿,溝通投稿詳情

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗30枚超重導(dǎo)彈襲擊以色列

伊朗30枚超重導(dǎo)彈襲擊以色列

每日經(jīng)濟(jì)新聞
2026-03-14 07:34:46
多接觸女性的隱秘好處:第2個(gè)很多男人一輩子沒明白

多接觸女性的隱秘好處:第2個(gè)很多男人一輩子沒明白

夏末moent
2026-03-12 11:38:54
悲哀!老兩口先后去世,兒女迅速賣房,鄰居感慨他們快速?gòu)氐紫?>
    </a>
        <h3>
      <a href=火山詩(shī)話
2026-03-13 06:36:11
退賽2天后,吳艷妮現(xiàn)身F1賽場(chǎng) 躬身為沖刺賽前3頒獎(jiǎng) 黑色短裙驚艷

退賽2天后,吳艷妮現(xiàn)身F1賽場(chǎng) 躬身為沖刺賽前3頒獎(jiǎng) 黑色短裙驚艷

念洲
2026-03-14 12:36:44
那個(gè)曾揚(yáng)言讓中國(guó)給全世界道歉,慘遭央視開除的阿丘,如今怎樣了

那個(gè)曾揚(yáng)言讓中國(guó)給全世界道歉,慘遭央視開除的阿丘,如今怎樣了

松林侃世界
2026-03-13 08:17:07
孫燕姿啟德演唱會(huì)太胖了,好雷人!雙眼無神肚子好大像懷孕了似的

孫燕姿啟德演唱會(huì)太胖了,好雷人!雙眼無神肚子好大像懷孕了似的

小娛樂悠悠
2026-03-14 09:53:47
西安不倒翁小姐姐離職:沒嫁入豪門,七年沒拿到編制,壓力太大!

西安不倒翁小姐姐離職:沒嫁入豪門,七年沒拿到編制,壓力太大!

眼光很亮
2026-03-12 19:25:00
暖哭了!美以空襲炸死160名女童,中國(guó)給160個(gè)家庭20萬美元撫恤金

暖哭了!美以空襲炸死160名女童,中國(guó)給160個(gè)家庭20萬美元撫恤金

影像溫度
2026-03-13 16:57:26
男子半年瘋狂打賞167萬追女主播,發(fā)現(xiàn)對(duì)方已婚起訴要求還錢,法院:打賞款不用退

男子半年瘋狂打賞167萬追女主播,發(fā)現(xiàn)對(duì)方已婚起訴要求還錢,法院:打賞款不用退

紅星新聞
2026-03-13 22:49:10
她果然沒離,畢竟400億資產(chǎn)的男人也不多啊!

她果然沒離,畢竟400億資產(chǎn)的男人也不多啊!

BenSir本色說
2026-03-11 22:06:22
第六波反制來了,巴拿馬呼吁中方冷靜,巴政府想要的,中方給不了

第六波反制來了,巴拿馬呼吁中方冷靜,巴政府想要的,中方給不了

鐵錘簡(jiǎn)科
2026-03-13 18:10:20
科爾談阿德巴約砍83分:克萊14個(gè)三分紀(jì)錄的最后一個(gè)也三連鐵

科爾談阿德巴約砍83分:克萊14個(gè)三分紀(jì)錄的最后一個(gè)也三連鐵

懂球帝
2026-03-14 10:38:30
阻孫穎莎三連冠!蒯曼4-2復(fù)仇晉級(jí)四強(qiáng) 女單世界前四均早早出局

阻孫穎莎三連冠!蒯曼4-2復(fù)仇晉級(jí)四強(qiáng) 女單世界前四均早早出局

顏小白的籃球夢(mèng)
2026-03-14 14:15:35
蘋果隱藏神功能!一鍵清理,直接騰出近50GB空間

蘋果隱藏神功能!一鍵清理,直接騰出近50GB空間

小柱解說游戲
2026-03-13 13:53:39
致命碰撞!伊以同時(shí)吹響總攻號(hào)角,終極對(duì)決正式打響!

致命碰撞!伊以同時(shí)吹響總攻號(hào)角,終極對(duì)決正式打響!

大嘴說天下
2026-03-13 19:45:52
馬克龍:不接受

馬克龍:不接受

南方都市報(bào)
2026-03-13 11:42:10
春麗的大腿被削弱了?職業(yè)選手:肌肉少了三分之一

春麗的大腿被削弱了?職業(yè)選手:肌肉少了三分之一

游民星空
2026-03-13 16:06:26
高市早苗到底得了什么病

高市早苗到底得了什么病

徐靜波靜說日本
2026-03-14 08:15:18
廣州大學(xué)人工智能學(xué)院院長(zhǎng)楊春生病逝!同事悼念稱“很突然”

廣州大學(xué)人工智能學(xué)院院長(zhǎng)楊春生病逝!同事悼念稱“很突然”

南方都市報(bào)
2026-03-13 19:06:12
悲催!兩位80后朋友心梗離世,一網(wǎng)友哭訴平時(shí)無煙無酒,踢球跑步

悲催!兩位80后朋友心梗離世,一網(wǎng)友哭訴平時(shí)無煙無酒,踢球跑步

火山詩(shī)話
2026-03-11 16:21:10
2026-03-14 16:51:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2310文章數(shù) 596關(guān)注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財(cái)經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀 實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

數(shù)碼
親子
本地
公開課
軍事航空

數(shù)碼要聞

尼格買提親述華為FreeClip 2佩戴無感,舒適度再獲明星認(rèn)證

親子要聞

把添加劑當(dāng)嬰幼兒消化酶賣,這錢賺得太黑心 | 新京報(bào)快評(píng)

本地新聞

坐標(biāo)北京,過敏季反向遷徒

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布空襲伊石油出口樞紐哈爾克島

無障礙瀏覽 進(jìn)入關(guān)懷版