国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

梁文鋒署名DeepSeek新論文,“突破GPU內(nèi)存限制”

0
分享至

【文/觀察者網(wǎng) 熊超然】1月12日晚間,中國(guó)人工智能(AI)初創(chuàng)公司DeepSeek創(chuàng)始人梁文鋒與北京大學(xué)研究人員共同署名發(fā)表了一篇技術(shù)論文,提出了一種新的模型訓(xùn)練技術(shù)。他們表示,該技術(shù)可以通過(guò)繞過(guò)圖形處理單元(GPU)內(nèi)存限制,實(shí)現(xiàn)“參數(shù)的積極擴(kuò)展”。

香港《南華早報(bào)》1月13日?qǐng)?bào)道指出,此舉凸顯了DeepSeek在算力相對(duì)美國(guó)行業(yè)領(lǐng)先企業(yè)存在差距的情況下,持續(xù)專注于最大限度地提高成本效率。與此同時(shí),外界猜測(cè)該公司將在今年春節(jié)之前發(fā)布一款重要的新模型。

報(bào)道稱,這篇技術(shù)含量極高的論文將受到中國(guó)和美國(guó)業(yè)內(nèi)人士的廣泛關(guān)注,他們希望從中了解DeepSeek所取得的最新進(jìn)展。在過(guò)去一年中,DeepSeek一直是中國(guó)AI領(lǐng)域創(chuàng)新的典范。


DeepSeek與北京大學(xué)研究人員合作發(fā)表論文,梁文鋒在列論文截圖

據(jù)報(bào)道,在這篇題為《基于可擴(kuò)展查找的條件記憶:大語(yǔ)言模型稀疏性的新維度》(Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models)的最新論文中,介紹了一種名為“Engram”(記憶痕跡)的“條件記憶”(conditional memory)技術(shù)。

該技術(shù)用以解決擴(kuò)大AI模型規(guī)模時(shí)的一個(gè)關(guān)鍵瓶頸——GPU高帶寬內(nèi)存(HBM)容量有限的問(wèn)題。

現(xiàn)有的大型語(yǔ)言模型(LLM)通過(guò)計(jì)算來(lái)檢索基礎(chǔ)信息,而這一過(guò)程需要大量的計(jì)算能力。然而,研究人員表示,這種方式浪費(fèi)了寶貴的“序列深度”(sequential depth),這些“序列深度”本可以被分配用于更高層次推理的瑣碎操作。

《南華早報(bào)》指出,HBM是中國(guó)在AI硬件方面與美國(guó)之間最大的差距之一。韓國(guó)半導(dǎo)體行業(yè)分析機(jī)構(gòu)SemiAnalysis的分析師Ray Wang表示,盡管近年來(lái)取得了穩(wěn)步進(jìn)展,但中國(guó)存儲(chǔ)芯片巨頭長(zhǎng)鑫存儲(chǔ)(CXMT)仍然比韓國(guó)的三星電子和SK海力士以及美國(guó)的美光科技等行業(yè)領(lǐng)軍者落后數(shù)年。

在論文中,DeepSeek和北京大學(xué)的研究人員表示,通過(guò)將計(jì)算與存儲(chǔ)“解耦”,Engram可以讓模型更高效地“查找”這些基礎(chǔ)信息。

他們提到的新技術(shù),還能夠提升模型在處理長(zhǎng)上下文(即較長(zhǎng)輸入)時(shí)的效率,而這正是將AI聊天機(jī)器人轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)世界中有用的AI代理所面臨的最大挑戰(zhàn)之一。

研究人員在一個(gè)擁有270億個(gè)參數(shù)的模型中驗(yàn)證了這一技術(shù),發(fā)現(xiàn)它使主要行業(yè)基準(zhǔn)測(cè)試的表現(xiàn)提升了幾個(gè)百分點(diǎn)。關(guān)鍵在于,這也為模型執(zhí)行計(jì)算需求更高的復(fù)雜推理保留了更多容量。

他們寫道:“我們認(rèn)為條件記憶將成為下一代稀疏模型中不可或缺的建模原語(yǔ)?!毖芯咳藛T將Engram的潛在影響比作他們自己開發(fā)的一種“混合專家”(MoE)技術(shù),該技術(shù)使模型規(guī)模的擴(kuò)大無(wú)需按比例增加計(jì)算量,并且此后已被其他中國(guó)競(jìng)爭(zhēng)對(duì)手采用。


DeepSeek創(chuàng)始人梁文鋒 視頻截圖

目前,行業(yè)中最大的模型擁有數(shù)萬(wàn)億個(gè)參數(shù)。開源開發(fā)者平臺(tái)Hugging Face的研究工程師埃利·巴庫(kù)奇(Elie Bakouch)在社交媒體上對(duì)這篇論文大加稱贊,稱其“在推理和訓(xùn)練時(shí)用硬件上驗(yàn)證了這一技術(shù)”。

據(jù)報(bào)道,這篇論文列出了14位共同作者,除了梁文鋒之外,還包括北京大學(xué)王選計(jì)算機(jī)研究所助理教授、前微軟亞洲研究院首席研究員張輝帥。

去年年初,DeepSeek發(fā)布的大模型DeepSeek-R1,使用由英偉達(dá)H800 GPU驅(qū)動(dòng)的數(shù)據(jù)中心進(jìn)行訓(xùn)練,僅用兩個(gè)月就完成了訓(xùn)練,成本為550萬(wàn)美元,僅為OpenAI等美國(guó)公司所花費(fèi)金額的一小部分。卻實(shí)現(xiàn)了足以匹敵美國(guó)頂尖AI模型的效果,震撼業(yè)界的同時(shí)引發(fā)多國(guó)關(guān)注,尤其是美國(guó)。

當(dāng)?shù)貢r(shí)間1月12日,據(jù)英國(guó)《金融時(shí)報(bào)》報(bào)道,微軟總裁布拉德·史密斯(Brad Smith)警告稱,在爭(zhēng)奪西方以外用戶的競(jìng)爭(zhēng)中,美國(guó)AI公司正被中國(guó)競(jìng)爭(zhēng)對(duì)手超越,中國(guó)低成本的“開源”模型是一大優(yōu)勢(shì)所在。

他表示,中國(guó)AI初創(chuàng)公司DeepSeek的技術(shù)在非洲等新興市場(chǎng)快速普及,凸顯了美國(guó)公司在全球面臨的競(jìng)爭(zhēng)?!拔覀儽仨氄J(rèn)識(shí)到,與一年前不同,現(xiàn)在中國(guó)擁有一個(gè),而且越來(lái)越多地?fù)碛胁恢挂粋€(gè)具有競(jìng)爭(zhēng)力的開源模型?!?/p>

報(bào)道指出,史密斯發(fā)表這番言論之際,微軟的一項(xiàng)新研究發(fā)現(xiàn),DeepSeek一年前發(fā)布的R1大型語(yǔ)言模型,因其“易用性和低成本”,幫助加速了AI在全球范圍內(nèi)的普及,尤其是在全球南方國(guó)家。這也讓中國(guó)在“開源”AI模型的全球市場(chǎng)份額方面超越了美國(guó),這些模型通??梢悦赓M(fèi)供開發(fā)人員使用、修改和集成。

《南華早報(bào)》指出,在DeepSeek發(fā)布其R1模型一周年之際,外界對(duì)其即將推出一款新的重要模型的期待正在升溫。美國(guó)硅谷的新興科技媒體“The Information”當(dāng)?shù)貢r(shí)間1月9日?qǐng)?bào)道稱,DeepSeek預(yù)計(jì)將在今年2月中旬推出一款具備強(qiáng)大編程能力的新V4模型。

本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
新冠病毒3大結(jié)局已經(jīng)不可避免,60歲以上的老年人尤其要注意

新冠病毒3大結(jié)局已經(jīng)不可避免,60歲以上的老年人尤其要注意

醫(yī)護(hù)健康科普
2025-08-31 17:07:58
李亞鵬最新發(fā)聲:嫣然天使兒童醫(yī)院也許會(huì)成為歷史,但我們會(huì)站好最后一班崗

李亞鵬最新發(fā)聲:嫣然天使兒童醫(yī)院也許會(huì)成為歷史,但我們會(huì)站好最后一班崗

封面新聞
2026-01-14 04:57:05
烏度卡終于做正確調(diào)整!戴維森取代霍樂(lè)迪,奧科吉提首發(fā)效果不差

烏度卡終于做正確調(diào)整!戴維森取代霍樂(lè)迪,奧科吉提首發(fā)效果不差

籃球資訊達(dá)人
2026-01-14 12:27:25
甘肅省人民政府關(guān)于唐偉堯等同志職務(wù)任免的通知

甘肅省人民政府關(guān)于唐偉堯等同志職務(wù)任免的通知

極目新聞
2026-01-14 11:46:38
貴陽(yáng)烏當(dāng)區(qū)一人行天橋被夜間過(guò)路掛車撞垮,當(dāng)?shù)兀簾o(wú)人員傷亡,正在拆除

貴陽(yáng)烏當(dāng)區(qū)一人行天橋被夜間過(guò)路掛車撞垮,當(dāng)?shù)兀簾o(wú)人員傷亡,正在拆除

極目新聞
2026-01-14 10:07:33
森碟下巴后縮矯正成功!近照已成標(biāo)準(zhǔn)瓜子臉,正畸前后對(duì)比變化大

森碟下巴后縮矯正成功!近照已成標(biāo)準(zhǔn)瓜子臉,正畸前后對(duì)比變化大

章眽八卦
2026-01-12 12:25:08
俄羅斯已看透特朗普:他在全球橫沖直撞,卻唯獨(dú)不敢對(duì)中國(guó)亂來(lái)

俄羅斯已看透特朗普:他在全球橫沖直撞,卻唯獨(dú)不敢對(duì)中國(guó)亂來(lái)

窺史
2026-01-13 23:46:11
44歲阿嬌與阿Sa同框,一個(gè)好嫩一個(gè)臉腫又饅化,骨相皮相區(qū)別明顯

44歲阿嬌與阿Sa同框,一個(gè)好嫩一個(gè)臉腫又饅化,骨相皮相區(qū)別明顯

艷兒說(shuō)電影
2026-01-14 13:05:12
神仙姐姐的野生圖,太美了。

神仙姐姐的野生圖,太美了。

微微熱評(píng)
2026-01-09 12:20:53
廣東寶媽梁海燕因羊水栓塞去世,十天花費(fèi)超50萬(wàn)

廣東寶媽梁海燕因羊水栓塞去世,十天花費(fèi)超50萬(wàn)

究竟誰(shuí)主沉浮
2026-01-12 17:30:44
1986年陳永貴病逝,追悼會(huì)規(guī)格成難題,鄧小平只說(shuō)了一句話,全場(chǎng)安靜

1986年陳永貴病逝,追悼會(huì)規(guī)格成難題,鄧小平只說(shuō)了一句話,全場(chǎng)安靜

寄史言志
2026-01-04 16:34:31
190萬(wàn)手封死漲停!002131,9天6板!

190萬(wàn)手封死漲停!002131,9天6板!

證券時(shí)報(bào)e公司
2026-01-14 10:46:51
大師賽戰(zhàn)報(bào):連爆大冷6場(chǎng)6-2,中國(guó)3勝1負(fù)趙心童8強(qiáng)對(duì)手賽程確定

大師賽戰(zhàn)報(bào):連爆大冷6場(chǎng)6-2,中國(guó)3勝1負(fù)趙心童8強(qiáng)對(duì)手賽程確定

求球不落諦
2026-01-14 06:24:01
烏度卡談三分不佳:火箭并不依賴三分,但這場(chǎng)確實(shí)比過(guò)去6場(chǎng)好

烏度卡談三分不佳:火箭并不依賴三分,但這場(chǎng)確實(shí)比過(guò)去6場(chǎng)好

懂球帝
2026-01-14 13:25:40
伊朗被曝兩晚死亡1.2萬(wàn)人,抗議民眾:有槍聲連發(fā)射擊,是重機(jī)槍

伊朗被曝兩晚死亡1.2萬(wàn)人,抗議民眾:有槍聲連發(fā)射擊,是重機(jī)槍

阿芒娛樂(lè)說(shuō)
2026-01-14 11:54:07
駐中糧集團(tuán)紀(jì)檢監(jiān)察組組長(zhǎng)曲林已任貴州省委常委、組織部部長(zhǎng)

駐中糧集團(tuán)紀(jì)檢監(jiān)察組組長(zhǎng)曲林已任貴州省委常委、組織部部長(zhǎng)

澎湃新聞
2026-01-14 10:00:26
復(fù)旦大學(xué)博士生威海追暴雪:火車上激動(dòng)地睡不著,降雪強(qiáng)度遠(yuǎn)超預(yù)期

復(fù)旦大學(xué)博士生威海追暴雪:火車上激動(dòng)地睡不著,降雪強(qiáng)度遠(yuǎn)超預(yù)期

觀威海
2026-01-14 10:06:05
比日本還囂張!為支持臺(tái)灣與中國(guó)斷交后,又要求中國(guó)主動(dòng)低頭求和

比日本還囂張!為支持臺(tái)灣與中國(guó)斷交后,又要求中國(guó)主動(dòng)低頭求和

今墨緣
2026-01-13 15:44:16
何穗元旦首曬陳偉霆帶娃合影!父子依偎超有安全感

何穗元旦首曬陳偉霆帶娃合影!父子依偎超有安全感

瑛派兒老黃
2026-01-14 10:43:49
一夫一妻制逐漸難維持!社會(huì)學(xué)家分析:未來(lái)3種模式將成為主流?

一夫一妻制逐漸難維持!社會(huì)學(xué)家分析:未來(lái)3種模式將成為主流?

流云青史
2025-11-24 19:15:05
2026-01-14 13:55:00
觀察者網(wǎng) incentive-icons
觀察者網(wǎng)
全球視野,中國(guó)關(guān)懷
132269文章數(shù) 1849672關(guān)注度
往期回顧 全部

科技要聞

美國(guó)批準(zhǔn)英偉達(dá)H200賣給中國(guó),但有條件

頭條要聞

一戶人家被全樓"孤立":加裝電梯沒(méi)出資 賣房時(shí)尷尬了

頭條要聞

一戶人家被全樓"孤立":加裝電梯沒(méi)出資 賣房時(shí)尷尬了

體育要聞

牛津?qū)W霸買下兒時(shí)主隊(duì),讓它成為英超黑馬

娛樂(lè)要聞

何晴去世30天,許亞軍終于發(fā)聲

財(cái)經(jīng)要聞

滬深北交易所提高融資保證金比例

汽車要聞

曝Model Y或降到20萬(wàn)以內(nèi)!

態(tài)度原創(chuàng)

藝術(shù)
親子
教育
時(shí)尚
游戲

藝術(shù)要聞

八大山人『山水花鳥冊(cè)』

親子要聞

“為什么媽媽明明很愛我 卻一到輔導(dǎo)作業(yè)的時(shí)候就很兇”媽媽也在學(xué)著怎么去當(dāng)媽媽

教育要聞

“我就是不想再被她擺布!”寧波初三女孩用不上學(xué)報(bào)復(fù)媽媽

【年度愛用】她們2025年買得最值的,是這些

Steam喜加一:多人競(jìng)速游戲《Initial Drift Online》

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版