国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

梁文鋒署名DeepSeek新論文,“突破GPU內(nèi)存限制”

0
分享至

【文/觀察者網(wǎng) 熊超然】1月12日晚間,中國人工智能(AI)初創(chuàng)公司DeepSeek創(chuàng)始人梁文鋒與北京大學(xué)研究人員共同署名發(fā)表了一篇技術(shù)論文,提出了一種新的模型訓(xùn)練技術(shù)。他們表示,該技術(shù)可以通過繞過圖形處理單元(GPU)內(nèi)存限制,實現(xiàn)“參數(shù)的積極擴展”。

香港《南華早報》1月13日報道指出,此舉凸顯了DeepSeek在算力相對美國行業(yè)領(lǐng)先企業(yè)存在差距的情況下,持續(xù)專注于最大限度地提高成本效率。與此同時,外界猜測該公司將在今年春節(jié)之前發(fā)布一款重要的新模型。

報道稱,這篇技術(shù)含量極高的論文將受到中國和美國業(yè)內(nèi)人士的廣泛關(guān)注,他們希望從中了解DeepSeek所取得的最新進展。在過去一年中,DeepSeek一直是中國AI領(lǐng)域創(chuàng)新的典范。


DeepSeek與北京大學(xué)研究人員合作發(fā)表論文,梁文鋒在列論文截圖

據(jù)報道,在這篇題為《基于可擴展查找的條件記憶:大語言模型稀疏性的新維度》(Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models)的最新論文中,介紹了一種名為“Engram”(記憶痕跡)的“條件記憶”(conditional memory)技術(shù)。

該技術(shù)用以解決擴大AI模型規(guī)模時的一個關(guān)鍵瓶頸——GPU高帶寬內(nèi)存(HBM)容量有限的問題。

現(xiàn)有的大型語言模型(LLM)通過計算來檢索基礎(chǔ)信息,而這一過程需要大量的計算能力。然而,研究人員表示,這種方式浪費了寶貴的“序列深度”(sequential depth),這些“序列深度”本可以被分配用于更高層次推理的瑣碎操作。

《南華早報》指出,HBM是中國在AI硬件方面與美國之間最大的差距之一。韓國半導(dǎo)體行業(yè)分析機構(gòu)SemiAnalysis的分析師Ray Wang表示,盡管近年來取得了穩(wěn)步進展,但中國存儲芯片巨頭長鑫存儲(CXMT)仍然比韓國的三星電子和SK海力士以及美國的美光科技等行業(yè)領(lǐng)軍者落后數(shù)年。

在論文中,DeepSeek和北京大學(xué)的研究人員表示,通過將計算與存儲“解耦”,Engram可以讓模型更高效地“查找”這些基礎(chǔ)信息。

他們提到的新技術(shù),還能夠提升模型在處理長上下文(即較長輸入)時的效率,而這正是將AI聊天機器人轉(zhuǎn)變?yōu)楝F(xiàn)實世界中有用的AI代理所面臨的最大挑戰(zhàn)之一。

研究人員在一個擁有270億個參數(shù)的模型中驗證了這一技術(shù),發(fā)現(xiàn)它使主要行業(yè)基準測試的表現(xiàn)提升了幾個百分點。關(guān)鍵在于,這也為模型執(zhí)行計算需求更高的復(fù)雜推理保留了更多容量。

他們寫道:“我們認為條件記憶將成為下一代稀疏模型中不可或缺的建模原語?!毖芯咳藛T將Engram的潛在影響比作他們自己開發(fā)的一種“混合專家”(MoE)技術(shù),該技術(shù)使模型規(guī)模的擴大無需按比例增加計算量,并且此后已被其他中國競爭對手采用。


DeepSeek創(chuàng)始人梁文鋒 視頻截圖

目前,行業(yè)中最大的模型擁有數(shù)萬億個參數(shù)。開源開發(fā)者平臺Hugging Face的研究工程師埃利·巴庫奇(Elie Bakouch)在社交媒體上對這篇論文大加稱贊,稱其“在推理和訓(xùn)練時用硬件上驗證了這一技術(shù)”。

據(jù)報道,這篇論文列出了14位共同作者,除了梁文鋒之外,還包括北京大學(xué)王選計算機研究所助理教授、前微軟亞洲研究院首席研究員張輝帥。

去年年初,DeepSeek發(fā)布的大模型DeepSeek-R1,使用由英偉達H800 GPU驅(qū)動的數(shù)據(jù)中心進行訓(xùn)練,僅用兩個月就完成了訓(xùn)練,成本為550萬美元,僅為OpenAI等美國公司所花費金額的一小部分。卻實現(xiàn)了足以匹敵美國頂尖AI模型的效果,震撼業(yè)界的同時引發(fā)多國關(guān)注,尤其是美國。

當?shù)貢r間1月12日,據(jù)英國《金融時報》報道,微軟總裁布拉德·史密斯(Brad Smith)警告稱,在爭奪西方以外用戶的競爭中,美國AI公司正被中國競爭對手超越,中國低成本的“開源”模型是一大優(yōu)勢所在。

他表示,中國AI初創(chuàng)公司DeepSeek的技術(shù)在非洲等新興市場快速普及,凸顯了美國公司在全球面臨的競爭?!拔覀儽仨氄J識到,與一年前不同,現(xiàn)在中國擁有一個,而且越來越多地擁有不止一個具有競爭力的開源模型?!?/p>

報道指出,史密斯發(fā)表這番言論之際,微軟的一項新研究發(fā)現(xiàn),DeepSeek一年前發(fā)布的R1大型語言模型,因其“易用性和低成本”,幫助加速了AI在全球范圍內(nèi)的普及,尤其是在全球南方國家。這也讓中國在“開源”AI模型的全球市場份額方面超越了美國,這些模型通??梢悦赓M供開發(fā)人員使用、修改和集成。

《南華早報》指出,在DeepSeek發(fā)布其R1模型一周年之際,外界對其即將推出一款新的重要模型的期待正在升溫。美國硅谷的新興科技媒體“The Information”當?shù)貢r間1月9日報道稱,DeepSeek預(yù)計將在今年2月中旬推出一款具備強大編程能力的新V4模型。

本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
難以置信!聊城一男子花200元按摩,7個月后被行拘并罰款5000…

難以置信!聊城一男子花200元按摩,7個月后被行拘并罰款5000…

火山詩話
2026-01-13 11:09:09
官方回應(yīng)賀嬌龍逝世是假消息

官方回應(yīng)賀嬌龍逝世是假消息

正在新聞
2026-01-14 10:39:41
湖南永州醫(yī)生被控強奸兩幼女案再審宣判

湖南永州醫(yī)生被控強奸兩幼女案再審宣判

界面新聞
2026-01-14 12:24:55
北京:退休人員可以報銷產(chǎn)前檢查費用,自2026年1月1日起實行

北京:退休人員可以報銷產(chǎn)前檢查費用,自2026年1月1日起實行

和訊網(wǎng)
2026-01-13 15:03:10
日韓這兩件事咱不管,該國總理十年來首訪華挺重要

日韓這兩件事咱不管,該國總理十年來首訪華挺重要

新民周刊
2026-01-14 09:08:54
商務(wù)部:自2026年1月14日起,對原產(chǎn)于美國和韓國的進口太陽能級多晶硅繼續(xù)征收反傾銷稅,實施期限為5年

商務(wù)部:自2026年1月14日起,對原產(chǎn)于美國和韓國的進口太陽能級多晶硅繼續(xù)征收反傾銷稅,實施期限為5年

每日經(jīng)濟新聞
2026-01-13 16:39:49
不容易!河北農(nóng)村燃氣降價2毛錢,每戶再給200元補貼

不容易!河北農(nóng)村燃氣降價2毛錢,每戶再給200元補貼

小蘿卜絲
2026-01-14 09:18:09
陳志被捕后,太子集團旗下大型房地產(chǎn)項目被禁止銷售:付全款購房者可申請產(chǎn)權(quán)轉(zhuǎn)移

陳志被捕后,太子集團旗下大型房地產(chǎn)項目被禁止銷售:付全款購房者可申請產(chǎn)權(quán)轉(zhuǎn)移

紅星新聞
2026-01-13 13:34:29
克魯尼舉家“逃離美國”?川普一語戳破好萊塢左派的虛偽

克魯尼舉家“逃離美國”?川普一語戳破好萊塢左派的虛偽

斌聞天下
2026-01-14 07:15:03
俄烏戰(zhàn)爭,擊碎了多少“神一樣的存在”

俄烏戰(zhàn)爭,擊碎了多少“神一樣的存在”

望岳
2026-01-12 20:36:38
李在明強調(diào)韓中日三國合作重要性,高市早苗一句不提中國

李在明強調(diào)韓中日三國合作重要性,高市早苗一句不提中國

極目新聞
2026-01-14 10:07:33
富保羅出手了!正推動亨特交易去湖人 布里奇斯也可能加盟紫金軍

富保羅出手了!正推動亨特交易去湖人 布里奇斯也可能加盟紫金軍

羅說NBA
2026-01-14 06:54:03
小學(xué)階段,有這些表現(xiàn)的孩子,就證明不是讀書的料了

小學(xué)階段,有這些表現(xiàn)的孩子,就證明不是讀書的料了

好爸育兒
2026-01-13 16:17:52
澳大利亞驅(qū)逐伊朗大使,西方多國紛紛與波斯政府“翻臉”

澳大利亞驅(qū)逐伊朗大使,西方多國紛紛與波斯政府“翻臉”

史政先鋒
2026-01-13 23:03:50
重慶合川“搖人按豬”女孩粉絲破190萬!60秒以上視頻廣告報價2400元,商標被多方申請注冊,網(wǎng)友提議→

重慶合川“搖人按豬”女孩粉絲破190萬!60秒以上視頻廣告報價2400元,商標被多方申請注冊,網(wǎng)友提議→

封面新聞
2026-01-13 16:17:06
王石的悲劇:裸泳的傻白甜富二代

譚談投研
2026-01-13 18:31:26

嘆服!日本亞洲杯3連勝轟10-0 派大學(xué)生以小打大 身價不及U23國足

嘆服!日本亞洲杯3連勝轟10-0 派大學(xué)生以小打大 身價不及U23國足

我愛英超
2026-01-14 06:30:22
屠殺已經(jīng)開始,付出巨大犧牲可能仍然失敗

屠殺已經(jīng)開始,付出巨大犧牲可能仍然失敗

金召點評
2026-01-13 14:10:18
李在明見“鬼”說鬼話

李在明見“鬼”說鬼話

天真無牙
2026-01-13 18:07:02
網(wǎng)傳“骨科神醫(yī)”家藏3.2億現(xiàn)金,全被凍結(jié)!

網(wǎng)傳“骨科神醫(yī)”家藏3.2億現(xiàn)金,全被凍結(jié)!

達文西看世界
2026-01-10 14:18:58
2026-01-14 12:32:49
觀察者網(wǎng) incentive-icons
觀察者網(wǎng)
全球視野,中國關(guān)懷
132269文章數(shù) 1849672關(guān)注度
往期回顧 全部

科技要聞

美國批準英偉達H200賣給中國,但有條件

頭條要聞

委方:美國襲擊爆炸威力巨大 無法對殘骸進行DNA鑒定

頭條要聞

委方:美國襲擊爆炸威力巨大 無法對殘骸進行DNA鑒定

體育要聞

牛津?qū)W霸買下兒時主隊,讓它成為英超黑馬

娛樂要聞

何晴去世30天,許亞軍終于發(fā)聲

財經(jīng)要聞

"死了么"App爆火:流量來了 困境未解

汽車要聞

曝Model Y或降到20萬以內(nèi)!

態(tài)度原創(chuàng)

藝術(shù)
手機
游戲
教育
數(shù)碼

藝術(shù)要聞

八大山人『山水花鳥冊』

手機要聞

王自如和羅永浩觀點一致:紛紛稱贊榮耀Magic8 Pro Air

《GTA6》“高度機密”被曝光?聽證會上曝細節(jié)!

教育要聞

跟大鵬老師學(xué)將軍飲馬,通熟易懂!

數(shù)碼要聞

華碩ProArt 創(chuàng)13 2026開啟預(yù)約 支持360°旋轉(zhuǎn)多形態(tài)

無障礙瀏覽 進入關(guān)懷版