国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek又放大招!梁文鋒署名新論文引關(guān)注

0
分享至

DeepSeek近日發(fā)布論文,闡述了一種更為高效的人工智能開發(fā)方法。該論文由創(chuàng)始人梁文鋒參與撰寫,提出了名為“流形約束超連接”(mHC)的框架。作者稱,該框架旨在提升可擴展性,同時降低訓(xùn)練先進人工智能系統(tǒng)的算力和能源需求。DeepSeek下一代旗艦系統(tǒng)R2預(yù)計將在2月份春節(jié)前后問世。

1月1日消息,DeepSeek發(fā)布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構(gòu)。

該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問題,同時保持其顯著的性能增益。

這篇論文的第一作者有三位:Zhenda Xie(解振達)、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek創(chuàng)始人梁文鋒也在作者名單中。

論文摘要指出,近來,以超連接(HC)為代表的研究通過拓寬殘差流寬度和多樣化連接模式,拓展了過去十年間確立的普遍采用的殘差連接范式。雖然這些改進帶來了顯著的性能提升,但連接模式的多樣化從根本上削弱了殘差連接固有的恒等映射特性,導(dǎo)致嚴重的訓(xùn)練不穩(wěn)定性與受限的可擴展性,同時還造成了顯著的內(nèi)存訪問開銷。

為了解決這些問題,DeepSeek提出了流形約束超連接(mHC)——一種通用框架,能夠?qū)C的殘差連接空間投影到特定流形上,從而恢復(fù)恒等映射特性,并融合嚴格的基礎(chǔ)設(shè)施優(yōu)化以確保運行效率。

DeepSeek稱,實證實驗表明,mHC能夠有效支持大規(guī)模訓(xùn)練,在提供明顯性能提升的同時具備更優(yōu)的可擴展性。DeepSeek預(yù)計,mHC作為HC的一種靈活而實用的拓展,將有助于深化對拓撲架構(gòu)設(shè)計的理解,并為基座模型的演進指明富有前景的方向。

內(nèi)部大規(guī)模訓(xùn)練結(jié)果顯示,mHC可有效支持規(guī)?;?xùn)練,當擴展率=4時,僅帶來6.7%的額外時間開銷。

圖為殘差連接范式的示意圖。本圖對比了 (a) 標準殘差連接、(b) 超連接 以及 (c) 流形約束超連接的結(jié)構(gòu)設(shè)計。與無約束的HC不同,mHC通過將連接矩陣投影到一個約束流形上,專注于優(yōu)化殘差連接空間,從而確保訓(xùn)練的穩(wěn)定性。

論文在結(jié)論與展望部分指出,實證結(jié)果表明,mHC能有效恢復(fù)恒等映射特性,相較于傳統(tǒng)HC,能以更優(yōu)的可擴展性實現(xiàn)穩(wěn)定的大規(guī)模訓(xùn)練。關(guān)鍵的是,通過高效的基礎(chǔ)設(shè)施級優(yōu)化,mHC以可忽略的計算開銷實現(xiàn)了上述改進。

論文還指出,作為HC范式的廣義拓展,mHC為未來研究開辟了多個重要方向:雖然本研究采用雙隨機矩陣確保穩(wěn)定性,但該框架可兼容針對特定學習目標設(shè)計的多種流形約束探索;預(yù)計對差異化幾何約束的深入研究可能催生能更好權(quán)衡可塑性—穩(wěn)定性關(guān)系的新方法。此外,DeepSeek希望mHC能重新激發(fā)學界對宏觀架構(gòu)設(shè)計的關(guān)注。通過深化對拓撲結(jié)構(gòu)如何影響優(yōu)化與表征學習的理解,mHC將有助于突破現(xiàn)有局限,并可能為下一代基礎(chǔ)架構(gòu)的演進指明新路徑。

近期,DeepSeek動作不斷,“熱搜”也不斷。

2025年12月8日

梁文鋒入選《自然》年度十大科學人物

2025年12月8日,英國《自然》雜志網(wǎng)站發(fā)布2025年度十大科學人物榜單,中國人工智能企業(yè)深度求索創(chuàng)始人梁文鋒和中國科學院深??茖W家杜夢然入選。

2025年1月,來自中國的一則公告震撼了人工智能界。深度求索公司發(fā)布其強大而低成本的R1推理模型?!蹲匀弧冯s志網(wǎng)站稱,這瞬間證明美國在人工智能領(lǐng)域的發(fā)展并不像許多專家想象的那樣遙遙領(lǐng)先。

2025年12月1日

DeepSeek發(fā)布兩個正式版模型

據(jù)DeepSeek官微,2025年12月1日,DeepSeek發(fā)布兩個正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。DeepSeek-V3.2強化Agent能力,官方網(wǎng)頁端、App和API均已更新為正式版DeepSeek-V3.2。Speciale版本目前僅以臨時API服務(wù)形式開放,以供社區(qū)評測與研究。

2025年11月27日

DeepSeek推出新模型

2025年11月27日,DeepSeek推出新型數(shù)學推理模型DeepSeekMath-V2,采用可自我驗證的訓(xùn)練框架。該模型基于DeepSeek-V3.2-Exp-Base構(gòu)建,通過LLM驗證器自動審查生成的數(shù)學證明,并利用高難度樣本持續(xù)優(yōu)化性能。

2025年10月20日

DeepSeek開源新模型

2025年10月20日,DeepSeek-AI團隊發(fā)布《DeepSeek-OCR:Contexts Optical Compression》論文,提出利用視覺模態(tài)壓縮長文本上下文的新方法。根據(jù)介紹,此次開源的 DeepSeek-OCR 由兩個部分組成:核心編碼器 DeepEncoder 和解碼器 DeepSeek3B-MoE-A570M。在實際生產(chǎn)中,DeepSeek-OCR 可在單塊 A100-40G 顯卡上每天生成超過 20 萬頁的大語言模型 / 視覺語言模型訓(xùn)練數(shù)據(jù)。

2025年9月29日

DeepSeek-V3.2-Exp模型正式發(fā)布

2025年9月29日,深度求索公司發(fā)布了 DeepSeek-V3.2-Exp 模型,其宛如再次向國產(chǎn)芯片江湖投入一枚巨石。

官方公告顯示,新版本模型實驗性地引入了 DeepSeek Sparse Attention(一種稀疏注意力機制),其顯著降低計算資源消耗并提升推理效率。

而得益于這一技術(shù)創(chuàng)新,深度求索宣布其官方App、網(wǎng)頁端、小程序均已同步更新為新模型,并全面下調(diào)API價格,降幅在50%到75%不等。

值得注意的是,不同于上次發(fā)布 DeepSeek-V3.1版本時“猶抱琵琶半遮面”的狀態(tài),此次 V3.2 EXP 版本的發(fā)布,幾乎零時差引發(fā)數(shù)個國產(chǎn)芯片廠商——華為、寒武紀、海光等的“認領(lǐng)”。

2025年9月17日

登上《自然》!DeepSeek-R1訓(xùn)練方法發(fā)布

2025年9月17日,由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文,登上國際頂級期刊《自然(Nature)》的封面。該期刊編輯部直言:目前幾乎所有主流的大模型都還沒有經(jīng)過獨立同行評審,這一空白“終于被DeepSeek打破”。

DeepSeek-R1包含一個在人類監(jiān)督下的深入訓(xùn)練階段,以優(yōu)化推理過程。梁文鋒團隊報告稱,該模型使用了強化學 習 而非人類示例來開發(fā)推理步驟,減少了訓(xùn)練成本和復(fù)雜性。DeepSeek-R1在被展示優(yōu)質(zhì)的問題解決案例后,會獲得一個模板來產(chǎn)生推理過程,即這一模型通過解決問題獲得獎勵,從而強化學習效果。團隊總結(jié)說, 未來研究可以聚焦優(yōu)化獎勵過程,以確保推理和任務(wù)結(jié)果更可靠。

來源:綜合自證券時報、財聯(lián)社、21世紀經(jīng)濟報道及公開信息

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
王毅把話挑明,圍臺演習就是針對美國對臺軍售,特朗普說了軟話

王毅把話挑明,圍臺演習就是針對美國對臺軍售,特朗普說了軟話

非凡觀點
2026-01-05 09:51:13
三角洲高價值目標抓捕:直升機、特種車輛、戰(zhàn)術(shù),適配元首級目標

三角洲高價值目標抓捕:直升機、特種車輛、戰(zhàn)術(shù),適配元首級目標

形上謂道
2026-01-03 19:33:18
中美徹底變天了?中方正式向全世界宣布,禁止美軍該項合作

中美徹底變天了?中方正式向全世界宣布,禁止美軍該項合作

花花娛界
2026-01-03 20:23:38
放棄爭奪數(shù)百億遺產(chǎn),帶著女兒遠遁美國,如今才知道她有多清醒

放棄爭奪數(shù)百億遺產(chǎn),帶著女兒遠遁美國,如今才知道她有多清醒

夢史
2025-12-16 11:07:49
河北農(nóng)村的取暖困境與民營燃氣企業(yè)的利潤狂歡

河北農(nóng)村的取暖困境與民營燃氣企業(yè)的利潤狂歡

ICT解讀者
2026-01-04 15:56:36
德國杯頒獎樊振東笑慘了!發(fā)自內(nèi)心喜悅藏不住 7小時4戰(zhàn)全勝太強

德國杯頒獎樊振東笑慘了!發(fā)自內(nèi)心喜悅藏不住 7小時4戰(zhàn)全勝太強

顏小白的籃球夢
2026-01-05 09:00:14
教育部曾明確要降低職稱在績效工資中的權(quán)重,現(xiàn)在看結(jié)果咋樣呢?

教育部曾明確要降低職稱在績效工資中的權(quán)重,現(xiàn)在看結(jié)果咋樣呢?

郭愛華追問教育
2026-01-05 06:26:29
今冬最冷時間表出爐!1月上旬迎寒潮,今年過年到底冷不冷?

今冬最冷時間表出爐!1月上旬迎寒潮,今年過年到底冷不冷?

復(fù)轉(zhuǎn)這些年
2026-01-04 23:52:26
72歲曾志偉自稱江郎才盡,從TVB退休,譚詠麟獻唱相擁

72歲曾志偉自稱江郎才盡,從TVB退休,譚詠麟獻唱相擁

眼底星碎
2026-01-05 06:35:57
50歲男子心梗搶救無效,每天堅持快走,醫(yī)生表明:3個習慣要了命

50歲男子心梗搶救無效,每天堅持快走,醫(yī)生表明:3個習慣要了命

卡西莫多的故事
2025-12-07 11:07:35
荷蘭政府把中企安世半導(dǎo)體從出口“白名單”中剔除,不給任何理由

荷蘭政府把中企安世半導(dǎo)體從出口“白名單”中剔除,不給任何理由

我心縱橫天地間
2026-01-04 13:04:12
理想的“冰箱彩電大沙發(fā)”,敗給了現(xiàn)實

理想的“冰箱彩電大沙發(fā)”,敗給了現(xiàn)實

金錯刀
2026-01-03 09:10:25
U23比賽鬧出國際笑話!兩黃變一紅卻換個人上場 球迷:臉都不要了

U23比賽鬧出國際笑話!兩黃變一紅卻換個人上場 球迷:臉都不要了

刀鋒體育
2026-01-04 13:29:36
馬杜羅被抓后,特朗普真實目的曝光,中方迅速回應(yīng),卻只說3句話

馬杜羅被抓后,特朗普真實目的曝光,中方迅速回應(yīng),卻只說3句話

博覽歷史
2026-01-04 13:00:10
奧迪A6L給出20.18萬優(yōu)惠力度!老車主表示:小丑竟是我自己?

奧迪A6L給出20.18萬優(yōu)惠力度!老車主表示:小丑竟是我自己?

汽車網(wǎng)評
2026-01-04 21:33:12
湖北省政協(xié)原黨組成員、副主席周先旺嚴重違紀違法被“雙開”

湖北省政協(xié)原黨組成員、副主席周先旺嚴重違紀違法被“雙開”

界面新聞
2026-01-04 16:03:03
做不到別承諾!“奪冠即送車”的美女老板,終究為自己言行買了單

做不到別承諾!“奪冠即送車”的美女老板,終究為自己言行買了單

奇思妙想草葉君
2026-01-02 22:06:17
陜西獸父多次強暴親生女兒獲刑十年

陜西獸父多次強暴親生女兒獲刑十年

半島晨報
2026-01-04 14:30:03
為保守付出代價瓜帥賽后開炮,切爾西1-1絕平曼城,送阿森納禮包

為保守付出代價瓜帥賽后開炮,切爾西1-1絕平曼城,送阿森納禮包

釘釘陌上花開
2026-01-05 04:49:00
進口車厘子價格跳水,40元一斤劃算嗎?有商家預(yù)測過年前還要降

進口車厘子價格跳水,40元一斤劃算嗎?有商家預(yù)測過年前還要降

齊魯壹點
2026-01-04 07:36:37
2026-01-05 10:24:49
21世紀經(jīng)濟報道 incentive-icons
21世紀經(jīng)濟報道
中國商業(yè)新聞領(lǐng)導(dǎo)者
227488文章數(shù) 743489關(guān)注度
往期回顧 全部

科技要聞

雷軍新年首播:確認汽車業(yè)務(wù)降速

頭條要聞

牛彈琴:美國露出獠牙 現(xiàn)在有三個國家感到最危險

頭條要聞

牛彈琴:美國露出獠牙 現(xiàn)在有三個國家感到最危險

體育要聞

女子世界第一,9年前在咖啡店洗碗

娛樂要聞

《小城大事》上星央八 熱血筑夢正當時

財經(jīng)要聞

李迅雷:擴內(nèi)需要把重心從"投"轉(zhuǎn)向"消"

汽車要聞

最高續(xù)航310km 嵐圖泰山8或?qū)⑸习肽臧l(fā)布

態(tài)度原創(chuàng)

旅游
親子
本地
健康
公開課

旅游要聞

馬來西亞吉隆坡打造夜景裝置為旅游年助力

親子要聞

向太慈母多敗兒?原生家庭會帶來多大傷害?

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版