国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,梁文鋒署名開(kāi)源「記憶」模塊,DeepSeek V4更細(xì)節(jié)了

0
分享至



機(jī)器之心編輯部

就在十幾個(gè)小時(shí)前,DeepSeek 發(fā)布了一篇新論文,主題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》,與北京大學(xué)合作完成,作者中同樣有梁文鋒署名。



  • 論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

簡(jiǎn)單總結(jié)一波這項(xiàng)新研究要解決的問(wèn)題:目前大語(yǔ)言模型主要通過(guò)混合專家(MoE)來(lái)實(shí)現(xiàn)稀疏化,這被稱為「條件計(jì)算」。但是,現(xiàn)有的 Transformer 缺少原生的知識(shí)查找機(jī)制,只能被迫通過(guò)計(jì)算過(guò)程低效地模擬檢索行為。

針對(duì)這一現(xiàn)狀,DeepSeek 提出了條件記憶(conditional memory),從而與 MoE 的條件計(jì)算互補(bǔ),并通過(guò)引入一個(gè)新模塊 Engram 來(lái)實(shí)現(xiàn)

目前,模塊「Engram」相關(guān)的實(shí)現(xiàn)已經(jīng)上傳到了 GitHub。



項(xiàng)目地址:https://github.com/deepseek-ai/Engram

這讓網(wǎng)友們感慨:「DeepSeek is back!」



此外,結(jié)合元旦期間公布的研究《mHC:Manifold-ConstrainedHyper-Connections》,我們可以明確的是 DeepSeek v4 的模樣愈發(fā)清晰,就等上新了!

除了條件計(jì)算(MoE),

LLM 還需要一個(gè)獨(dú)立的條件記憶 Engram

MoE 模型通過(guò)條件計(jì)算實(shí)現(xiàn)了模型容量的擴(kuò)展,但現(xiàn)有的 Transformer 架構(gòu)缺乏原生的知識(shí)查找原語(yǔ),只能通過(guò)計(jì)算過(guò)程低效地模擬檢索行為。

為了解決這一問(wèn)題,DeepSeek 提出了條件記憶(conditional memory)這一與條件計(jì)算互補(bǔ)的稀疏化維度,并通過(guò) Engram 模塊加以實(shí)現(xiàn)。Engram 在經(jīng)典 -gram 嵌入的基礎(chǔ)上進(jìn)行了現(xiàn)代化改造,使其能夠以 O (1) 時(shí)間復(fù)雜度完成知識(shí)查找。

通過(guò)形式化提出稀疏性分配問(wèn)題,DeepSeek 還發(fā)現(xiàn)了一條呈 U 型的擴(kuò)展規(guī)律,用以刻畫神經(jīng)計(jì)算(MoE)與靜態(tài)記憶(Engram)之間的最優(yōu)權(quán)衡關(guān)系。

在這一規(guī)律的指導(dǎo)下,DeepSeek 將 Engram 擴(kuò)展至 270 億參數(shù)規(guī)模,并在嚴(yán)格等參數(shù)量、等 FLOPs 的條件下,其整體性能顯著優(yōu)于純 MoE 基線模型

尤為值得注意的是,盡管記憶模塊本身主要被用于提升知識(shí)檢索能力(如 MMLU 提升 +3.4、CMMLU 提升 +4.0),但 DeepSeek 觀察到其在通用推理能力(如 BBH 提升 +5.0、ARC-Challenge 提升 +3.7)以及代碼與數(shù)學(xué)推理任務(wù)(HumanEval 提升 +3.0、MATH 提升 +2.4)上帶來(lái)了更為顯著的增益。

進(jìn)一步的分析表明,Engram 能夠?qū)㈧o態(tài)知識(shí)的重建負(fù)擔(dān)從模型的淺層中剝離出來(lái),從而有效加深網(wǎng)絡(luò)用于復(fù)雜推理的有效深度。此外,通過(guò)將局部依賴關(guān)系交由查表機(jī)制處理,Engram 釋放了注意力機(jī)制的容量,使其能夠更專注于全局上下文建模,從而顯著提升了長(zhǎng)上下文檢索能力(例如 Multi-Query NIAH 的準(zhǔn)確率從 84.2 提升至 97.0)。

最后,Engram 在系統(tǒng)層面同樣展現(xiàn)出基礎(chǔ)設(shè)施感知的高效性:其確定性的尋址方式支持在運(yùn)行時(shí)從主機(jī)內(nèi)存進(jìn)行預(yù)取,幾乎不會(huì)帶來(lái)額外的性能開(kāi)銷。

DeepSeek 認(rèn)為,條件記憶將成為下一代稀疏大模型中不可或缺的核心建模原語(yǔ)

Engram 架構(gòu)如下,其設(shè)計(jì)目標(biāo)是在結(jié)構(gòu)上將靜態(tài)模式存儲(chǔ)與動(dòng)態(tài)計(jì)算過(guò)程從 Transformer 主干網(wǎng)絡(luò)中分離出來(lái),從而對(duì)其進(jìn)行增強(qiáng)。該模塊對(duì)序列中每一個(gè)位置依次執(zhí)行兩個(gè)功能階段:檢索與融合。



在運(yùn)行過(guò)程中,DeepSeek 首先對(duì)當(dāng)前位置的后綴 N-gram 進(jìn)行提取與壓縮,并通過(guò)哈希機(jī)制以確定性的方式檢索對(duì)應(yīng)的靜態(tài)嵌入向量。隨后,這些被檢索到的嵌入會(huì)在當(dāng)前隱藏狀態(tài)的調(diào)制下進(jìn)行動(dòng)態(tài)調(diào)整,并進(jìn)一步通過(guò)一個(gè)輕量級(jí)卷積操作加以精煉。最后,Engram 與多分支架構(gòu)進(jìn)行集成。

基于哈希 -gram 的稀疏檢索

這一階段的目標(biāo)是將局部上下文映射到靜態(tài)記憶條目,這一過(guò)程主要包括分詞器壓縮以及通過(guò)確定性哈希機(jī)制來(lái)檢索對(duì)應(yīng)的嵌入表示。

分詞器壓縮:為了最大化記憶單元的語(yǔ)義密度,DeepSeek 引入了一層詞表投影(vocabulary projection)。為此,他們預(yù)先設(shè)計(jì)了一個(gè)映射函數(shù),其將原始 token ID 映射為基于文本規(guī)范化等價(jià)關(guān)系(例如使用 NFKC 規(guī)范化、統(tǒng)一大小寫等)得到的規(guī)范化標(biāo)識(shí)符(canonical identifiers)。在實(shí)際應(yīng)用中,對(duì)于一個(gè)規(guī)模為 128k 的分詞器,該過(guò)程能夠?qū)⒂行г~表規(guī)模縮減約 23%(詳見(jiàn)附錄 C)。



多頭哈希:直接對(duì)所有可能的 N-gram 組合空間進(jìn)行參數(shù)化在計(jì)算和存儲(chǔ)上都是不可行的。借鑒 Tito Svenstrup 等(2017)的工作,DeepSeek 采用了一種基于哈希的近似方法。為了降低哈希沖突的影響,對(duì)于每一種 N-gram 階數(shù) n,引入 K 個(gè)相互獨(dú)立的哈希頭。

上下文感知門控

前一階段通過(guò)哈希 -gram 從條件記憶中檢索得到的嵌入向量,本質(zhì)上提供的是一種與具體語(yǔ)境無(wú)關(guān)的靜態(tài)先驗(yàn)信息。然而,正因?yàn)槠潇o態(tài)屬性,這些嵌入缺乏對(duì)當(dāng)前上下文的自適應(yīng)能力,并且在實(shí)際應(yīng)用中可能受到哈希沖突或詞項(xiàng)多義性帶來(lái)的噪聲干擾。

為此,DeepSeek 在檢索之后引入了一種上下文感知的門控機(jī)制,其設(shè)計(jì)靈感來(lái)源于注意力機(jī)制。

系統(tǒng)效率:計(jì)算與存儲(chǔ)的解耦

在帶有記憶機(jī)制的模型中,規(guī)模擴(kuò)展往往受到 GPU 高帶寬顯存(HBM)容量有限的制約。然而,Engram 所采用的確定性檢索機(jī)制天然支持將參數(shù)存儲(chǔ)與計(jì)算資源進(jìn)行解耦。不同于 MoE 依賴運(yùn)行時(shí)隱藏狀態(tài)進(jìn)行動(dòng)態(tài)路由,Engram 的檢索索引完全由輸入 token 序列決定。這種可預(yù)測(cè)性使得針對(duì)訓(xùn)練與推理階段的專門優(yōu)化策略成為可能,如圖 2 所示。



在訓(xùn)練階段,為容納大規(guī)模嵌入表,DeepSeek 采用標(biāo)準(zhǔn)的模型并行方案,將嵌入表分片分布在多張 GPU 上。在前向傳播過(guò)程中,通過(guò) All-to-All 通信原語(yǔ)收集被激活的嵌入行;在反向傳播階段,則將對(duì)應(yīng)梯度分發(fā)回各個(gè)分片,從而使總可用記憶容量能夠隨加速器數(shù)量線性擴(kuò)展。

在推理階段,這種確定性特性進(jìn)一步支持一種預(yù)取–重疊(prefetch-and-overlap)策略。由于在前向計(jì)算開(kāi)始之前即可確定所需訪問(wèn)的記憶索引,系統(tǒng)能夠通過(guò) PCIe 從容量充足的主機(jī)內(nèi)存中異步地預(yù)取嵌入向量。為有效掩蔽通信帶來(lái)的延遲,Engram 模塊被放置在主干網(wǎng)絡(luò)中的特定層級(jí),利用其前序 Transformer 層的計(jì)算作為緩沖,從而避免 GPU 計(jì)算停頓。

這也要求一種硬件 — 算法協(xié)同設(shè)計(jì)(hardware–algorithm co-design):一方面,將 Engram 放置得更深可以拉長(zhǎng)用于隱藏通信延遲的計(jì)算窗口;另一方面,從建模效果來(lái)看,較早地介入以卸載局部模式的重建更為有利。因此,Engram 的最優(yōu)插入位置必須同時(shí)滿足建模性能與系統(tǒng)時(shí)延兩方面的約束。

此外,自然語(yǔ)言中的 -gram 天然遵循 Zipfian 分布,即少量高頻模式貢獻(xiàn)了絕大多數(shù)的記憶訪問(wèn)。這一統(tǒng)計(jì)特性啟發(fā)研究者可以構(gòu)建一種多級(jí)緩存層次結(jié)構(gòu)(Multi-Level Cache Hierarchy):將高頻訪問(wèn)的嵌入緩存于更快的存儲(chǔ)介質(zhì)中(如 GPU HBM 或主機(jī) DRAM),而將大量低頻的長(zhǎng)尾模式存放在容量更大但速度較慢的存儲(chǔ)介質(zhì)中(如 NVMe SSD)。這種分層設(shè)計(jì)使 Engram 能夠擴(kuò)展到極大規(guī)模的記憶容量,同時(shí)對(duì)有效訪問(wèn)延遲的影響保持在最低水平。

U 型擴(kuò)展規(guī)律與稀疏性分配

作為「條件記憶」的一種具體實(shí)現(xiàn),Engram 在結(jié)構(gòu)上與 MoE 專家提供的「條件計(jì)算」形成了互補(bǔ)。本節(jié)旨在探究這種二元特性(Duality)的擴(kuò)展屬性,以及如何最優(yōu)地分配稀疏容量。

具體而言,本項(xiàng)研究由兩個(gè)核心問(wèn)題驅(qū)動(dòng):

  • 有限約束下的分配:在總參數(shù)量和訓(xùn)練計(jì)算量固定(即等參數(shù)、等 FLOPs)的情況下,應(yīng)該如何在 MoE 專家與 Engram 嵌入之間劃分稀疏容量?
  • 無(wú)限記憶范式:考慮到 Engram 具有不隨規(guī)模增長(zhǎng)(Non-scaling)的查找開(kāi)銷,如果放寬記憶預(yù)算或進(jìn)行激進(jìn)擴(kuò)展,Engram 自身會(huì)表現(xiàn)出怎樣的擴(kuò)展行為?

首先來(lái)看MoE 與 Engram 之間的最優(yōu)分配比例。在計(jì)算匹配公式時(shí),DeepSeek 使用以下三個(gè)參數(shù)度量來(lái)分析這個(gè)權(quán)衡:

  • P_tot:總的可訓(xùn)練參數(shù),不包括詞匯嵌入和語(yǔ)言模型頭。
  • P_act:每個(gè) token 激活的參數(shù)。這一量度決定了訓(xùn)練成本(FLOPs)。
  • :不激活的參數(shù),表示可用于擴(kuò)大模型大小而不增加計(jì)算成本的「自由」參數(shù)預(yù)算(例如未選擇的專家或未檢索的嵌入)。



DeepSeek 在每個(gè) FLOPs 預(yù)算內(nèi)保持 P_tot 和 P_act 固定,這樣模型具有相同數(shù)量的參數(shù)和相同的每 token FLOPs。對(duì)于 MoE,P_act 由選定的 top-k 專家決定,而未選擇的專家的參數(shù)貢獻(xiàn)給 P_sparse。對(duì)于 Engram,每個(gè) token 只檢索固定數(shù)量的槽(slots),因此增加嵌入槽的數(shù)量會(huì)增加 P_tot,但不會(huì)增加每 token 的 FLOPs。



其次是「在無(wú)限內(nèi)存模式下的 Engram」。在固定參數(shù)預(yù)算下優(yōu)化分配之外,DeepSeek 探索了互補(bǔ)的設(shè)置:激進(jìn)的內(nèi)存擴(kuò)展。這個(gè)研究的動(dòng)機(jī)來(lái)自于 Engram 獨(dú)特的能力,能夠?qū)⒋鎯?chǔ)與計(jì)算解耦。

DeepSeek 使用一個(gè)固定的 MoE 主干,具有 P_tot ≈ 3B 和 P_act = 568M,并訓(xùn)練了 100B 個(gè) token 以確保收斂。在此基礎(chǔ)上附加了一個(gè) Engram 表,并調(diào)整了槽的數(shù)量 M 從 2.58 × 10? 到 1.0 × 10?(增加最多約 13 億參數(shù))。

下圖 3(左)揭示了驗(yàn)證損失與分配比例 之間一致的 U 形關(guān)系。值得注意的是,即使 MoE 分配減少到僅 ≈ 40%(即 5.7B 模型為 46 個(gè)專家,9.9B 模型為 43 個(gè)專家),Engram 模型仍然達(dá)到了與純 MoE 基準(zhǔn)( = 100%)相當(dāng)?shù)男阅堋?/p>

此外,純 MoE 基準(zhǔn)證明是次優(yōu)的:將大約 20%-25% 的稀疏參數(shù)預(yù)算重新分配給 Engram 獲得最佳性能。定量分析中,在 10B 范圍內(nèi)( = 6 × 102?),驗(yàn)證損失從 1.7248( = 100%)改善到 1.7109,接近 ≈ 80% 時(shí)的最優(yōu)值(Δ = 0.0139)。值得注意的是,這一最優(yōu)點(diǎn)的位置在不同的范圍內(nèi)穩(wěn)定( ≈ 75%-80%),表明在固定稀疏性下,各個(gè)規(guī)模之間有一個(gè)穩(wěn)健的分配偏好。這一觀察到的 U 形確認(rèn)了兩種模塊之間的結(jié)構(gòu)互補(bǔ)性。

圖 3(右)展示了增加內(nèi)存槽數(shù)量會(huì)顯著改善驗(yàn)證損失,并且這一改進(jìn)在整個(gè)范圍內(nèi)持續(xù)穩(wěn)定。該曲線遵循嚴(yán)格的冪律(在對(duì)數(shù)空間中線性),這表明 Engram 提供了一個(gè)可預(yù)測(cè)的擴(kuò)展旋鈕:更大的內(nèi)存在不需要額外計(jì)算的情況下繼續(xù)帶來(lái)收益。

關(guān)鍵一點(diǎn)是,在擴(kuò)展效率方面:雖然 OverEncoding 通過(guò)更大的內(nèi)存表受益,但 Engram 在相同的內(nèi)存預(yù)算下釋放了更大的擴(kuò)展?jié)摿Α?/p>

結(jié)合分配規(guī)律來(lái)看,這些結(jié)果驗(yàn)證了條件記憶作為稀疏容量的獨(dú)立、可擴(kuò)展軸的作用,它補(bǔ)充了 MoE 的條件計(jì)算



實(shí)驗(yàn)結(jié)果

通過(guò)提出的 Engram 架構(gòu)以及經(jīng)驗(yàn)推導(dǎo)出的分配法則,DeepSeek 將 Engram 擴(kuò)展至數(shù)十億參數(shù)規(guī)模,以驗(yàn)證其在真實(shí)語(yǔ)言模型預(yù)訓(xùn)練中的有效性。

總共訓(xùn)練了以下四種模型:

  • Dense-4B(總參數(shù)量 41 億),
  • MoE-27B(總參數(shù)量 267 億),
  • Engram-27B(總參數(shù)量 267 億),
  • 以及 Engram-40B(總參數(shù)量 395 億)。

所有模型均采用完全相同的數(shù)據(jù)訓(xùn)練流程(相同的 token 預(yù)算及順序),且在激活參數(shù)量上嚴(yán)格匹配。

關(guān)于實(shí)驗(yàn)設(shè)置,所有模型均在包含 2620 億 token 的語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,并采用了 DeepSeek-v3 的分詞器,其詞表大小為 128k。DeepSeek 在涵蓋語(yǔ)言建模、知識(shí)、推理、閱讀理解以及代碼 / 數(shù)學(xué)的多樣化基準(zhǔn)測(cè)試集上對(duì)模型進(jìn)行評(píng)估。對(duì)于每項(xiàng)基準(zhǔn)測(cè)試,均遵循標(biāo)準(zhǔn)的提示詞協(xié)議和評(píng)估指標(biāo)。

先來(lái)看大規(guī)模預(yù)訓(xùn)練的實(shí)驗(yàn)結(jié)果,如下表 1 所示,稀疏架構(gòu)展示了比密集模型更優(yōu)的擴(kuò)展規(guī)律

在相同的訓(xùn)練計(jì)算預(yù)算下,所有三種稀疏變體(MoE-27B,Engram-27B/40B)在所有基準(zhǔn)測(cè)試中顯著超越了 iso-FLOPs 的 Dense-4B 基準(zhǔn)。

更重要的是,Engram-27B 在 iso - 參數(shù)和 iso-FLOPs 的 MoE-27B 基準(zhǔn)上持續(xù)取得改進(jìn)。有趣的是,這些提升并不限于知識(shí)密集型任務(wù)(例如,MMLU: +3.0,MMLU-Pro: +1.8,CMMLU: +4.0),在這些任務(wù)中,內(nèi)存容量直觀上是有益的。此外還觀察到,在一般推理領(lǐng)域(例如,BBH: +5.0,ARC-Challenge: +3.7,DROP: +3.3)以及代碼和數(shù)學(xué)推理任務(wù)(例如,HumanEval: +3.0,MBPP: +1.6,GSM8K: +2.2,MATH: +2.4)中,改進(jìn)更加顯著。

擴(kuò)展到 Engram-40B 進(jìn)一步減少了預(yù)訓(xùn)練損失,并提高了大多數(shù)基準(zhǔn)測(cè)試的性能。盡管它尚未在每個(gè)任務(wù)上嚴(yán)格超越 Engram-27B,但這可能是由于訓(xùn)練不足的結(jié)果。此外,Engram-40B 與基準(zhǔn)模型之間的訓(xùn)練損失差距在訓(xùn)練結(jié)束時(shí)繼續(xù)擴(kuò)大,表明擴(kuò)展的內(nèi)存容量尚未在當(dāng)前的 token 預(yù)算內(nèi)完全飽和。



接下來(lái)是長(zhǎng)上下文訓(xùn)練。通過(guò)將局部依賴建模卸載至靜態(tài)查找,Engram 架構(gòu)為處理全局上下文保留了寶貴的注意力容量。DeepSeek 通過(guò)進(jìn)行長(zhǎng)文本擴(kuò)展訓(xùn)練,對(duì)這一結(jié)構(gòu)性優(yōu)勢(shì)進(jìn)行了實(shí)驗(yàn)驗(yàn)證。通過(guò)采用嚴(yán)密的評(píng)估協(xié)議,將架構(gòu)設(shè)計(jì)帶來(lái)的貢獻(xiàn)與基礎(chǔ)模型本身的能力剝離開(kāi)來(lái),證明了 Engram 在長(zhǎng)程檢索和推理任務(wù)中帶來(lái)了顯著的性能增益。

DeepSeek 首先解耦基礎(chǔ)模型能力與架構(gòu)設(shè)計(jì)之間的影響,其次進(jìn)行受控對(duì)照分析,結(jié)果如下表 2 所示,主要得出了以下兩個(gè)結(jié)論:

一是超越注意力機(jī)制的長(zhǎng)文本能力

雖然注意力機(jī)制和位置編碼為上下文處理提供了結(jié)構(gòu)基礎(chǔ),但實(shí)驗(yàn)結(jié)果表明,長(zhǎng)文本性能并非僅由架構(gòu)先驗(yàn)決定。通過(guò)觀察 Engram 的演進(jìn)軌跡(從 41k 步到 50k 步),即使在控制相同模型架構(gòu)和固定長(zhǎng)文本擴(kuò)展階段計(jì)算預(yù)算的前提下,長(zhǎng)文本性能仍隨預(yù)訓(xùn)練進(jìn)程單調(diào)提升。這表明長(zhǎng)文本性能與基礎(chǔ)模型的通用建模能力存在內(nèi)在耦合。因此,嚴(yán)謹(jǐn)?shù)募軜?gòu)對(duì)比必須通過(guò)對(duì)齊「基礎(chǔ)模型損失(Loss)」而非僅僅對(duì)齊「訓(xùn)練步數(shù)」來(lái)控制這一混淆變量。

二是受控設(shè)置下的架構(gòu)優(yōu)越性

基于上述原則,DeepSeek 將 Engram 與 MoE 基準(zhǔn)模型進(jìn)行了對(duì)比測(cè)試。在控制基礎(chǔ)能力的前提下,Engram 模塊的效率增益變得十分顯著:

  • 等損耗設(shè)置(Iso-Loss Setting,41k 步 vs. 基準(zhǔn)):該設(shè)置嚴(yán)格分離了架構(gòu)效率的影響。當(dāng)對(duì)比 Engram-27B(46k 步)與完整訓(xùn)練的 MoE-27B(50k 步),即預(yù)訓(xùn)練損失完全對(duì)齊的兩個(gè)模型時(shí),Engram 表現(xiàn)出顯著增益。具體而言,它在復(fù)雜檢索任務(wù)中大幅超越基準(zhǔn)模型(例如,多查詢「大海撈針」 NIAH:97.0 vs. 84.2;變量跟蹤 VT:87.2 vs. 77.0)。
  • 等計(jì)算量設(shè)置(Iso-FLOPs Setting,50k 步 vs. 基準(zhǔn)):在標(biāo)準(zhǔn)的等計(jì)算預(yù)算下,Engram-27B(50k 步)進(jìn)一步拉大了差距,在所有指標(biāo)上均實(shí)現(xiàn)了頂尖性能。
  • 極端設(shè)置(約 82% 計(jì)算量):即使是提前停止訓(xùn)練的 Engram-27B(41k 步),在面對(duì)完整訓(xùn)練的 MoE-27B(50k 步)時(shí)依然極具競(jìng)爭(zhēng)力。它在 LongPPL 指標(biāo)上與基準(zhǔn)持平,并在 RULER 測(cè)試中實(shí)現(xiàn)超越,這充分證明了 Engram 架構(gòu)的內(nèi)在優(yōu)越性。



最后,下圖 4 是對(duì)表示對(duì)齊與收斂速度的分析。(a) 基于 LogitLens 的逐層 KL 散度分析。在模型淺層,KL 散度持續(xù)保持在較低水平,這表明 Engram 加速了預(yù)測(cè)的收斂。(b-c) 為基于 CKA 計(jì)算的相似度熱力圖。高相似度對(duì)角線顯著的向上偏移表明,Engram 的淺層在功能上等效于 MoE 模型的深層,從而有效地增加了模型的深度。



更多細(xì)節(jié)請(qǐng)參考原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不老傳奇!NBA官方點(diǎn)贊四大巨星:詹杜庫(kù)登攜手刷新得分神跡

不老傳奇!NBA官方點(diǎn)贊四大巨星:詹杜庫(kù)登攜手刷新得分神跡

羅說(shuō)NBA
2026-01-13 06:27:07
算命人說(shuō),家有這3生肖的人財(cái)氣纏身,2026年躲不過(guò)一富

算命人說(shuō),家有這3生肖的人財(cái)氣纏身,2026年躲不過(guò)一富

人閒情事
2026-01-12 10:41:54
男子氣炸!742元買“上海迪士尼”套餐,卻被攔在樂(lè)園大門外,現(xiàn)場(chǎng)再付1205元!這鍋誰(shuí)背

男子氣炸!742元買“上海迪士尼”套餐,卻被攔在樂(lè)園大門外,現(xiàn)場(chǎng)再付1205元!這鍋誰(shuí)背

南國(guó)今報(bào)
2026-01-12 19:32:21
李在明回懟用小米手機(jī)自拍被批親中:顯示屏韓國(guó)造的!中韓合作不是挺好的嗎?

李在明回懟用小米手機(jī)自拍被批親中:顯示屏韓國(guó)造的!中韓合作不是挺好的嗎?

觀威海
2026-01-13 09:10:13
柏公子復(fù)出,牽出網(wǎng)紅圈四大神豪,十億莊園說(shuō)買就買只是冰山一角

柏公子復(fù)出,牽出網(wǎng)紅圈四大神豪,十億莊園說(shuō)買就買只是冰山一角

愛(ài)好源自好奇心
2025-11-27 12:25:49
財(cái)政壓力的下半場(chǎng):退休人員占比近四成,才是硬賬

財(cái)政壓力的下半場(chǎng):退休人員占比近四成,才是硬賬

超先聲
2026-01-09 16:45:39
蔡依林演唱會(huì)被舉報(bào)!幾百封舉報(bào)信至各地文旅,斯利亞發(fā)視頻挑釁

蔡依林演唱會(huì)被舉報(bào)!幾百封舉報(bào)信至各地文旅,斯利亞發(fā)視頻挑釁

照亮你的前行之路
2026-01-12 23:43:30
印度在這四個(gè)領(lǐng)域,悄悄領(lǐng)先了中國(guó)?這些數(shù)據(jù)讓人不得不服

印度在這四個(gè)領(lǐng)域,悄悄領(lǐng)先了中國(guó)?這些數(shù)據(jù)讓人不得不服

知識(shí)TNT
2025-12-25 11:03:56
給《小城大事》演技最好的演員排個(gè)名:趙麗穎第四,黃曉明第五

給《小城大事》演技最好的演員排個(gè)名:趙麗穎第四,黃曉明第五

夜深愛(ài)雜談
2026-01-12 18:02:56
1955年,一名身體強(qiáng)壯的日本女人赤裸上身背著黑色編織袋站在海邊

1955年,一名身體強(qiáng)壯的日本女人赤裸上身背著黑色編織袋站在海邊

忠于法紀(jì)
2026-01-07 17:46:09
不回頭了:歐盟正式宣布徹底淘汰俄羅斯石油

不回頭了:歐盟正式宣布徹底淘汰俄羅斯石油

桂系007
2026-01-12 23:37:00
伊朗,大的還在后臺(tái)呢

伊朗,大的還在后臺(tái)呢

寰宇大觀察
2026-01-10 17:10:03
佘智江落網(wǎng),才知道小燕子被封殺并不簡(jiǎn)單,資本黑幕藏不住了!

佘智江落網(wǎng),才知道小燕子被封殺并不簡(jiǎn)單,資本黑幕藏不住了!

蜉蝣說(shuō)
2025-12-01 10:22:44
體檢報(bào)告中,若這3個(gè)指標(biāo)都正常,基本可排除很多疾病

體檢報(bào)告中,若這3個(gè)指標(biāo)都正常,基本可排除很多疾病

財(cái)經(jīng)早餐
2025-08-05 06:38:02
3連敗后破防?C羅揮5指做“偷竊”手勢(shì)諷主裁!被判2點(diǎn)+門將染紅

3連敗后破防?C羅揮5指做“偷竊”手勢(shì)諷主裁!被判2點(diǎn)+門將染紅

我愛(ài)英超
2026-01-13 07:46:40
谷歌被選定為蘋果新款Siri合作方,市值破4萬(wàn)億美元?jiǎng)?chuàng)新高

谷歌被選定為蘋果新款Siri合作方,市值破4萬(wàn)億美元?jiǎng)?chuàng)新高

界面新聞
2026-01-13 08:51:51
鄰居天天蹭充電樁,我沒(méi)鬧裝上地鎖去度假,20天后物業(yè)急電:出事了

鄰居天天蹭充電樁,我沒(méi)鬧裝上地鎖去度假,20天后物業(yè)急電:出事了

黃家湖的憂傷
2026-01-10 18:50:06
高齡補(bǔ)貼漲錢了,2025年,滿70歲的退休人員符合要求嗎?

高齡補(bǔ)貼漲錢了,2025年,滿70歲的退休人員符合要求嗎?

貓叔東山再起
2026-01-13 10:05:03
被大家猜中了!洗碗機(jī)的女主角起號(hào)成功,直播間人數(shù)超過(guò)3000…

被大家猜中了!洗碗機(jī)的女主角起號(hào)成功,直播間人數(shù)超過(guò)3000…

火山詩(shī)話
2026-01-10 15:13:33
罕見(jiàn)!斯諾克大師賽前四場(chǎng)戰(zhàn)罷,創(chuàng)造了兩個(gè)紀(jì)錄

罕見(jiàn)!斯諾克大師賽前四場(chǎng)戰(zhàn)罷,創(chuàng)造了兩個(gè)紀(jì)錄

老高說(shuō)體育
2026-01-13 11:03:56
2026-01-13 12:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12104文章數(shù) 142535關(guān)注度
往期回顧 全部

科技要聞

每年10億美元!谷歌大模型注入Siri

頭條要聞

印度企業(yè)未能獲得中國(guó)技術(shù) 叫停大項(xiàng)目

頭條要聞

印度企業(yè)未能獲得中國(guó)技術(shù) 叫停大項(xiàng)目

體育要聞

阿隆索得知下課后先是驚訝 然后表示如釋重負(fù)

娛樂(lè)要聞

周杰倫以球員身份參加澳網(wǎng),C位海報(bào)公開(kāi)

財(cái)經(jīng)要聞

中國(guó)一口氣申報(bào)20萬(wàn)顆衛(wèi)星,意味著什么?

汽車要聞

限時(shí)9.99萬(wàn)元起 2026款啟辰大V DD-i虎鯨上市

態(tài)度原創(chuàng)

家居
親子
藝術(shù)
數(shù)碼
公開(kāi)課

家居要聞

現(xiàn)代簡(jiǎn)逸 尋找生活的光

親子要聞

2026年“博學(xué)杯”全國(guó)幼兒閱讀大會(huì)西南區(qū)域賽在彌勒?qǐng)A滿落幕!

藝術(shù)要聞

書法爭(zhēng)議再起:拙與妍孰優(yōu)孰劣引發(fā)熱議

數(shù)碼要聞

TRYX推出F50機(jī)箱:布藝面板+貫流風(fēng)機(jī),可選黑/白/粉

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版