国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讀完200篇論文,看DeepMind、Meta、DeepSeek ,中美巨頭都在描述哪種AGI敘事|2025 AI 年度復(fù)盤

0
分享至


編者按:以定力致遠(yuǎn),以重構(gòu)圖新。大象新聞、大象財(cái)富聯(lián)合騰訊新聞、騰訊科技推出2025年終策劃《定力與重構(gòu)》,回望2025、展望2026,讓洞察照見(jiàn)本質(zhì),向變革尋求確定。

文|博陽(yáng)

編輯|徐青陽(yáng)

在剛剛過(guò)去的2025年,我通讀了大約兩百篇人工智能領(lǐng)域的論文。

如果用一個(gè)詞來(lái)形容這一年的技術(shù)體感,那就是「暴力美學(xué)」時(shí)代的終結(jié)。單純依靠堆砌參數(shù)摘取低垂果實(shí)的日子已經(jīng)過(guò)去,2025年的技術(shù)進(jìn)化回歸到了基礎(chǔ)研究。

這篇文章,我想通過(guò)梳理這一年的技術(shù)脈絡(luò),明確三個(gè)結(jié)論:

第一,2025年,技術(shù)進(jìn)步主要集中在流體推理(Fluid Reasoning)、長(zhǎng)期記憶(Long-term Memory)、空間智能(Spatial Intelligence)以及元學(xué)習(xí)(Meta-learning) 這四個(gè)領(lǐng)域。原因在于Scaling Law在單純的參數(shù)規(guī)模上遇到了邊際效應(yīng)遞減,為了突破AGI的瓶頸,業(yè)界被迫尋找新的增長(zhǎng)點(diǎn),即從「把模型做大」轉(zhuǎn)向把「模型做聰明」。

第二,現(xiàn)在的技術(shù)瓶頸主要在模型要“不僅要博學(xué),更要懂思考和能記住”。 通過(guò)Yoshua Bengio提出的AGI框架(基于CHC認(rèn)知理論),我們發(fā)現(xiàn)之前的AI存在嚴(yán)重的「能力偏科」:它在一般知識(shí)(K)上得分極高,但在即時(shí)推理(R)、長(zhǎng)期記憶(MS)和視覺(jué)處理(V)上幾乎是空白。這種不平衡構(gòu)成了通往AGI的最大阻礙。


第三,這些瓶頸在25年其實(shí)都找了一些新的解決方向,可以說(shuō)是補(bǔ)短板很成功的一年。其中最重要的是三個(gè)方面。

推理能力: 通過(guò)Test-Time Compute(推理時(shí)計(jì)算)引發(fā)的革命,AI學(xué)會(huì)了慢思考,推理能力實(shí)現(xiàn)了從0到8的質(zhì)變。

記憶能力: Titans架構(gòu)和Nested Learning的出現(xiàn),打破了Transformer的無(wú)狀態(tài)假設(shè),讓模型具備了內(nèi)化的“海馬體”,有望徹底根治金魚記憶。

空間智能: 視頻生成不再只是像素的堆砌,而是開(kāi)始掌握物理規(guī)律,邁向了真正的世界模型。


接下來(lái),我將根據(jù)這一年間的論文閱讀,帶領(lǐng)大家詳細(xì)看看這些關(guān)鍵拼圖是如何被一塊塊補(bǔ)齊的。

(因?yàn)槠拗疲鱾€(gè)方向上涉及的論文我只是簡(jiǎn)單做了講述,如果有興趣深入了解,可以看文后的相關(guān)論文參考。已分章節(jié)處理。)

01

流體推理的進(jìn)化,Test Time Compute的誕生與發(fā)展

在2024年,AI明顯的短板是即時(shí)推理 (R)能力。在GPT-4的時(shí)代,AI只會(huì)依賴概率直覺(jué),推理什么的一點(diǎn)不會(huì)。但在2025年,Test-Time Compute(推理時(shí)計(jì)算)通過(guò)拉長(zhǎng)推理時(shí)間來(lái)?yè)Q取智能。Test-Time Compute 的核心理念是:智能不僅是參數(shù)的函數(shù),也是時(shí)間的函數(shù)。以O(shè)penAI o1和DeepSeek R1為代表,AI學(xué)會(huì)了「慢思考」。 通過(guò)在推理階段投入更多的計(jì)算資源,它開(kāi)始在輸出答案前,在內(nèi)部進(jìn)行長(zhǎng)達(dá)數(shù)秒甚至數(shù)分鐘的自我辯論和推演。

這就是2025年最重要的范式革新,讓AI從背書的鸚鵡轉(zhuǎn)向思考的機(jī)器。

因?yàn)槟P偷乃季S過(guò)程是無(wú)法在預(yù)訓(xùn)練期間進(jìn)行引導(dǎo)的,因此后訓(xùn)練、尤其是強(qiáng)化學(xué)習(xí)(RL),就成了提升推理能力的最重要的手段。

但事情并非一帆風(fēng)順,在2025年,《強(qiáng)化學(xué)習(xí)真的能激勵(lì)LLM超越基座模型的推理能力嗎?》這篇論文引發(fā)了大概半年左右的學(xué)術(shù)爭(zhēng)論。該研究發(fā)現(xiàn),在許多情況下,RLVR訓(xùn)練后的模型生成的正確推理路徑,其實(shí)在基座模型的采樣分布中原本就存在。RL的作用僅僅是銳化了分布,顯著提高了采樣到這些路徑的概率,而并非真正“創(chuàng)造”了基座模型完全未知的推理能力。

對(duì)此,在后續(xù)長(zhǎng)達(dá)半年的論爭(zhēng)后,現(xiàn)在的通行結(jié)論是基座模型可能確實(shí)包含了所有必要的原子推理步驟(如加減法、基本邏輯變換),但RL的作用在于通過(guò)數(shù)萬(wàn)次的試錯(cuò),篩選出能夠穩(wěn)定維持長(zhǎng)距離依賴的策略路徑。

另外,CMU研究指出,RL訓(xùn)練存在三個(gè)階段。第一階段是“銳化”,僅提升已知路徑的概率;但隨著訓(xùn)練深入,模型進(jìn)入“鏈接(Chaining)”階段,開(kāi)始將基座模型中原本概率極低的不對(duì)稱技能(如驗(yàn)證與生成)鏈接起來(lái),從而解決從未見(jiàn)過(guò)的難題。這說(shuō)明RL不光在銳化,也確實(shí)能夠有效組合新的推理方法。

但學(xué)術(shù)界的這種形而上討論,沒(méi)能阻止業(yè)界的工程優(yōu)化熱情。因?yàn)锽enchmark的增長(zhǎng)不會(huì)騙人。

強(qiáng)化學(xué)習(xí)的本質(zhì),就是通過(guò)與環(huán)境交互獲得反饋,在探索未知與利用已知之間尋找平衡,以最大化長(zhǎng)期累積獎(jiǎng)勵(lì)為目標(biāo),從而學(xué)習(xí)出一套最優(yōu)的決策策略。因此,它的工程可以拆分成核心的三個(gè)策略,探索策略(采樣)、評(píng)分(包括評(píng)分標(biāo)準(zhǔn)和如何評(píng)分)和參數(shù)更新算法三個(gè)部分。

在2025年,強(qiáng)化學(xué)習(xí)的方法在其中兩部分中都得到了明顯的發(fā)展。而采樣的策略則還是集中在蒙特卡洛方法(一步一步尋找新分支)、暴力溫度采樣(調(diào)高模型的多樣性,采出多種可能)和在23年大火的STaR 模式(就是模型對(duì)自己的結(jié)論點(diǎn)評(píng)后,根據(jù)點(diǎn)評(píng)再找別的路)這三種方法上,不過(guò)25年,因?yàn)镈eepSeek R1的成功,暴力溫度采樣明顯成了主流,因?yàn)楣こ毯?jiǎn)單又能出不錯(cuò)的結(jié)果。

評(píng)分系統(tǒng)的革新

在2025年首先發(fā)生的是基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)和稀疏獎(jiǎng)勵(lì)指標(biāo)(ORM)的全面崛起。

由于DeepSeek R1的成功,讓大家發(fā)現(xiàn),只要給模型一個(gè)對(duì)錯(cuò)結(jié)論作為獎(jiǎng)勵(lì)信號(hào),模型就可以自發(fā)探索其中的推理過(guò)程。這導(dǎo)致了ORM的崛起。

而在ORM領(lǐng)域,那些能夠明確給出結(jié)果對(duì)錯(cuò)(可驗(yàn)證的客觀真理)的領(lǐng)域,比如數(shù)學(xué)、代碼、邏輯等方面,強(qiáng)化學(xué)習(xí)就很好下手,效果也很容易得到提高?;谶@些客觀真理形成的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制,就被稱為可驗(yàn)證獎(jiǎng)勵(lì)。在2025年前半年,RLVR(可驗(yàn)證結(jié)果)+GPRO(分組探索解法)的方法突飛猛進(jìn),基本成了主流方法,也帶來(lái)了模型在代碼、數(shù)學(xué)領(lǐng)域的能力大幅提升。

然而,用的久了,大家發(fā)現(xiàn)如果像復(fù)雜數(shù)學(xué)、代碼這種推理過(guò)程過(guò)長(zhǎng)的情況,那ORM很有可能會(huì)崩掉。所以有的公司會(huì)在其中加一部分過(guò)程獎(jiǎng)勵(lì)評(píng)分系統(tǒng)(PRM)的因素,比如Qwen的代碼解釋器驗(yàn)證,主打識(shí)別推理過(guò)程中的錯(cuò)誤步驟。而防止ORM崩潰跑偏的KL正則理論也在今年有了更多的發(fā)展。

另一個(gè)問(wèn)題就是RLVR是挺好用的,但不是所有領(lǐng)域都有可驗(yàn)證的真假,比如在文學(xué)、乃至醫(yī)療這種更偏統(tǒng)計(jì)性的領(lǐng)域,目前就沒(méi)有完全的真假科研,那怎么辦呢?因此我們可能需要一個(gè)更宏大的Universal Verifier(通用驗(yàn)證器),去解決這個(gè)問(wèn)題。

目前已經(jīng)有的兩個(gè)思路,一個(gè)外求法:既然標(biāo)準(zhǔn)不唯一,那就人工或者靠模型制定復(fù)雜的評(píng)分細(xì)則(Rubic),然后讓模型根據(jù)Rubic去進(jìn)行獎(jiǎng)勵(lì)。而另一個(gè),是相信模型自己的直覺(jué)(內(nèi)求法),利用模型自己的確信度去影響無(wú)明確獎(jiǎng)勵(lì)的領(lǐng)域訓(xùn)練。


比如Kimi K2的joint RL stage策略,就是把RLVR 和 self-critique rubric reward 結(jié)合起來(lái)做 RL。

參數(shù)更新算法的革新

DeepSeek R1帶來(lái)的第二個(gè)RL震蕩就是GPRO算法的流行。在過(guò)去,RL的主流方法是PPO,在這個(gè)框架里,有兩個(gè)角色,一個(gè)是Actor Model,負(fù)責(zé)寫答案。還有一個(gè)是Critic Model,來(lái)給演員的每一步打分。這個(gè)方法特別適合PRM,給每步都評(píng)分,但它非常貴,因?yàn)樗靡恢痹诰€訓(xùn)練,讓模型嘗試完了再在線打分。

但GPRO不一樣,它直接把Critic模型切掉了,讓模型生成一組答案,算平均分來(lái)代替 Critic,來(lái)看誰(shuí)做的好,誰(shuí)做的壞。一下子省下來(lái)50%的顯存,搭配ORM,更是極簡(jiǎn)中的極簡(jiǎn)。非常省成本,而且效果也不差。

因此,基本上國(guó)內(nèi)各家都是在GPRO的框架上延展,在2025年這一年發(fā)展出了各種變體。比如Qwen的GSPO的優(yōu)化引入了分值加權(quán),不只看你是否高于平均分,還看你的絕對(duì)得分是多少,讓GPRO能夠從對(duì)的里選出更好的,把全錯(cuò)的都排除出梯度,讓訓(xùn)練更穩(wěn)。Minimax的CISPO,則是發(fā)現(xiàn)傳統(tǒng)GPRO / PPO訓(xùn)練的時(shí)候,會(huì)暴力截?cái)噙^(guò)長(zhǎng)的COT上下文,導(dǎo)致核心思考沒(méi)辦法用起來(lái),所以做了個(gè)重要性采樣,保留下更重的部分去更新。

除了這些特別具體的更新外,業(yè)界同時(shí)試圖找到強(qiáng)化學(xué)習(xí)的Chichila規(guī)律。

比如Meta的ScaleRL,就在多種消融實(shí)驗(yàn)中發(fā)現(xiàn)RL的增長(zhǎng)曲線其實(shí)有天花板。他們證明了RL性能與計(jì)算量之間不符合冪律(就是Scaling Laws那種算力越大,能力越大的模式),而是符合 Sigmoid 曲線的(起步難,中間猛,最后死活漲不動(dòng))。


這不是什么好消息,說(shuō)明RL是有天花板的。我們不能指望靠 RL 無(wú)限提升模型的智力上限。 它只能把模型已有的(預(yù)訓(xùn)練賦予的)潛能“逼”出來(lái),一旦逼到了 100%,RL 就失效了。想再突破,還得回去革新底座模型或者算法架構(gòu)。

但好消息是,我們離天花板還遠(yuǎn)著呢,還差著一堆工程創(chuàng)新。另外,基礎(chǔ)模型的能力提升也不是完全停滯的。

ScaleRL還提出了一套最佳工程實(shí)踐,包括使用長(zhǎng)思維鏈(Long CoT)作為關(guān)鍵驅(qū)動(dòng)力,以及使用大Batch Size(如2048 prompts)來(lái)觸達(dá)更高的性能天花板。這一研究將RL從“煉金術(shù)”轉(zhuǎn)變?yōu)橐婚T精確的工程科學(xué),使得研究者可以通過(guò)小規(guī)模實(shí)驗(yàn)精準(zhǔn)預(yù)測(cè)大規(guī)模訓(xùn)練的效果。

所有這些對(duì)RL工程的探索,使得今年的模型,能夠在不增加參數(shù)的情況下,依然在整體能力上穩(wěn)步上升。一次次打破ARC和Humans Last Exam的標(biāo)尺,同時(shí)帶動(dòng)了數(shù)學(xué)和代碼能力的大幅上升。

02

記憶與學(xué)習(xí), 治愈模型的健忘癥

如果說(shuō)Test Time Compute是前半年最重要的模型變革,那后半年最重要的模型變革,就是記憶能力的提升。畢竟,這是唯一一個(gè)在GPT-5時(shí)代,在AGI得分里還是0的分支能力,屬于短板中短板,漏水的大戶。

模型沒(méi)有記憶有啥問(wèn)題?第一,沒(méi)有記憶能力的模型不可能在現(xiàn)實(shí)中自我學(xué)習(xí),必須得在算力工廠里通過(guò)再訓(xùn)練學(xué)習(xí)。這種再訓(xùn)練昂貴,且訓(xùn)練源可能與日常使用完全脫節(jié),因此持續(xù)學(xué)習(xí)成了一個(gè)無(wú)比困難的事項(xiàng)。第二,想有個(gè)能記住你是誰(shuí),你的偏好的AI,就變得很費(fèi)勁。比如我的Gemini 3,現(xiàn)在只依靠系統(tǒng)級(jí)的Prompt積累一點(diǎn)點(diǎn)關(guān)于我的記憶,但大半還是錯(cuò)的。

在24年大火的RAG(檢索增強(qiáng)生成)雖然作為一種外掛式的“海馬體”緩解了這一問(wèn)題,但它當(dāng)時(shí)的形態(tài)只是資料庫(kù)和搜索機(jī)制,還很不好用。在25年,記憶問(wèn)題的研究其實(shí)得到了很多發(fā)展,只是大多數(shù)出現(xiàn)在后半年,尚未真正被融合進(jìn)工程。

記憶可以分為三種方式,上下文作為記憶、RAG處理過(guò)的上下文作為記憶以及將上下文融合到參數(shù)里,內(nèi)化的進(jìn)行記憶。難度層層遞進(jìn)。

今年RAG和參數(shù)調(diào)整的記憶方式都發(fā)生了很大的科研進(jìn)步,但其中最耀眼的是Google Research發(fā)布的 Titans 架構(gòu)以及Nested Learning,是2025年記憶領(lǐng)域的最大突破,屬于架構(gòu)級(jí)提升。從根本上挑戰(zhàn)了Transformer的無(wú)狀態(tài)假設(shè)。

我們現(xiàn)在一個(gè)個(gè)看。

模型,獲得活著的記憶

Titans 是一個(gè)深度的神經(jīng)長(zhǎng)期記憶模塊,能夠在測(cè)試時(shí)(即推理過(guò)程中)實(shí)時(shí)更新自身的參數(shù)。這和傳統(tǒng)的Transformer層,訓(xùn)練完就凍結(jié)完全不一樣。Titans在一開(kāi)始就是個(gè)空容器,就一個(gè)初始權(quán)重,將歷史信息學(xué)習(xí)進(jìn)神經(jīng)記憶中。和傳統(tǒng)的壓縮模式(Mamba)比,這種學(xué)習(xí)是無(wú)損的。


那怎么決定什么東西記憶,什么不記?靠驚奇度(Surprise Metric),模型會(huì)根據(jù)輸入信息的意外程度(梯度大?。﹣?lái)決定是否將其存入長(zhǎng)期記憶。這和人差不多,越新鮮有沖擊的東西越記得住。

Titans是隨時(shí)更新權(quán)重的,這意味著還要做反向傳播和梯度更新,豈不是很貴嗎?確實(shí),單看是很費(fèi)GPU算力,但它一般是和普通Transformer層混用,只占一小部分,所以雖然但并不很重,而且可以省去巨量的上下文開(kāi)支。

而且,它還可以將記憶作為額外的上下文輸入給注意力機(jī)制,如同一個(gè)高級(jí)助手,提供背景信息。通過(guò)門控機(jī)制融合短期注意力與長(zhǎng)期記憶,處理更靈活,并行處理短時(shí)與長(zhǎng)時(shí)依賴。這也可以提升模型本身的效率。

同時(shí),Titans還引入了遺忘機(jī)制(Weight Decay),自動(dòng)清理不再重要的信息。

如果說(shuō)這是在不會(huì)記新東西的Transformer上加了一些記憶模塊補(bǔ)丁,那Nested Learning就是一個(gè)更宏大的架構(gòu)改變。

在Nested Learning中,谷歌做了一個(gè)分層,把模型的架構(gòu)分成了低、中、高三個(gè)更新頻率的神經(jīng)網(wǎng)絡(luò)層。把整個(gè)模型的參數(shù)凍結(jié)都解放了,這個(gè)模型都是活的,可以隨時(shí)調(diào)整參數(shù)。低頻參數(shù)的調(diào)整很慢,大概需要16M token的前向更新才會(huì)調(diào)整一次。它保證了知識(shí)的延續(xù)性,避免了災(zāi)難性遺忘。而快速的反饋則交給高頻的神經(jīng)網(wǎng)絡(luò)層處理,這樣可以快速反應(yīng),做短期記憶。


于是我們就有了一個(gè)持續(xù)更新的,非凍結(jié)的神經(jīng)網(wǎng)絡(luò),它可以抱有長(zhǎng)期記憶,并持續(xù)學(xué)習(xí)。而且因?yàn)楦骂l率不高,且更新比較局部,其成本比一般的SFT、RL達(dá)成同等效果的成本還要低。

谷歌甚至還提出了一個(gè)更大的體系MIRAS,它把序列模型看成一個(gè)會(huì)邊讀邊寫的聯(lián)想記憶模塊。每來(lái)一個(gè) token,你把它投影成 key 和 value;模型用當(dāng)前記憶去“檢索/回憶”一個(gè) value;然后用一個(gè)內(nèi)部目標(biāo)函數(shù)(attentional bias)和一個(gè)保留/遺忘約束(retention gate),通過(guò)某種在線優(yōu)化/更新算法(memory learning algorithm)去更新記憶。Titans和Nested Learning,都屬于在不同層面上對(duì)MIRAS的嘗試。

這一調(diào)整,使得模型具備了持續(xù)學(xué)習(xí)和更新長(zhǎng)期記憶的基礎(chǔ)。不過(guò)考慮到它對(duì)模型架構(gòu)的改變,在工業(yè)大規(guī)模應(yīng)用上可能還需要一定時(shí)間。

RAG模型化

之前,RAG曾被譏諷為圖書管理員,只增不減,照單全收。但2025年,它發(fā)生了質(zhì)的飛躍,演變?yōu)榫邆浞此寂c進(jìn)化能力的系統(tǒng),甚至可以在一定程度上產(chǎn)生如同參數(shù)般的效果。

這一波RAG改造浪潮中,比較有代表性的還是DeepMind 提出的 ReMem 和 Evo-Memory。


ReMem讓RAG不再是簡(jiǎn)單的資料庫(kù)式的“檢索-生成”,而是通過(guò)一個(gè)Agent 引入了 Action-Think-Memory Refine 的全鏈路處理方法。在新上下文被存入記憶前,會(huì)有個(gè)Agent對(duì)其進(jìn)行“內(nèi)省”(Think),標(biāo)記出哪些是無(wú)效步驟,哪些是關(guān)鍵策略。記憶過(guò)程中,模型還會(huì)對(duì)進(jìn)來(lái)的上下文進(jìn)行修剪(Pruning)和重組(Reorganizing),讓它更容易被檢索,保留最重要的信息。同時(shí),模型會(huì)定期清理無(wú)用的記憶,甚至將失敗的嘗試作為“負(fù)面教材”存入,其效果等同于RLHF(人類反饋強(qiáng)化學(xué)習(xí))的負(fù)向懲罰。

這一機(jī)制使得記憶不再是靜止的錄像,而是經(jīng)過(guò)壓縮和提純的智慧。它存儲(chǔ)的更多是策略,使得模型在處理類似任務(wù)時(shí)能夠調(diào)用過(guò)往的成功經(jīng)驗(yàn),實(shí)現(xiàn)了真正的經(jīng)驗(yàn)復(fù)用。

微調(diào)與蒸餾讓遺忘性災(zāi)難不再存在

在2025年之前,災(zāi)難性遺忘是參數(shù)記憶更新的最大敵人。模型用微調(diào)的方式做更新,很容易學(xué)了新的忘了舊的,通用能力受損;用強(qiáng)化學(xué)習(xí)做更新,不容易遺忘,但成本又太高。但在2025年,學(xué)術(shù)界提出了多種解決方案,讓模型在學(xué)習(xí)新知的同時(shí)不丟失舊能力。

比如 Meta 提出的Sparse Memory Finetuning (稀疏記憶微調(diào))。它在Tansformer里加了一個(gè)百萬(wàn)個(gè)獨(dú)立槽位的空白內(nèi)存層。當(dāng)新知識(shí)進(jìn)入時(shí),系統(tǒng)篩選出更不重要的、和核心舊知識(shí)相關(guān)性不高的槽位進(jìn)行更新。這種稀疏更新策略,確保了在注入新知識(shí)的同時(shí),絕大部分舊參數(shù)保持不變,從而完美保留了原有能力。實(shí)驗(yàn)表明,在TriviaQA事實(shí)注入任務(wù)中,該方法僅導(dǎo)致11%的舊知識(shí)遺忘,遠(yuǎn)優(yōu)于全量微調(diào)的89%。


再如Thinking Machines 提出的在策略蒸餾(On-Policy Distillation, OPD),結(jié)合了 RL 的采樣方式和 SFT 的監(jiān)督信號(hào)。訓(xùn)練數(shù)據(jù)不再是老師的錄像,而是學(xué)生模型自己實(shí)時(shí)生成的軌跡。學(xué)生要在自己真實(shí)的“犯錯(cuò)分布”中學(xué)習(xí),這是RL的采樣方法。但它評(píng)估用的是SFT的密集反饋,老師模型會(huì)全程陪跑,在學(xué)生生成的每一個(gè) Token 上都計(jì)算 KL 散度(即直接告訴學(xué)生你和我的差距在哪里),提供密集的即時(shí)反饋,而不是像 RL 那樣最后才給一個(gè)標(biāo)量分?jǐn)?shù)。這種方法創(chuàng)造了一種既不會(huì)導(dǎo)致災(zāi)難性遺忘,同時(shí)也極大壓縮成本的參數(shù)更新方式。


兩條路徑,最終都導(dǎo)向了通過(guò)微調(diào)更新模型參數(shù)更穩(wěn)定的路徑,這樣的話模型就可以更快捷、便宜的進(jìn)行線下更新。夢(mèng)想中的白天模型陪你說(shuō)話, 晚上你睡覺(jué)更新你的神經(jīng)元連接,它微調(diào)更新它的參數(shù),也許會(huì)變成可能。

03

走出“柏拉圖洞穴”,迎來(lái)空間智能 (Gv) 與世界模型

另一個(gè)在Bengio AGI定義2024年得分還是0的一項(xiàng),就是視覺(jué)處理。在今年,這一能力在Sora 2、 Veo 3等生成視頻的爆發(fā)之下,得到了有效的提升。在Veo 3等模型能夠有效保持物體位置一致性的情況下,模型似乎開(kāi)始有了對(duì)物理規(guī)律更深的掌握,進(jìn)入到了空間智能和世界模型(World Models)的范疇。

雖然今年主要是李飛飛在大力宣揚(yáng)空間智能的概念。但實(shí)際在這條路上,一共有三個(gè)主流派系和玩家,在今年也都各有研究進(jìn)展。

自監(jiān)督生成模型的Scaling Law

第一派就是Sora 2、Veo 3這些采用了DiT架構(gòu)的自監(jiān)督模型,也就是我們常見(jiàn)的視頻生成模型。

不過(guò)要論空間智能,2025年8月,Google DeepMind發(fā)布的Genie 3更明顯。Genie 3,是個(gè)生成的、可交互的、持續(xù)演變的3D環(huán)境。

與其前代相對(duì)破碎的呈現(xiàn)不同,Genie 3具有了實(shí)時(shí)性和一致性。它能以24fps的幀率和720p的分辨率實(shí)時(shí)渲染環(huán)境,且能維持?jǐn)?shù)分鐘的場(chǎng)景一致性。

如果你在虛擬世界中打破了一個(gè)花瓶,當(dāng)你轉(zhuǎn)身離開(kāi)再回來(lái)時(shí),花瓶碎片依然在地上,而不是像早期生成視頻那樣莫名消失或復(fù)原。

除此之外,Genie 3非常好的展現(xiàn)了自監(jiān)督模型的物理學(xué)習(xí)能力。它完全沒(méi)有參考物理引擎,只是通過(guò)觀看海量視頻數(shù)據(jù),自發(fā)學(xué)會(huì)了流體流動(dòng)、光影反射甚至風(fēng)吹樹(shù)葉的物理規(guī)律。

之所以視頻生成模型能夠獲得如此大的進(jìn)步,主要是因?yàn)閷W(xué)術(shù)界發(fā)現(xiàn)了視覺(jué)自回歸(Visual Autoregressive, VAR)和擴(kuò)散Transformer(DiT)的Scaling Law。

2024年,字節(jié)的Visual Autoregressive (VAR) 模型的提出,排除了Diffusion部分,通過(guò)改變token的建模,從行變成圖,讓自回歸獨(dú)挑大梁。因?yàn)槭羌冏曰貧w,它的性能嚴(yán)格遵循Scaling Law。

但這個(gè)路子畢竟還是有點(diǎn)野。在25年的論文《Towards Precise Scaling Laws for Video Diffusion Transformers》,更主流的DiT也被發(fā)現(xiàn)符合Scaling Law,不過(guò)這個(gè)Law與LLM不太一樣。與LLM相對(duì)穩(wěn)定的特性不一樣,視頻擴(kuò)散模型對(duì)批量大?。˙atch Size)和學(xué)習(xí)率(Learning Rate)表現(xiàn)出極高的敏感性。直接套用LLM的縮放定律會(huì)導(dǎo)致預(yù)測(cè)失效。


但用上特制的Scaling Law,DiT模型就可以大力出奇跡了。在對(duì)Veo 3成員的采訪中,Deepmind的員工就表示,訓(xùn)練這么好,主要是打通了視頻生成的Scaling Law。

除此之外,今年視頻生成的另一個(gè)新變化就是加上聲音了。這主要?dú)w功于谷歌一直堅(jiān)持的原生多模態(tài)能力。

而且2025年4月,Apple Machine Learning Research發(fā)布了《Scaling Laws for Native Multimodal Models》發(fā)現(xiàn),晚期融合架構(gòu)(后臺(tái)多模態(tài))相對(duì)于早期融合架構(gòu)(原生多模態(tài))可能存在一定上限上的劣勢(shì)。過(guò)去晚期融合模型通常表現(xiàn)出較高的樣本效率,就是我后面加一個(gè)圖像編碼器,就可以直接讓語(yǔ)言模型變成視頻模型,變化賊快。這意味著費(fèi)力去訓(xùn)原生多模態(tài),得不償失。


但晚期融合模型在參數(shù)利用率上存在瓶頸,為了達(dá)到特定的性能水平,晚期融合架構(gòu)得需要更大的模型尺寸來(lái)補(bǔ)償那個(gè)新加視覺(jué)編碼器帶來(lái)的表征限制,因此同等規(guī)模,上限更低。

另一個(gè)特別值得注意的動(dòng)向,是VAE的消失。VAE你可以理解成視頻的壓縮器。一個(gè)視頻包含的信息過(guò)多,直接給模型,它就會(huì)崩潰,所以需要一個(gè)壓縮器去壓縮成模型可接受的信息密度。

但這么一壓縮,重構(gòu)必然會(huì)導(dǎo)致高頻細(xì)節(jié)丟失,而且VAE是個(gè)獨(dú)立的模型,其生成的 Latent Space 與大語(yǔ)言模型(LLM)或多模態(tài)模型(VLM)的語(yǔ)義空間不對(duì)齊,訓(xùn)練上非常麻煩。

2025 年 10 月快手的《Latent Diffusion Model without Variational Autoencoder》 論文提出了 SVG 模型,通過(guò)直接用圖像理解模型代替VAE,統(tǒng)一語(yǔ)義空間,這個(gè)模式極大地提升了訓(xùn)練效率(號(hào)稱提升 6200%)和生成速度。而且它的效果不僅沒(méi)有因?yàn)椤翱臁倍s水,反而在多項(xiàng)核心指標(biāo)上擊敗了現(xiàn)在的霸主 DiT(Diffusion Transformer)和 SDXL。

因?yàn)檫@個(gè)模式,有大一統(tǒng)的美,又有benchmark的美,應(yīng)該很快就會(huì)成為主流。

符號(hào)主義的World Labs :基于3D CV生成的世界

第二派就是斯坦福教授李飛飛領(lǐng)導(dǎo)的World Labs 派。這一派的特色就是,生成好,但要在一個(gè)固定的物理框架下生成。純粹自監(jiān)督,太不可靠了。

他們?cè)?025年11月推出了其首個(gè)商業(yè)產(chǎn)品Marble平臺(tái)。這是一個(gè)“大型世界模型”(LWM),旨在從多模態(tài)輸入中生成可探索的 3D 環(huán)境。與 Sora 輸出像素流(視頻)不同,Marble 輸出的是空間表示。


根據(jù)媒體分析,Marble 大概率是依賴 3D 高斯?jié)姙R(3DGS) 作為其渲染基元,并可能結(jié)合了神經(jīng)輻射場(chǎng)(NeRF)的結(jié)構(gòu)估計(jì)原則。當(dāng)用戶輸入單張圖像或文本提示時(shí),Marble 會(huì)估計(jì)場(chǎng)景的深度、光照和被遮擋的幾何結(jié)構(gòu)。然后,它將這些 2D 信息“提升”為由數(shù)百萬(wàn)個(gè)高斯“潑濺”(具有顏色、不透明度和縮放屬性的橢球體)組成的 3D 體積。

始終是放不下CV多年來(lái)世界構(gòu)建的努力。

這種對(duì)傳統(tǒng)CV的應(yīng)用,也體現(xiàn)在World Labs 提供的創(chuàng)作工具Chisel 上。它引入了 神經(jīng)符號(hào)(Neuro-symbolic)工作流。用戶可以使用粗略的幾何基元(盒子、平面)定義世界的“骨架”,以建立布局約束(例如,“我需要這里有一扇門,那里有一堵墻”)。生成模型隨后根據(jù)文本提示對(duì)這一結(jié)構(gòu)進(jìn)行“繪制”和細(xì)節(jié)填充。

比起Sora 生成的黑盒,Marble雖然不是很性感,但確實(shí)更穩(wěn)定,更可控。也許World Labs這條路能是最早走通工業(yè)落地的方向。

預(yù)測(cè)即理解:V-JEPA 2與物理直覺(jué)

另外一派代表是Yann Lecun,他的特色就是極端的深度學(xué)習(xí)表征派。對(duì)于他,大家可能都或多或少聽(tīng)說(shuō)過(guò),Lecun的觀點(diǎn)一直是:自回歸的生成式模型根本不可能掌握物理規(guī)則,只是鸚鵡而已。

那怎么掌握規(guī)則呢?靠預(yù)測(cè)。只有預(yù)測(cè),能學(xué)習(xí)到物理規(guī)則的表征,而不是那些像素的關(guān)系表征。Meta推出的V-JEPA 2,訓(xùn)練機(jī)制就是隨機(jī)遮住圖像的一部分(Masking),然后要求模型根據(jù)之前看到的畫面,預(yù)測(cè)被遮擋部分的內(nèi)容,只練預(yù)測(cè)。然后,一個(gè)教師編碼器看到完整的視頻,根據(jù)這個(gè)幫學(xué)生,生成目標(biāo)特征向量。


這種設(shè)計(jì)使得V-JEPA 2具備了極高的語(yǔ)義抽象能力。模型被迫學(xué)習(xí)場(chǎng)景中那些“可預(yù)測(cè)”的規(guī)律(如重力下落、剛體碰撞),而自動(dòng)忽略那些“不可預(yù)測(cè)”的隨機(jī)噪聲(如光斑的閃爍、背景的紋理噪點(diǎn))。在Yann Lecun的考慮中,這提取了因果本質(zhì)。

這套理念其實(shí)并不新,和他2024年初發(fā)布的V-JEPA 1完全一致。但當(dāng)時(shí),V-JEPA 1 只用了100M左右的數(shù)據(jù)集做訓(xùn)練,其效果只能是理解視頻,并不能展現(xiàn)出反事實(shí)預(yù)測(cè)的能力。但在V-JEPA 2里,Lecun優(yōu)化了訓(xùn)練過(guò)程,用了100萬(wàn)+ 小時(shí)的視頻訓(xùn)練集,結(jié)果模型確實(shí)涌現(xiàn)出了“推演”的能力。在V-JEPA 2-AC(動(dòng)作條件化)變體中,JEPA模型確實(shí)做到了可以預(yù)測(cè)“如果我執(zhí)行這個(gè)動(dòng)作,世界會(huì)變成什么樣”。

這毫無(wú)疑問(wèn),是對(duì)這個(gè)路徑的一劑強(qiáng)心針。說(shuō)明預(yù)測(cè),掌握物理規(guī)則這個(gè)訓(xùn)練模式是有效的。不過(guò)到了JEPA 2,它能夠處理的時(shí)間跨度也不過(guò)64幀(根據(jù)采樣規(guī)律,約10秒),分辨率只有384x384。和人家生成路線高清2k、20s生成比起來(lái),還是差太多。想要真正實(shí)用,還得在工程上做不少事。

04

重要的是學(xué)習(xí)

從深度學(xué)習(xí)肇始,核心問(wèn)題就只有一個(gè),即什么是學(xué)習(xí)。到2024年為止,大模型早已經(jīng)具有了很多學(xué)習(xí)能力,能夠從海量數(shù)據(jù)中尋找到數(shù)據(jù)的鏈接方式,進(jìn)而達(dá)成一種與人不同的學(xué)習(xí)模式。然而,在2025年,強(qiáng)化學(xué)習(xí)之父 Richard Sutton 依然批評(píng)當(dāng)前的大語(yǔ)言模型(LLM)只是“被凍結(jié)的過(guò)去知識(shí)”,缺乏在與環(huán)境交互中實(shí)時(shí)學(xué)習(xí)的能力。這是說(shuō)模型缺乏持續(xù)學(xué)習(xí)的能力,這個(gè)問(wèn)題在上面記憶部分有可能會(huì)得到解決。

Sutton的另一個(gè)批評(píng)就是模型并不會(huì)元學(xué)習(xí),即學(xué)習(xí)怎么去學(xué)習(xí),學(xué)什么東西。他所謂的元方法(Meta-methods),指的就是“在這個(gè)時(shí)刻不要把知識(shí)寫死,而是把‘獲取知識(shí)的能力’寫進(jìn)代碼里”的方法。只有這樣,模型才能利用無(wú)限的算力和數(shù)據(jù),去適應(yīng)無(wú)限變化的世界。

只有有元學(xué)習(xí)的能力的模型,才能在遇到新問(wèn)題時(shí), 通過(guò)很少幾個(gè)樣本,調(diào)動(dòng)腦子里的“通用解題邏輯”(元知識(shí)),立刻做出解答,做到真正的低成本、快速適應(yīng)。并通過(guò)“如何觀察特征、如何歸納特征”的能力,迅速歸納出規(guī)則達(dá)成完整的動(dòng)態(tài)泛化。

沒(méi)有元學(xué)習(xí),模型就不可能應(yīng)對(duì)未知。 因?yàn)槟銦o(wú)法預(yù)知未來(lái)會(huì)遇到什么任務(wù),所以你不能預(yù)先訓(xùn)練它,只能賦予它現(xiàn)場(chǎng)學(xué)習(xí)的能力。

元學(xué)習(xí)與中訓(xùn)練

在2024年之前,學(xué)術(shù)界一直有關(guān)于當(dāng)時(shí)模型是否具有隱式元學(xué)習(xí)能力的討論。很多人都認(rèn)為是有的,因?yàn)榇嬖谥?上下文學(xué)習(xí)(In-Context Learning)的現(xiàn)象。因?yàn)槲覀儾桓膭?dòng)參數(shù),只是給 GPT 看了幾個(gè)例子(Prompt),它就像學(xué)過(guò)了一樣能夠舉一反三。

對(duì)此,包括Anthropic在內(nèi)的研究機(jī)構(gòu),都提出Transformer中的注意力機(jī)制在數(shù)學(xué)形式上,與模型學(xué)習(xí)時(shí)梯度下降(Gradient Descent)的更新步驟非常類似。Deepmind的論文,更是證明對(duì)于線性注意力模型,Transformer 的前向傳播過(guò)程可以被嚴(yán)格推導(dǎo)為「在大規(guī)模預(yù)訓(xùn)練學(xué)到的權(quán)重上執(zhí)行梯度下降」的過(guò)程。

但同樣,也有很多研究,證明上下文學(xué)習(xí)其實(shí)沒(méi)在新學(xué)習(xí)例子中給出的映射關(guān)系,只是在自身的概念空間里,利用格式(Format)激活了預(yù)訓(xùn)練期間早就記住的知識(shí)。就是說(shuō)激活了相關(guān)性而已,不是真在學(xué),而是在套模版。

這和我們所提到的元學(xué)習(xí)的理念大相徑庭。

不過(guò),在2025年12月份,蘇黎世理工還發(fā)表了一篇Meta RL的論文,設(shè)計(jì)了更好的上下文框架,更有效的利用ICL來(lái)作為一種元學(xué)習(xí)的方式。讓模型通過(guò)上下文自我反思和歷史回溯,來(lái)形成新策略。在下一次嘗試中,Agent 實(shí)際上是在執(zhí)行一個(gè)新的 Policy ,因?yàn)樯舷挛淖兞?。它看起?lái)和上面提到的谷歌的ReMeM很像,但更關(guān)注策略更新,而非上下文管理。也許他們結(jié)合起來(lái),才是最好的上下文作為權(quán)重的方法。


但最大的改變,是TTC的到來(lái),為隱式元學(xué)習(xí)提供了其他的可能。在推理革命初期,大家都發(fā)現(xiàn)可能模型思考了很長(zhǎng)時(shí)間,輸出了很長(zhǎng)的思維鏈,但要么沒(méi)用,要么都是錯(cuò)的。所以不是思維鏈越長(zhǎng)模型就越強(qiáng)。我們得引導(dǎo)它的思維過(guò)程,讓它在最短的思維中,達(dá)成最優(yōu)解。這其實(shí)本質(zhì)上就是一種訓(xùn)練模型如何思維的元學(xué)習(xí)。

卡耐基梅隆的研究《Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning》就是在這個(gè)方向上的嘗試。


它先證明了,模型在推理時(shí)生成的長(zhǎng) CoT,本質(zhì)上是一個(gè) Agent 在思維空間里探索最優(yōu)路徑。那如果這種探索可以做到更有效,其實(shí)就是一種元學(xué)習(xí)的能力。這種元學(xué)習(xí),就是引導(dǎo)模型在推理過(guò)程中,能夠有效尋找最佳路徑,合理分配算力。他們使用的策略是累積遺憾最小化(Cumulative Regret)。如果模型多思考了很多步,但答案的置信度沒(méi)有提升,這就是個(gè)遺憾,需要在后續(xù)規(guī)避。我們?cè)谧鰪?qiáng)化學(xué)習(xí)的時(shí)候,應(yīng)該引導(dǎo)模型去盡可能減小遺憾發(fā)生的可能,讓模型知道遇到這種難度的題,我應(yīng)該調(diào)用多少算力、嘗試幾條路徑。這就是學(xué)習(xí)的方法。

但這些方法,雖然比單純的上下文學(xué)習(xí)走的遠(yuǎn),但仍然局限在優(yōu)化已有的探索路徑這個(gè)層面,向外探索的能力仍然不足。我們可能仍然需要在單純的梯度之外,搭建一套顯式的系統(tǒng),去引導(dǎo)模型學(xué)會(huì)學(xué)習(xí)。

比如DeepMind 今年發(fā)表DiscoRL,它包含兩個(gè)核心閉環(huán):內(nèi)部循環(huán)由Agent在Atari等游戲環(huán)境中試錯(cuò),外部循環(huán)則由“老師”通過(guò)反向傳播觀察學(xué)生的表現(xiàn),不斷修正教學(xué)策略(即更新學(xué)習(xí)算法的參數(shù))。這一過(guò)程讓AI自主發(fā)現(xiàn)了想要得到最好的結(jié)果,得從“獎(jiǎng)勵(lì)最大化”轉(zhuǎn)向“未來(lái)預(yù)測(cè)”,而且這些預(yù)測(cè)往往集中在重大事件(如Ahamoment和改變方向)發(fā)生之前。在這一過(guò)程中,教師獨(dú)立“重新發(fā)現(xiàn)”了RL中的自舉法,證明了AI可以通過(guò)這種遞歸的抽象從純粹經(jīng)驗(yàn)中真的學(xué)習(xí)到應(yīng)該如何去探索。


實(shí)驗(yàn)結(jié)果顯示,由該系統(tǒng)自主發(fā)現(xiàn)的算法(Disco57)不僅在雅達(dá)利基準(zhǔn)上擊敗了包括MuZero在內(nèi)的人類設(shè)計(jì)頂級(jí)算法,更展現(xiàn)了驚人的泛化能力。即便是在未見(jiàn)過(guò)的ProcGen和NetHack等復(fù)雜環(huán)境中,它依然表現(xiàn)出色,證明其學(xué)到的不是單一游戲的技巧,而是普適通用的學(xué)習(xí)法則。

Meta在《Agent Learning via Early Experience》 的中訓(xùn)練嘗試,其實(shí)也殊途同歸的走向了一樣的路徑。預(yù)訓(xùn)練是讓AI死記硬背專家的正確操作,RL是直接扔到現(xiàn)實(shí)世界里依靠稀缺的獎(jiǎng)勵(lì)摸爬滾打。而中訓(xùn)練,就是在這之間讓Agent自己瞎折騰產(chǎn)生后果,并且反思。


具體到操作層面,在專家演示的每一步,會(huì)強(qiáng)制AI嘗試幾種不同的“備選動(dòng)作”,然后記錄下這些動(dòng)作會(huì)讓環(huán)境變成什么樣。同時(shí),還要對(duì)為什么專家做得好,我做的不好進(jìn)行反思。這其實(shí)就是訓(xùn)練AI不僅僅知道“怎么做是對(duì)的”,而是建立起“如果我這樣做,世界會(huì)那樣變”的因果模型。

在一種探索和嘗試,以及對(duì)嘗試經(jīng)驗(yàn)的遞歸中,模型也許確實(shí)學(xué)會(huì)了如何去學(xué)習(xí)這個(gè)世界的規(guī)律。它能顯著提升其在WebShop、ALFWorld等復(fù)雜環(huán)境中的成功率(平均提升9.6%),并大幅增強(qiáng)了泛化能力。

這幾種方法有一個(gè)共性,即他們都掌握了“想有效探索,必須建立起一個(gè)對(duì)世界的預(yù)測(cè)”的想法。這和谷歌《General Agents Need World Models》一文的結(jié)論不謀而合。

神經(jīng)科學(xué)的投影

2025年的神經(jīng)科學(xué)研究,讓我們可能能更理解人類是如何進(jìn)行學(xué)習(xí)的。過(guò)去我們認(rèn)為神經(jīng)網(wǎng)絡(luò)是一個(gè)混雜的“黑盒”,但在 《Building compositional tasks with shared neural subspaces》這篇論文證明了大腦內(nèi)部存在著結(jié)構(gòu)化、正交化的神經(jīng)子空間。這些子空間就像是物理層面的“符號(hào)”,它們將“顏色”、“形狀”、“動(dòng)作”等概念從混沌的電信號(hào)中剝離出來(lái),形成了獨(dú)立的、可復(fù)用的模塊。


研究發(fā)現(xiàn),大腦執(zhí)行新任務(wù)不是靠修改神經(jīng)元的連接(長(zhǎng)出新腦細(xì)胞),而是靠一種“動(dòng)態(tài)路由”機(jī)制。前額葉皮層根據(jù)當(dāng)前的“任務(wù)信念”,像接線員一樣將不同的神經(jīng)子空間重新連線。其實(shí)人類在學(xué)習(xí)過(guò)程中,是將簡(jiǎn)單模塊拼裝成新任務(wù)來(lái)去行動(dòng)的。

今年哈佛的論文《WHAT DOES IT MEAN TO UNDERSTAND LANGUAGE?》則認(rèn)為大腦的“語(yǔ)言區(qū)域”其實(shí)并不負(fù)責(zé)真正深刻的理解,它只是做了一些表層的處理,然后必須把信息“外派”給大腦的其他專門區(qū)域(比如負(fù)責(zé)視覺(jué)、社交、物理推理的區(qū)域),才能實(shí)現(xiàn)真正的“深度理解”。

在這種理解之上,2025年涌現(xiàn)出了很多對(duì)模型進(jìn)行分區(qū)的嘗試,包括上面提到的記憶分區(qū),或者把模型的參數(shù)分成專門處理快、慢反應(yīng)的兩個(gè)組別的嘗試。

05

讀寫速度、注意力和Scaling Law的基礎(chǔ)

以上四個(gè)部分,可以說(shuō)是2025年最引人注目的四個(gè)進(jìn)步。因?yàn)樗鼈冊(cè)贏GI的量表中,都是一步步覆蓋到原來(lái)完全為0的新領(lǐng)域上。從零奠基,范式革新。

然而在這之外,2025年也有其他一些重要改變,有效的補(bǔ)齊了過(guò)去模型并不擅長(zhǎng)的領(lǐng)域(比如上下文和處理速度),并且可能隱含著一些訓(xùn)練范式上的大規(guī)模修正可能。以下我們就通過(guò)一章,快速覆蓋一下這些領(lǐng)域。

對(duì)抗“Scaling Law的消失”

就像文章開(kāi)頭所寫,在2024年末時(shí),GPT 4.5已經(jīng)遇到了互聯(lián)網(wǎng)數(shù)據(jù)枯竭的問(wèn)題。而且在訓(xùn)練超大型稠密模型的工程難度也幾何增加,問(wèn)題不斷。

Scaling Law眼看難以為繼之時(shí),OpenAI 在 GPT-5.2 中并未繼續(xù)盲目擴(kuò)大參數(shù),而是靠稀疏性(Sparsity),即MoE、合成數(shù)據(jù)(Synthetic Data)與 RL加強(qiáng)三方結(jié)合,突破瓶頸。

MoE,是DeepSeek 一直采用的方法,在V3成功之前, 業(yè)內(nèi)很少有人使用。但它確實(shí)具有訓(xùn)練資源消耗少的特征(一次訓(xùn)整個(gè)模型 vs 一次只訓(xùn)部分專家),因此,大規(guī)模稠密模型帶來(lái)的工程問(wèn)題在一定程度上被解決。

而強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)時(shí)間,讓模型可以繞開(kāi)參數(shù)的Scaling Law,用上面說(shuō)到的RL的Scaling Law繼續(xù)提升能力。

但數(shù)據(jù)怎么辦?

在2025年,隨著推理能力的進(jìn)步,模型現(xiàn)在已經(jīng)可以自主生成長(zhǎng)思維鏈(COT)文本了。DeepSeek R1的論文表明,利用DeepSeek-R1生成的長(zhǎng)思維鏈對(duì)小模型進(jìn)行微調(diào),其效果遠(yuǎn)超使用人類專家編寫的CoT數(shù)據(jù)。因此,到此時(shí)合成數(shù)據(jù)的問(wèn)題已經(jīng)被解決了一半。

另外,2025年也有很多證據(jù)證明,數(shù)據(jù)在精,不在多。而且質(zhì)量最好的就是長(zhǎng)COT數(shù)據(jù)。

芝加哥大學(xué)團(tuán)隊(duì)的實(shí)驗(yàn)數(shù)據(jù)表明,當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模后,信息大多是重復(fù)冗余的,訓(xùn)練效果反而不好。與其盲目追求P數(shù)據(jù)量,不如通過(guò)去重和多樣性篩選來(lái)降低數(shù)據(jù)密度,加強(qiáng)單位數(shù)據(jù)的“驚奇度”(Surprisal)。

而且最有驚奇度的在現(xiàn)階段正是長(zhǎng)COT。在他們的實(shí)驗(yàn)Select2Reason中,僅僅篩選出前 10% 推理路徑最長(zhǎng)、最復(fù)雜的樣本進(jìn)行訓(xùn)練,其效果就匹配甚至超越了全量數(shù)據(jù)集。


因此,長(zhǎng)COT文本合成數(shù)據(jù),已經(jīng)成了翻越數(shù)據(jù)墻的一種最有希望的方式。

但2025年10月的一篇熱點(diǎn)研究發(fā)現(xiàn),模型在大規(guī)模使用合成數(shù)據(jù),包括互聯(lián)網(wǎng)上流行的AI生成數(shù)據(jù)后,會(huì)發(fā)生“腦損傷”,也就是遞歸(持續(xù)用自己推導(dǎo)自己)導(dǎo)致的模型崩潰(Model Collapse)。一方面模型的長(zhǎng)尾泛化能力下降,另一方面,模型會(huì)持續(xù)放大過(guò)去生成的錯(cuò)誤,盲目自信。

不過(guò)該研究并沒(méi)有單獨(dú)拎出來(lái)長(zhǎng)COT文本數(shù)據(jù)做范例。

好在這并非必然。南洋科技大在NeurIPS 2025的論文中,就建立了一種利用自我驗(yàn)證機(jī)制過(guò)濾數(shù)據(jù)的方法。在生成合成數(shù)據(jù)后,模型會(huì)計(jì)算其內(nèi)部置信度分?jǐn)?shù)。如果分?jǐn)?shù)低于某個(gè)閾值,說(shuō)明模型對(duì)該生成內(nèi)容存疑,那這些數(shù)據(jù)就要被丟棄。

他們的數(shù)據(jù)證明,只要模型的校準(zhǔn)誤差在一定界限內(nèi),僅憑自我驗(yàn)證就可以在完全合成(Fully Synthetic)的數(shù)據(jù)體制下,讓模型一直訓(xùn)練下去,而不會(huì)崩潰。

在2025年,科研界也發(fā)明出了更復(fù)雜的方法做清洗。比如利用另一個(gè)模型作為裁判(LLM-as-a-Judge)去搭建一個(gè)數(shù)據(jù)清洗流,保證其可驗(yàn)證性和效果。甚至有意識(shí)的讓Agent去生產(chǎn)模型知識(shí)空間中的空白(Missing Nodes),以解決遞歸帶來(lái)的多樣性喪失。

感謝蒸餾,我們也許不必再承擔(dān)推理慢的代價(jià)了

Gemini 3 Flash在年底的橫空出世,讓人對(duì)小模型的能力提升有了非常直觀的感受。

在Gemini 3 Flash之前,雖然Nvidia一直鼓吹小模型時(shí)代,微軟的Phi 4、谷歌的Gemma 3等小模型也表現(xiàn)不俗,但沒(méi)有任何一家的小模型能夠真正替代自家主流模型成為日常主力模型。

所以2025年這一年到底發(fā)生了什么,讓小模型突飛猛進(jìn)?主要是蒸餾方法的兩大主要的進(jìn)步:MoE的蒸餾,以及對(duì)COT的蒸餾上。

先說(shuō)MoE蒸餾。在DeepSeek的帶領(lǐng)下,現(xiàn)在主流的模型都是用MoE的架構(gòu)了。但之前的傳統(tǒng)的蒸餾方法往往忽略了那些未被路由選中的專家(Non-activated Experts)所蘊(yùn)含的“暗知識(shí)”。

2025年2月的論文《Every Expert Matters》就提出了針對(duì) MoE 的特化蒸餾方案。該方法在蒸餾過(guò)程中,通過(guò)多次采樣或強(qiáng)制激活策略,讓學(xué)生模型接觸到教師模型中不同專家的組合輸出。這樣學(xué)生模型(通常是更小的稠密模型)不僅學(xué)習(xí)到了“最優(yōu)解”,還學(xué)習(xí)到了不同專家對(duì)同一問(wèn)題的不同視角。這類研究,給出了MoE蒸餾的工程方向。


另一個(gè)難題就是將長(zhǎng)思維鏈能力高效遷移到小模型。傳統(tǒng)的單教師蒸餾處理長(zhǎng)序列推理中的誤差累積問(wèn)題非常不力,并不適合長(zhǎng)COT的蒸餾。而簡(jiǎn)單的將多個(gè)教師的數(shù)據(jù)混合(Data Union)往往會(huì)因?yàn)橥评砺窂降臎_突而導(dǎo)致模型困惑,反而降低了性能。

為了能應(yīng)對(duì)這個(gè)情況,思維融合蒸餾(Merge-of-Thought, MoT) 應(yīng)運(yùn)而生。這是一種輕量級(jí)的、迭代式的蒸餾框架,通過(guò)共識(shí)去噪(Consensus Denoising)原理,讓多個(gè)教師可以有效的引導(dǎo)學(xué)生模型,還可以避免長(zhǎng)序列推理的誤差積累。


比如在解決同一個(gè)復(fù)雜數(shù)學(xué)或邏輯問(wèn)題時(shí),不同教師的表達(dá)各異,但其核心的推理邏輯往往是相似的。就那干脆在高維參數(shù)空間中,讓學(xué)生模型能夠提取出所有教師的“公約數(shù)”,即最穩(wěn)健的推理邏輯。

通過(guò)這兩種方式,加上長(zhǎng)COT本身對(duì)蒸餾的增強(qiáng)作用,讓小模型的能力越來(lái)越強(qiáng)。也許有一天,我們甚至不用犧牲推理帶來(lái)的速度減緩,就能享受到完整的智能體驗(yàn)了。

注意力機(jī)制的變化,解放上下文

每一年,注意力機(jī)制都會(huì)有些新突破。畢竟這是自回歸框架下最重要的機(jī)制之一,它深度影響了大模型的上下文能力和指令遵從能力。2025年的變化相對(duì)比較多樣。

如果說(shuō)2024年之前是MHA(多頭注意力)的時(shí)代,那么2025年則是MLA(Multi-Head Latent Attention,多頭潛在注意力)及其變體全面普及的時(shí)代。

從DeepSeek從V3開(kāi)始采用MLA架構(gòu)后,它就開(kāi)始大受歡迎。畢竟既能壓縮大量降低顯存占用,又能保持了原有注意力機(jī)制的水平,多好。而且在推理COT越來(lái)越長(zhǎng)的背景下,的KV Cache顯存爆炸問(wèn)題更嚴(yán)重,MLA 就更加流行。

不過(guò)在發(fā)展過(guò)程中,MLA現(xiàn)在很少是作為一個(gè)獨(dú)立的注意力層被應(yīng)用,而是更多地作為一種“高性能組件”被嵌入到混合架構(gòu)中,給其他更高效的注意力新方法做精度保底。

2025年的另一個(gè)變化是線性注意力的復(fù)歸。長(zhǎng)期以來(lái),線性注意被視為全注意力的一種“有損壓縮”妥協(xié)方案,它用精度的下降換取推理速度。但在2025年,隨著Kimi Linear的發(fā)布,這一刻板印象被徹底打破。

Kimi Linear采用3:1混合架構(gòu)(3層線性穿插1層MLA),利用線性注意力層承擔(dān)主要的計(jì)算負(fù)載(節(jié)省75% KV緩存),再利用MLA兜底全局信息,實(shí)現(xiàn)了在1M超長(zhǎng)上下文任務(wù)(RULER測(cè)試)中達(dá)到94.8的高分,性能上首次全面超越全注意力。這標(biāo)志著線性注意力現(xiàn)在又了從備胎轉(zhuǎn)為主力的實(shí)力。


除此之外,Kimi還證明了線性注意力可以內(nèi)在地學(xué)習(xí)各個(gè)token的位置信息,從而不再需要傳統(tǒng)的RoPE(旋轉(zhuǎn)位置編碼),在1M上下文解碼時(shí),少了ROPE和N方的計(jì)算量,它的吞吐量可以達(dá)到全注意力的6.3倍。

除了在傳統(tǒng)的Token層面優(yōu)化注意力,2025年的另一個(gè)重要趨勢(shì)是打破離散Token的限制,向連續(xù)空間(Continuous Space)演進(jìn)。這以“大型概念模型”(Large Concept Models, LCM)和騰訊的CALM(Continuous Autoregressive Language Models)為代表。

傳統(tǒng)的LLM只預(yù)測(cè)下一個(gè)token,因此非常慢,且對(duì)于長(zhǎng)文本概念的關(guān)聯(lián)性理解也不行。Meta的Large Comcept Moedel 則試圖將多個(gè)Token壓縮為一個(gè)連續(xù)向量,從“預(yù)測(cè)下一個(gè)詞”轉(zhuǎn)變?yōu)椤邦A(yù)測(cè)下一個(gè)概念向量”。這增加了每個(gè)生成步驟的“語(yǔ)義帶寬”,在一次推理步驟中生成相當(dāng)于原來(lái)4倍的信息量,理論上能讓模型訓(xùn)練和推理的更快。


這個(gè)邏輯很好,但在LCM提出時(shí),因?yàn)閴嚎stoken向量的工程化問(wèn)題,其訓(xùn)練效率并沒(méi)有比傳統(tǒng)方法提升太多。但今年10月,騰訊的CALM才第一次在工程上找到了平衡點(diǎn),用更極簡(jiǎn)的方式證明了這條路徑的工業(yè)可行性。

06

2026,模型研究可能向哪里走?

了解完2025年模型的進(jìn)步路徑后,我們大可以暢想一下明年可能出現(xiàn)的一些研究方向。首先,我們上面提及的這些方向,毫無(wú)疑問(wèn)會(huì)朝著更精細(xì)化和工程化的方向演進(jìn),進(jìn)而給我們帶來(lái)模型體驗(yàn)上的持續(xù)提升。從2025年的技術(shù)總結(jié)中,我們已經(jīng)可以看到,幾乎所有重要的Scaling Law繼續(xù)發(fā)威的絆腳石都被搬的七七八八了。也正是因此,我們才在年末迎來(lái)了Gemini 3和GPT 5兩個(gè)確實(shí)提升明顯的新模型。

雖然像Test Time Compute這類范式革新性的創(chuàng)新是難以預(yù)測(cè)的,但有些已有苗頭的新方向很可能會(huì)在2026年結(jié)果,產(chǎn)生很重要的落地應(yīng)用。我下面會(huì)羅列一些我認(rèn)為可能會(huì)發(fā)生的技術(shù)推進(jìn)方向。

記憶的工程化實(shí)踐

2026年,一定是一個(gè)記憶大年。

因?yàn)橛洃浭玛P(guān)持續(xù)學(xué)習(xí),事關(guān)Agent落地(個(gè)性化和新技能學(xué)習(xí)),如果理論上的方向已經(jīng)明確,那除了工程上的難題外,基本沒(méi)有什么可以阻止它落地。

在AI領(lǐng)域,我們以TTC革命為例子,可以看到一個(gè)復(fù)雜的系統(tǒng)性新想法從產(chǎn)生、實(shí)驗(yàn)、工程落地,大概需要的時(shí)間是2年左右。2024年末的GPT o1,實(shí)際上在22年左右,已經(jīng)在Illya腦海中逐步成型,到方法確定和工程優(yōu)化,大概用了整整兩年。

在2025年,我們看到了從RAG、微調(diào)到架構(gòu)上三種路徑上的思考都逐步邁向成熟,并且已經(jīng)進(jìn)行了小規(guī)模的實(shí)驗(yàn)。這說(shuō)明很可能再有一年時(shí)間,這些研究成果就可能在工程上成熟,被采用。在一個(gè)成功架構(gòu)(比如像DeepSeek R1)的推動(dòng)下,成為標(biāo)配,完成范式轉(zhuǎn)換。

即使做不到架構(gòu)層的變化,RAG層的精修和SFT技術(shù)的優(yōu)化,也可以讓之前那些實(shí)驗(yàn)性的記憶系統(tǒng),比如Mem0、Second Me有了更好的落地體驗(yàn)。

在2025年中,基本上主流模型都已經(jīng)配置了基于上下文的記憶系統(tǒng)。但在2026年,更細(xì)節(jié),更具有學(xué)習(xí)性的記憶將會(huì)逐步被產(chǎn)品化。

標(biāo)準(zhǔn)架構(gòu)的變革

不論是Nested Learning、還是元學(xué)習(xí),以及Universe of Thought,似乎都在證明著,我們當(dāng)下的語(yǔ)言模型架構(gòu)必須進(jìn)行一些升級(jí),才可能補(bǔ)全其缺失的能力。

這種升級(jí)的趨勢(shì)主要以分區(qū)、分層、增加更多功能層為特質(zhì)。不管是直接在層級(jí)間加入Titans 的記憶層,還是像Herachical Reasoning 那樣,把模型分為不同的分區(qū),都可能更符合人腦運(yùn)作的模式。


在2026年,這種潛在的混合架構(gòu),可能會(huì)隨著神經(jīng)學(xué)和符號(hào)主義的回潮,變得有更多更豐富的嘗試。

進(jìn)化的螺旋開(kāi)啟

2025年除了推理這個(gè)詞之外,最熱門的應(yīng)該就是自進(jìn)化了。這是機(jī)器學(xué)習(xí)的圣杯。一個(gè)可以無(wú)限自我對(duì)弈、自我進(jìn)化的通用型AI,基本就等于是AGI、ASI。

不過(guò)在2025年,探索才剛剛起步。在這一年里,有借鑒了生成式對(duì)抗網(wǎng)絡(luò),讓模型能夠在無(wú)數(shù)據(jù)的情況下,自問(wèn)自答進(jìn)行強(qiáng)化學(xué)習(xí)的。這條路確實(shí)走的通,也確實(shí)是自進(jìn)化,但它的上限依然受制于模型本身的預(yù)訓(xùn)練能力,暫時(shí)沒(méi)有呈現(xiàn)出超過(guò)人工設(shè)計(jì)的后訓(xùn)練的水平。

自進(jìn)化AI的另一個(gè)驗(yàn)證方法是是否能發(fā)明出讓自己進(jìn)化的算法。這就是Alpha Evolve努力的一個(gè)方向。

它是由系統(tǒng)使用Gemini Flash(追求速度)和Gemini Pro(追求深度)組成的模型集成,形成一個(gè)個(gè)獨(dú)立的探索Agent。系統(tǒng)將當(dāng)前表現(xiàn)最好的算法代碼作為上下文輸入LLM,并告訴這些Agent,去優(yōu)化這段代碼的某些具體方向。LLM由此生成多個(gè)變異版本的代碼。在Agent規(guī)則的限制下,這些變異一般是邏輯層面的重構(gòu),例如改變循環(huán)結(jié)構(gòu)、引入新的數(shù)學(xué)技巧或調(diào)整數(shù)據(jù)結(jié)構(gòu)。生成的代碼會(huì)被放入沙箱環(huán)境中執(zhí)行。系統(tǒng)通過(guò)預(yù)定義的測(cè)試用例驗(yàn)證其正確性(Provable Correctness),并通過(guò)性能分析器測(cè)量其效率(如延遲、吞吐量或指令數(shù))。那些既正確又更高效的算法將被保留,成為下一代的父本。由此,持續(xù)的多次優(yōu)化,最終帶來(lái)算法的最優(yōu)優(yōu)化。


在實(shí)踐上,Alpha Evolve確實(shí)找到了優(yōu)于人類答案的優(yōu)化算法。

不過(guò),我們其實(shí)可以把Alpha Evolve看成Deep research的變體版本,只是把搜索部分替換成優(yōu)化而已。在缺乏反思和內(nèi)化,只是作為流程Agent存在的大模型,雖然確實(shí)可以找到進(jìn)化算法,但很難稱之為自進(jìn)化。

以上兩種比較有代表性的嘗試,其實(shí)都屬于自進(jìn)化早期的嘗試。

在記憶、合成數(shù)據(jù)、元學(xué)習(xí)的模式完善之后,自進(jìn)化的AI在2026年必然會(huì)產(chǎn)生更多的可能性。

以下為各章設(shè)計(jì)的論文索引,如有興趣可深入取用:

Part I TTC革命

The Art of Scaling Reinforcement Learning Compute for LLMs(文中 “ScaleRL / Sigmoid 曲線”)

https://arxiv.org/abs/2510.13786 ([2510.13786] The Art of Scaling Reinforcement Learning Compute for LLMs)

Group Sequence Policy Optimization (GSPO)(文中 Qwen 的 GSPO / GSPO 類)

https://arxiv.org/abs/2507.18071 ([2507.18071] Group Sequence Policy Optimization)

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention(文中 MiniMax、以及 CISPO 出處)

https://arxiv.org/abs/2506.13585 ([2506.13585] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention)

你文中提到的 CISPO,在這篇 MiniMax-M1 論文里作為其 RL 算法之一出現(xiàn)。 ([2506.13585] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention)

Part II. 記憶力

Titans: Learning to Memorize at Test Time

https://arxiv.org/abs/2501.00663 (research.google)

MIRAS 框架(Miras 作為統(tǒng)一記憶/序列模型設(shè)計(jì)框架)

論文:It’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

https://arxiv.org/abs/2504.13173 ([2504.13173] It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization)

Nested Learning( Nested Learning / Hope / “多更新頻率層級(jí)”相關(guān))

https://arxiv.org/abs/2512.24695 ([2512.24695] Nested Learning: The Illusion of Deep Learning Architectures)

Evo-Memory(含 ExpRAG 與 ReMem:Action–Think–Memory–Refine)

https://arxiv.org/abs/2511.20857 ([2511.20857] Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory)

稀疏記憶微調(diào)(Sparse Memory Finetuning)

論文:Continual Learning via Sparse Memory Finetuning

https://arxiv.org/abs/2510.15103 ([2510.15103] Continual Learning via Sparse Memory Finetuning)

Part III. 空間智能

Towards Precise Scaling Laws for Video Diffusion Transformers(DiT scaling law、對(duì) batch/lr 更敏感”)

https://arxiv.org/abs/2411.17470 ([2411.17470] Towards Precise Scaling Laws for Video Diffusion Transformers)

Visual Autoregressive Modeling (VAR): Scalable Image Generation via Next-Scale Prediction( VAR)

https://arxiv.org/abs/2404.02905 ([2404.02905] Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction)

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning( V-JEPA 2 / 預(yù)測(cè)式世界表征)

https://arxiv.org/abs/2506.09985 ([2506.09985] V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning)

Scaling Laws for Native Multimodal Models

https://arxiv.org/abs/2504.07951 ([2504.07951] Scaling Laws for Native Multimodal Models)

Latent Diffusion Model without Variational Autoencoder(無(wú) VAE / SVG”)

https://arxiv.org/abs/2510.15301 ([2510.15301] Latent Diffusion Model without Variational Autoencoder)(可選:后續(xù)擴(kuò)展版)

SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

https://arxiv.org/abs/2512.11749 ([2512.11749] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder)

Part IV.重要的是學(xué)習(xí)

●Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers

https://arxiv.org/abs/2212.10559 ([2212.10559] Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers)

●Transformers Learn In-Context by Gradient Descent

https://arxiv.org/abs/2212.07677 ([2212.07677] Transformers learn in-context by gradient descent )

●In-context Learning and Induction Heads

https://arxiv.org/abs/2209.11895 ([2209.11895] In-context Learning and Induction Heads)

●Meta-RL Induces Exploration in Language Agents

https://arxiv.org/abs/2512.16848 (https://arxiv.org/abs/2512.16848)

●Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

https://arxiv.org/abs/2503.07572 (https://arxiv.org/abs/2503.07572)

●Discovering state-of-the-art reinforcement learning algorithms

https://www.nature.com/articles/s41586-025-09761-x (https://www.nature.com/articles/s41586-025-09761-x?utm_source=openai)

●Agent Learning via Early Experience

https://arxiv.org/abs/2510.08558 ([2510.08558] Agent Learning via Early Experience)

●What does it mean to understand language?

https://arxiv.org/abs/2511.19757 ([2511.19757] What does it mean to understand language?)

●Building compositional tasks with shared neural subspaces

https://www.nature.com/articles/s41586-025-09805-2 (https://www.nature.com/articles/s41586-025-09805-2?utm_source=openai)

●DynamicMind: A Tri-Mode Thinking System for Large Language Models

https://arxiv.org/abs/2506.05936 ([2506.05936] DynamicMind: A Tri-Mode Thinking System for Large Language Models)

Part V . 其他進(jìn)展 合成數(shù)據(jù)部分

Scaling Laws Revisited: Modeling the Role of Data Quality in Language Model Pretraining

https://arxiv.org/abs/2510.03313 (research.google)

LLMs Can Get “Brain Rot”!(“腦損傷/brain rot”論文)

https://arxiv.org/abs/2510.13928 (research.google)

Self-Verification Provably Prevents Model Collapse in Recursive Synthetic Training( NeurIPS 2025 / OpenReview 那篇)

https://openreview.net/forum?id=X5Hk8aMs6w (research.google)

PDF:https://openreview.net/pdf?id=X5Hk8aMs6w (research.google)

蒸餾部分

Every Expert Matters: Towards Effective Knowledge Distillation for Mixture-of-Experts Language Models(你文中《Every Expert Matters》)

https://arxiv.org/abs/2502.12947 ([2502.12947] Every Expert Matters: Towards Effective Knowledge Distillation for Mixture-of-Experts Language Models)

Merge-of-Thought Distillation (MoT)(你文中“思維融合蒸餾 MoT”)

https://arxiv.org/abs/2509.08814 (research.google)

On-Policy Distillation / GKD(你文中 OPD 類“學(xué)生自采樣 + 教師逐 token KL”最接近的公開(kāi)論文錨)

論文:On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

https://arxiv.org/abs/2306.13649 ([2306.13649] On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes )

說(shuō)明:你文里提到的“逐 token KL、密集反饋、比 RL 便宜”的敘述,學(xué)術(shù)上最接近這條 On-Policy Distillation / GKD 線。([2306.13649] On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes)

注意力部分

Kimi Linear: An Expressive, Efficient Attention Architecture( Kimi Linear、3:1 混合、1M 上下文、吞吐提升等)

https://arxiv.org/abs/2510.26692 ([2510.26692] Kimi Linear: An Expressive, Efficient Attention Architecture)

CALM:Continuous Autoregressive Language Models(騰訊 CALM)

https://arxiv.org/abs/2510.27688 ([2510.27688] Continuous Autoregressive Language Models)

Large Concept Models: Language Modeling in a Sentence Representation Space( LCM)

https://arxiv.org/abs/2412.08821 ([2412.08821] Large Concept Models: Language Modeling in a Sentence Representation Space)

(可選補(bǔ)充:概念/連續(xù)概念混合方向)

LLM Pretraining with Continuous Concepts (CoCoMix)

https://arxiv.org/abs/2502.08524 ([2502.08524] LLM Pretraining with Continuous Concepts )

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“底薪3000元24小時(shí)待崗”,32歲程序員周末猝死,妻子:若時(shí)光倒流,一定逼他辭職!公司去年三季報(bào)凈利潤(rùn)8.67億元

“底薪3000元24小時(shí)待崗”,32歲程序員周末猝死,妻子:若時(shí)光倒流,一定逼他辭職!公司去年三季報(bào)凈利潤(rùn)8.67億元

每日經(jīng)濟(jì)新聞
2026-01-22 22:43:06
馬斯克創(chuàng)造歷史,身家即將突破55000億

馬斯克創(chuàng)造歷史,身家即將突破55000億

新行情
2026-01-22 14:10:00
26歲健美選手畢嘉琪去世,好友曝在睡夢(mèng)中猝死,滿身肌肉血管暴起

26歲健美選手畢嘉琪去世,好友曝在睡夢(mèng)中猝死,滿身肌肉血管暴起

180視角
2026-01-22 13:34:58
馬克西絕殺上籃遭杜蘭特封蓋,但回放顯示應(yīng)是干擾球

馬克西絕殺上籃遭杜蘭特封蓋,但回放顯示應(yīng)是干擾球

懂球帝
2026-01-23 11:13:11
視源股份32歲程序員猝死:底薪3千24小時(shí)待崗 公司多崗位要求“抗壓能力強(qiáng)”

視源股份32歲程序員猝死:底薪3千24小時(shí)待崗 公司多崗位要求“抗壓能力強(qiáng)”

中國(guó)能源網(wǎng)
2026-01-23 09:04:03
華為登頂,吃了誰(shuí)的蛋糕?

華為登頂,吃了誰(shuí)的蛋糕?

智東西
2026-01-22 22:49:33
柬埔寨提高獲取公民身份投資門檻:從30萬(wàn)美元漲至100萬(wàn)美元

柬埔寨提高獲取公民身份投資門檻:從30萬(wàn)美元漲至100萬(wàn)美元

紅星新聞
2026-01-22 13:15:18
知道不好騙了,索性開(kāi)始硬搶了!

知道不好騙了,索性開(kāi)始硬搶了!

胖胖說(shuō)他不胖
2026-01-22 16:47:14
“和平委員會(huì)”名單公布,19國(guó)已簽署,讓中方意外的是普京和巴鐵

“和平委員會(huì)”名單公布,19國(guó)已簽署,讓中方意外的是普京和巴鐵

尋途
2026-01-23 05:34:38
馬斯克亮相達(dá)沃斯:FSD最快2月在中國(guó)獲批 Optimus明年開(kāi)售

馬斯克亮相達(dá)沃斯:FSD最快2月在中國(guó)獲批 Optimus明年開(kāi)售

鳳凰網(wǎng)科技
2026-01-23 06:58:07
李亞鵬事件再升級(jí),房東助理揭內(nèi)情,暗指忘恩負(fù)義,當(dāng)?shù)鼐用癜l(fā)聲

李亞鵬事件再升級(jí),房東助理揭內(nèi)情,暗指忘恩負(fù)義,當(dāng)?shù)鼐用癜l(fā)聲

冷紫葉
2026-01-20 13:26:51
性商教母,被封號(hào)!

性商教母,被封號(hào)!

微微熱評(píng)
2026-01-23 00:25:55
單征程6M在手,輕舟智航為何成為普惠級(jí)城市NOA“頭號(hào)玩家”?

單征程6M在手,輕舟智航為何成為普惠級(jí)城市NOA“頭號(hào)玩家”?

AutoBusiness
2026-01-22 15:06:28
澤連斯基宣布:涉嫌處決烏軍戰(zhàn)俘的俄軍士兵已被俘

澤連斯基宣布:涉嫌處決烏軍戰(zhàn)俘的俄軍士兵已被俘

桂系007
2026-01-20 13:23:22
美國(guó)啟動(dòng)所謂“和平委員會(huì)”,匈牙利、巴基斯坦、阿根廷、印尼、蒙古等18國(guó)已簽署!特朗普達(dá)沃斯講話,卻遭群嘲

美國(guó)啟動(dòng)所謂“和平委員會(huì)”,匈牙利、巴基斯坦、阿根廷、印尼、蒙古等18國(guó)已簽署!特朗普達(dá)沃斯講話,卻遭群嘲

每日經(jīng)濟(jì)新聞
2026-01-23 00:41:25
杜蘭特36+7火箭加時(shí)惜敗76人 恩比德32+15+10馬克西36+10

杜蘭特36+7火箭加時(shí)惜敗76人 恩比德32+15+10馬克西36+10

醉臥浮生
2026-01-23 10:39:00
愛(ài)老婆真的會(huì)發(fā)達(dá)!男子連續(xù)15年為妻女買黃金,共買了28件金條金飾,預(yù)估收益超100萬(wàn)元!

愛(ài)老婆真的會(huì)發(fā)達(dá)!男子連續(xù)15年為妻女買黃金,共買了28件金條金飾,預(yù)估收益超100萬(wàn)元!

佛山電視臺(tái)小強(qiáng)熱線
2026-01-22 20:00:29
“女碩士患精神疾病走失十余年被找回”案:兩人涉嫌強(qiáng)奸罪被起訴

“女碩士患精神疾病走失十余年被找回”案:兩人涉嫌強(qiáng)奸罪被起訴

大風(fēng)新聞
2026-01-22 22:16:16
Tiktok官宣美國(guó)方案,兩公司共同運(yùn)營(yíng),字節(jié)保留算法知識(shí)產(chǎn)權(quán)

Tiktok官宣美國(guó)方案,兩公司共同運(yùn)營(yíng),字節(jié)保留算法知識(shí)產(chǎn)權(quán)

第一財(cái)經(jīng)資訊
2026-01-23 08:53:35
央視曝光!真別再吃了,頭皮發(fā)麻,市監(jiān)局通報(bào)40批食品抽檢不合格

央視曝光!真別再吃了,頭皮發(fā)麻,市監(jiān)局通報(bào)40批食品抽檢不合格

深析古今
2026-01-22 16:49:37
2026-01-23 12:48:49
星海情報(bào)局 incentive-icons
星海情報(bào)局
關(guān)注“中國(guó)制造”的星辰大海
1115文章數(shù) 2006關(guān)注度
往期回顧 全部

科技要聞

TikTok守住了算法"靈魂" 更握緊了"錢袋子"

頭條要聞

32歲猝死程序員一人干六七人的工作 上月到手薪資披露

頭條要聞

32歲猝死程序員一人干六七人的工作 上月到手薪資披露

體育要聞

跑個(gè)步而已,他們?cè)谌际裁矗?/h3>

娛樂(lè)要聞

劉大錘曝料 將王星越的“體面”撕粉碎

財(cái)經(jīng)要聞

茂名首富,這次糟了

汽車要聞

“四十不惑”的吉利 信力不信命

態(tài)度原創(chuàng)

親子
健康
家居
旅游
本地

親子要聞

沒(méi)有過(guò)敏原為什么孩子還是起蕁麻疹?

打工人年終總結(jié)!健康通關(guān)=贏麻了

家居要聞

在家度假 160平南洋混搭宅

旅游要聞

迎春茶會(huì)路線攻略!清照泉城·泉韻茶香,邀您明天共赴~

本地新聞

云游中國(guó)|格爾木的四季朋友圈,張張值得你點(diǎn)贊

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版