国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

從 “更大更強” 到 “更小更強”:密度法則和智能的分布式未來

0
分享至



“2023 年初,有巨頭說全世界只會有幾個大模型,這就像 1943 年,IBM 董事長曾說全球不需要超過 5 臺主機?!?br/>

文丨程曼祺

今年 11 月,清華大學、開源組織 OpenBMB 與面壁智能的聯(lián)合研究登上《自然·機器學習》封面——Densing Laws of LLMS(《大模型的密度法則》:每 3.5 個月,模型的能力密度翻一倍。



此圖描述了 2023 年 4 月之后,主要開源模型的能力密度的變化。能力密度是衡量單位參數(shù) / 算力下,模型能力的指標。目前版本的密度法則總結了預訓練大語言模型的密度變化,o1、R1 等后訓練強化學習對能力密度的提升尚未體現(xiàn)在指標里。



ChatGPT 出現(xiàn)之后(圖中 2023 年 1 月的時間線),能力密度上升的斜率變陡。

過去幾年,大模型演進的明線是 “規(guī)模法則”(Scaling Law)帶來的能力躍遷。大模型在編程、生圖、設計等能力上,達到甚至超越了人類水平。另一方面,模型性能競賽也帶來巨大的資源消耗,連 OpenAI 也因資源不足出現(xiàn)分歧。

密度法則,就是關注如何用更少計算和數(shù)據(jù)資源,更高效地得到更多智能。對密度目標的追求,會加速手機、汽車、機器人等端側智能發(fā)展,促進分布式智能和每個人的 “專屬大模型”。

本期《晚點聊》,我們和密度法則的研究者,清華大學計算機系副教授、面壁智能首席科學家劉知遠,以及清華博士后、面壁智能 MiniCPM 系列文本模型負責人肖朝軍討論了:

- 密度法則的背景和核心洞察;

- 提升模型能力密度的具體方法;

- 強化學習還沒有出現(xiàn) Scaling Law,由此引起的兩個探索方向;

- 自主學習與分布式端側智能的未來。

2023 年全國端側算力(主要是手機)是數(shù)據(jù)中心算力的 12 倍。過去幾十年的信息化,本質上是一個分布式算力和分布式信息的結構。

劉知遠認為,智能未來也會分布式存在。這個過程中,密度法則指引的效率提升尤為重要。

2023 年初有巨頭說 “全球只需要幾個大模型”,這和 1943 年 IBM 董事長說 “世界只需要五臺計算機” 如出一轍。

但未來的智能大概率是分布式存在的,每個人都有一個屬于自己的智能體。如果模型具備自主學習能力,那么終端上的模型就能基于用戶的個人數(shù)據(jù)持續(xù)成長,最終形成一個 “個人大模型”,成為你最懂你的那個助手。

大模型時代的 “摩爾定律”

晚點:最近趕上中美新模型密集發(fā)布,尤其 Gemini 3 熱度很高;從這些新進展里,你們看到了哪些亮點?

肖朝軍:我感受到兩個明顯趨勢。第一,所有大模型都在強化 “智能體” 能力,直觀表現(xiàn)是,每次模型發(fā)布后,大家都會測代碼任務,模型在 agent 任務上的表現(xiàn)顯著提升。

第二,從 Nano Banana Pro 中可以看到,Google 的多模態(tài)模型的文字生成準確度非常高,這在此前的 diffusion(擴散)模型里很難看到,只在 OpenAI 的 GPT-4o 中有一點苗頭。這讓我看到一種新的 Scaling 方向:過去我們一直說更多數(shù)據(jù)、更大模型、更強能力,但多模態(tài)數(shù)據(jù)一直沒有真正帶來 “智能躍遷”,而現(xiàn)在這種 “統(tǒng)一的自回歸式” 的視覺-語言生成可能帶來突破。當然,Gemini 3 的模型細節(jié)未公開,還不能完全判斷,現(xiàn)在的能力更多來自產品優(yōu)化,還是架構上的真正整合,可能要再看看后續(xù)版本。

劉知遠:現(xiàn)在幾乎每周的進展,都相當于我讀研時一年的進展,總結下來有兩條主線:

一是能力變強,它對應 “規(guī)模法則”:從 2018 年預訓練模型出現(xiàn)后,每隔幾年模型能力就會跳一次:

- 2022 年底 ChatGPT 通過指令微調(instruction tuning)讓模型 “聽懂人話”;

- 2024 年底到 2025 年初,大規(guī)模強化學習后訓練讓模型具備更深的思考能力。

模型正變得更通用,甚至開始接近或超越人類在某些領域的能力。

第二是能效更高,我們這次提出的 “密度法則”,本質上就是對 “如何讓能力與成本之比不斷提高” 的定量描述。任何想真正改變世界的技術,都必須追求更高效率,大模型也會在能力 + 成本兩個方向上同時進化。

晚點:一般大家更關注的是能力變強,在第二條主線 “能效更高” 上,近期有哪些進展?

肖朝軍:核心的 AI Lab 也都在追求效率提升。在開源側,Qwen 3、DeepSeek V3.2、Llama 3,以及面壁自己的 MiniCPM 系列都在做 MoE(混合專家系統(tǒng))、 Sparse Attention(稀疏注意力)、Efficient Attention(更有效率的注意力機制)等架構優(yōu)化。在閉源側,OpenAI 推出了 Mini 系列;Google 也在 Gemini 3 之前發(fā)布了 Gemini Diffusion,宣稱它的文本生成速度比其他模型快了很多很多倍,

所以無論開源還是閉源,大家都在追求 “效率”,因為資源永遠不夠——連 OpenAI 都是如此,甚至會因此有重大分歧,比如 Ilya 離職時提到的 “資源不足”。

劉知遠:規(guī)模法則和密度法則就像大模型演進的明線和暗線,之前信息革命也是如此:明線是,設備越來越小,大型機→小型機→個人電腦→手機→其它智能終端;暗線是芯片行業(yè)的高效進化,也就是摩爾定律。我們提出密度法則,就是想尋找大模型時代的 “摩爾定律”。

晚點:模型的訓練和推理效率越來越高,這不是不言自明的嗎?為什么要特別來做這個研究?

劉知遠:我們是在 2023 年底開始著手這個研究的。回到那一年,包括后面的 2024 年,全球主導的話語體系都是規(guī)模法則,一些國際機構甚至宣稱:只有擁有十萬張 GPU 的組織才有資格訓練大模型。

這種敘事下,很多人,包括政策決策層也會誤以為規(guī)模法則是唯一的第一性原理,這有誤導性。密度法則就是希望糾正行業(yè)敘事,讓大家看到效率同樣是主線。

當時,大部分團隊的目標都是復現(xiàn) ChatGPT。國內一線團隊大概在 2023 年 9~10 月完成了復現(xiàn),80B 級別的模型就能做到 ChatGPT 的效果。

接下來一個自然的選擇是追 GPT-4,我們測算,這需要把模型做到 140B 左右,訓練成本得上千萬元。但以當時的節(jié)奏,24 年上半年,國內至少會有五家團隊做到 GPT-4 水平,那我們怎么收回投入?

所以我們把重點轉向了 “模型風洞”——系統(tǒng)性評估架構、數(shù)據(jù)、訓練策略對效率的提升。它帶來的第一個成果,是 2024 年 1 月的 MiniCPM-1:以 2.4B 參數(shù)做到了當時 LLaMA-2-13B、Mistral-7B 的效果。2.4B 是手機可跑的規(guī)模,這讓我們意識到,技術創(chuàng)新可以大幅提升模型的效率,也因此我們開始堅定投入 “端側大模型”。

我們也在追問:這種效率躍遷背后有沒有更底層的規(guī)律?受摩爾定律啟發(fā),我們提出了 “知識密度”,并在 2024 年圍繞訓練各環(huán)節(jié)的創(chuàng)新如何提升能力密度做了系統(tǒng)研究。至少在面壁內部,“密度法則” 已是一個明確的目標指引。

晚點:從 2023 年秋天之后,面壁就一直追求高效的大模型,但為什么并沒有形成 25 年 1 月 DeepSeek R1 那樣的影響力?

劉知遠: 公眾關注的是誰家模型能力更強,那往往意味著訓練幾千億、上萬億參數(shù)的超大模型。但大部分公司還是要考慮商業(yè)后果。AGI 在未來五到十年一定會到來,你當然可以像互聯(lián)網時代的 Google 一樣,在云端做公開服務,但 AGI 也會發(fā)生在端側。既然端側有這么大的潛力,而關注它的人又不多,我們提前布局,反而更適合初創(chuàng)公司的稟賦和節(jié)奏。最近看到一句話很好:“別人得到的,不一定是你失去的。”

提升能力密度的四個環(huán)節(jié),強化學習還未出現(xiàn) Scaling Law

晚點:密度法則的核心洞察是什么?

肖朝軍:核心觀點不是我們觀察到的模型能力密度 “每 3.5 個月翻倍” 這個數(shù)字本身,而是提出一個目標:我們應追求單位計算帶來的智能最大化,而不是盲目追求模型規(guī)模。

規(guī)模法則與密度法則也并不對立。前者是 “算力與能力之間的對應關系”;后者是 “單位算力到智能的轉化率”,是追求更高的斜率。

晚點:有哪些提升模型能力密度的具體方法?

劉知遠:分四個部分——模型架構、數(shù)據(jù)、學習算法、軟硬一體的協(xié)同優(yōu)化。密度法則提出后,我們正在嘗試定量描述這些維度的影響,已經有一些經驗性結果。

肖朝軍:第一就是模型架構。Transformer 核心就兩塊:FFN(Feed-Forward Network,前饋網絡) 和 attention(注意力機制)。

現(xiàn)在基本的共識是,F(xiàn)NN 要做稀疏化的 MoE 架構——就是把 FNN 這塊很大的 “稠密矩陣變換” 切成很多 “專家”,每次前向計算只激活其中一小部分專家,這比激活全局的算力消耗更少,效率更高。DeepSeek 的一個重要貢獻,就是證明了 MoE 在大規(guī)模模型上也能有很好的效果。

而在注意力機制上,今年開源、閉源都在做各種效率改進:比如 Gemini 系列里滑動窗口注意力 + 稠密注意力的混合架構,Qwen3-Next 和 Kimi Linear 用了 DeltaNet(一種線性注意力)混合稠密注意力的架構,還有 DeepSeek 近期發(fā)布的 DSA 等等。這些改進都是為了順應大模型從 “短模型” 變成 “長模型” 的趨勢,而這又來自 Agent 化和深思考的需求,Agent 既需要長輸入,也需要長輸出。

長文本未來一定會面向深思考和 Agent 場景,它會有更多長輸出。而現(xiàn)在面向長輸出的線性注意力的驗證是遠遠不夠的。

所以,MiniMax 為什么從 M1 的 lightning attention(注:lighting attention 采用了線性注意力混合 full attention 的架構),到現(xiàn)在 M2 全部用 full attention?我猜測一個很重要的原因是,M2 想主打 agent,但是直接用 lighting attention 在一些更復雜的 agent 任務上有性能缺失。

晚點:年初我們聊注意力改進時,你就提到過 Agent 任務下,要更多關注長輸出。這在現(xiàn)在也不是共識嗎?

肖朝軍:我觀察到,大家還是習慣把長文本等同于長輸入,而思維鏈和多步推理其實對長輸出有更多需求。比如一個 agent 規(guī)劃了 5 個步驟:你不能做到第五步時忘掉第一步,然后再倒回去重做,模型需要記住自己之前輸出了什么。這是長文本的新挑戰(zhàn)。

我們今年 6 月開源的 InfLLM 2,就有針對這個問題的改進。核心變化是做了 “原生稀疏”:在預訓練階段就引入稀疏注意力變,而不是像第一版那樣在推理階段才做。這帶來兩個好處:一是訓練明顯加速;二是稀疏度顯著降低——InfLLM 1 在推理階段,大概有 50% 的注意力開銷(相比 full attention 的 50%),而 InfLLM 2 在訓練階段的稀疏度只有不到 5%,即在 128K 上下文長度下,只需要關注 4–6K token。

我們這個算子也同時支持長輸出。在 Agent 和深度思考場景,這個方法都比較實用。

晚點:架構之后,在數(shù)據(jù)維度,業(yè)界在如何提高模型的能力密度?

肖朝軍:數(shù)據(jù)上,接下來兩個點非常關鍵:一是合成數(shù)據(jù),二是更高質量的數(shù)據(jù)清洗與治理?,F(xiàn)在幾乎所有頂級團隊都在投入這兩件事,因為它們直接決定模型能力的上限,也決定下一階段能否繼續(xù)把密度做上去。

劉知遠:我們內部其實有一套分層的 pipeline(流程),從 L0 到 L4,對應不同的處理階段。

L0 收集,通過抓取、采買獲得原料;

L1 過濾,清理掉重復數(shù)據(jù)和垃圾數(shù)據(jù);

L2 精選,進一步挑出我們認定的高質量數(shù)據(jù);

L3 合成,不只是對現(xiàn)有數(shù)據(jù)加工,而是生成這個世界上原本不存在的內容,比如改寫、擴寫、任務化等;

L4 驗證,通過形式化或人工方式,確認這一層的數(shù)據(jù)達到了高質量。

比如最近我們用這套 pipeline ,精煉了很有名的預訓練數(shù)據(jù)集 FineWeb,得到一個容量不到原始數(shù)據(jù) 1/10 的版本,叫 Ultra-FineWeb。結果用 Ultra-FineWeb 訓練出的模型效果反而比直接用 FineWeb 更好,訓練成本自然也能降到十分之一,這只是預訓練階段的數(shù)據(jù)治理帶來的效果。

后訓練同樣如此——無論是 SFT(監(jiān)督微調)還是強化學習,數(shù)據(jù)的合成質量都強烈影響模型的能力上限和效率。比如交大劉鵬飛老師最近做的 “Less is More” 系列,就是用更少、更精的數(shù)據(jù)獲得更強效果的例子。

我們接下來也會開源這套比較完整的數(shù)據(jù)治理體系,包括數(shù)據(jù)樣例和整個 pipeline 的結構。一個更根本的問題是:達到某個能力水平的 “最小的數(shù)據(jù)集” 究竟長什么樣?這個問題也能幫我們追問智能的本質。

晚點:接下來是算法的改進,今年的重點明顯轉向了 RL。

肖朝軍:是的,但強化學習做到現(xiàn)在,仍然沒有出現(xiàn)清晰的 scaling law。

預訓練的 scaling law 非常清晰:幾十萬億 tokens、幾十萬步訓練,有穩(wěn)定的 scaling law 可循。而現(xiàn)在做 RL,大多數(shù)團隊也就訓到幾千步;OpenAI o1 的技術報告里,一些任務不到一萬步就停了,效果不錯,但離跑通 RL scaling 還差得很遠。換句話說,如何讓強化學習持續(xù)穩(wěn)定地訓下去?這仍是整個行業(yè)在探索的方向。

晚點:你說 “RL 還沒有 scaling”,具體是指什么?

肖朝軍:行業(yè)說 “RL 的 scaling” 主要指兩塊:環(huán)境能否擴展,reward(激勵)是否可驗證。

前 OpenAI 研究員 Jason Wei 認為,RL 關鍵在于構建一個 “unhackable environment”——一個模型不能投機取巧,能持續(xù)學習的環(huán)境。但 Ilya 則認為這種環(huán)境幾乎不存在,人類學習本身也不是在這樣的環(huán)境里完成的,這也關系到我們如何定義下一階段的 AGI。

在 reward 上,目前真正可驗證的 reward 基本只有數(shù)學和代碼。但代碼領域的 RL 目前主要是在競賽題上很強,真正的軟件開發(fā)要復雜得多,reward 很難構建,這是 RL scaling 的核心瓶頸。

不過 RL 至少已經證明:只要有足夠的數(shù)據(jù)和反饋,它能在任何任務上做到人類前 0.1% 甚至 0.01% 的水平。很多團隊已經實現(xiàn)數(shù)學競賽、編程競賽的國際金牌水平。所以完全可以想象,未來一個公司如果能在某個垂直場景積累足夠的數(shù)據(jù),就能用 RL 打造出該領域的 “超級專家模型”。

晚點:現(xiàn)在就有 RL to B 的趨勢——針對某個真實商業(yè)環(huán)境去做強化學習,比如 Thinking Machines Lab 可能在探索這個方向。

肖朝軍:所以我們之前叫 prompt engineering,現(xiàn)在是 reward engineering 或 environment engineering,這都是 RL 帶來的新產物。

不過只到這一步,還不是我們真正想要的 AGI。因為人類的學習非常高效,在一個新任務下,只需要少量反饋、少量嘗試就能學會?,F(xiàn)在 RL 離這種學習效率還有巨大差距。

接下來可能有兩條路:

一是繼續(xù)把 RL 做 scaling:不停擴大環(huán)境規(guī)模、增加可驗證的 reward,看能不能像預訓練那樣,隨著規(guī)模擴展自然出現(xiàn)更強的泛化能力。

我們正在研究更高效的 RL scaling 框架,讓模型在 RL 訓練時把算力吃滿,把訓練步數(shù)拉到足夠大,比如做到幾萬步,讓模型真正經歷更長的思考。

更往前走是開放域的強化學習——不僅是數(shù)學、代碼,而是像 “寫一篇論文什么算好”“計劃一個復雜任務什么算完成” 這種 reward。這個方向還沒有成熟范式,大家都還在摸索開放域的 reward 怎么定義,怎么穩(wěn)定訓練?

二是尋找更高效的新的學習方式:提高 sample efficiency(樣本效率)——讓模型能更像人那樣,在少量反饋下就能學會新任務,而不是依賴大量人工標注和大量環(huán)境交互。

晚點:我們不能構造一個很復雜的、包含多種激勵的環(huán)境嗎?人所處的真實環(huán)境就是如此,我們面臨的任務很多樣,在不同情境和場景里,我們也會自己切換目標和激勵。

肖朝軍:這很難。人能在現(xiàn)實世界中高效學習,是因為我們能從各種微弱而連續(xù)的信號里獲得反饋。比如聊天時,我見你表情變嚴肅,自然會意識到可能哪里不太對——這是一種細膩的反饋。

但在強化學習里,反饋必須被離散成 “+1 或 -1” 這種形式化的 reward。如何把現(xiàn)實世界這種豐富、連續(xù)、多維的反饋壓縮成一個 reward?本身就極其困難。

這對應到 Ilya 說的 value function(價值函數(shù))——要給模型一個描述 “什么是好、什么是壞” 的價值函數(shù)。但構造這樣的 value function 和構造一個完整的世界模型一樣難。

甚至這是一個 “雞生蛋、蛋生雞” 的悖論:如果我真能對世界建模得那么好,能有一個足夠強的 reward model 去評估所有行為,那這個 reward model 本身就已經是 AGI 級別的難度了。相當于你先有一個 AGI,才能用它去訓練 AGI。

從大模型上車、上手機,到隨身攜帶的 “個人 NAS”

晚點:密度法則在業(yè)界的更多反饋和影響是什么?

劉知遠:DeepSeek-3 發(fā)布后,“成本、能效” 已經變成全行業(yè)核心詞。其中一個有意思的現(xiàn)象是,很多具身智能(embodied AI)領域的朋友特別喜歡引用我們的研究成果,因為端側設備對延遲與能耗極度敏感。

在《自然·機器學習子刊》的這篇論文之前,我們還有一篇發(fā)在《自然通訊》上的論文,是關于 MiniCPM-V(注:指論文 Efficient GPT-4V level multimodal large language model for deployment on edge devices),其中有張經典的圖,就是描述密度法則結合硬件演進,能讓端側設備承載原來云端服務器上跑的模型才有的能力;具身智能團隊最關心的就是,端側的大腦什么時候可行。



達到 GPT-4V 水平的模型參數(shù)規(guī)模隨時間增長迅速縮減,而端側算力快速增強,當芯片電路密度(摩爾定律)和模型能力密度(密度法則)兩條曲線交匯,端側設備將能運行以往只能在云端運行的大模型。

晚點: 你們看到的具體時間表是?

劉知遠:結合模型能力密度的提升速度,和全球一線芯片廠的制程路線圖,推估端側芯片的算力、緩存等規(guī)格,我們預測:2030 年左右,端側可部署 60B+ 參數(shù)的模型,激活大小可到達 8B+。這是基于現(xiàn)在發(fā)展的線性推測,未來也可能有非線性突破。5 年內,端側很可能能承載 GPT-4?GPT-5 能力的模型。

晚點:不同終端設備的進展速度是怎樣的?目前來看,車、手機、電腦應該是第一批,也是各家布局端側 AI 的公司的重點。

劉知遠:對,今年車端模型量產速度非???,車的空間大,本身對算力、功耗的限制相對小。我們已經在和長安馬自達、吉利的一些車型合作,明年會有 6 款以上車型接入我們的模型。

晚點:現(xiàn)在大語言模型和多模態(tài)模型在車上具體能做什么?相比之前的語音助手,新增體驗是什么?

劉知遠:主要是智能座艙的多模態(tài)交互,包括感知車內、車外環(huán)境,對坐在不同位置的多乘客的識別和理解等等。不同車企的功能定義其實差別挺大的,有的高端座艙的功能點會超過 100 個。

晚點:之前的 AI 技術在用到車等終端時需要做定制開發(fā),這關系到這種服務的商業(yè)效率和規(guī)?;芰?,大模型現(xiàn)在要去適配這么多功能點,需要做哪些額外的開發(fā)?

劉知遠:主要是做一些微調,我們自己來做。我們本身很強調標準化,有一套 SFT 工具鏈和數(shù)據(jù)合成規(guī)范,所以效率挺高的。

晚點:那么接下來在手機,乃至眼鏡這種更小的硬件上,AI 和端側模型會怎么發(fā)展?

劉知遠:我們認為 2027 年是關鍵節(jié)點,這時可以做到,在手機上實現(xiàn)大規(guī)模的強化學習。這就意味著,每個人能用自己的數(shù)據(jù)來給這個模型提供學習環(huán)境,讓它能逐漸成為個人的 “專屬大模型助理”。而眼鏡,它不需要自己跑大模型,它更像是手機的外設。

或者說,未來的入口不也不是手機,而是一個隨身的個人計算終端,類似能隨身攜帶的的家庭 NAS(一種計算與存儲服務器);眼鏡、耳機、手表或各種新的傳感設備,會通過各種方式獲得數(shù)據(jù),再給到個人計算終端,支持模型持續(xù)學習。

智能會分布式存在,AGI 的雛形是 “AI 造 AI”

晚點:目前的密度法則是描述現(xiàn)有預訓練范式的效率提升,現(xiàn)在業(yè)界也都在討論,預訓練 +RL 后訓練之后,下一個大的方法改進是什么?你們會重點探索哪個方向?

肖朝軍:我認為是自主學習(self-learning),也可以說是自我進化、持續(xù)學習,現(xiàn)在的名詞很多。背景還是我們前面聊到的——強化學習已能在單一任務上做到很強,但它還不夠泛化。

未來的模型,首先應該是一個很好的學習者:它放在你的終端或其它設備上,可以根據(jù)你的需求持續(xù)學習你擅長或需要的任務。就像帶一個實習生——你教它寫代碼、寫稿或做研究,它會逐漸掌握這些能力。

而目前的預訓練和強化學習都做不到這一點,因此才會出現(xiàn)世界模型,想給模型提供一個足夠好的反饋環(huán)境;才會強化學習之父 Rich Sutton 說當前大模型無法通向 AGI 。核心還是,海量數(shù)據(jù)驅動的這種學習方式可能會阻礙更高效地習得新技能。

接下來,是有了自我學習能力的模型之間的協(xié)作。比如有的人培養(yǎng)出了 AI Researcher 專家模型,有的培養(yǎng)出了 Infra 專家模型,他們怎么合作,讓模型發(fā)展得更快。

再往后,最高階的就是創(chuàng)造能力,比如真的像愛因斯坦等科學家那樣,不僅在人已經定義好的符號里學習,也有能力創(chuàng)造新的符號間的關系,乃至新的符號系統(tǒng)。

所以總結一下,就是自主學習→能自主學習的 AI 之間的協(xié)作→創(chuàng)新。

劉知遠:這是明線,背后也有一條暗線,是智能在設備上的分布方式。

按中國信通院的統(tǒng)計,2023 年全國端側算力,主要是手機的加總,是數(shù)據(jù)中心算力的 12 倍。云上算力看起來很大,但架不住全國十幾億臺設備同時在跑。所以過去幾十年的信息化,本質上是一個分布式算力和分布式信息的結構。

我認為智能化也會如此。2023 年初有巨頭說 “全球只需要幾個大模型”,這和 1943 年 IBM 董事長說 “世界只需要五臺計算機” 如出一轍。但未來的智能大概率是分布式存在的,每個人都有一個屬于自己的智能體。

如果模型具備自主學習能力,那么終端上的模型就能基于用戶的個人數(shù)據(jù)持續(xù)成長,最終形成一個 “個人大模型”,成為你最懂你的那個助手。云端則會存在一系列 “專家大模型”:懂外賣的美團模型、懂出行的是滴滴模型、懂內容的是抖音模型……

端側和云端模型的協(xié)同工作,就會形成 “智能體的互聯(lián)網”。在這個分布式智能體系里,密度法則會非常關鍵,它能讓端側模型能以極低成本運行,用戶幾乎無感,讓智能屬于每個人。

晚點:未來一年:你們最想觀察、驗證的問題是什么?

肖朝軍:強化學習到底能走多遠?自主學習以什么形式存在?還有,最早出現(xiàn)的 “AGI 形態(tài)” 會是什么樣?這其實是這樣一個問題:自主學習、協(xié)作和創(chuàng)造這些能力,會先落在一個什么樣的模型或產品形態(tài)上?

我的直覺是,AGI 的形態(tài)可能不是面向用戶的 to C 產品,而是面向生產的 to B 系統(tǒng)。比如說,你讓它 “做一個自動駕駛模型”,它就能生產數(shù)據(jù)、構建環(huán)境、訓練模型、優(yōu)化架構,最終把模型在目標算力上部署起來。也就是說,最早的 AGI 不需要什么都會,而是先會 “自己生產 AI”。

劉知遠: 從歷史來看,第一次工業(yè)革命的標志是 “機器生產機器”。智能時代的本質也是 “AI 造 AI”。自主學習,就是最早的 “AI 造 AI” 的雛形:模型能在環(huán)境中自己成長。我非常期待明年或后年出現(xiàn)真正具備這種能力的系統(tǒng)。

題圖來源:《黑衣人》(用 Nano Banana Pro 增強了吊墜中的銀河)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本核試探結局來了,高市早苗萬萬沒想到,絕殺日本居然不是中國

日本核試探結局來了,高市早苗萬萬沒想到,絕殺日本居然不是中國

起喜電影
2025-12-27 14:17:04
迷人的大腿:生命的等高線

迷人的大腿:生命的等高線

疾跑的小蝸牛
2025-12-19 07:25:05
馮鞏再惹爭議,當上曲協(xié)主席一年多了,除了拍短視頻啥動靜都沒有

馮鞏再惹爭議,當上曲協(xié)主席一年多了,除了拍短視頻啥動靜都沒有

鋒哥與八卦哥
2025-12-27 14:20:24
沉寂10天后,中國對美強硬出手,力度之大、范圍之廣前所未有

沉寂10天后,中國對美強硬出手,力度之大、范圍之廣前所未有

墨羽怪談
2025-12-27 14:23:02
重慶市人社局局長謝禮國任市政協(xié)黨組成員、辦公廳主任

重慶市人社局局長謝禮國任市政協(xié)黨組成員、辦公廳主任

澎湃新聞
2025-12-27 14:52:26
年度補貼抓緊申領!12月31日截止!

年度補貼抓緊申領!12月31日截止!

上觀新聞
2025-12-27 11:02:05
12歲小泡芙顏值翻車?齙牙顯男相被說長殘,14歲哥哥1米8超劉畊宏

12歲小泡芙顏值翻車?齙牙顯男相被說長殘,14歲哥哥1米8超劉畊宏

行者聊官
2025-12-27 11:19:22
忙壞了,海文全場解圍8次,曼聯(lián)取得自10月4日以來的首次零封

忙壞了,海文全場解圍8次,曼聯(lián)取得自10月4日以來的首次零封

懂球帝
2025-12-27 13:49:28
官媒對劉強東的稱呼變了,3字之差釋放強烈信號,雷軍真沒說錯

官媒對劉強東的稱呼變了,3字之差釋放強烈信號,雷軍真沒說錯

風月得自難尋
2025-12-25 08:12:20
這天,一排黑皮膚、褶子臉的大叔,秒了內娛一堆涂脂抹粉的小鮮肉

這天,一排黑皮膚、褶子臉的大叔,秒了內娛一堆涂脂抹粉的小鮮肉

真的八卦小學弟
2025-12-26 16:00:06
乒超男團:林高遠空砍1.5分出局!林詩棟缺席,隊友苦戰(zhàn)5盤進決賽

乒超男團:林高遠空砍1.5分出局!林詩棟缺席,隊友苦戰(zhàn)5盤進決賽

全言作品
2025-12-27 13:58:41
藍營春天來了,繼重用王金平后,鄭麗文完成兩件事,侯友宜再發(fā)聲

藍營春天來了,繼重用王金平后,鄭麗文完成兩件事,侯友宜再發(fā)聲

放開他讓wo來
2025-12-27 08:48:16
藏不住了,當年陸挺的《江南春》,是從徐湘江手里購買的

藏不住了,當年陸挺的《江南春》,是從徐湘江手里購買的

吃瓜盟主
2025-12-24 15:26:30
聯(lián)盟倒數(shù)第一3人20+爆冷大勝猛龍 鶯歌29+6奎克利25分

聯(lián)盟倒數(shù)第一3人20+爆冷大勝猛龍 鶯歌29+6奎克利25分

醉臥浮生
2025-12-27 10:28:09
關系戶!曼聯(lián)太子爺首秀遭狂噴!基恩評論炸裂!

關系戶!曼聯(lián)太子爺首秀遭狂噴!基恩評論炸裂!

奶蓋熊本熊
2025-12-27 11:49:06
和大佬海外產子真相大白7個月,39歲江疏影曝近照,一點也不意外

和大佬海外產子真相大白7個月,39歲江疏影曝近照,一點也不意外

洲洲影視娛評
2025-12-26 12:24:42
李淑賢抱憾離世,以拒絕合葬的方式,為那段不光彩的婚姻畫上句點

李淑賢抱憾離世,以拒絕合葬的方式,為那段不光彩的婚姻畫上句點

磊子講史
2025-12-25 15:20:00
再現(xiàn)“虧損式”內幕交易,趙瑜停牌前買入淮河能源,最終虧51萬被罰100萬

再現(xiàn)“虧損式”內幕交易,趙瑜停牌前買入淮河能源,最終虧51萬被罰100萬

紅星資本局
2025-12-27 15:04:15
忘年交 9:大佬出山平風波

忘年交 9:大佬出山平風波

金昔說故事
2025-12-27 13:43:55
一天,齊白石給人畫蝦,畫完后,客人不加錢,卻非要他再畫一只蝦

一天,齊白石給人畫蝦,畫完后,客人不加錢,卻非要他再畫一只蝦

忠于法紀
2025-12-23 18:42:41
2025-12-27 15:40:49
晚點LatePost
晚點LatePost
晚一點,好一點。商業(yè)的真相總是在晚點?!锻睃cLatePost》官方賬號
2996文章數(shù) 21865關注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

"和平計劃"差臨門一腳 特朗普放話烏命運掌握在他手里

頭條要聞

"和平計劃"差臨門一腳 特朗普放話烏命運掌握在他手里

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

劉宇寧:我的價值不需要靠番位來證明

財經要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

教育
時尚
房產
數(shù)碼
旅游

教育要聞

美國境內旅游簽轉學簽到底需要花多少錢?

從0度穿到20度,這件衣服才是今年冬天的“頂流”!

房產要聞

年銷20億+!中交·藍色港灣用好房子致敬好生活

數(shù)碼要聞

華為Mate 70 Air 16GB內存版今日開售 配麒麟9020A

旅游要聞

貴州舉辦2025滿意旅游“痛客行”頒獎儀式

無障礙瀏覽 進入關懷版