国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Mind Lab 成立|64 張卡跑萬(wàn)億參數(shù) RL,開(kāi)源

0
分享至

先岔開(kāi)個(gè)題外話,我有個(gè)朋友叫鍇杰,顏值在線,在樂(lè)團(tuán)當(dāng)過(guò)首席


在線應(yīng)援(bushi

對(duì)于鍇杰,我一直覺(jué)得
偶像前景>技術(shù)品味>產(chǎn)品塑造

他有個(gè)產(chǎn)品叫馬卡龍,但本文和這個(gè)無(wú)關(guān)
上個(gè)月鍇杰來(lái)酒吧,跟我說(shuō):
做產(chǎn)品的過(guò)程中,他們有一些技術(shù)上的發(fā)現(xiàn),然后成立了一個(gè) Lab

這對(duì)于鍇杰來(lái)說(shuō),我覺(jué)得,比單純做產(chǎn)品靠譜多了

現(xiàn)在,Mind Lab 正式成立,并交出了第一份答卷

  • ? 萬(wàn)億參數(shù) LoRA 強(qiáng)化學(xué)習(xí)

  • ? GPU 消耗砍掉 90%

  • ? 記憶算法 SOTA

現(xiàn)在他不但搞了產(chǎn)品,還搞了技術(shù),很好
偶像之路,再緩緩吧


https://macaron.im/mindlab 預(yù)訓(xùn)練結(jié)束了

Richard Sutton 是 DeepMind 首席科學(xué)家,強(qiáng)化學(xué)習(xí)之父
他今年有個(gè)判斷:預(yù)訓(xùn)練時(shí)代結(jié)束了

互聯(lián)網(wǎng)數(shù)據(jù)總共就 14T 左右,該訓(xùn)的都訓(xùn)過(guò)了
那接下來(lái)怎么繼續(xù)提升模型智能?
Sutton 給的方向叫Era of Experience
翻譯過(guò)來(lái)就是「經(jīng)驗(yàn)智能

核心思路是這樣:
把模型放進(jìn)真實(shí)產(chǎn)品里,基于用戶真實(shí)反饋,持續(xù)訓(xùn)練訓(xùn)練
讓模型,在產(chǎn)品里一直訓(xùn)、一直長(zhǎng)


Era of Experience

...等等,鍇杰跟我講這些的時(shí)候
我突然想到了之前的另一個(gè)產(chǎn)品
Hitem 為了訓(xùn)練 3D 模型,專門建立了個(gè)工廠,也是這個(gè)理由

Mind Lab 做了個(gè)實(shí)驗(yàn),恰好也驗(yàn)證這件事:
真實(shí)反饋數(shù)據(jù)流訓(xùn)練的模型,智能提升效果遠(yuǎn)比用固定 reward 訓(xùn)練的好


流式 Reward vs 固定 Reward 效果對(duì)比

順道說(shuō)一下,這里有個(gè)概念上的區(qū)分

預(yù)訓(xùn)練造的是 Brain——大腦
大腦是靜態(tài)的,訓(xùn)完就定型了,記住了互聯(lián)網(wǎng)上的海量知識(shí),但不會(huì)再進(jìn)化

強(qiáng)化學(xué)習(xí)造的是 Mind——心智
心智會(huì)在環(huán)境中不斷進(jìn)化,能從反饋中學(xué)習(xí),能動(dòng)態(tài)調(diào)整行為

這是 Mind Lab 名字的由來(lái)

Mind Lab 在干啥

鍇杰他們,在技術(shù)上做了兩件事

第一件:萬(wàn)億參數(shù) LoRA 強(qiáng)化學(xué)習(xí)

在萬(wàn)億參數(shù)模型上跑全參數(shù)強(qiáng)化學(xué)習(xí),算力太貴,絕大多數(shù)團(tuán)隊(duì)玩不起

Mind Lab 的解法是用 LoRA

LoRA 的意思是:不動(dòng)整個(gè)大模型,只取出大約 0.5% 的核心參數(shù)來(lái)訓(xùn)練

效果基本不打折,成本砍到十分之一

他們?cè)?Kimi K2 上驗(yàn)證了這套方案:
64 張 H800 搞定萬(wàn)億參數(shù)模型的強(qiáng)化學(xué)習(xí)


訓(xùn)練曲線,穩(wěn)定收斂

這套方案,已經(jīng)合并到 NVIDIA Megatron-Bridge 和字節(jié) seed verl,代碼開(kāi)源

鍇杰跟我說(shuō),目前全球做這個(gè)方向的,只有兩家
Thinking Machine 和 Mind Lab

第二件:Memory Diffusion

這是一個(gè)記憶算法,我很喜歡

傳統(tǒng)模型想要保存更多的東西,要么每輪對(duì)話總結(jié)記憶(開(kāi)銷大、細(xì)節(jié)丟失),要么存數(shù)據(jù)庫(kù)檢索(容易丟上下文)

Mind Lab 的思路很有意思,它是把對(duì)話軌跡本身當(dāng)記憶
通過(guò)「遮蔽-分配-重填」三步動(dòng)態(tài)壓縮

  • ? 選一塊遮掉

  • ? 根據(jù)重要性分配 token 預(yù)算

  • ? 在預(yù)算約束下重新生成

靈感來(lái)自人類的遺忘機(jī)制:
比如...在開(kāi)車的時(shí)候,你會(huì)忘掉路過(guò)的廣告牌,只記住目的地

這套東西,在 Locomo 基準(zhǔn)上達(dá)到 93% 準(zhǔn)確率,SOTA

一個(gè)有意思的發(fā)現(xiàn)

Mind Lab 做了個(gè)對(duì)照實(shí)驗(yàn)

三個(gè)模型,控制總計(jì)算量一致,來(lái)做個(gè)訓(xùn)練對(duì)比

  • ?1.5B 全參數(shù)訓(xùn)練

  • ?7B LoRA 訓(xùn)練

  • ?32B LoRA 訓(xùn)練

結(jié)論是32B + LoRA 效果最好

模型

可訓(xùn)練參數(shù)

效果提升

1.5B 全參數(shù)

1.5B

8.33%

7B LoRA

0.16B

11.31%

32B LoRA

0.07B

20.61%

為什么?
因?yàn)閺?qiáng)化學(xué)習(xí)本質(zhì)上是「先驗(yàn)受限」的
如果基座模型本身生成不出高質(zhì)量軌跡,強(qiáng)化學(xué)習(xí)就沒(méi)什么有用的信號(hào)可以放大

大模型已經(jīng)編碼了豐富的推理模式,強(qiáng)化學(xué)習(xí)在這些基礎(chǔ)上精修,比從頭造輪子效率高得多

大先驗(yàn) + 小 LoRA,比小模型全參數(shù)訓(xùn)練更劃算

還挺有意思的

產(chǎn)品是天然的 RL 環(huán)境

和鍇杰認(rèn)識(shí)很久了,也一直很喜歡他的技術(shù)品味
但即便是這樣,我依然會(huì)有一個(gè)問(wèn)題
這樣的技術(shù),為什么是來(lái)自產(chǎn)品團(tuán)隊(duì)?

得到了這樣的回答
產(chǎn)品本身,就是最好的強(qiáng)化學(xué)習(xí)環(huán)境

這里說(shuō)個(gè)很有趣的事實(shí)
Cursor 的估值,能買下國(guó)內(nèi)所有的大模型創(chuàng)業(yè)公司


Cursor 最新一輪融資

Cursor 值錢,在于它有最多的真實(shí)用戶數(shù)據(jù)
用戶用 Cursor 寫代碼,接受或拒絕建議,編輯或刪除生成內(nèi)容,這些全是訓(xùn)練信號(hào)

作為對(duì)比,X.AI 有很多算力、很多優(yōu)秀研究員,但模型提升速度不夠快
為什么?沒(méi)有真實(shí)產(chǎn)品環(huán)境,獎(jiǎng)勵(lì)函數(shù)沒(méi)法持續(xù)進(jìn)化

Mind Lab 的邏輯也是這樣
研究給產(chǎn)品帶來(lái)體驗(yàn)升級(jí)(比如生成速度從 20 分鐘到 2 分鐘),產(chǎn)品給研究帶來(lái)真實(shí)數(shù)據(jù),這些是互相增強(qiáng)的


示意圖

預(yù)訓(xùn)練時(shí)代,贏家是數(shù)據(jù)多的
經(jīng)驗(yàn)智能時(shí)代,贏家會(huì)是產(chǎn)品好的

最后

Ilya 說(shuō)過(guò):
預(yù)訓(xùn)練時(shí)代正在走向終結(jié)

那下一個(gè)時(shí)代是什么?
可能是「經(jīng)驗(yàn)智能」,也或者不是

但正如我們所體驗(yàn)的,
大腦在真實(shí)世界中,產(chǎn)生的心智會(huì)不斷進(jìn)化
AI 或許也會(huì)遵循,在人類的世界中不斷進(jìn)化

至于鍇杰,他準(zhǔn)備啥時(shí)候開(kāi)啟偶像之路》

我覺(jué)得...可能得等他先把心智這件事搞明白

Lab 主頁(yè)
https://macaron.im/mindlab

合并PR
https://github.com/volcengine/verl/pull/4063
https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1310

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
侯耀華:我從德云社借過(guò)兩個(gè)人,一個(gè)是何云偉,一個(gè)是欒云平

侯耀華:我從德云社借過(guò)兩個(gè)人,一個(gè)是何云偉,一個(gè)是欒云平

阿纂看事
2025-12-26 23:59:00
保時(shí)捷中心總經(jīng)理帶頭連夜搬空車輛,貴陽(yáng)鄭州兩地三店暫停營(yíng)業(yè),控股方否認(rèn)“投資人跑路”

保時(shí)捷中心總經(jīng)理帶頭連夜搬空車輛,貴陽(yáng)鄭州兩地三店暫停營(yíng)業(yè),控股方否認(rèn)“投資人跑路”

紅星資本局
2025-12-26 21:35:15
扎克伯格認(rèn)輸了!燒掉700億美金的“元宇宙”,終于敗給一副眼鏡

扎克伯格認(rèn)輸了!燒掉700億美金的“元宇宙”,終于敗給一副眼鏡

南權(quán)先生
2025-12-16 17:01:37
53億鎊被凍結(jié)3年!阿布要和英政府干到底:雇6頂級(jí)律師 絕不認(rèn)慫

53億鎊被凍結(jié)3年!阿布要和英政府干到底:雇6頂級(jí)律師 絕不認(rèn)慫

風(fēng)過(guò)鄉(xiāng)
2025-12-26 16:49:45
“中國(guó)宜家”崩了,創(chuàng)始人套現(xiàn)200億離場(chǎng),美的太子接盤血虧?

“中國(guó)宜家”崩了,創(chuàng)始人套現(xiàn)200億離場(chǎng),美的太子接盤血虧?

蜉蝣說(shuō)
2025-12-23 20:00:55
2025年,十大物理學(xué)突破

2025年,十大物理學(xué)突破

原理
2025-12-24 21:37:56
65年李宗仁回國(guó)后不去拜訪元帥,卻主動(dòng)拜見(jiàn)一位曾打敗自己的大將

65年李宗仁回國(guó)后不去拜訪元帥,卻主動(dòng)拜見(jiàn)一位曾打敗自己的大將

睡前講故事
2025-12-16 13:37:15
受宜賓球員打人事件影響,四川“三大球”聯(lián)賽被緊急叫停

受宜賓球員打人事件影響,四川“三大球”聯(lián)賽被緊急叫停

懂球帝
2025-12-26 20:50:22
26央視春晚再度官宣,出來(lái)一群“牛鬼蛇神”,他們不再被追捧

26央視春晚再度官宣,出來(lái)一群“牛鬼蛇神”,他們不再被追捧

小張帥
2025-12-24 15:56:14
老人被城管隊(duì)員推倒后離世,福建福安警方通報(bào):鄭某亮用身體沖撞吳某富,致吳某富受傷后搶救無(wú)效死亡,已被依法刑拘

老人被城管隊(duì)員推倒后離世,福建福安警方通報(bào):鄭某亮用身體沖撞吳某富,致吳某富受傷后搶救無(wú)效死亡,已被依法刑拘

揚(yáng)子晚報(bào)
2025-12-25 20:48:28
不到48小時(shí),高市大反轉(zhuǎn),支持率飆升至92.4%,日本發(fā)生了什么?

不到48小時(shí),高市大反轉(zhuǎn),支持率飆升至92.4%,日本發(fā)生了什么?

鐵錘簡(jiǎn)科
2025-12-26 19:23:46
央企“最牛女副處長(zhǎng)”落馬:兩年與上司開(kāi)房410次,細(xì)節(jié)曝光

央企“最牛女副處長(zhǎng)”落馬:兩年與上司開(kāi)房410次,細(xì)節(jié)曝光

西門老爹
2025-12-16 15:35:31
新疆男籃又輸了,輸給北京!沒(méi)有想到賽后采訪趙睿會(huì)這么說(shuō)

新疆男籃又輸了,輸給北京!沒(méi)有想到賽后采訪趙睿會(huì)這么說(shuō)

林子說(shuō)事
2025-12-27 00:00:05
甘肅天水一名媛好漂亮,國(guó)色天姿,眉眼帶笑美的讓人移不開(kāi)眼

甘肅天水一名媛好漂亮,國(guó)色天姿,眉眼帶笑美的讓人移不開(kāi)眼

朗威談星座
2025-12-26 14:03:52
一波未平一波又起,張本智和贊助商暫停合作,損失估值高達(dá)千萬(wàn)

一波未平一波又起,張本智和贊助商暫停合作,損失估值高達(dá)千萬(wàn)

暴走的大事件
2025-12-26 13:44:49
167票當(dāng)選!聯(lián)合國(guó)變天,新主席對(duì)華態(tài)度不一般?中方提出4個(gè)要求

167票當(dāng)選!聯(lián)合國(guó)變天,新主席對(duì)華態(tài)度不一般?中方提出4個(gè)要求

花花娛界
2025-12-25 20:42:42
鐘麗緹亮相芭莎之夜,胸大腚圓胖到不敢認(rèn),一大把年紀(jì)還玩性感

鐘麗緹亮相芭莎之夜,胸大腚圓胖到不敢認(rèn),一大把年紀(jì)還玩性感

黃小仙的搞笑視頻
2025-12-24 11:46:44
“貓來(lái)窮,狗來(lái)富”高僧指點(diǎn):貓養(yǎng)不好形成“白虎煞”影響財(cái)運(yùn)

“貓來(lái)窮,狗來(lái)富”高僧指點(diǎn):貓養(yǎng)不好形成“白虎煞”影響財(cái)運(yùn)

古怪奇談錄
2025-12-16 16:05:32
孩子父親真相大白后,70歲奚美娟最新亮相活動(dòng),卻無(wú)人搭理顯落寞

孩子父親真相大白后,70歲奚美娟最新亮相活動(dòng),卻無(wú)人搭理顯落寞

庸人自擾0607
2025-12-25 20:40:11
離婚大咖棄養(yǎng)私生子?。?>
    </a>
        <h3>
      <a href=離婚大咖棄養(yǎng)私生子!? 八卦瘋叔
2025-12-26 11:21:41
2025-12-27 02:20:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
225文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

體育要聞

開(kāi)翻航母之后,他決定親手造一艘航母

娛樂(lè)要聞

王傳君生病后近照變化大,面部浮腫

財(cái)經(jīng)要聞

投資巨鱷羅杰斯最新持倉(cāng):只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開(kāi)啟首款獵裝轎跑路測(cè)

態(tài)度原創(chuàng)

教育
健康
手機(jī)
親子
公開(kāi)課

教育要聞

最新:一批學(xué)校期中考試成績(jī)曝光!民辦和公辦的差距巨大!

這些新療法,讓化療不再那么痛苦

手機(jī)要聞

vivo藍(lán)河:以開(kāi)源和賽事,撬動(dòng)AGI時(shí)代底層技術(shù)生態(tài)

親子要聞

小小的身體大大的能量!被4歲萌娃的深情告白打動(dòng)?? #睡個(gè)好覺(jué)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版