国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)Seed用化學(xué)思想搞AI,把DeepSeek-R1的腦回路拆成了分子結(jié)構(gòu)

0
分享至

聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

字節(jié)Seed都開始用化學(xué)思想搞大模型了——

深度推理是共價鍵、自我反思是氫鍵、自我探索是范德華力?!



傳統(tǒng)的大模型長思維鏈推理基本把AI的思考過程等同于線性結(jié)構(gòu)。

但很多情況下,后續(xù)的一個關(guān)鍵結(jié)論,可能需要回過頭去驗(yàn)證早早提出的假設(shè)。

CoT把這種非線性的依賴關(guān)系忽略了。

字節(jié)Seed在論文《The Molecular Structure of Thought》中首次給大模型的長鏈思維定義了分子式結(jié)構(gòu)。



在這種分子拓?fù)渲?,三種鍵是怎么相互配合的?

好的推理像分子結(jié)構(gòu)

團(tuán)隊把DeepSeek-R1、gpt-OSS等強(qiáng)推理模型的長鏈思維拆成一步一步的,然后給每一步之間的“跳躍”打上標(biāo)簽。

打完標(biāo)簽發(fā)現(xiàn),所有有效的長鏈思維里,其實(shí)就三種基礎(chǔ)動作來回組合。

第一種叫深度推理,像共價鍵一樣結(jié)實(shí)。

通俗來說就是類似“因?yàn)锳所以B,因?yàn)锽所以C”的硬邏輯推進(jìn)。

團(tuán)隊在語義空間里做了一個很形象的量化分析,把模型的每一步思考都當(dāng)成一個點(diǎn),看這些點(diǎn)最后會散成多大一個圈。

圈子越小,說明模型越?jīng)]跑題,思考越聚焦。

結(jié)果發(fā)現(xiàn),加上深度推理之后,這個散點(diǎn)圈直接縮水22%。

深度推理確實(shí)起到了收束雜念、鎖定核心邏輯的關(guān)鍵作用。



第二種叫自我反思,像氫鍵一樣有彈性但穩(wěn)定。

類似于“等等,我剛才那步是不是想錯了”“讓我重新檢查一下前面的假設(shè)”,能把后面的思考拐回來跟前面的節(jié)點(diǎn)呼應(yīng)上,形成一種折疊感。

團(tuán)隊測了模型自我反思時的思維軌跡,把每一步思考都看成語義空間里的一個點(diǎn),然后計算反思時會跳回多遠(yuǎn)、落在哪里。

發(fā)現(xiàn)81.72%的反思步驟,都會精準(zhǔn)落回之前已經(jīng)形成的靠譜思路區(qū)域里。

還對比了反思前后的思維范圍,反思前,語義空間體積是35.2,反思后,直接壓縮到31.2。

再看聚類結(jié)果就更清楚了,反思之后,同一類正確思路的點(diǎn)會緊緊抱團(tuán),而那些零散、跑偏的分支會被自動推開。

也就是說,自我反思?xì)滏I能把靠譜邏輯揉得更緊實(shí)、把跑偏想法篩出去、穩(wěn)住整個推理大局,讓長鏈思考不再松散混亂。



第三種叫自我探索,像范德華力一樣弱,但覆蓋面廣。

這個就類似于“要不咱們試試這個角度”“有沒有另一種可能性”,在語義空間里找新的解題路徑。

量化分析顯示,加上探索行為之后,模型在語義空間里的思維覆蓋范圍能從23.95擴(kuò)大到29.22。

雖然思路一打開穩(wěn)定性就會下降,容易跑偏想歪,但能讓模型跳出死胡同,不卡在局部最優(yōu)解里,真正找到全新的解題路線。

研究發(fā)現(xiàn),所有強(qiáng)推理模型的三種思維行為比例和轉(zhuǎn)換規(guī)律都高度一致,相關(guān)性超過0.9,說明有效長鏈推理存在通用的穩(wěn)定拓?fù)浣Y(jié)構(gòu)。



你可能覺得“共價鍵”“氫鍵”只是個比喻,但論文發(fā)現(xiàn),這個比喻背后藏著嚴(yán)格的數(shù)學(xué)對應(yīng)。

在Transformer里,注意力權(quán)重的計算方式長這樣:



眼熟嗎?這和統(tǒng)計力學(xué)里的玻爾茲曼分布一模一樣:



如果把負(fù)注意力分?jǐn)?shù)看作能量,那么注意力權(quán)重就是模型在語義空間里按“能量”高低選擇路徑的概率就是能量越低,被選中的概率越高

論文進(jìn)一步分析了三種行為對應(yīng)的“注意力能量”。

  • 深度推理通常發(fā)生在相鄰步驟之間,能量最低;
  • 自我反思會跳回較遠(yuǎn)的步驟,能量中等;
  • 自我探索跳得更遠(yuǎn),能量最高.

這就解釋了為什么強(qiáng)推理模型的三種鍵比例如此穩(wěn)定。

因?yàn)槟P偷淖⒁饬C(jī)制本身就在追求最低能量的推理路徑,而深度推理、反思、探索正好對應(yīng)了不同距離下的能量層級。

語義同分異構(gòu)體和智能熵減

接著團(tuán)隊還拋出了語義同分異構(gòu)體的概念。

這詞兒是借的化學(xué),同樣的分子式,原子連接方式不同,就能搞出性質(zhì)完全不同的物質(zhì)。

放到推理里就是,同樣的題目,同樣的概念點(diǎn),用不同的”化學(xué)鍵“組合去解,出來的推理鏈條可以完全不一樣,但都能解對。



但不是所有異構(gòu)體都適合拿來教模型。

這里就要引入一個關(guān)鍵概念熵減

在熱力學(xué)里,孤立系統(tǒng)總是自發(fā)走向混亂(熵增),而一個有效的長鏈推理過程,本質(zhì)上就是在語義空間里不斷降低不確定性——

從一堆可能的方向中,逐步收斂到唯一正確的答案。這個過程就是“熵減”。

而“注意力能量”機(jī)制,正是模型實(shí)現(xiàn)熵減的工具。

模型的注意力天然偏好能量更低的路徑。

當(dāng)深度推理(低能量)被反復(fù)選中,反思(中等能量)把前后邏輯折疊起來,探索(高能量)偶爾探路但不喧賓奪主,整個系統(tǒng)的“推理熵”就會快速下降,邏輯火速收斂。

這如論文里說的,只有那些能推動熵快速降低的“化學(xué)鍵”組合,才是模型真正能學(xué)會、能持續(xù)進(jìn)化的穩(wěn)定態(tài)。

這在實(shí)驗(yàn)中有個很典型的現(xiàn)象,從R1和OSS兩個不同強(qiáng)推理模型中蒸餾出的推理軌跡,語義層面的內(nèi)容相似度高達(dá)95%,但混在一起訓(xùn)練,模型反而崩潰了。

這說明,長鏈推理的關(guān)鍵是思路結(jié)構(gòu)必須穩(wěn)定、統(tǒng)一,模型才能學(xué)得會。

MoLE-Syn:從零合成穩(wěn)定推理結(jié)構(gòu)

發(fā)現(xiàn)問題就要解決問題。

基于這一整套發(fā)現(xiàn),團(tuán)隊搞了個叫MoLE-Syn的方法,來從零合成穩(wěn)定的推理結(jié)構(gòu)。

具體操作就兩步。

第一步,從強(qiáng)推理模型(比如R1、QwQ、gpt-OSS)的推理鏈里,抽出一張行為轉(zhuǎn)移概率圖。

這張圖里每個節(jié)點(diǎn)是一種推理行為(化學(xué)鍵),每條邊是從一個行為跳到另一個行為的概率。



第二步,拿著這張圖,讓普通的指令模型照著圖上畫的概率去生成推理鏈。

用這個方法從零合成的訓(xùn)練數(shù)據(jù),喂給Llama或者Qwen,效果逼近直接蒸餾R1的水平。



而且這么做有一個大好處就是成本低。只要拿到那張行為轉(zhuǎn)移圖,普通模型就能自己生產(chǎn)合格的長鏈推理數(shù)據(jù)。

團(tuán)隊把用MoLE-Syn初始化過的模型拿去做強(qiáng)化學(xué)習(xí),發(fā)現(xiàn)跑起來還特別穩(wěn)。

相比直接用蒸餾數(shù)據(jù)初始化的模型,MoLE-Syn版的在RL過程中收益持續(xù)增長,震蕩也小得多。



這說明一開始植入的思維結(jié)構(gòu)夠穩(wěn),后面的強(qiáng)化學(xué)習(xí)就不會出現(xiàn)邏輯偏移。

這項(xiàng)研究的負(fù)責(zé)人為字節(jié)Seed算法專家黃文灝,曾在微軟亞洲研究院擔(dān)任研究員。

第一作者是哈爾濱工業(yè)大學(xué)博士、字節(jié)Seed實(shí)習(xí)研究員陳麒光

合作單位還包括北京大學(xué)、2077AI Foundation、南京大學(xué)、M-A-P、中南大學(xué)。

不得不說,這波操作有點(diǎn)當(dāng)年薛定諤拿物理學(xué)公式推生物學(xué)那味兒了。

給大模型推理這個卷得飛起的領(lǐng)域,開了個挺清爽的新腦洞。

論文地址:https://arxiv.org/abs/2601.06002

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗博主評價中國年輕人:好戰(zhàn)有點(diǎn)愚蠢!

伊朗博主評價中國年輕人:好戰(zhàn)有點(diǎn)愚蠢!

達(dá)文西看世界
2026-02-23 15:26:47
局地中雪!河北將迎大范圍雨雪!

局地中雪!河北將迎大范圍雨雪!

掌中邯鄲
2026-02-24 11:15:18
新加坡大滿貫賽:大捷報!林詩棟3:0大獲全勝,王皓起身鼓掌加油

新加坡大滿貫賽:大捷報!林詩棟3:0大獲全勝,王皓起身鼓掌加油

國乒二三事
2026-02-24 14:02:13
這些“不吉祥花”,養(yǎng)在家里“花旺人不旺”,別再把它們當(dāng)作寶了

這些“不吉祥花”,養(yǎng)在家里“花旺人不旺”,別再把它們當(dāng)作寶了

三農(nóng)老歷
2026-02-22 19:23:10
為換新手機(jī),湖南15歲少女將家中總價值13萬的奢侈品賤賣僅9300元,女孩媽媽:對于是否是未成年人,回收平臺沒審核把關(guān)

為換新手機(jī),湖南15歲少女將家中總價值13萬的奢侈品賤賣僅9300元,女孩媽媽:對于是否是未成年人,回收平臺沒審核把關(guān)

大象新聞
2026-02-24 08:48:04
國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

南權(quán)先生
2026-02-12 15:38:28
他因病不滿足軍銜晉升,45歲開始離休,休養(yǎng)了整整45年,活到90歲

他因病不滿足軍銜晉升,45歲開始離休,休養(yǎng)了整整45年,活到90歲

興趣知識
2026-01-12 16:42:04
一夜蒸發(fā) 310 億美元!Claude 新工具干翻 IBM 搖錢樹,AI 正在「清零」人類工位

一夜蒸發(fā) 310 億美元!Claude 新工具干翻 IBM 搖錢樹,AI 正在「清零」人類工位

AppSo
2026-02-24 12:20:50
陳道明曾告誡女兒:寧可嫁個沒文化的,也別碰這種“精致流氓”。

陳道明曾告誡女兒:寧可嫁個沒文化的,也別碰這種“精致流氓”。

阿廢冷眼觀察所
2026-02-07 19:59:27
比瀉藥還猛!蒸蘋果黃金搭檔,睡前喝1碗,第二天上廁所無比順暢

比瀉藥還猛!蒸蘋果黃金搭檔,睡前喝1碗,第二天上廁所無比順暢

江江食研社
2026-01-30 08:30:19
恭喜廣東隊!NBA級大前鋒馳援杜鋒,杜潤旺可能被交易?

恭喜廣東隊!NBA級大前鋒馳援杜鋒,杜潤旺可能被交易?

緋雨兒
2026-02-24 14:24:21
佘詩曼過年去閨蜜家拜年,一身大紅色喜氣洋洋,摟著干兒子樂開懷

佘詩曼過年去閨蜜家拜年,一身大紅色喜氣洋洋,摟著干兒子樂開懷

小椰的奶奶
2026-02-24 19:10:26
精神小妹的生活原來是這樣的!網(wǎng)友:終于知道她們?yōu)樯抖歼@么瘦了

精神小妹的生活原來是這樣的!網(wǎng)友:終于知道她們?yōu)樯抖歼@么瘦了

深度報
2026-02-11 23:35:03
演員黃曼現(xiàn)狀曝光!終于公開與李乃文真正關(guān)系,原來我們都被騙了

演員黃曼現(xiàn)狀曝光!終于公開與李乃文真正關(guān)系,原來我們都被騙了

啟迪你的思維
2026-02-23 20:37:56
常戎:我這輩子最正確的決定,就是離開王菁華,娶了小17歲的張遠(yuǎn)

常戎:我這輩子最正確的決定,就是離開王菁華,娶了小17歲的張遠(yuǎn)

草莓解說體育
2026-02-23 22:34:22
香港富豪:向美國捐一億,又給大陸捐500億,竟被李嘉誠“威脅”

香港富豪:向美國捐一億,又給大陸捐500億,竟被李嘉誠“威脅”

芊芊子吟
2026-02-15 16:15:07
曝尼格買提王冠隱婚生子遭證實(shí)!孩子正面照曝光,男方疑成接盤俠

曝尼格買提王冠隱婚生子遭證實(shí)!孩子正面照曝光,男方疑成接盤俠

八卦王者
2026-02-22 10:51:22
阿里納斯:喬丹1冠時就被吹GOAT!6冠是純屬定制標(biāo)準(zhǔn)!

阿里納斯:喬丹1冠時就被吹GOAT!6冠是純屬定制標(biāo)準(zhǔn)!

氧氣是個地鐵
2026-02-24 12:12:38
何穗陳偉霆留在北京過年,曬出別墅內(nèi)景,滿屋蝴蝶蘭太有年味了

何穗陳偉霆留在北京過年,曬出別墅內(nèi)景,滿屋蝴蝶蘭太有年味了

章眽八卦
2026-02-24 13:13:14
孟鶴堂用半年商演的全部收入,買了件38萬的蟒袍送給郭德綱。

孟鶴堂用半年商演的全部收入,買了件38萬的蟒袍送給郭德綱。

荊楚寰宇文樞
2026-01-25 23:08:14
2026-02-24 20:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12196文章數(shù) 176392關(guān)注度
往期回顧 全部

科技要聞

AI顛覆發(fā)展最新犧牲品!IBM跳水重挫超13%

頭條要聞

20家日本實(shí)體被列入管制名單 中方:完全正當(dāng) 合理合法

頭條要聞

20家日本實(shí)體被列入管制名單 中方:完全正當(dāng) 合理合法

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經(jīng)要聞

縣城消費(fèi)「限時繁榮」了十天

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

教育
藝術(shù)
數(shù)碼
時尚
本地

教育要聞

收藏!2026四川高中學(xué)業(yè)水平考試報名指南

藝術(shù)要聞

2025年第八屆全國青年美展 | 油畫作品選刊

數(shù)碼要聞

宜鼎推出CXL AIC擴(kuò)展卡:可為兼容設(shè)備擴(kuò)展最大256GB內(nèi)存

今年春天一定要擁有的針織,這樣穿減齡又好看!

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

無障礙瀏覽 進(jìn)入關(guān)懷版