国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

<bdo id="ekcoq"><source id="ekcoq"></source></bdo>

<code id="ekcoq"><wbr id="ekcoq"></wbr></code>

<fieldset id="ekcoq"><delect id="ekcoq"></delect></fieldset>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權(quán)郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應(yīng)用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

2025年黑馬：擴散語言模型(DLM)？跟傳統(tǒng)大語言模型相比有什么優(yōu)勢？

2025-05-29 18:54:35　來源: 平凡AI

海外舉報

0

分享至

本文參考LLaDA：Large Language Diffusion Models

這個圖可以很輕松的讓沒有任何基礎(chǔ)的人看懂DLM的工作原理，它會根據(jù)問題直接生成一個回答草稿，然后一次次的修改和潤色草稿，最終輸出回答。

Prompt：Explain what artificial intelligence is.

來源：https://ml-gsai.github.io/LLaDA-demo/

而傳統(tǒng)的大模型是一個字一個字的吐，比如我問DeepSeek，跟上面同樣的問題，它的回答模式就是線性的，下一個字的輸出取決于前面的內(nèi)容，跟后面的內(nèi)容沒有關(guān)系。

這個就是現(xiàn)在最為主流的大模型生成原理，autoregressive modeling (ARM)，它的核心公式就是下面，就是根據(jù)前面的所有內(nèi)容預(yù)測下個字。

我在介紹ChatGPT原理的時候提到過（從deepseek書里面找）。

而DLM（Diffusion Large language model）走的是非常不一樣，但是又比較符合人類直覺的路子。

就比如說高考作文題要求寫一篇不少于800字的議論文，“AI的出現(xiàn)給人類帶來了什么改變？”

傳統(tǒng)的LLM會一個字一個字的往外蹦，也就是線性生成過程。

就比如這個生成了一句話。

下一時刻它生成的就只有一個字，不多不少，就只多一個字。

你可以觀察任何一個傳統(tǒng)的大模型，DeepSeek，ChatGPT，Qwen，Gemini等等，都是這樣的，跳不出這個邏輯，因為它的底層設(shè)計就是一個字一個字的往外吐。

而DLM則是完全不同的邏輯，它是直接生成一篇800字的“文章”，為什么要加引號，是因為這個最初生成的“文章”很有可能狗屁不通，壓根不能算做文章。

但是它快呀，你別管它能不能讀，反正快是肯定的。

并且它有獨特的更新機制，就像下面的這張圖，它會一輪輪的迭代更新自己的內(nèi)容，你看當前時刻可能只確定了一部分的詞匯（紅色），但是在下一時刻，可能就有更多的內(nèi)容被確定了出來（綠色）。

多輪迭代之后，就可以實驗整體性的優(yōu)化，最后實現(xiàn)跟傳統(tǒng)大模型類似的結(jié)果，你像這個領(lǐng)域的經(jīng)典工作，LLaDA，在同等模型大小的前提下，在大多數(shù)的任務(wù)上表現(xiàn)并不比其他的模型差多少。

從結(jié)果為導(dǎo)向來看，這也是DLM為什么會吸引關(guān)注的主要原因，因為它真的快，傳統(tǒng)大模型生成速度再快，也得一個字一個字來。

有些工作雖然在做next two tokens（預(yù)測下兩個字符），甚至更多的字符，但是進展非常緩慢，并且從直覺來看，DLM明顯要比傳統(tǒng)大模型更具備可擴展性。

就跟我們寫作文的時候，很少時候是一個字一個字的往出蹦想法，而是總體上有個考量，然后甚至?xí)趲讉€部分想幾個金句出來，只不過在最后執(zhí)行的時候是一個字一個字的寫。

油畫的創(chuàng)作過程就比較類似，先來一個非常粗略的草稿，然后一層層的上顏色，一次次的涂個幾層幾十層都不是什么稀罕事。

其實這個正好暗合了DLM中D這個字母所代表的技術(shù)，也就是Diffusion，這個技術(shù)原本是應(yīng)用在圖像生成（Image generation）上面的，可以說現(xiàn)在絕大多數(shù)的圖像以及視頻生成都是基于這個技術(shù)，比如OpenAI的Sora，阿里的Wan通義萬相等。

簡單來說，就是生成一堆亂七八糟的噪音，然后讓AI學(xué)習(xí)怎么從噪音轉(zhuǎn)換到想要的圖片或者視頻。

DLM只不過是把脫胎于圖像生成的技術(shù)應(yīng)用到了文字生成，所以這也是很多技術(shù)到了最后都會兼容的主要原因，單一技術(shù)總會存在這樣那樣的限制，而取眾家之長則是必然要走的路。

DLM的核心技術(shù)技術(shù)其實原理上很直觀，不同于LLM的next token prediction，它做的是mask predictor。

Next token prediction我們之前講過了，那就是根據(jù)現(xiàn)有的句子，預(yù)測下一個詞，

Mask predictor類似，就是隨機的把一段話的部分內(nèi)容“掩蓋”住，這就是Mask的來源，被蓋住的內(nèi)容就叫掩碼（masked token）。

比如說在最開始訓(xùn)練的時候，我們提供了一個數(shù)據(jù)，下面這個基本上大家都知道。

如果是LLM學(xué)習(xí)的話，它在知道“世上無”這三個字之后，基本上可以穩(wěn)定輸出后面的所有內(nèi)容，它是線性的。

而DLM不太一樣，它會隨機“掩蓋”幾個字，就比如說這樣的，然后讓大模型去學(xué)習(xí)怎么去填空。

它可能會這么填，也可能有其他的填法。

但是在一輪輪的訓(xùn)練，迭代，它也能學(xué)會這種填空的方法。

正好契合了LLaDA的流程，總體上就是隨機掩蓋一部分字符，然后去預(yù)測這些內(nèi)容。

最后達到極致，就是直接輸出要求的所有內(nèi)容，只不過是以隨機的字符輸出，然后在一輪輪的迭代下，生成最終需要的文章。

這篇文章的這個例子很直觀，用戶了提問了一個簡單的數(shù)學(xué)題：

Lily can run 12 kilometers per hour for 4 hours. After that, she runs 6 kilometers per hour. How many kilometers can she run in 8 hours?

LLaDA在生成回答的時候，顏色深的部分是后面確定的，顏色淺的部分時早些時候確定的。

可以看到非關(guān)鍵信息比如人名Lily，量詞hours，很早就確定了下來。而比較關(guān)鍵的數(shù)字，特別是4這個數(shù)字，以及涉及到運算和邏輯的部分，都是在后面確定的。

也可以從這個案例中看到，DLM在生成內(nèi)容的時候，在遵循一定的主次關(guān)系。

還有更多的案例，可以在論文的附錄appendix里找到。

總的來說，這是一項非常有前景的技術(shù)，只不過相比起只預(yù)測下一個字符來說，技術(shù)難度要更高一些；但從長遠來說，潛力不小，特別是Google也在下場做這件事。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

你刷到的視頻是真的么？用物理規(guī)律拆穿Sora謊言

機器之心Pro 2025-11-05 16:27:02
0 跟貼 0
兼得快與好！訓(xùn)練新范式TiM，原生支持FSDP+Flash Attention

量子位 2025-09-14 13:46:24
6 跟貼 6

通過視覺安全提示與深度對齊實現(xiàn)大型視覺語言模型的安全對齊

機器之心Pro 2025-11-24 16:37:06
0 跟貼 0

PixelRefer ：讓AI從“看大圖”走向“看懂每個對象”

機器之心Pro 2025-11-11 12:49:23
0 跟貼 0
貫徹中央部署，重要委員會成立！王興興等獲聘新職

北青網(wǎng)-北京青年報 2025-12-28 08:55:06
193 跟貼 193

對話南理工楊劍飛：機器人走進家庭之前，必須先學(xué)會如何與人共處

DeepTech深科技 2025-12-28 18:38:06
0 跟貼 0

廣州實有經(jīng)營主體總量全國第二；珠海設(shè)立全國首個人工智能發(fā)展局丨大灣區(qū)財經(jīng)早參

每日經(jīng)濟新聞 2025-12-29 00:54:06
0 跟貼 0
這是什么原理

周周出精品 2025-12-25 10:24:11
1 跟貼 1

女子拿生肉給老爸演示，吃東西太燙會得癌的原理，太有說服力了

駿意愛搞笑 2025-12-24 15:03:09
1 跟貼 1
這是什么原理，開的那么整齊，他們屬不屬于技術(shù)工種！

搞笑的小寧 2025-12-26 10:09:48
1 跟貼 1
這表真忙原理也不復(fù)雜，國產(chǎn)的只能賣50，國外的賣10萬不算貴！

穎淑愛生活 2025-12-28 09:47:11
0 跟貼 0
船在水上走，魚往船上跳，光效受驚原理齊上陣，演繹奇妙一幕

鬧鬧搞笑配音 2025-12-24 14:51:42
1 跟貼 1
誰能說下這是什么原理？用手堵住槍管就會炸膛！

八方影視咖 2025-12-24 10:09:35
3 跟貼 3
四十種罕見地理現(xiàn)象及成因

譚老師地理大課堂 2025-12-27 17:18:05
0 跟貼 0
身體突然瞬間暈倒，其中隱藏啥原理，看完讓人恍然大悟

搞笑嘻哈哈 2025-12-25 00:00:00
14 跟貼 14
正手拉球鞭打的原理

開心孩子愛唱歌 2025-12-28 14:34:33
1 跟貼 1
美媒：美國"斬殺線"在中國網(wǎng)絡(luò)熱傳美國務(wù)院暫未置評

澎湃新聞 2025-12-28 10:24:07
34602 跟貼 34602
模型飛機試飛，鏡頭一轉(zhuǎn)發(fā)現(xiàn)事不簡單，美女吃了熊心豹子膽

夏正經(jīng) 2025-12-27 14:09:49
1 跟貼 1
讓LLM不再話癆，快手HiPO框架來了

機器之心Pro 2025-11-03 15:10:48
0 跟貼 0
聽風(fēng)的蠶：火箭技術(shù)這塊日本還不配和中國比！12月27日

貓meme團子 2025-12-27 19:42:16
0 跟貼 0
化繁為簡的藝術(shù)：外星人羅納爾多一腳捅射，解構(gòu)防守的全部邏輯

足球印象CC 2025-12-28 17:45:52
19 跟貼 19
殲20也要電彈了？我國磁懸浮試驗出現(xiàn)殲20模型，準備上004航母？

奇點使者 2025-12-27 17:29:57
0 跟貼 0
高空往地面輸送磚頭的原理

夏的世界 2025-12-26 10:39:37
1 跟貼 1
首仿藥、原研藥、仿制藥怎么選？藥企工程師帶你揭秘背后邏輯

沙果嘮生活 2025-12-27 11:56:31
0 跟貼 0
向鵬拼到最后一分，但黃石華新離冠軍，還差一個王楚欽

眼界縱橫 2025-12-28 23:44:47
6 跟貼 6
一夜4場慘??！黑馬斷連勝，廣東最大對手18分大翻盤

工從昊懂球阿靖 2025-12-28 23:22:28
2 跟貼 2
別被“莽夫邏輯”帶偏！為啥美國敢出兵，中國卻要克制？

唐尼二愛生活 2025-12-24 08:57:46
0 跟貼 0
果然新腦子就是好使，這是什么原理，外國小姐姐太有才了

影者何人 2025-12-24 13:31:39
3 跟貼 3
年銷400萬，造30萬級豪車！零跑新十年新目標，從D19/D99開始

電動星球News 2025-12-28 23:39:49
2 跟貼 2
你知道指尖冒煙魔術(shù)的原理嗎，真是長知識了

魚頭車曉 2025-12-27 19:26:15
0 跟貼 0
專家推薦 | 第十期“新發(fā)現(xiàn)·科普書單”入圍圖書（二十）

新發(fā)現(xiàn)雜志 2025-12-28 20:03:59
0 跟貼 0
2次點映破2000萬，《匿殺》果斷提檔4小時，跨年檔大黑馬誕生了

電影票房預(yù)告片 2025-12-28 23:59:31
6 跟貼 6
最新！上海一區(qū)迎來新“80”后副區(qū)長

新民晚報 2025-12-28 17:05:34
70 跟貼 70
哲凱賴什來槍手數(shù)據(jù)平平，?；倏撕臀譅柼伛R德原地起飛？

一個香蕉說球 2025-12-26 22:13:18
0 跟貼 0
將四兩撥千斤原理具像化

看會兒沙雕 2025-12-27 18:44:55
1 跟貼 1
竟然能懸空流水，誰明白這是啥原理

趣拍匣子 2025-12-28 09:59:06
1 跟貼 1
初中化學(xué)學(xué)習(xí)避開3大誤區(qū)，掌握5個核心方法就夠了

宗老師化學(xué)知識學(xué)習(xí) 2025-12-28 13:45:51
0 跟貼 0
莫欺少年窮，也莫欺中年困。乾坤未定，你我皆是黑馬！

飛龍文化 2025-12-28 08:47:38
0 跟貼 0
性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
擴散語言模型顯現(xiàn)優(yōu)勢，生態(tài)可期

量子位 2025-12-11 03:38:42
0 跟貼 0

規(guī)上工業(yè)企業(yè)利潤累計增速連續(xù)4個月增長

規(guī)上工業(yè)企業(yè)利潤累計增速連續(xù)4個月增長

經(jīng)濟日報

2025-12-28 06:46:17

南通到上海，票價減半!

城市日歷

2025-12-28 18:29:56

阿斯：博格巴必須拿出更有說服力的表現(xiàn)，才能重新回歸法國隊

阿斯：博格巴必須拿出更有說服力的表現(xiàn)，才能重新回歸法國隊

懂球帝

2025-12-28 17:28:09

德甲俱樂部苦求樊振東留下，開價嚇退國內(nèi)資本

德甲俱樂部苦求樊振東留下，開價嚇退國內(nèi)資本

熱點新聞天下薈

2025-12-28 16:50:05

宋慶齡不愿與孫中山合葬，直言緣由：“這個人陪了我 53年，我早就答應(yīng)過，要和她葬在一起。”

史海孤雁
2025-12-27 20:40:17

原來洪晃的閨蜜是她，難怪百億富豪丈夫去世后，拒繼承數(shù)億遺產(chǎn)

原來洪晃的閨蜜是她，難怪百億富豪丈夫去世后，拒繼承數(shù)億遺產(chǎn)

白面書誏

2025-12-27 17:07:32

寧做西方狗，不做俄國人？為何烏克蘭冒著亡國風(fēng)險也要一路向西？

寧做西方狗，不做俄國人？為何烏克蘭冒著亡國風(fēng)險也要一路向西？

靜夜史君

2025-12-28 23:58:32

徐冬冬大嫂的身材還是這么棒

阿廢冷眼觀察所

2025-12-18 15:18:55

閆學(xué)晶直播哭窮炸鍋：兒子過得特別難，一年開銷需要80—90萬

閆學(xué)晶直播哭窮炸鍋：兒子過得特別難，一年開銷需要80—90萬

陳意小可愛

2025-12-29 00:52:19

對臺軍售激怒北京，20家美企遭到重錘，打得美國國務(wù)院出面喊停

對臺軍售激怒北京，20家美企遭到重錘，打得美國國務(wù)院出面喊停

時時有聊

2025-12-27 22:05:42

搶中國原油的美軍，意識到玩砸了，收到最新命令，60天內(nèi)不能動手

搶中國原油的美軍，意識到玩砸了，收到最新命令，60天內(nèi)不能動手

近史博覽

2025-12-26 11:41:41

洪森最大的失誤：低估了西哈莫尼國王，高估了兒子洪瑪奈！

洪森最大的失誤：低估了西哈莫尼國王，高估了兒子洪瑪奈！

阿柒的訊

2025-12-23 18:22:55

舊將：維尼修斯在以前的皇馬待不過兩周，阿隆索的工作很難持續(xù)

舊將：維尼修斯在以前的皇馬待不過兩周，阿隆索的工作很難持續(xù)

懂球帝

2025-12-28 22:57:09

申真谞賽季第5次遭阻擊9冠夢碎王星昊扳掉最大對手為中國隊立大功

申真谞賽季第5次遭阻擊9冠夢碎王星昊扳掉最大對手為中國隊立大功

勁爆體壇

2025-12-28 11:46:08

湘超奪冠！永州狂歡：美女老板每人送一輛車吃飯免單奶茶免費喝

湘超奪冠！永州狂歡：美女老板每人送一輛車吃飯免單奶茶免費喝

念洲

2025-12-28 13:15:03

“那個時候我都50多歲了，房貸也才30年”！男子充了25年超長會員遭遇退費難，愛奇藝最新回應(yīng)：安排退費

“那個時候我都50多歲了，房貸也才30年”！男子充了25年超長會員遭遇退費難，愛奇藝最新回應(yīng)：安排退費

每日經(jīng)濟新聞

2025-12-28 15:09:05

薩姆納24分廣東客勝山西，正在變?nèi)醯纳轿餍枰獡Q掉黑根斯

薩姆納24分廣東客勝山西，正在變?nèi)醯纳轿餍枰獡Q掉黑根斯

李廣專業(yè)體育評論

2025-12-28 21:54:31

陳赫前妻許婧和匈牙利老公在沙特慶生，39 歲身材超棒，太吸睛。

陳赫前妻許婧和匈牙利老公在沙特慶生，39 歲身材超棒，太吸睛。

鄉(xiāng)野小珥

2025-12-23 05:38:57

超10億瀏覽的美國“斬殺線”：從硅谷精英到下水道浮尸，不到百天

超10億瀏覽的美國“斬殺線”：從硅谷精英到下水道浮尸，不到百天

大白聊IT

2025-12-24 10:23:46

演員王星自曝被騙緬甸時手機被人拿走刷了數(shù)萬元網(wǎng)貸，回國后自己分期還款；透露有人找他出演“人口販賣”題材影片，但都拒絕了

演員王星自曝被騙緬甸時手機被人拿走刷了數(shù)萬元網(wǎng)貸，回國后自己分期還款；透露有人找他出演“人口販賣”題材影片，但都拒絕了

揚子晚報

2025-12-27 18:49:32

高校AI從業(yè)者

54文章數(shù) 23關(guān)注度

往期回顧全部

科技要聞

特斯拉將在華布局自動駕駛？記者求證→

頭條要聞

男子強奸女友出獄后兩人復(fù)合又因爭吵掐死對方

頭條要聞

男子強奸女友出獄后兩人復(fù)合又因爭吵掐死對方

體育要聞

MVP概率達82.5%！約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界拍視頻還翻車了

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026：L9不容有失，i9再戰(zhàn)純電？

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

親子

游戲

數(shù)碼

公開課

手機要聞

澎湃OS 3正式版再次擴容：15款設(shè)備喜提升級，你收到了嗎？

親子要聞

保護孩子寶媽必學(xué)，懷疑孩子被侵犯，要少問多做情景再現(xiàn)！

老庫反復(fù)拉伸！鳴潮開服至今到底是拉了還是神了？

數(shù)碼要聞

曝光的AirPods原型機顯示，蘋果曾計劃推出多彩配色方案！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產(chǎn)30天

© 1997-2025 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進入關(guān)懷版

<sup id="8iaco"></sup>

<bdo id="8iaco"></bdo>

<li id="8iaco"><option id="8iaco"></option></li>
<dfn id="8iaco"><blockquote id="8iaco"></blockquote></dfn>

<dfn id="8iaco"></dfn>