国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

2025年黑馬:擴散語言模型(DLM)?跟傳統(tǒng)大語言模型相比有什么優(yōu)勢?

0
分享至

本文參考LLaDA:Large Language Diffusion Models

這個圖可以很輕松的讓沒有任何基礎(chǔ)的人看懂DLM的工作原理,它會根據(jù)問題直接生成一個回答草稿,然后一次次的修改和潤色草稿,最終輸出回答。

Prompt:Explain what artificial intelligence is.

來源:https://ml-gsai.github.io/LLaDA-demo/

而傳統(tǒng)的大模型是一個字一個字的吐,比如我問DeepSeek,跟上面同樣的問題,它的回答模式就是線性的,下一個字的輸出取決于前面的內(nèi)容,跟后面的內(nèi)容沒有關(guān)系。

這個就是現(xiàn)在最為主流的大模型生成原理,autoregressive modeling (ARM),它的核心公式就是下面,就是根據(jù)前面的所有內(nèi)容預(yù)測下個字。

我在介紹ChatGPT原理的時候提到過(從deepseek書里面找)。

而DLM(Diffusion Large language model)走的是非常不一樣,但是又比較符合人類直覺的路子。

就比如說高考作文題要求寫一篇不少于800字的議論文,“AI的出現(xiàn)給人類帶來了什么改變?”

傳統(tǒng)的LLM會一個字一個字的往外蹦,也就是線性生成過程。

就比如這個生成了一句話。

下一時刻它生成的就只有一個字,不多不少,就只多一個字。

你可以觀察任何一個傳統(tǒng)的大模型,DeepSeek,ChatGPT,Qwen,Gemini等等,都是這樣的,跳不出這個邏輯,因為它的底層設(shè)計就是一個字一個字的往外吐。

而DLM則是完全不同的邏輯,它是直接生成一篇800字的“文章”,為什么要加引號,是因為這個最初生成的“文章”很有可能狗屁不通,壓根不能算做文章。

但是它快呀,你別管它能不能讀,反正快是肯定的。

并且它有獨特的更新機制,就像下面的這張圖,它會一輪輪的迭代更新自己的內(nèi)容,你看當前時刻可能只確定了一部分的詞匯(紅色),但是在下一時刻,可能就有更多的內(nèi)容被確定了出來(綠色)。

多輪迭代之后,就可以實驗整體性的優(yōu)化,最后實現(xiàn)跟傳統(tǒng)大模型類似的結(jié)果,你像這個領(lǐng)域的經(jīng)典工作,LLaDA,在同等模型大小的前提下,在大多數(shù)的任務(wù)上表現(xiàn)并不比其他的模型差多少。

從結(jié)果為導(dǎo)向來看,這也是DLM為什么會吸引關(guān)注的主要原因,因為它真的快,傳統(tǒng)大模型生成速度再快,也得一個字一個字來。

有些工作雖然在做next two tokens(預(yù)測下兩個字符),甚至更多的字符,但是進展非常緩慢,并且從直覺來看,DLM明顯要比傳統(tǒng)大模型更具備可擴展性。

就跟我們寫作文的時候,很少時候是一個字一個字的往出蹦想法,而是總體上有個考量,然后甚至?xí)趲讉€部分想幾個金句出來,只不過在最后執(zhí)行的時候是一個字一個字的寫。

油畫的創(chuàng)作過程就比較類似,先來一個非常粗略的草稿,然后一層層的上顏色,一次次的涂個幾層幾十層都不是什么稀罕事。

其實這個正好暗合了DLM中D這個字母所代表的技術(shù),也就是Diffusion,這個技術(shù)原本是應(yīng)用在圖像生成(Image generation)上面的,可以說現(xiàn)在絕大多數(shù)的圖像以及視頻生成都是基于這個技術(shù),比如OpenAI的Sora,阿里的Wan通義萬相等。

簡單來說,就是生成一堆亂七八糟的噪音,然后讓AI學(xué)習(xí)怎么從噪音轉(zhuǎn)換到想要的圖片或者視頻。

DLM只不過是把脫胎于圖像生成的技術(shù)應(yīng)用到了文字生成,所以這也是很多技術(shù)到了最后都會兼容的主要原因,單一技術(shù)總會存在這樣那樣的限制,而取眾家之長則是必然要走的路。

DLM的核心技術(shù)技術(shù)其實原理上很直觀,不同于LLM的next token prediction,它做的是mask predictor。

Next token prediction我們之前講過了,那就是根據(jù)現(xiàn)有的句子,預(yù)測下一個詞,

Mask predictor類似,就是隨機的把一段話的部分內(nèi)容“掩蓋”住,這就是Mask的來源,被蓋住的內(nèi)容就叫掩碼(masked token)。

比如說在最開始訓(xùn)練的時候,我們提供了一個數(shù)據(jù),下面這個基本上大家都知道。

如果是LLM學(xué)習(xí)的話,它在知道“世上無”這三個字之后,基本上可以穩(wěn)定輸出后面的所有內(nèi)容,它是線性的。

而DLM不太一樣,它會隨機“掩蓋”幾個字,就比如說這樣的,然后讓大模型去學(xué)習(xí)怎么去填空。

它可能會這么填,也可能有其他的填法。

但是在一輪輪的訓(xùn)練,迭代,它也能學(xué)會這種填空的方法。

正好契合了LLaDA的流程,總體上就是隨機掩蓋一部分字符,然后去預(yù)測這些內(nèi)容。

最后達到極致,就是直接輸出要求的所有內(nèi)容,只不過是以隨機的字符輸出,然后在一輪輪的迭代下,生成最終需要的文章。

這篇文章的這個例子很直觀,用戶了提問了一個簡單的數(shù)學(xué)題:

Lily can run 12 kilometers per hour for 4 hours. After that, she runs 6 kilometers per hour. How many kilometers can she run in 8 hours?

LLaDA在生成回答的時候,顏色深的部分是后面確定的,顏色淺的部分時早些時候確定的。

可以看到非關(guān)鍵信息比如人名Lily,量詞hours,很早就確定了下來。而比較關(guān)鍵的數(shù)字,特別是4這個數(shù)字,以及涉及到運算和邏輯的部分,都是在后面確定的。

也可以從這個案例中看到,DLM在生成內(nèi)容的時候,在遵循一定的主次關(guān)系。

還有更多的案例,可以在論文的附錄appendix里找到。

總的來說,這是一項非常有前景的技術(shù),只不過相比起只預(yù)測下一個字符來說,技術(shù)難度要更高一些;但從長遠來說,潛力不小,特別是Google也在下場做這件事。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
規(guī)上工業(yè)企業(yè)利潤累計增速連續(xù)4個月增長

規(guī)上工業(yè)企業(yè)利潤累計增速連續(xù)4個月增長

經(jīng)濟日報
2025-12-28 06:46:17
南通到上海,票價減半!

南通到上海,票價減半!

城市日歷
2025-12-28 18:29:56
阿斯:博格巴必須拿出更有說服力的表現(xiàn),才能重新回歸法國隊

阿斯:博格巴必須拿出更有說服力的表現(xiàn),才能重新回歸法國隊

懂球帝
2025-12-28 17:28:09
德甲俱樂部苦求樊振東留下,開價嚇退國內(nèi)資本

德甲俱樂部苦求樊振東留下,開價嚇退國內(nèi)資本

熱點新聞天下薈
2025-12-28 16:50:05
宋慶齡不愿與孫中山合葬,直言緣由:“這個人陪了我 53年,我早就答應(yīng)過,要和她葬在一起。”

史海孤雁
2025-12-27 20:40:17

原來洪晃的閨蜜是她,難怪百億富豪丈夫去世后,拒繼承數(shù)億遺產(chǎn)

原來洪晃的閨蜜是她,難怪百億富豪丈夫去世后,拒繼承數(shù)億遺產(chǎn)

白面書誏
2025-12-27 17:07:32
寧做西方狗,不做俄國人?為何烏克蘭冒著亡國風(fēng)險也要一路向西?

寧做西方狗,不做俄國人?為何烏克蘭冒著亡國風(fēng)險也要一路向西?

靜夜史君
2025-12-28 23:58:32
徐冬冬 大嫂的身材還是這么棒

徐冬冬 大嫂的身材還是這么棒

阿廢冷眼觀察所
2025-12-18 15:18:55
閆學(xué)晶直播哭窮炸鍋:兒子過得特別難,一年開銷需要80—90萬

閆學(xué)晶直播哭窮炸鍋:兒子過得特別難,一年開銷需要80—90萬

陳意小可愛
2025-12-29 00:52:19
對臺軍售激怒北京,20家美企遭到重錘,打得美國國務(wù)院出面喊停

對臺軍售激怒北京,20家美企遭到重錘,打得美國國務(wù)院出面喊停

時時有聊
2025-12-27 22:05:42
搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內(nèi)不能動手

搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內(nèi)不能動手

近史博覽
2025-12-26 11:41:41
洪森最大的失誤:低估了西哈莫尼國王,高估了兒子洪瑪奈!

洪森最大的失誤:低估了西哈莫尼國王,高估了兒子洪瑪奈!

阿柒的訊
2025-12-23 18:22:55
舊將:維尼修斯在以前的皇馬待不過兩周,阿隆索的工作很難持續(xù)

舊將:維尼修斯在以前的皇馬待不過兩周,阿隆索的工作很難持續(xù)

懂球帝
2025-12-28 22:57:09
申真谞賽季第5次遭阻擊9冠夢碎 王星昊扳掉最大對手為中國隊立大功

申真谞賽季第5次遭阻擊9冠夢碎 王星昊扳掉最大對手為中國隊立大功

勁爆體壇
2025-12-28 11:46:08
湘超奪冠!永州狂歡:美女老板每人送一輛車 吃飯免單 奶茶免費喝

湘超奪冠!永州狂歡:美女老板每人送一輛車 吃飯免單 奶茶免費喝

念洲
2025-12-28 13:15:03
“那個時候我都50多歲了,房貸也才30年”!男子充了25年超長會員遭遇退費難,愛奇藝最新回應(yīng):安排退費

“那個時候我都50多歲了,房貸也才30年”!男子充了25年超長會員遭遇退費難,愛奇藝最新回應(yīng):安排退費

每日經(jīng)濟新聞
2025-12-28 15:09:05
薩姆納24分廣東客勝山西,正在變?nèi)醯纳轿餍枰獡Q掉黑根斯

薩姆納24分廣東客勝山西,正在變?nèi)醯纳轿餍枰獡Q掉黑根斯

李廣專業(yè)體育評論
2025-12-28 21:54:31
陳赫前妻許婧和匈牙利老公在沙特慶生,39 歲身材超棒,太吸睛。

陳赫前妻許婧和匈牙利老公在沙特慶生,39 歲身材超棒,太吸睛。

鄉(xiāng)野小珥
2025-12-23 05:38:57
超10億瀏覽的美國“斬殺線”:從硅谷精英到下水道浮尸,不到百天

超10億瀏覽的美國“斬殺線”:從硅谷精英到下水道浮尸,不到百天

大白聊IT
2025-12-24 10:23:46
演員王星自曝被騙緬甸時手機被人拿走刷了數(shù)萬元網(wǎng)貸,回國后自己分期還款;透露有人找他出演“人口販賣”題材影片,但都拒絕了

演員王星自曝被騙緬甸時手機被人拿走刷了數(shù)萬元網(wǎng)貸,回國后自己分期還款;透露有人找他出演“人口販賣”題材影片,但都拒絕了

揚子晚報
2025-12-27 18:49:32
2025-12-29 01:59:00
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

男子強奸女友出獄后兩人復(fù)合 又因爭吵掐死對方

頭條要聞

男子強奸女友出獄后兩人復(fù)合 又因爭吵掐死對方

體育要聞

MVP概率達82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

手機
親子
游戲
數(shù)碼
公開課

手機要聞

澎湃OS 3正式版再次擴容:15款設(shè)備喜提升級,你收到了嗎?

親子要聞

保護孩子寶媽必學(xué),懷疑孩子被侵犯,要少問多做情景再現(xiàn)!

老庫反復(fù)拉伸!鳴潮開服至今到底是拉了還是神了?

數(shù)碼要聞

曝光的AirPods原型機顯示,蘋果曾計劃推出多彩配色方案!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版