国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

美團(tuán)LongCat-Next:把圖像、聲音、文字都變成Token,然后呢?

0
分享至



機(jī)器之心編輯部

近日,美團(tuán)發(fā)布了一項(xiàng)頗具分量的多模態(tài)研究成果 ——LongCat-Next

這是一款離散原生自回歸多模態(tài)大模型,基于 LongCat-Flash-Lite MoE 架構(gòu)構(gòu)建,總參數(shù)量達(dá) 68.5B,激活參數(shù)僅 3B,能夠在統(tǒng)一框架下同時(shí)處理文本、圖像與音頻三種模態(tài)。



該模型的出現(xiàn),直接挑戰(zhàn)了多模態(tài)領(lǐng)域長(zhǎng)期存在的一個(gè)認(rèn)知:將視覺(jué)信息離散化為 Token 會(huì)導(dǎo)致嚴(yán)重的細(xì)節(jié)丟失,在 OCR、復(fù)雜圖表等細(xì)粒度理解任務(wù)上天然弱于連續(xù)特征模型。

LongCat-Next 是目前首個(gè)在純離散框架下,將上述細(xì)粒度視覺(jué)理解能力推至與專用連續(xù)模型相當(dāng)水平的統(tǒng)一多模態(tài)模型,與同等參數(shù)量專用視覺(jué)模型 Qwen3-VL-A3B 相比毫不遜色。



在圖像生成方面,其長(zhǎng)文本理解與文字渲染能力相較同類統(tǒng)一模型優(yōu)勢(shì)顯著,整體生成質(zhì)量可與專用文生圖模型 Flux-dev 相抗衡。



在音頻方面,語(yǔ)音識(shí)別與理解能力超越了 Gemini 3.1 Flash-Lite preview、MiMo-Audio 等同量級(jí)模型。



LongCat-Next 還破解了視覺(jué)理解與生成之間的優(yōu)化沖突。

論文實(shí)驗(yàn)表明,在同等 token 預(yù)算下,理解與生成的聯(lián)合訓(xùn)練不僅沒(méi)有相互拖累,理解任務(wù)的訓(xùn)練信號(hào)反而對(duì)生成質(zhì)量有正向促進(jìn),這一結(jié)論與多數(shù)統(tǒng)一模型的實(shí)際經(jīng)驗(yàn)相悖。

當(dāng)所有模態(tài)都以離散 token 的形式在同一嵌入空間中共同訓(xùn)練后,模型內(nèi)部自發(fā)涌現(xiàn)出一種跨模態(tài)的語(yǔ)義交融現(xiàn)象,視覺(jué) token 與文本 token 在表示空間中形成交織分布。



  • 論文地址:https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
  • GitHub:https://github.com/meituan-longcat/LongCat-Next
  • HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Next
  • blog:https://longcat.chat/longcat-next/intro

下面,我們通過(guò)幾個(gè)具體 case 直觀感受下它的能力。

先睹為快,文圖音三模態(tài)初體驗(yàn)

先來(lái)試下它的視覺(jué)理解能力

我們上傳一張愛(ài)樂(lè)之城配色的插花圖片,讓 LongCat-Next 識(shí)別其中的植物,并介紹各自特征。



提示詞:圖片中的花束包含哪幾種植物,分別有什么特征?

模型準(zhǔn)確辨別出黃色多頭玫瑰、紫色洋桔梗、鼠尾草類香草及配葉植物,并對(duì)各自顏色、形態(tài)給出較為細(xì)致描述,還主動(dòng)補(bǔ)充花束整體配色風(fēng)格的分析。



我們又以三座風(fēng)格各異的地標(biāo)建筑為素材,考察模型對(duì)國(guó)內(nèi)城市地標(biāo)的圖像識(shí)別能力。



提示詞:這三個(gè)地方分別是哪里?

LongCat-Next 準(zhǔn)確識(shí)別出北京「望京之眼」、廣州中銀大廈及南京青奧中心三處建筑,并對(duì)每座地標(biāo)建筑的背景信息有所掌握。

比如提到廣州中銀大廈的網(wǎng)絡(luò)外號(hào)「蟑螂大廈」及其獨(dú)特造型,以及南京青奧中心由扎哈?哈迪德設(shè)計(jì)等細(xì)節(jié)。



下面這道圖形推理題除了考察模型的圖像理解能力外,還涉及到抽象規(guī)律的歸納。



提示詞:Which option should be chosen for this question?

LongCat-Next 抓住其中門道,每幅圖形均由外框與內(nèi)部黑點(diǎn)兩個(gè)要素構(gòu)成,并通過(guò)多組數(shù)據(jù)橫向比對(duì),得出「外框邊數(shù) - 黑點(diǎn)個(gè)數(shù) = 2」這一隱藏規(guī)律,最終鎖定答案 B。



再看看圖像生成能力

LongCat-Next 生成的日出時(shí)分高山湖泊,無(wú)論構(gòu)圖還是光影過(guò)渡,已接近專業(yè)風(fēng)光攝影的質(zhì)感。



prompt: A crystal clear mountain lake reflecting snow-capped peaks at sunrise. Still water, mirror-like reflection, pink and gold sky, pine trees along the shore.

下面這個(gè) case 主要考察文字渲染能力。生成的馬克杯產(chǎn)品圖中,文字沒(méi)有變形或亂碼,整體呈現(xiàn)極簡(jiǎn)風(fēng)格。



prompt: A white mug on a wooden table with \"LongCat-Next\" printed on it in clean font. Simple background, morning light from a window, minimalist product photography.

LongCat-Next 生成的圣托里尼,色彩表現(xiàn)是最大亮點(diǎn),藍(lán)頂白墻、三角梅、落日構(gòu)成強(qiáng)烈且協(xié)調(diào)的撞色對(duì)比,很有氛圍感。



prompt: Santorini white buildings with blue domes overlooking the Aegean sea at sunset. Warm golden light, bougainvillea flowers, calm ocean, iconic Greek island view.

LongCat-Next 還支持任意分辨率輸出,即使是極端長(zhǎng)寬比構(gòu)圖需求,它同樣能穩(wěn)定生成。



視覺(jué)之外,LongCat-Next 同樣將音頻納入了統(tǒng)一的離散自回歸框架。

音頻理解能力能像處理文本一樣,對(duì)聲音信號(hào)做出準(zhǔn)確、連貫的響應(yīng),涵蓋語(yǔ)音內(nèi)容識(shí)別與復(fù)雜場(chǎng)景語(yǔ)義理解等。

比如用四川話問(wèn)它一道經(jīng)典邏輯謎題,LongCat-Next 沒(méi)有出現(xiàn)識(shí)別偏差或語(yǔ)義丟失,四川話的語(yǔ)音信號(hào)被準(zhǔn)確轉(zhuǎn)化為可推理的語(yǔ)義內(nèi)容,并順暢進(jìn)入后續(xù)邏輯分析流程。

這在一定程度上說(shuō)明,LongCat-Next 的音頻離散化表示具備相當(dāng)?shù)聂敯粜?,方言、口音等聲學(xué)變體并不會(huì)成為理解鏈路上的斷點(diǎn)。



給它一段環(huán)境錄音,它從持續(xù)、有節(jié)奏的「咔噠」聲與汽笛聲中,準(zhǔn)確判斷出錄制地點(diǎn)為火車站、地鐵站或者鐵路軌道附近。

由此可見(jiàn),LongCat-Next 可以綜合多個(gè)聲學(xué)線索完成場(chǎng)景級(jí)語(yǔ)義推斷。



它還能敏銳感知到話里話外的情緒。比如一段男聲音頻中,LongCat-Next 不僅聽(tīng)懂了字面內(nèi)容,還從提高的音量與急促的語(yǔ)速中,判斷出說(shuō)話者情緒激動(dòng)、帶有明顯怒意。



除了「聽(tīng)懂」音頻,LongCat-Next 還具備語(yǔ)音合成與聲音克隆能力

提供一段帶有濃重廣味的普通話作為參考音頻,讓它在保留說(shuō)話人音色特征的同時(shí),合成全新的目標(biāo)內(nèi)容。

合成音頻還原了說(shuō)話人的嗓音質(zhì)感,那股辨識(shí)度極高的粵腔普通話韻味也被完整保留。



切換到英文場(chǎng)景,同樣給出參考音頻,要求模型克隆音色并復(fù)述指定內(nèi)容。

LongCat-Next 準(zhǔn)確捕捉到說(shuō)話者的音色特征與口音習(xí)慣,輸出的合成語(yǔ)音在聽(tīng)感上與原聲高度貼近,目標(biāo)內(nèi)容的表達(dá)也清晰準(zhǔn)確。



當(dāng)「萬(wàn)物」都變成 Token

模型開(kāi)始真正統(tǒng)一世界

今天的大模型,在核心建模范式上,仍以「預(yù)測(cè)下一個(gè) token」為基礎(chǔ)。但問(wèn)題在于,這個(gè) token,長(zhǎng)期只屬于語(yǔ)言。LongCat-Next 將這一理念延伸至多模態(tài)領(lǐng)域,提出了離散原生自回歸(DiNA)框架

在該框架下,圖像和音頻等連續(xù)信號(hào)被轉(zhuǎn)化為與文本共享表示空間的離散 token。在統(tǒng)一 token 表示下,大幅減少了為不同模態(tài)設(shè)計(jì)專用架構(gòu)的需求。視覺(jué)理解與生成、音頻處理等任務(wù),在核心建模上被統(tǒng)一為自回歸預(yù)測(cè)過(guò)程。



通過(guò)成對(duì)的 tokenizer,將多模態(tài)能力擴(kuò)展到一種類似語(yǔ)言建模的原生框架之中。

如何把高維視聽(tīng)信號(hào)無(wú)損變成 Token 并還原?

首先的問(wèn)題是,圖像真的能變成 token 嗎?

語(yǔ)言天然是離散的,但視覺(jué)不是。一張圖像,是高維、連續(xù)、信息密度極高的信號(hào),一旦壓縮成有限 token,很容易發(fā)生語(yǔ)義丟失(看不懂)、 細(xì)節(jié)丟失(畫不出來(lái))。

LongCat-Next 把這個(gè)問(wèn)題抽象成一個(gè)核心原則:語(yǔ)義完備性。也就是說(shuō),token 化之后,模型基于 token 做出的判斷,應(yīng)盡可能接近直接基于原始圖像的判斷。

為了將高維的視覺(jué)信號(hào)轉(zhuǎn)化為離散 token 且盡量減少信息損失,LongCat-Next 設(shè)計(jì)了名為dNaViT(Discrete Native Resolution Vision Transformer)的視覺(jué) Tokenizer 。

該 Tokenizer 的核心包含三個(gè)關(guān)鍵部分:

SAE(語(yǔ)義對(duì)齊編碼器):模型采用經(jīng)過(guò)大規(guī)模圖文對(duì)齊訓(xùn)練的視覺(jué)編碼器作為預(yù)量化特征的基礎(chǔ)。這類編碼器不僅能夠捕獲高層語(yǔ)義概念,同時(shí)也保留了細(xì)粒度的視覺(jué)屬性,為后續(xù)離散建模提供語(yǔ)義基礎(chǔ)。

RVQ 壓縮(殘差向量量化):為了將連續(xù)特征映射到有限的離散代碼本中,模型引入多層級(jí)聯(lián)的 RVQ 機(jī)制。它通過(guò)逐層量化殘差誤差的方式不斷逼近原始表示,從而在壓縮率與信息保真之間取得更好的平衡。

dNaViT 原生分辨率:傳統(tǒng)視覺(jué)模型通常依賴固定分辨率輸入,這在縮放或裁剪過(guò)程中不可避免地帶來(lái)信息損失。dNaViT 則直接在原生分辨率下處理任意長(zhǎng)寬比圖像,將視覺(jué)信號(hào)轉(zhuǎn)化為變長(zhǎng) token 序列,從而最大程度保留細(xì)節(jié)信息。



在將圖像轉(zhuǎn)換為 token 的過(guò)程中,研究人員觀察到一個(gè)內(nèi)在的信息保留現(xiàn)象:即使視覺(jué)編碼器沒(méi)有接受像素級(jí)重建訓(xùn)練,只要其結(jié)構(gòu)中包含殘差連接,就會(huì)自然保留一條低層信號(hào)傳播路徑。

換句話說(shuō),殘差,就是保住珍貴像素細(xì)節(jié)的「保鮮通道」

在這種結(jié)構(gòu)下,淺層的像素級(jí)與結(jié)構(gòu)細(xì)節(jié)可以通過(guò)恒等映射直接傳遞到深層,不會(huì)被高層語(yǔ)義完全覆蓋。這也意味著,在離散化之前,模型內(nèi)部已經(jīng)隱式保留了部分用于圖像重建的底層信息。



基于不同凍結(jié)視覺(jué)編碼器的視覺(jué)重建,使用輕量級(jí)像素解碼器訓(xùn)練。結(jié)果表明,殘差連接固有地保留了用于低級(jí)信號(hào)傳播的潛在路徑。

那么,在生成階段,模型如何將離散 token 重新還原為圖像?

首先,這些離散代碼嵌入會(huì)被送入一個(gè)基于視覺(jué) Transformer(ViT)的像素解碼器中,用于恢復(fù)圖像的空間布局與對(duì)象結(jié)構(gòu)等基礎(chǔ)內(nèi)容。隨后,模型引入一個(gè)基于流匹配訓(xùn)練的圖像細(xì)化器,在結(jié)構(gòu)結(jié)果之上進(jìn)一步補(bǔ)充紋理與高頻細(xì)節(jié),最終生成高質(zhì)量圖像。

可以理解為:第一階段負(fù)責(zé)「還原結(jié)構(gòu)」,第二階段負(fù)責(zé)「提升觀感」。



dNaViT 的 tokenizer 與 de-tokenizer 訓(xùn)練流程:通過(guò)殘差向量量化(RVQ)將圖像編碼為離散 token,并通過(guò)像素解碼器在任意分辨率下將其解碼回圖像空間。

聲音同樣被納入統(tǒng)一的離散建模體系中。模型首先利用Whisper 編碼器提取音頻的語(yǔ)義與副語(yǔ)言特征(如語(yǔ)氣、情感等),隨后通過(guò)下采樣與 RVQ 壓縮為離散音頻 token。

在解碼端,模型先恢復(fù)粗略的梅爾頻譜,再通過(guò)基于流匹配的模型進(jìn)行細(xì)化,從而顯著提升語(yǔ)音合成的聲學(xué)保真度與音質(zhì)表現(xiàn)。



通過(guò)上述設(shè)計(jì),LongCat-Next 最終證實(shí)了一個(gè)重要的觀點(diǎn):信息的豐富度并不必然依賴于連續(xù)的空間

團(tuán)隊(duì)在后續(xù)的評(píng)測(cè)中,用一系列的理解任務(wù)指標(biāo)直接證明了這一點(diǎn):即使是一張包含密集圖表、海量文字的極其復(fù)雜的圖像(例如在 OmniDocBench 等重度文檔問(wèn)答任務(wù)中),在被強(qiáng)行壓縮成有限的離散 token 后,依然能夠精準(zhǔn)回答關(guān)于該圖像的所有 QA、Caption 以及邏輯推理任務(wù) 。

這意味著,在跨越模態(tài)的轉(zhuǎn)換中,圖像的核心信息并沒(méi)有消亡。這堆看似有限且抽象的離散 ID,實(shí)質(zhì)上已經(jīng)成為了高維、連續(xù)視覺(jué)信號(hào)的一種極度緊湊且語(yǔ)義完備的等價(jià)表示 。它們不僅成功鎖住了視覺(jué)世界的骨相與細(xì)節(jié),更變成了語(yǔ)言模型能夠毫無(wú)障礙、直接閱讀的「通用母語(yǔ)」。



LongCat-Next 在復(fù)雜視覺(jué)理解任務(wù)中的表現(xiàn)。即使面對(duì)排版密集的報(bào)紙、復(fù)雜的幾何圖表與邏輯推理題,轉(zhuǎn)化為離散 token 后的模型依然能夠精準(zhǔn)提取信息并進(jìn)行深度邏輯推理,證明了該離散表示的語(yǔ)義完備性。

另外,對(duì)比近期的一些架構(gòu)演進(jìn),「殘差機(jī)制」在不同場(chǎng)景下呈現(xiàn)出截然不同的作用。

在 LongCat 的視覺(jué)編碼階段,殘差更像是一條「保留通道」。由于網(wǎng)絡(luò)相對(duì)較淺,且目標(biāo)是盡可能無(wú)損地保留原始像素信息,殘差的恒等映射特性能夠有效防止底層細(xì)節(jié)被高層語(yǔ)義覆蓋。

而在 Kimi 團(tuán)隊(duì)最近大火的 Attention Residuals 工作中,當(dāng)語(yǔ)言模型深度達(dá)到上百層時(shí),傳統(tǒng)殘差累加反而會(huì)演變?yōu)椤感畔⑾♂尅埂T缙趯有畔⒃趥鞑ブ兄饾u衰減,同時(shí)隱狀態(tài)不斷擴(kuò)張,帶來(lái)穩(wěn)定性問(wèn)題。因此,該工作引入注意力機(jī)制對(duì)殘差信息進(jìn)行選擇性傳遞。

LLM 的「大腦」如何處理信息?

在 DiNA 框架下,所有輸入(無(wú)論是文本、圖像還是語(yǔ)音)在進(jìn)入模型之前,都會(huì)被轉(zhuǎn)換為統(tǒng)一格式的離散 token。隨后,它們被送入同一個(gè)解碼器架構(gòu)中,由一個(gè)模態(tài)無(wú)關(guān)的混合專家網(wǎng)絡(luò)(Modality-Agnostic MoE)統(tǒng)一處理

這意味著,傳統(tǒng)多模態(tài)模型中視覺(jué)分支、語(yǔ)音分支、跨模態(tài)對(duì)齊模塊等常見(jiàn)的結(jié)構(gòu),在這里被徹底取消。主干路徑被統(tǒng)一為:token → 共享嵌入 → 自回歸建模,但在輸入與輸出端仍保留模態(tài)相關(guān)組件。

換句話說(shuō),大模型的「多模態(tài)能力」,不再來(lái)自結(jié)構(gòu)拼接,而是來(lái)自表示統(tǒng)一

理解與生成并不沖突

傳統(tǒng)的觀點(diǎn)認(rèn)為,理解和生成是兩個(gè)相互競(jìng)爭(zhēng)的目標(biāo) 。但在 LongCat-Next 中,它們被統(tǒng)一為同一自回歸預(yù)測(cè)過(guò)程中的兩種表現(xiàn)形式。實(shí)驗(yàn)證明,將視覺(jué)理解與生成置于統(tǒng)一的自回歸目標(biāo)下進(jìn)行聯(lián)合訓(xùn)練,兩者并未產(chǎn)生容量沖突

在同等 token 數(shù)量的訓(xùn)練下,統(tǒng)一模型(Unified model)的損失與純理解模型(Pure-Und.)的差距微乎其微(僅相差 0.006) ,同時(shí)其損失甚至比純生成模型(Pure-Gen.)還要低 0.02 。



這意味著,生成任務(wù)不會(huì)削弱理解能力,反而理解任務(wù)的引入會(huì)進(jìn)一步提升生成表現(xiàn)。

為了保證生成語(yǔ)音的邏輯連貫性,模型借鑒了內(nèi)部文本引導(dǎo)的思想,將文本作為語(yǔ)音生成過(guò)程的一部分進(jìn)行顯式建模。

串行生成:模型先生成引導(dǎo)性的文本片段,再生成對(duì)應(yīng)音頻片段。這一方式在每一步只需預(yù)測(cè)單一模態(tài) token,有效避免模態(tài)間干擾,從而保證語(yǔ)義準(zhǔn)確性。

并行生成:模型在每一步同時(shí)生成文本與音頻 token,并通過(guò)延遲首個(gè)音頻 token 的生成步數(shù),實(shí)現(xiàn)與文本的對(duì)齊。該策略顯著降低響應(yīng)延遲,更適用于實(shí)時(shí)對(duì)話場(chǎng)景。

為了統(tǒng)一這兩種策略,團(tuán)隊(duì)提出了一種基于隨機(jī)延遲的訓(xùn)練范式:在訓(xùn)練過(guò)程中隨機(jī)采樣文本與音頻的對(duì)齊延遲,使模型學(xué)習(xí)更魯棒的跨模態(tài)對(duì)齊能力。

實(shí)驗(yàn)顯示,在該訓(xùn)練方式下,并行生成在效率與語(yǔ)義準(zhǔn)確度上均可達(dá)到與串行生成相當(dāng)?shù)乃健?/p>



兩種具有內(nèi)部語(yǔ)言引導(dǎo)的語(yǔ)音生成策略。 用戶的輸入音頻被視為純音頻模態(tài),而由 LongCat-Next(或助手)生成的輸出則被視為文本引導(dǎo)的音頻模態(tài)。為了指示模態(tài)轉(zhuǎn)換并促進(jìn)分段對(duì)齊,團(tuán)隊(duì)引入了三個(gè)特殊標(biāo)記:AS(Audio Start,音頻開(kāi)始)、AE(Audio End,音頻結(jié)束) 和 TE(Text End,文本結(jié)束),分別表示音頻片段的起始和結(jié)束,以及文本片段的結(jié)束。

基礎(chǔ)設(shè)施保障:V-Half 流水線調(diào)度

在多模態(tài)模型中,計(jì)算負(fù)載本質(zhì)上是異構(gòu)的 。圖、音、文在 Embedding 層和特定模態(tài)損失模塊(如深度 Transformer)的計(jì)算耗時(shí)存在顯著差異,且會(huì)隨每條樣本中模態(tài) token 分布的不同而動(dòng)態(tài)波動(dòng) 。傳統(tǒng)的線性流水線并行會(huì)導(dǎo)致嚴(yán)重的級(jí)間負(fù)載不均、高昂的點(diǎn)對(duì)點(diǎn)通信開(kāi)銷以及大量的算力氣泡 。

為解決這一系統(tǒng)瓶頸,團(tuán)隊(duì)采用了基于V-Half的流水線調(diào)度策略 。該策略通過(guò)「V 型調(diào)度」,將計(jì)算流水線的第一個(gè)階段(Embedding 層)和最后一個(gè)階段(模態(tài)特定的損失模塊)「折疊」并共置于同一個(gè)物理設(shè)備上 。



這種物理層面的共置設(shè)計(jì),不僅通過(guò)吸收動(dòng)態(tài)計(jì)算開(kāi)銷有效消除了流水線氣泡、實(shí)現(xiàn)了近乎完美的負(fù)載均衡 ,還使得這兩端模塊之間的前向激活和反向梯度傳遞可以通過(guò)零拷貝的設(shè)備內(nèi)內(nèi)存訪問(wèn)完成,顯著減少了跨階段通信開(kāi)銷。

實(shí)驗(yàn)細(xì)節(jié)與未來(lái)工作

在視覺(jué)生成數(shù)據(jù)上,為避免模型陷入同質(zhì)化審美(即過(guò)度偏向高頻的「AI 風(fēng)格」),團(tuán)隊(duì)引入了基于聚類的重平衡策略。通過(guò)對(duì)高密度集群進(jìn)行去重,并提高稀疏長(zhǎng)尾概念(如罕見(jiàn)動(dòng)植物、專業(yè)儀器)的采樣權(quán)重,從數(shù)據(jù)源頭上保障了生成內(nèi)容的多樣性。



左圖: 數(shù)據(jù)整理與訓(xùn)練流程包含三個(gè)階段:(I)預(yù)訓(xùn)練:通過(guò)過(guò)濾和重新描述實(shí)現(xiàn)基本對(duì)齊;(II)中期訓(xùn)練:通過(guò)語(yǔ)義聚類和重平衡解決數(shù)據(jù)不平衡問(wèn)題;(III)監(jiān)督微調(diào):基于高質(zhì)量、遵循指令的數(shù)據(jù),提升美學(xué)質(zhì)量和文本渲染效果。右圖: 圖像來(lái)源的分布情況。

將多模態(tài)數(shù)據(jù)離散化為 token 的另一項(xiàng)技術(shù)紅利,體現(xiàn)在強(qiáng)化學(xué)習(xí)階段。離散視覺(jué)潛在空間天然可以作為動(dòng)作空間,使模型能夠直接套用語(yǔ)言模型成熟的 RL 算法(如 GRPO)來(lái)提升畫圖和理解能力,避免了連續(xù)空間中復(fù)雜的采樣與映射過(guò)程。



在針對(duì)圖像理解進(jìn)行 RL 訓(xùn)練時(shí),團(tuán)隊(duì)遭遇了嚴(yán)重的「熵爆炸」問(wèn)題。當(dāng)極少數(shù) token 存在訓(xùn)練 - 推理概率失配時(shí),微小的亂碼噪聲會(huì)在長(zhǎng)序列生成中累積放大,導(dǎo)致輸出崩潰。團(tuán)隊(duì)最終通過(guò)設(shè)計(jì)基于熵和概率差的「序列級(jí)過(guò)濾機(jī)制」,在梯度更新前精準(zhǔn)丟棄包含致命錯(cuò)亂的樣本序列,成功穩(wěn)定了 RL 的訓(xùn)練過(guò)程。

整體來(lái)看,LongCat-Next 的后續(xù)工作,仍將圍繞兩個(gè)核心問(wèn)題展開(kāi):一是如何在更高壓縮率下維持跨模態(tài)語(yǔ)義完備性;二是如何在統(tǒng)一 token 空間中進(jìn)一步提升長(zhǎng)序列與復(fù)雜任務(wù)下的穩(wěn)定性與可控性。

結(jié)語(yǔ)

論文在最后探討了一個(gè)非常有趣的觀點(diǎn):「柏拉圖表征假說(shuō)」。在柏拉圖的哲學(xué)理念中,現(xiàn)實(shí)世界的萬(wàn)事萬(wàn)物,都只是完美「理念」的影子。映射到深度學(xué)習(xí)中,文本、圖像和聲音,本質(zhì)上也是對(duì)同一個(gè)客觀現(xiàn)實(shí)的不同表達(dá)途徑。

在傳統(tǒng)的拼接式模型中,圖、音、文往往各自為陣,在特征空間里形成割裂。但當(dāng)它們被置于 DiNA 這種完全原生的離散框架下時(shí),實(shí)驗(yàn)觀測(cè)到了一個(gè)美妙的現(xiàn)象:視覺(jué)和文本 token 的特征分布自然地交織在了一起。

它們不再是需要被強(qiáng)行對(duì)齊的異類,而是變成了表達(dá)同一個(gè)底層概念的「世界語(yǔ)言」。無(wú)論是屏幕上的像素,還是麥克風(fēng)里的聲波,最終都在模型的高維語(yǔ)義空間中,化為了同一種思維的漣漪。

客觀地看,目前的探索仍是一個(gè)起點(diǎn)。正如團(tuán)隊(duì)在未來(lái)工作中所指出的,當(dāng)前的評(píng)估主要通過(guò)圖像到文本(理解)和文本到圖像(生成)等經(jīng)典任務(wù),成功驗(yàn)證了這種離散原生架構(gòu)的可行性與語(yǔ)義完整性。然而,距離真正意義上的通用多模態(tài)智能仍有距離。

團(tuán)隊(duì)指出,未來(lái)的原生多模態(tài)系統(tǒng)絕對(duì)不應(yīng)局限于這些傳統(tǒng)的單一方向 。理所當(dāng)然的下一步,是必須走向更復(fù)雜的「任意到任意」的交織推理 。這意味著未來(lái)的輸入和輸出將是文本、視覺(jué)和音頻的任意組合 ,甚至涵蓋長(zhǎng)上下文的多模態(tài)交互、多輪視覺(jué)對(duì)話,以及不同模態(tài)之間動(dòng)態(tài)相互制約的組合生成 。只有實(shí)現(xiàn)這種靈活、統(tǒng)一的交互,模型才能真正從「特定任務(wù)的專家」進(jìn)化為「通用多模態(tài)智能」 。

文中視頻鏈接:https://mp.weixin.qq.com/s/IzzNLPI9L2tSRvOXniOJ2Q

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
芯片巨頭財(cái)報(bào)炸裂!同比飆升755%,單季狂瀾6000億!

芯片巨頭財(cái)報(bào)炸裂!同比飆升755%,單季狂瀾6000億!

EETOP半導(dǎo)體社區(qū)
2026-04-07 11:28:15
馬卡:偷走多納魯馬紙條的波黑球童,可能會(huì)隨隊(duì)去世界杯

馬卡:偷走多納魯馬紙條的波黑球童,可能會(huì)隨隊(duì)去世界杯

天光破云來(lái)
2026-04-07 18:01:03
小米新機(jī)官宣:4月21日,正式首發(fā)!

小米新機(jī)官宣:4月21日,正式首發(fā)!

科技堡壘
2026-04-06 12:34:45
綠豆立大功!中農(nóng)大證實(shí):綠豆降膽固醇、減肝脂肪,改善脂肪肝

綠豆立大功!中農(nóng)大證實(shí):綠豆降膽固醇、減肝脂肪,改善脂肪肝

鄒小蘑菇
2026-04-07 19:04:40
巴坎布慶祝晉級(jí)世界杯:攜手讓民主剛果的聲音響徹世界舞臺(tái)

巴坎布慶祝晉級(jí)世界杯:攜手讓民主剛果的聲音響徹世界舞臺(tái)

懂球帝
2026-04-07 18:26:06
跨越一萬(wàn)公里的清算:48小時(shí)逐客令,阿根廷一刀切斷伊朗南美命脈

跨越一萬(wàn)公里的清算:48小時(shí)逐客令,阿根廷一刀切斷伊朗南美命脈

環(huán)球格局觀
2026-04-04 20:52:35
雨果、弗朗西斯卡、勒布倫、邱黨等國(guó)際球星都來(lái)為這場(chǎng)乒乓球賽助威啦!

雨果、弗朗西斯卡、勒布倫、邱黨等國(guó)際球星都來(lái)為這場(chǎng)乒乓球賽助威啦!

上觀新聞
2026-04-07 12:50:08
“過(guò)來(lái)幫我殺雞!”雞煲老莫喊話美食博主劉雨鑫,已被流量“逼瘋”,直言:想休息補(bǔ)覺(jué)

“過(guò)來(lái)幫我殺雞!”雞煲老莫喊話美食博主劉雨鑫,已被流量“逼瘋”,直言:想休息補(bǔ)覺(jué)

房產(chǎn)衫哥
2026-04-06 22:05:35
一路走好!清明假期3位名人離世,最年輕者僅26歲,孩子才一歲

一路走好!清明假期3位名人離世,最年輕者僅26歲,孩子才一歲

叨嘮
2026-04-06 19:36:29
伊朗議長(zhǎng)顧問(wèn):我們已經(jīng)贏了,特朗普要么向伊朗屈服,要么他的盟友就退回到石器時(shí)代

伊朗議長(zhǎng)顧問(wèn):我們已經(jīng)贏了,特朗普要么向伊朗屈服,要么他的盟友就退回到石器時(shí)代

極目新聞
2026-04-07 09:26:03
特朗普:“戰(zhàn)爭(zhēng)罪?我不擔(dān)心”

特朗普:“戰(zhàn)爭(zhēng)罪?我不擔(dān)心”

參考消息
2026-04-07 11:33:15
為什么國(guó)共戰(zhàn)爭(zhēng),只要被吃掉一師一旅,國(guó)民黨軍便全線潰???

顧史
2026-04-06 23:39:30

二甲雙胍又一新發(fā)現(xiàn)!最新研究:不僅抗癌、抗衰老,還能模擬運(yùn)動(dòng)益處,提升癌癥患者運(yùn)動(dòng)代謝物

二甲雙胍又一新發(fā)現(xiàn)!最新研究:不僅抗癌、抗衰老,還能模擬運(yùn)動(dòng)益處,提升癌癥患者運(yùn)動(dòng)代謝物

醫(yī)諾維
2026-04-07 16:59:53
中國(guó)造不出光刻機(jī)?中科大副院長(zhǎng):美國(guó)造不出,中國(guó)永遠(yuǎn)都不可能

中國(guó)造不出光刻機(jī)?中科大副院長(zhǎng):美國(guó)造不出,中國(guó)永遠(yuǎn)都不可能

勇敢的人享受生活
2026-04-07 11:26:46
外交部談伊朗戰(zhàn)事:各方都應(yīng)當(dāng)拿出誠(chéng)意,盡早結(jié)束這場(chǎng)本不該發(fā)生的戰(zhàn)爭(zhēng)

外交部談伊朗戰(zhàn)事:各方都應(yīng)當(dāng)拿出誠(chéng)意,盡早結(jié)束這場(chǎng)本不該發(fā)生的戰(zhàn)爭(zhēng)

界面新聞
2026-04-07 15:28:22
廣州市中心正在悄悄 “搬家”?這 2 個(gè)區(qū)域正在強(qiáng)勢(shì)崛起!

廣州市中心正在悄悄 “搬家”?這 2 個(gè)區(qū)域正在強(qiáng)勢(shì)崛起!

記錄生活日常阿蜴
2026-04-07 17:03:25
沙特與巴林間的法赫德國(guó)王大橋恢復(fù)車輛通行

沙特與巴林間的法赫德國(guó)王大橋恢復(fù)車輛通行

財(cái)聯(lián)社
2026-04-07 15:25:08
保姆為300萬(wàn)拆遷款嫁老頭,丈夫剛死喜笑顏開(kāi),翻開(kāi)房產(chǎn)證后崩潰

保姆為300萬(wàn)拆遷款嫁老頭,丈夫剛死喜笑顏開(kāi),翻開(kāi)房產(chǎn)證后崩潰

談史論天地
2026-04-05 22:15:03
伊朗的“眼睛”被挖掉了:雷扎伊之死背后的情報(bào)災(zāi)難

伊朗的“眼睛”被挖掉了:雷扎伊之死背后的情報(bào)災(zāi)難

民間胡扯老哥
2026-04-05 07:45:23
國(guó)家級(jí)項(xiàng)目落地!長(zhǎng)春這家醫(yī)院4月23日開(kāi)診

國(guó)家級(jí)項(xiàng)目落地!長(zhǎng)春這家醫(yī)院4月23日開(kāi)診

長(zhǎng)春新風(fēng)采
2026-04-07 13:49:00
2026-04-07 19:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12701文章數(shù) 142616關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

英媒:伊朗最高領(lǐng)袖病重昏迷 無(wú)法參與任何國(guó)家決策

頭條要聞

英媒:伊朗最高領(lǐng)袖病重昏迷 無(wú)法參與任何國(guó)家決策

體育要聞

官宣簽約“AI球員”,這支球隊(duì)被罵慘了...

娛樂(lè)要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財(cái)經(jīng)要聞

10萬(wàn)億財(cái)政轉(zhuǎn)移支付,被誰(shuí)拿走了?

汽車要聞

不止是大 極狐首款MPV問(wèn)道V9靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

時(shí)尚
本地
旅游
教育
健康

楊超越之后,全網(wǎng)頭像錦鯉的C位被她搶走了

本地新聞

跟著歌聲游安徽,聽(tīng)古村回響

旅游要聞

春日登高正當(dāng)時(shí) 濟(jì)南天橋這些登山好去處別錯(cuò)過(guò)

教育要聞

高校官宣:教師,沒(méi)有“非升即走”!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版