原生理解生成統(tǒng)一:商湯SenseNova U1,用統(tǒng)一架構(gòu)終結(jié)縫合怪多模態(tài)

2026-04-28 21:41:55　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心編輯部

就在每次大家剛摸熟玩法時，新花樣又來了。

最近，全網(wǎng)集體上頭的是 OpenAI 發(fā)布的 GPT Image 2。它不只會生成好看的圖片，更是把「信息圖生成」帶火了：知識卡片、數(shù)據(jù)圖解、攻略長圖、科普海報…… 只要一句話，就能生成一張排版精致、信息清晰、質(zhì)感在線的圖片。這波出圈速度，絲毫不亞于當(dāng)年的吉卜力風(fēng)格刷屏。

但對于國內(nèi)用戶來說，想體驗 GPT Image 2 還是有些難度的。那有沒有一個更低門檻、更適合國內(nèi)用戶的選擇？

好巧，還真有。

剛剛，我們發(fā)現(xiàn)了一款國產(chǎn)開源模型，正好踩中了這個需求 —— 來自商湯的日日新 SenseNova U1 系列原生理解生成統(tǒng)一模型

那些超大參數(shù)模型的玩法，它都能做，以前特別費(fèi)腦、費(fèi)時間的內(nèi)容，現(xiàn)在只需要把需求說清楚，它就能自動完成信息整理、版式設(shè)計和視覺呈現(xiàn)，直接給你「看起來很專業(yè)」的成品圖。

而且它完全開源，也不受次數(shù)束縛。

就像這樣：

SenseNova U1 不只是會「畫圖」，它采用了NEO-unify 理解生成統(tǒng)一的全新架構(gòu)，能夠真正讓語言和視覺信息協(xié)同。所以它只需8B 的小參數(shù)，就能實現(xiàn)很多商業(yè)閉源模型同樣的效果，效率拉滿。

由于能夠把視覺信息直接納入思考鏈路中，它還在行業(yè)首創(chuàng)了連續(xù)性圖文創(chuàng)作輸出的模式。

另外，值得說明的是，商湯這次開源的是 SenseNova U1 的輕量版系列 SenseNova U1 Lite，包含SenseNova-U1-8B-MoTSenseNova-U1-A3B-MoT兩個版本。

GitHub：https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face：https://huggingface.co/collections/sensenova/sensenova-u1

雖然身板小，但它在多個測評維度上性能領(lǐng)先。

在圖像理解與生成基準(zhǔn)測試中，SenseNova-U1-8B-MoT 的表現(xiàn)相當(dāng)亮眼。雖然它只是 8B 級模型，但在通用理解、空間理解等多個測試中都取得了領(lǐng)先成績，甚至超過了 Qwen3VL-30B-A3B、Gemma4-26B-A4B 等更大規(guī)模模型。簡單說，SenseNova-U1-8B-MoT 并不是靠堆參數(shù)取勝，而是在較小體量下做出了更高效的多模態(tài)理解能力。

在圖像生成基準(zhǔn)測試上，SenseNova U1 Lite 在信息圖生成（Infographics）的其中一項拿到了 39.8 的高分，領(lǐng)先 Qwen-Image 等模型。這說明在處理高難度、高密度信息轉(zhuǎn)化為圖表時，SenseNova U1 具備行業(yè)領(lǐng)先的邏輯重組能力。

在文字渲染（Text Rendering）這一維度下，SenseNova U1 Lite 的成績幾乎全面領(lǐng)先。AI 生圖最怕文字崩壞，這一測試結(jié)果證明了 SenseNova U1 Lite 在視覺化文字上的精準(zhǔn)度。

視覺推理是 AI 最容易「翻車」的地方，因為它要求模型不僅要看懂圖像，還要進(jìn)行復(fù)雜的邏輯推理。SenseNova U1 （VBVR (UMM) 得分）拿到了 60.5 的高分，超過對比模型（如 Nano-Banana 的 49.6）。這意味著在處理復(fù)雜的視覺關(guān)系推理時，它比同類模型表現(xiàn)得更加「聰明」。

在 WISE 維度上取得了 69.0 的優(yōu)異成績，領(lǐng)先于 Qwen-Image（63.0）以及其他一眾模型。這表明在執(zhí)行基于人類意圖的視覺修改時，它對「指令」的解析與「像素」的操控結(jié)合得更加緊密。

GEdit-Bench 得分 7.47，在同量級開源模型中處于頂尖位置，甚至優(yōu)于一些參數(shù)規(guī)模更大的閉源替代方案。

實測后發(fā)現(xiàn)，這才是你急需的提效利器

光看榜單當(dāng)然不過癮。

SenseNova U1 Lite 在業(yè)內(nèi)首個實現(xiàn)連續(xù)性的圖文創(chuàng)作輸出

傳統(tǒng)模型的工作方式是：先用文字把問題想清楚，再調(diào)用外部工具把圖生出來，這是兩個步驟，兩套系統(tǒng)，中間還有中間商負(fù)責(zé)牽線。SenseNova U1 Lite 打破的，正是這道墻，它能在同一套推理過程中，讓圖像和文字同步生長，示意圖、流程圖、草圖，在它推理的同時就已經(jīng)出現(xiàn)了，而不是等推理結(jié)束后再配上去。

我們來看幾個實際效果。

讓它生成一幅小白兔和大灰狼的故事連環(huán)畫。

從結(jié)果可以看出，SenseNova U1 Lite 可以一邊推進(jìn)故事情節(jié)，一邊同步生成對應(yīng)場景的插圖，圖和文本來自同一套思維過程，邏輯連貫、風(fēng)格統(tǒng)一。

想學(xué)習(xí)電影運(yùn)鏡，也可以向 SenseNova U1 Lite 提問，它會把文字解釋和視覺圖同步給你，并且保持人物角色的高度一致性。這比單純的文字教程好懂得多，也比純圖示來得有邏輯。

這種帶圖思考的能力，正是 SenseNova U1 的原生圖文理解生成能力。它能把圖像與文本從底層進(jìn)行融合，實現(xiàn)高效、連貫的思考和圖文交錯輸出。不但效率高，也更接近人類的理解與表達(dá)模式。

我們還用 SenseNova U1 Lite 嘗試了復(fù)雜高密度信息圖（infographic）的生成

信息圖要解決的是一個真實的表達(dá)困境：一篇論文、一份研報、一個操作流程、一個知識點，原始形態(tài)往往密度過高、結(jié)構(gòu)不清，大多數(shù)人看到就想關(guān)掉。而一張好的信息圖，能把同樣的內(nèi)容重新組織，讓讀者在幾秒鐘內(nèi)抓住核心。

首先，我們讓模型生成了一張適合可愛女生的短發(fā)造型信息圖，SenseNova U1 Lite 完成度依然在線。

在接下來的案例中，SenseNova U1 Lite 生成的占星術(shù)與塔羅牌占卜圖片風(fēng)格華麗，充滿了神秘主義元素，如果你對星座感興趣，不放也試著做一份屬于自己的星座圖。

讀不下去的論文，交給它。

最近，谷歌 DeepMind 發(fā)布了一篇頗受關(guān)注的論文《Image Generators are Generalist Vision Learners》，內(nèi)容密度高，需要反復(fù)閱讀才能理清脈絡(luò)。我們把摘要丟給 SenseNova U1 Lite，讓它生成一份圖解。它不只是把文字重新排了一遍，而是真正提取出了論文的核心主張、方法邏輯和關(guān)鍵結(jié)論，用更直觀的視覺結(jié)構(gòu)把這些內(nèi)容呈現(xiàn)出來，讓一篇需要沉下心來讀的學(xué)術(shù)文章，變得可以快速上手。

論文地址：https://arxiv.org/abs/2604.20329v1

接著，我們又換了一個完全不同的題材：讓模型生成一張「武俠江湖禁忌」信息圖。

這類內(nèi)容看似輕松，其實很考驗?zāi)Ｐ偷慕Y(jié)構(gòu)化表達(dá)能力。因為它既要有江湖味，又要讓讀者一眼看懂規(guī)則。

SenseNova U1 Lite 的完成效果依然很有意思。它把江湖禁忌拆成了幾個清晰板塊：比如勿偷學(xué)武功，勿背后放冷箭暗器等。

金庸江湖生存指南：

接下來，我們又讓模型生成了一張「檸檬的萬能指南」信息圖。SenseNova U1 Lite 的處理方式比較聰明。它把檸檬的用途拆成了幾個清晰模塊：烹飪、家居清潔、心身療愈。

生成詹姆斯 · 喬治 · 弗雷澤名著「金枝」（The Golden Bough）信息圖：

刺繡入門指南：

城市明信片：

從以上結(jié)果可以看出，對于高信息密度場景，SenseNova U1 Lite 處理起來相當(dāng)游刃有余。

高效統(tǒng)一架構(gòu)，讓小模型跑出大模型效果

看完這些效果，一個問題自然會浮現(xiàn)：它為什么能做到這些？

過去，多模態(tài) AI 幾乎被一個固定范式所統(tǒng)治：視覺編碼器負(fù)責(zé)感知理解，把圖像壓縮成特征向量喂給語言模型；變分自編碼器負(fù)責(zé)生成圖像，把語言模型的意圖解碼成像素。兩套系統(tǒng)各司其職，看似分工明確，卻在理解與生成之間埋下了一道天然的斷層。

問題出在壓縮這個動作上。視覺編碼器把圖像變成特征向量，本質(zhì)是一次有損的信息篩選，它預(yù)先決定了哪些視覺細(xì)節(jié)值得保留、哪些可以舍棄。而這個決定，早在模型真正開始思考之前就已經(jīng)做完了。生成側(cè)同樣如此：解碼器只能從語言模型的理解結(jié)果中重建圖像，而不是從原始像素出發(fā)。兩端都在用二手信息工作，斷層由此而來。

這種路線并不是沒有價值。相反，它是過去幾年多模態(tài)模型快速發(fā)展的重要基礎(chǔ)。但它的問題也很明顯：每多經(jīng)過一個模塊，信息就多一次轉(zhuǎn)換；每多一次轉(zhuǎn)換，就可能帶來一次損耗。尤其是圖像這種信息密度很高的模態(tài)，一旦被過度壓縮，細(xì)節(jié)、空間關(guān)系、局部結(jié)構(gòu)都可能被弱化。到了生成階段，模型再想把這些信息完整還原出來，就會變得更困難。

這也是為什么很多多模態(tài)模型會出現(xiàn)一種割裂感：它可能能說清楚圖里有什么，卻不一定能準(zhǔn)確畫出復(fù)雜結(jié)構(gòu)；它可能能生成一張好看的圖片，卻不一定真正理解文字里的邏輯關(guān)系；它也可能能完成單張圖生成，但一旦要求連續(xù)輸出多張風(fēng)格一致、邏輯連貫的圖文內(nèi)容，就容易出現(xiàn)前后不一致、細(xì)節(jié)漂移、版式混亂等問題。

SenseNova U1 Lite 的答案，是一套叫做 NEO-Unify 的原生多模態(tài)架構(gòu)，解決這種理解和生成之間的斷層

其思路是把這些原本分開的環(huán)節(jié)盡可能收攏到一個統(tǒng)一架構(gòu)里。它不再把視覺和語言當(dāng)成兩個需要互相翻譯的系統(tǒng)，而是讓圖像信息和文本信息在同一個內(nèi)部空間中共同參與計算。這樣一來，模型處理圖文任務(wù)時，不需要在看圖系統(tǒng)、語言系統(tǒng)、生成系統(tǒng)之間來回傳遞，而是可以在同一套模型內(nèi)部完成感知、理解、推理和表達(dá)。

這樣做帶來的第一個好處，是信息路徑更短。

傳統(tǒng)架構(gòu)里，模型完成一次復(fù)雜圖文任務(wù)，可能要經(jīng)歷看圖 — 理解 — 規(guī)劃 — 生成 — 修正等多個階段，而且每個階段之間都存在對齊成本。SenseNova U1 Lite 的統(tǒng)一架構(gòu)則更像是把這些環(huán)節(jié)壓縮進(jìn)同一個大腦里，讓模型可以一邊理解內(nèi)容，一邊組織畫面，一邊保持語義和視覺的一致性。少了中間轉(zhuǎn)譯，模型就能把更多計算用于真正的理解和生成，而不是消耗在模塊之間的銜接上。

第二個好處，是效率更高。

通過架構(gòu)上的統(tǒng)一，減少不必要的信息損耗和流程開銷，讓較小規(guī)模的模型也能釋放出更高的有效能力。

這也是 SenseNova-U1-8B-MoT 值得單獨拿出來看的原因。8B 級別的模型規(guī)模并不算大，但它在圖像生成、圖像編輯、復(fù)雜信息圖、視覺推理等任務(wù)中，能夠接近甚至追上部分大型商業(yè)模型。背后的關(guān)鍵，并不是簡單小參數(shù)逆襲大模型，而是統(tǒng)一架構(gòu)讓計算利用率更高，模型不需要花太多能力去彌補(bǔ)模塊割裂帶來的損耗。

這可以通過一些實驗結(jié)果來說明：

如下圖所示，SenseNova-U1-8B-MoT 位于相當(dāng)靠左的位置，延遲大約只有 15 秒 / 2K 圖，是所有對比模型中生成速度最突出的一個。同時，它的平均得分接近 67 分，已經(jīng)進(jìn)入主流商業(yè)模型所在的中高分區(qū)間。

這意味著，SenseNova-U1-8B-MoT 的優(yōu)勢主要體現(xiàn)在效率上：它沒有依賴更長的生成時間去換取性能，而是在低延遲條件下保持了較高的生成質(zhì)量。相比一些得分更高但耗時達(dá)到 30 秒、70 秒甚至更久的商業(yè)模型，它更接近實際生產(chǎn)中需要的狀態(tài)，快速出圖、質(zhì)量可用、響應(yīng)穩(wěn)定。

換句話說，如果只看最高分，GPT-Image-2.0、Nano Banana Pro 等模型仍然處在第一梯隊；但如果把速度也納入考量，SenseNova-U1-8B-MoT 的位置就變得非常突出。它用更短的時間完成了接近主流商業(yè)模型的生成效果，體現(xiàn)出很強(qiáng)的單位時間產(chǎn)出能力。

Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench

Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench

結(jié)語

在 AI 領(lǐng)域，開源兩個字正在被嚴(yán)重稀釋。有的開源只是權(quán)重開放，卻不開放代碼；還有的干脆設(shè)了各種商用限制，開源不過是蹭熱度的說法。

商湯此次選擇將兩個參數(shù)模型全面開源，代碼托管于 GitHub，模型權(quán)重在 Hugging Face 平臺同步提供下載，完整技術(shù)報告也將在近期公布。

在當(dāng)前多模態(tài)大模型格局下，開源一個在架構(gòu)層面有實質(zhì)創(chuàng)新、且跑通了理解 - 生成 - 統(tǒng)一路線的模型，意味著這套方法可以被學(xué)術(shù)界反復(fù)審視、被開發(fā)者社區(qū)持續(xù)打磨，同時也為產(chǎn)業(yè)伙伴提供了直接可用的基礎(chǔ)設(shè)施。

尤其是它的小身材、大能量、高效率，能幫助開發(fā)者即便在資源受限的環(huán)境下，也能享受高效率的能力，發(fā)揮越級的實力。

當(dāng)整個行業(yè)都在追趕 GPT Image 2 的生圖質(zhì)量時，商湯押注的是統(tǒng)一本身。而隨著全面開源的放出，這條路徑，現(xiàn)在屬于所有人。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.