国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

不卷參數(shù)卷架構(gòu),這個(gè)開源模型把圖像理解和生成統(tǒng)一了

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

這兩天打開朋友圈,10條里有7條都是GPT-Image-2生的圖。

中文海報(bào)、復(fù)古雜志封面、直播畫面、社交截圖、連高考試卷都能照著出一張幾乎以假亂真的。

對(duì)此,大家伙的反應(yīng)也都出奇的一致——

專業(yè)設(shè)計(jì)師們完了,我又能行了!

但實(shí)際上上手你就會(huì)有同感:免費(fèi)用戶一天幾張,抽卡次數(shù)有限,遇到稍微嚴(yán)肅點(diǎn)的活,額度馬上到頂,常常是活沒干完,次數(shù)沒了。

針對(duì)這一空檔,商湯剛剛開源了一個(gè)全新架構(gòu)的理解生成統(tǒng)一模型SenseNova-U1,雖然小尺寸版本只有8B,卻能復(fù)刻不少GPT-Image-2的拿手絕活。

比如,我們拿它做一張量子位的招聘海報(bào):文字、版式、配色,挑不出毛病。



太陽系圖解,八大行星各自的軌道、屬性、圖文介紹一應(yīng)俱全,看著挺像那么回事。



畫個(gè)鋼鐵俠,模型也能自動(dòng)從輪廓、鋪色、細(xì)節(jié)、質(zhì)感、氛圍等多個(gè)階段拆解完整的繪畫流程。



來個(gè)馬斯克太空集群的信息圖也審美在線。



可以說,信息圖(InfoGraph)、文字密集排版、圖文交錯(cuò)——

這幾個(gè)曾經(jīng)被公認(rèn)是AI生圖最難啃的硬骨頭,U1能跟GPT-Image-2擠進(jìn)一桌。

在具體的圖像理解與生成的多項(xiàng)指標(biāo)上,SenseNova-U1也是登頂開源模型的榜首。



在推理響應(yīng)速度上也具備相當(dāng)?shù)膬?yōu)勢(shì),逼近主流商用閉源模型。





這是怎么做到的,咱往下看。

連續(xù)性圖文創(chuàng)作,這次是原生的

先說U1這次最有意思的能力,連續(xù)性圖文創(chuàng)作

所謂連續(xù)性圖文創(chuàng)作,就是文字和圖片在一段輸出里自然交疊,而不是文字歸文字、圖片歸圖片。

這聽起來很簡單,但實(shí)際上很難。因?yàn)槲淖直A粽Z義、圖片保留像素細(xì)節(jié),這兩件事在傳統(tǒng)架構(gòu)里幾乎是天敵——

保了語義就丟了像素,保了像素就稀釋了語義。

U1的做法是讓兩者在同一個(gè)表征空間里共享上下文,語義豐富性和像素級(jí)視覺保真度第一次同時(shí)拿住。

簡單講,就是模型能像人一樣,邊思考邊畫草圖,文字和圖片在一段輸出里自然交疊。

比如,我讓它生成一個(gè)“煎牛排的操作教學(xué)”。它能從食材準(zhǔn)備,瀝干水分、調(diào)味、煎制和翻面……講到最后裝盤。

每一步的關(guān)鍵操作都有圖,牛排的形象從生肉到五分熟一路保持高度一致,不會(huì)畫著畫著變成另一塊肉。



再比如,我想學(xué)一點(diǎn)漫畫分鏡技巧。

它能直接給我吐出圖文并茂的教材式段落,從準(zhǔn)備階段、鏡頭建立、再到引入道具、次要角色一應(yīng)俱全,比純文字解釋直觀得多。



這種“始終是同一個(gè)主體”的連貫性看起來樸素,但對(duì)生成模型卻很難。

傳統(tǒng)范式得在多個(gè)模型之間來回調(diào)用,各畫各的,角色形象很容易在第三步就走樣。U1是單次單模型調(diào)用直接出全套。

對(duì)一個(gè)新模型來說,還有一個(gè)值得關(guān)注的考驗(yàn)就是——

高密度信息圖

在模型界面中,你可以直接輸入“自己的簡歷信息”,它就能返回你一張手繪風(fēng)格的海報(bào),信息分布、配色、字體層級(jí)都安排得明明白白。



讓它講“三只小豬蓋房子”,我輸入只有這么“7個(gè)字”,輸出就能直接給你一整組連環(huán)畫——

三只小豬、三種材料、三棟房子、最后那只大灰狼,一格一格排好,順序?qū)Φ蒙瞎适隆?/p>



炒紅燒肉這類做菜教程圖,也可以一次直出,圖文對(duì)應(yīng)。



給一句“做杯咖啡的英文流程圖”,圖也直接出來了。



在講究排版、涉及多種元素的插畫場景中,U1也能實(shí)現(xiàn)比較精細(xì)的效果,比如這張劃船樂的教學(xué)總覽圖。



最有意思的是這個(gè),扔給它一張路邊常見的“電梯安全”警示牌,讓它換個(gè)排版做成一張信息圖。

它還能直接把這個(gè)實(shí)現(xiàn)完美遷移,把版式從警示牌切成了科普卡片。





前段時(shí)間火爆的產(chǎn)品爆炸圖,在U1這里也可以做到。一臺(tái)相機(jī),被它拆得整整齊齊:

鏡頭組、反光鏡、快門、傳感器、芯片,電池什么的,統(tǒng)統(tǒng)被它拆得整整齊齊懸浮在空中,標(biāo)注線一根不少。



這種程度的玩法,以前是超大參數(shù)模型的專屬。更有意思的一點(diǎn)是,SenseNova U1 Lite還在行業(yè)首創(chuàng)了圖文交錯(cuò)的思維鏈。

這種會(huì)推理的能力放到圖像編輯上會(huì)更有趣。

我扔給它一張剛泡好的玻璃杯熱茶,讓它“畫出一小時(shí)后的樣子”。它沒有簡單地直接出圖,而是先做了一段推理:

一是給自己定約束,同一只玻璃杯、同一張?jiān)咀烂妗⑼环N側(cè)逆光,這樣兩張圖放一起才看得出“是同一杯茶過了一小時(shí)”。

二是推導(dǎo)物理:剛泡時(shí),葉片高速舒展、氣泡從葉脈逸出、蒸汽在杯壁上留下弧形折射;

一小時(shí)后,多酚類擴(kuò)散均勻,茶湯變深紅褐,葉子完全沉降呈半透明,杯底跟桌面交界處出冷凝痕跡。光影也跟著從“清晨的清冷”過到“午后的慵懶”。



類似的還有幾個(gè)測試。

給它一個(gè)綠色的香蕉,模型會(huì)先推理“葉綠素分解+糖化”,從而保證輸出的是一根帶著斑點(diǎn)的成熟香蕉。



可以說,這款新模型不只是在改圖,還具備了一定的物理常識(shí)。

NEO-unify,一個(gè)網(wǎng)絡(luò)實(shí)現(xiàn)“看”和“畫”

看到這,你可能想問,這是怎么做到的?

U1的底層是一套叫NEO-unify的架構(gòu)。一個(gè)模型同時(shí)會(huì)看、會(huì)畫,理解和生成在同一個(gè)網(wǎng)絡(luò)里完成,中間沒有任何拼接。



在過去,多模態(tài)模型的標(biāo)配經(jīng)常是這樣的,視覺編碼器(VE)負(fù)責(zé)看,變分自編碼器(VAE)負(fù)責(zé)畫,理解歸理解,生成歸生成,中間靠適配器拼起來。

NEO-unify把這兩個(gè)東西都拿掉了,不需要VE,不需要VAE,模型直接吃像素,直接吐像素。

具體來說,這一過程分為三步:

第一步,引入近似無損的視覺接口,把圖像的輸入和輸出統(tǒng)一成同一種表示。

第二步,用Mixture-of-Transformer做主干,理解和生成共享同一套底層。

第三步,文本走自回歸,視覺走像素流匹配,兩套目標(biāo)函數(shù)在同一個(gè)學(xué)習(xí)框架里跑完。

△圖片由SenseNova U1生成

這套技術(shù)架構(gòu)給了NEO-unify獨(dú)門絕活,連續(xù)性圖文創(chuàng)作。

傳統(tǒng)模型要做這件事,得外掛工具或者后處理拼接。U1底層就是統(tǒng)一的,原生支持圖片和文字的交叉排版,所有視覺內(nèi)容都來自模型自身,不調(diào)用外部工具。

模型在思考一個(gè)問題的時(shí)候,可以一邊推理一邊生成中間示意圖,把復(fù)雜邏輯可視化。

生成一段教程,可以在恰當(dāng)?shù)奈恢米匀坏夭迦胝f明圖。

落地到模型,兩個(gè)規(guī)格。SenseNova-U1-8B-MoT,8B參數(shù),端側(cè)能跑。SenseNova-U1-3AB-MoT,總參數(shù)38B的MoE架構(gòu),提供更強(qiáng)的能力,底層都是同一套NEO-unify。

此外,商湯還給U1配了一套自研推理?xiàng)?,LightLLM跑理解、LightX2V跑生成,兩條路解耦各管各的。以H100/H200單節(jié)點(diǎn)為例,生成一張2048×2048的圖,端到端大概9秒。

全網(wǎng)開源,即刻可用

值得一提的是,商湯這次在README里把模型的局限也直接寫了出來:

上下文最長32K、人物在復(fù)雜場景里的細(xì)節(jié)有時(shí)不夠穩(wěn)、長文字渲染偶爾會(huì)出現(xiàn)拼寫或排版錯(cuò)誤、連續(xù)性圖文創(chuàng)作目前還是beta。

不過這些短板都標(biāo)了“持續(xù)改進(jìn)中”。換句話說,U1這次開的不是終點(diǎn),是個(gè)起點(diǎn)。

為了方便大家使用,商湯這次順手開源了一套SenseNova-Skills技能包,把U1做成了Agent里能直接調(diào)的工具。

sn-infographic自帶87種版式、66種風(fēng)格,自己評(píng)分自己挑;掛進(jìn)OpenClaw,一句 /skill sn-infographic “提示詞”,圖就出來了。

Skills不只是infographic一個(gè),整套覆蓋圖像生成、PPT制作、Excel數(shù)據(jù)分析、深度研究、跨平臺(tái)搜索。

目前,SenseNova-U1兩個(gè)模型已經(jīng)全網(wǎng)開源。Hugging Face和GitHub都能下,倉庫地址在https://github.com/OpenSenseNova/SenseNova-U1。

想直接體驗(yàn)不動(dòng)手部署的,現(xiàn)在可以直接進(jìn)入SenseNova U1 Lite Skill,https://github.com/OpenSenseNova/SenseNova-Skills。

另外,辦公小浣熊也即將上線U1。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中央政治局會(huì)議釋放八大信號(hào)

中央政治局會(huì)議釋放八大信號(hào)

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-29 07:52:21
母親和情夫一起10年,父親默不作聲縱容,卻在他50歲生日那天反擊

母親和情夫一起10年,父親默不作聲縱容,卻在他50歲生日那天反擊

白云故事
2025-04-24 10:35:08
5-4!歐冠史上最瘋狂的一夜!大巴黎贏了比賽,拜仁則贏得希望!

5-4!歐冠史上最瘋狂的一夜!大巴黎贏了比賽,拜仁則贏得希望!

田先生籃球
2026-04-29 05:56:27
中泰簽署3413億高鐵大單,美盟友泰國轉(zhuǎn)向中國

中泰簽署3413億高鐵大單,美盟友泰國轉(zhuǎn)向中國

鋼槍勇士
2026-04-29 00:51:29
美國警告賴清德當(dāng)局,只要大陸決定武力統(tǒng)一,臺(tái)灣的結(jié)局只有一個(gè)

美國警告賴清德當(dāng)局,只要大陸決定武力統(tǒng)一,臺(tái)灣的結(jié)局只有一個(gè)

阿芑歷史
2026-04-29 03:31:45
薩基:恩里克的厲害之處是改變了巴黎的思維;他深受巴薩影響

薩基:恩里克的厲害之處是改變了巴黎的思維;他深受巴薩影響

懂球帝
2026-04-29 02:38:04
樂華娛樂回應(yīng)吳宣儀續(xù)約相關(guān)事件

樂華娛樂回應(yīng)吳宣儀續(xù)約相關(guān)事件

界面新聞
2026-04-29 14:10:33
1971年林彪一行出逃,次日江青找來秘書:我今天宣布一條命令

1971年林彪一行出逃,次日江青找來秘書:我今天宣布一條命令

顧秋韻
2026-04-29 07:58:40
評(píng)中國現(xiàn)代級(jí)驅(qū)逐艦全面國產(chǎn)化改裝

評(píng)中國現(xiàn)代級(jí)驅(qū)逐艦全面國產(chǎn)化改裝

曉栗
2026-04-29 00:36:19
14歲少年殺害同班女同學(xué)被判無期,被害人代理律師:已是頂格處罰,卻難撫喪女之痛

14歲少年殺害同班女同學(xué)被判無期,被害人代理律師:已是頂格處罰,卻難撫喪女之痛

瀟湘晨報(bào)
2026-04-28 22:03:31
開拓者被淘汰采訪!斯普利特滿意球隊(duì),被文班亞馬打服,展望續(xù)約

開拓者被淘汰采訪!斯普利特滿意球隊(duì),被文班亞馬打服,展望續(xù)約

籃球資訊達(dá)人
2026-04-29 14:44:30
演員陸毅嘴唇發(fā)紫,被網(wǎng)友提醒去醫(yī)院體檢;陸毅聽勸后回應(yīng):心臟沒問題,體重卻超標(biāo)了,身高1米8,體重180斤,“我是方的”

演員陸毅嘴唇發(fā)紫,被網(wǎng)友提醒去醫(yī)院體檢;陸毅聽勸后回應(yīng):心臟沒問題,體重卻超標(biāo)了,身高1米8,體重180斤,“我是方的”

浙江之聲
2026-04-27 13:09:03
18歲少女為救八路戰(zhàn)士假扮其妻,43年后戰(zhàn)士已成將軍,提出倆要求

18歲少女為救八路戰(zhàn)士假扮其妻,43年后戰(zhàn)士已成將軍,提出倆要求

紀(jì)實(shí)文錄
2025-07-21 11:59:28
黑海降下油膩“黑雨”!普京震怒:專炸油廠?這是沖著平民來的

黑海降下油膩“黑雨”!普京震怒:專炸油廠?這是沖著平民來的

可樂愛微笑
2026-04-29 14:29:00
炸鍋!國乒男團(tuán)陣容落定!二單竟是20歲小將?王皓這步棋太絕了

炸鍋!國乒男團(tuán)陣容落定!二單竟是20歲小將?王皓這步棋太絕了

原夢(mèng)叁生
2026-04-28 19:58:12
和叢珊離婚后,男神主持人再娶圈外人為妻,如今定居北京兒女雙全

和叢珊離婚后,男神主持人再娶圈外人為妻,如今定居北京兒女雙全

青橘罐頭
2026-04-28 22:05:16
六臺(tái):阿爾瓦雷斯已經(jīng)告知馬競,自己想加盟巴薩

六臺(tái):阿爾瓦雷斯已經(jīng)告知馬競,自己想加盟巴薩

懂球帝
2026-04-28 15:10:14
田永明被執(zhí)行死刑

田永明被執(zhí)行死刑

新京報(bào)
2026-04-28 12:52:08
丈夫是副院長,女婿是著名演員,她是藝術(shù)家,老年撿垃圾讓人淚目

丈夫是副院長,女婿是著名演員,她是藝術(shù)家,老年撿垃圾讓人淚目

史之銘
2026-04-29 00:27:04
阿聯(lián)酋退出OPEC,見證歷史了

阿聯(lián)酋退出OPEC,見證歷史了

販財(cái)局
2026-04-28 21:52:28
2026-04-29 15:11:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12559文章數(shù) 176458關(guān)注度
往期回顧 全部

科技要聞

夭折的造富神話,逼著中國AI回去賺"慢錢"

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽 或獲美伊默許

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽 或獲美伊默許

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節(jié)目組2小時(shí)

財(cái)經(jīng)要聞

多地藥店違規(guī)串換商品套刷醫(yī)保揭秘

汽車要聞

配32寸升降屏 新款別克世紀(jì)CENTURY上市53.99萬起

態(tài)度原創(chuàng)

教育
藝術(shù)
家居
手機(jī)
軍事航空

教育要聞

剛剛,南京市教育局重磅發(fā)布!

藝術(shù)要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復(fù)古作品!

家居要聞

寂然無界 簡潔風(fēng)格

手機(jī)要聞

小米兩款新機(jī)曝光?這是什么系列,好難猜啊

軍事要聞

美國參議院否決限制特朗普對(duì)古巴動(dòng)武的決議

無障礙瀏覽 進(jìn)入關(guān)懷版