国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Nano Banana 2發(fā)布,圖像生成下半場比的是“世界知識”

0
分享至



進(jìn)入2026年以后,很少有人再提起圖像生成模型,行業(yè)內(nèi)的焦點(diǎn)全在agent身上。

圖像生成模型,似乎已經(jīng)成為“上一個時代”的故事。大多數(shù)從業(yè)者的共識是,圖像生成的技術(shù)路線已經(jīng)基本定型,剩下的只是工程優(yōu)化和成本控制。

國際調(diào)研機(jī)構(gòu)Fundamental Business Insights在《AI圖像生成器市場規(guī)模和份額預(yù)測》中提到,2024年全球市場規(guī)模為4.1024億美元,2025年為4.785億美元,2026年為5.4136億美元。

由此可見,圖像生成模型市場已然是一個成熟穩(wěn)定,且想象空間比較小的市場。

可就在這個節(jié)骨眼上,谷歌拿出了Nano Banana 2。

這是用同樣提示詞生成的圖片,可以看到,Nano Banana 2在呈現(xiàn)圖片的方式上,已經(jīng)和Nano Banana Pro呈現(xiàn)出了明顯的區(qū)別。



因?yàn)檫@不是那種簡單的版本迭代。

谷歌在發(fā)布當(dāng)天就宣布,這個新模型將立即取代之前的所有版本,成為 Gemini、谷歌搜索、AI Studio等所有產(chǎn)品中的默認(rèn)圖像生成模型,最讓人詫異的是,就連谷歌自己的AI編程工具Antigravity也對Nano Banana 2完成了接入。

為啥谷歌突然“All-in”?

在過去一段時間里,用戶一直面臨著一個兩難選擇,想生成4K分辨率的圖片就需要等很久,想立刻生成圖片,就只能找低分辨率的模型。

而Nano Banana 2又快又好。

谷歌認(rèn)為,在agent時代,圖像生成依然是一個值得重倉投入的戰(zhàn)場。

01

Nano Banana 2的特點(diǎn)都有什么?

Nano Banana 2最大的特點(diǎn)就是快,它能夠在4-6秒內(nèi)完成4K分辨率圖像的生成。

谷歌的Gemini系列一直維持著兩條產(chǎn)品線:Pro追求性能,F(xiàn)lash追求效率。

但將這套架構(gòu)遷移到圖像生成領(lǐng)域,并非簡單的模型壓縮。圖像生成的計算密集度遠(yuǎn)高于文本生成,一張2K分辨率的圖像包含的信息量,相當(dāng)于數(shù)千個文本token。

如何在不犧牲視覺質(zhì)量的前提下提升推理速度,這是一個工程難題。

Nano Banana 2的解決方案是采用了分層生成策略。

模型首先在較低分辨率下完成場景理解、構(gòu)圖規(guī)劃和物理關(guān)系推理,然后再通過高效的上采樣管道將圖像提升至2K甚至4K分辨率。

這種“先思考,后渲染”的流程,讓模型能夠在保持Pro級別的一致性和細(xì)節(jié)質(zhì)量時,降低計算成本。

除了速度,Nano Banana 2還引入了“世界知識”這個概念。

傳統(tǒng)的圖像生成模型,本質(zhì)上是一個強(qiáng)大的視覺模式匹配器。它們在海量圖像數(shù)據(jù)上訓(xùn)練,學(xué)會了“什么樣的畫面看起來真實(shí)”,但并不真正理解畫面中的物理規(guī)律、地理特征或文化背景。

比如說你要求生成“巴黎鐵塔在雨天的景象”,它可能生成一張看起來不錯的圖片,但鐵塔的結(jié)構(gòu)細(xì)節(jié)、巴黎特有的建筑風(fēng)格、雨天的光線特征,都可能是模糊或錯誤的。

Nano Banana 2的不同之處在于,它直接繼承了Gemini大語言模型的世界知識庫,并且能夠?qū)崟r調(diào)用谷歌圖像搜索作為“視覺參考庫”。

也就是說當(dāng)你要求生成某個真實(shí)地點(diǎn)的場景時,模型不僅知道這個地點(diǎn)的地理位置、氣候特征、建筑風(fēng)格,還能檢索相關(guān)的真實(shí)照片作為視覺基準(zhǔn),從而生成更加準(zhǔn)確的圖像。

在谷歌的“Window Seat”演示中。它能夠根據(jù)用戶指定的任何地點(diǎn)和當(dāng)前的實(shí)時天氣數(shù)據(jù),生成該地點(diǎn)窗外的逼真景觀。

舉個例子,《哈利波特》中通往霍格沃茨的9?站臺位于英國的國王十字車站(King's Cross station)。在Window Seat中輸入對應(yīng)車站,窗戶的樣式輸入溫馨咖啡館,外面的天氣指定為瓢潑大雨,Nano Banana 2就會生成以下一幕。



把“世界知識”注入到Nano Banana 2里,其實(shí)就是將大語言模型的推理能力與圖像生成的渲染能力結(jié)合起來的產(chǎn)物。

模型在生成圖像之前,會先進(jìn)行一次“語義推理”,理解提示詞中涉及的真實(shí)世界概念,然后再將這些概念轉(zhuǎn)化為視覺元素。

在圖像生成領(lǐng)域,文字渲染一直是一個公認(rèn)的難題。無論是Stable Diffusion、Midjourney還是早期的DALL-E,生成的圖像中如果包含文字,往往會出現(xiàn)字母錯位、拼寫錯誤、字體混亂等問題。

這個問題的根源在于,傳統(tǒng)的擴(kuò)散模型將文字視為視覺紋理的一部分,而不是具有語義結(jié)構(gòu)的符號系統(tǒng)。

Nano Banana 2在文字渲染上取得了顯著進(jìn)步。根據(jù)官方說明,這一代模型能夠“更可靠地渲染文字”,支持多語言文本,并且能夠保持字體的清晰度和風(fēng)格一致性。

這個能力的提升,來自于模型對文字的“雙重理解”。Nano Banana 2既通過Gemini的語言模型能力,理解了文字本身的語義內(nèi)容,也通過圖像生成的渲染能力理解文字的視覺呈現(xiàn)規(guī)律。

我讓Nano Banana 2設(shè)計了一個“字母AI”的Logo,它就能很好展示出每一個字,并且還用電路板這個視覺元素來強(qiáng)化AI的概念。



02

Nano Banana 2背后的技術(shù)是什么?

Nano Banana 2 的另一個重要特性,是它的“對話式編輯”能力。這的確不是一個新概念,但實(shí)際用起來效果要比以往好很多。

Nano Banana 2現(xiàn)在能夠做到,完全使用對話來進(jìn)行圖片編輯,比如“把背景換成日落”、“把這個人的衣服改成藍(lán)色”、“去掉左邊的那棵樹”。

這種交互方式的關(guān)鍵,在于模型能夠在多輪對話中保持對圖像的“記憶”。當(dāng)你在第三輪對話中說“把剛才那個藍(lán)色衣服改回紅色”時,模型需要知道“剛才那個藍(lán)色衣服”指的是第二輪編輯中被改成藍(lán)色的那件衣服。

這種上下文追蹤能力,叫做“思維簽名”(Thought Signatures)。

簡單來說,當(dāng)模型生成圖像時,它內(nèi)部會進(jìn)行一系列思考,思維簽名就是每一步思考的標(biāo)簽。在多輪對話編輯圖像時,你把上一輪的思維簽名傳回給模型,它就能記住之前的構(gòu)圖邏輯、光影關(guān)系和設(shè)計意圖,從而實(shí)現(xiàn)連貫的局部修改—。

當(dāng)你要求對已有圖片進(jìn)行修改時,那么模型就會用思維簽名來理解原始圖像的整體結(jié)構(gòu),做出合理的調(diào)整而不破壞畫面的一致性。

前文提到的一致性,是目前圖像生成模型最大的難題之一。

Nano Banana 2支持最多14張參考圖像的混合使用,其中可以包括最多5張人物角色圖像和最多6張物體圖像。

模型能夠從這些參考圖像中提取視覺特征,并在新生成的圖像中保持這些特征的一致性。

比如Nano Banana 2官方發(fā)的圖片,將一個香蕉和恐龍玩偶結(jié)合,就得到了一個以香蕉當(dāng)作身體的恐龍玩偶。



以及,我們不妨來看看Nano Banana 2和GPT的對比,同樣的提示詞下,GPT帶有明顯的AI生成感。Nano Banana 2生成的圖片更真實(shí)一些。

GPT:



Nano Banana 2:



同時,Nano Banana官方還放出了一些由Nano Banana 2生成的超長圖片。





03

相較于其他模型,Nano Banana 2的優(yōu)勢是什么?

Nano Banana 2是一個非常均衡的圖片生成模型,它又有速度,又有質(zhì)量,關(guān)鍵還便宜。

根據(jù)谷歌官方給出的信息,Nano Banana 2生成1k圖的價格大約為0.067美元,相當(dāng)于不到5毛錢。2K圖片為0.1美元,約7毛錢。4K圖片為0.15美元,大約1塊錢。這個價格比Nano Banana Pro便宜很多。



Pro版本的優(yōu)勢在于極致的復(fù)雜場景把控、超寫實(shí)光影渲染和小眾藝術(shù)風(fēng)格還原,適合專業(yè)視覺設(shè)計師、影視概念設(shè)計師等對畫質(zhì)有極致要求的用戶。

Nano Banana 2用畫質(zhì)上限的稍許讓步,換來了顯著的效率提升。Nano Banana 2的定價更符合普通創(chuàng)作者,以及那些需要快速迭代、大批量生成的實(shí)際業(yè)務(wù)需求。







Midjourney依然是藝術(shù)創(chuàng)作的天花板。它的審美上限和風(fēng)格化能力在行業(yè)內(nèi)無人能及,特別是在生成具有電影質(zhì)感、繪畫筆觸的藝術(shù)作品方面表現(xiàn)出色。

V7版本的生成速度約為20秒/張,在復(fù)雜場景下可能更長。

但Midjourney的短板也極其明顯,它沒有對話式編輯功能,無法精準(zhǔn)控制真實(shí)世界元素(如特定地點(diǎn)的準(zhǔn)確建筑風(fēng)格、實(shí)時天氣條件), API開放度極低,且主要通過Discord 界面操作,不適合企業(yè)級集成。

此前,在一項包含50多個提示詞的對比測試中,Nano Banana Pro的生成速度是Midjourney的10倍以上,Nano Banana 2只會更快。

另外一大圖像生成模型就是Stable Diffusion 3。它的優(yōu)勢是開源、可本地部署、自定義程度高,這對于有技術(shù)能力和數(shù)據(jù)隱私需求的開發(fā)者來說是重要優(yōu)勢。

它還支持LoRA微調(diào)、ControlNet等高級控制功能,可以針對特定需求進(jìn)行深度定制??梢哉f,只要你技術(shù)能力夠高,那么Stable Diffusion 3絕對是最好的選擇。

但Stable Diffusion 3,需要配置本地環(huán)境、理解復(fù)雜的參數(shù)設(shè)置、自行優(yōu)化提示詞。

而且在原生能力方面,Stable Diffusion 3的文字渲染準(zhǔn)確度在學(xué)術(shù)評測中得分僅為1.25-1.95(滿分 5 分),遠(yuǎn)低于Nano Banana 2。

此外,它的生成速度、事實(shí)準(zhǔn)確性、對話式編輯能力也全面落后于Nano Banana 2。

當(dāng)然,Nano Banana 2并非完美無缺。在極致的藝術(shù)風(fēng)格化創(chuàng)作、超復(fù)雜場景的光影渲染上,它和Nano Banana Pro以及Midjourney這樣的產(chǎn)品,依然存在差距。

在多輪對話編輯方面,雖然模型支持最多5個角色的一致性維護(hù),但在一些特定的場景,仍然會出現(xiàn)細(xì)微變化。而當(dāng)對話進(jìn)行多輪次后,這些細(xì)微的變化也會累積在一起。

同時,對于小眾冷門的地點(diǎn)、物體,“世界知識”的效果也會有所折扣。

但不可否認(rèn)的是,Nano Banana 2給整個文生圖行業(yè)帶來新的啟示,未來的AI圖像生成,不再是單純的“紋理匹配”,而是“大語言模型推理能力 + 視覺渲染能力 + 檢索增強(qiáng)事實(shí)準(zhǔn)確性”的深度融合。

文生圖工具終將從“畫畫的機(jī)器”,變成真正懂需求、懂世界的視覺創(chuàng)作助手。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
姜還是老的辣!港口被強(qiáng)收僅3天,李嘉誠一招破局,令人刮目相看

姜還是老的辣!港口被強(qiáng)收僅3天,李嘉誠一招破局,令人刮目相看

離離言幾許
2026-02-27 21:17:18
伊拉克民兵組織襲擊美軍基地

伊拉克民兵組織襲擊美軍基地

界面新聞
2026-02-28 19:52:56
外媒:伊朗擊落一架美軍機(jī),價值幾十億的戰(zhàn)略飛機(jī)

外媒:伊朗擊落一架美軍機(jī),價值幾十億的戰(zhàn)略飛機(jī)

大國之翼
2026-02-28 06:30:03
伊朗第四輪導(dǎo)彈射向以色列

伊朗第四輪導(dǎo)彈射向以色列

財聯(lián)社
2026-02-28 17:39:15
最高領(lǐng)袖辦公室附近遭襲,伊朗權(quán)力體系如何“去中心化”強(qiáng)化韌性?

最高領(lǐng)袖辦公室附近遭襲,伊朗權(quán)力體系如何“去中心化”強(qiáng)化韌性?

澎湃新聞
2026-02-28 15:10:31
訪華回國后默茨真急了:中國太拼,我們得加油了

訪華回國后默茨真急了:中國太拼,我們得加油了

界面新聞
2026-02-28 15:07:04
金正恩:美國撤回敵視政策,朝鮮將轉(zhuǎn)變態(tài)度 白宮回應(yīng)

金正恩:美國撤回敵視政策,朝鮮將轉(zhuǎn)變態(tài)度 白宮回應(yīng)

中國網(wǎng)
2026-02-27 17:27:15
太扎心了!火化名單全是40到50歲中年男性,一殯儀館大廳信息流出

太扎心了!火化名單全是40到50歲中年男性,一殯儀館大廳信息流出

火山詩話
2026-02-28 07:08:55
長得那么漂亮,可惜一直火不起來

長得那么漂亮,可惜一直火不起來

可樂談情感
2026-02-28 19:05:41
馬斯克藏太深!美星鏈離不開7家中國公司,每一家都是全球頂尖!

馬斯克藏太深!美星鏈離不開7家中國公司,每一家都是全球頂尖!

愛吃醋的貓咪
2026-02-27 17:56:07
美軍航母“炸”了,史詩級災(zāi)難,把臉都丟光了

美軍航母“炸”了,史詩級災(zāi)難,把臉都丟光了

毛豆論道
2026-02-26 19:32:00
突發(fā)!“伊朗陸軍總司令身亡”

突發(fā)!“伊朗陸軍總司令身亡”

第一財經(jīng)資訊
2026-02-28 17:56:46
“史詩怒火”,美以正式開打

“史詩怒火”,美以正式開打

難得君
2026-02-28 17:42:42
阿聯(lián)酋攔截伊朗導(dǎo)彈1人死亡

阿聯(lián)酋攔截伊朗導(dǎo)彈1人死亡

財聯(lián)社
2026-02-28 18:00:11
突發(fā)!C-130運(yùn)輸機(jī)墜毀,已致15死30傷,機(jī)上載有大量現(xiàn)金

突發(fā)!C-130運(yùn)輸機(jī)墜毀,已致15死30傷,機(jī)上載有大量現(xiàn)金

航空知識
2026-02-28 11:39:45
真干仗了!對大A、大宗商品有什么影響?2月A股哪些股票持續(xù)創(chuàng)歷史新高?

真干仗了!對大A、大宗商品有什么影響?2月A股哪些股票持續(xù)創(chuàng)歷史新高?

價值線傳媒
2026-02-28 17:12:25
特朗普突然發(fā)文昭告全球,包括中國俄羅斯在內(nèi),這次一個都跑不掉

特朗普突然發(fā)文昭告全球,包括中國俄羅斯在內(nèi),這次一個都跑不掉

帶你領(lǐng)略快樂真諦
2026-02-28 16:55:50
伊朗首都聽到爆炸聲 以色列宣布襲擊伊朗

伊朗首都聽到爆炸聲 以色列宣布襲擊伊朗

新華社
2026-02-28 14:30:38
外媒:初步報告稱伊朗革命衛(wèi)隊損失慘重,多名革命衛(wèi)隊成員死傷

外媒:初步報告稱伊朗革命衛(wèi)隊損失慘重,多名革命衛(wèi)隊成員死傷

中國網(wǎng)
2026-02-28 16:09:08
A股:下周穩(wěn)了!證監(jiān)會“發(fā)大招利好”,這幾個板塊將直接起飛!

A股:下周穩(wěn)了!證監(jiān)會“發(fā)大招利好”,這幾個板塊將直接起飛!

云鵬敘事
2026-02-28 13:04:17
2026-02-28 21:15:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2254文章數(shù) 8044關(guān)注度
往期回顧 全部

數(shù)碼要聞

達(dá)爾優(yōu)推出聽界A3/Pro無線游戲耳機(jī)新品,199~229元

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導(dǎo)體系仍具韌性

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導(dǎo)體系仍具韌性

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
旅游
家居
本地

藝術(shù)要聞

就是這個畫風(fēng),美的我有點(diǎn)兒接受不了!

數(shù)碼要聞

華為MatePad Edge開啟HarmonyOS 6花粉Beta版嘗鮮升級

旅游要聞

大理蒼山驚現(xiàn)“靈氣護(hù)罩”奇觀

家居要聞

素色肌理 品意式格調(diào)

本地新聞

津南好·四時總相宜

無障礙瀏覽 進(jìn)入關(guān)懷版