国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Nano Banana Pro效果這么強,它的極限在哪里?

0
分享至



上周谷歌新推出的 Nano Banana Pro,相信大家已經(jīng)玩的不少了。

國內(nèi)外社交媒體上已經(jīng)有大量不同玩法的案例,知危把這些案例分為三種場景:

  • 原畫設(shè)計類:文生圖、圖生圖、草圖生圖、微調(diào)、文字渲染等;
  • 知識科普類:太陽系、細(xì)胞、電解反應(yīng)等對象的概念視覺化;
  • 實用辦公類:漫畫上色和翻譯、超分辨率、空間視角轉(zhuǎn)換、內(nèi)容續(xù)寫、論文板書等;

以上場景一般只是一次性生成。這兩天還有一些令人驚訝的進(jìn)展,Nano Banana Pro 已經(jīng)被整合進(jìn)谷歌的 NotebookLM 平臺,用于生成 PPT,這意味著,這款模型不僅適用單輪生成,也能服務(wù)深度多輪生成場景,特別是 PPT 需要在文風(fēng)、內(nèi)容等方面保持多圖一致性,對模型的長上下文感知能力要求很高。

目前為止,對于以上場景,Nano Banana Pro 的表現(xiàn)都沒有令人失望。而在知危這次對 Nano Banana Pro 的測評中,主要關(guān)注的是一些尚未被廣泛注意到的點,比如:

  • 和 OpenAI 旗艦生圖模型 GPT Image-1( GPT-4o 調(diào)用的生圖模型 )的招牌能力的對比,比如畫風(fēng)轉(zhuǎn)換,基于復(fù)雜指令批量生成元素的能力,進(jìn)一步確定 Nano Banana Pro 的真實 “ 江湖地位 ”;
  • 從畫面瑕疵、隨機性出發(fā)的以假亂真的能力,比如監(jiān)控、電視屏幕、實驗室拍攝等場景的模擬,這一點其實更早出現(xiàn) 在Veo 3、Sora 2 等視頻生成模型中;
  • 3D空間轉(zhuǎn)換的更極端場景的壓力測試;
  • 類似 PPT 生成這種保持多圖一致性的場景測試,知危選用了更有趣的場景,仿照《 清明上河圖 》做一個長江流域版本,需要五張圖拼接完成;

所以,本篇測評更多是在試探 Nano Banana Pro 的能力邊界,試圖窺探到它的極限,不代表日常使用 Nano Banana Pro 的體驗。

那接下來就開始測評吧!



首先當(dāng)然是跟 GPT Image-1 來個巔峰對決。

我們以《火影忍者》的一張經(jīng)典第七版合照為原圖,并用以下三個畫風(fēng)比較特別的動漫來做畫風(fēng)轉(zhuǎn)換測試:

  • 《名偵探柯南》
  • 《蠟筆小新》
  • 《JoJo的奇妙冒險》

原圖:



畫風(fēng)參考圖:



來看看 Nano Banana Pro 參考《 名偵探柯南 》的畫風(fēng)畫成什么樣:



一眼精巧,除了卡卡西,基本每個人的表情都表達(dá)了相同的情緒,三個年輕忍者的體型都變成《 名偵探柯南 》那種頭大身小的風(fēng)格,但細(xì)看又有很多問題,背景被替換成了參考圖的背景,三個年輕忍者的站位都變了,鳴人沒有怒視佐助。

再來看看 GPT Image-1 的表現(xiàn):



乍一看,感覺模型啥都沒干,但細(xì)看后可以發(fā)現(xiàn),佐助、鳴人的不爽表情的展現(xiàn)方式,和《 名偵探柯南 》確實比較相似,而且線條和陰影沒原來那么重和寫實,確實更接近《 名偵探柯南 》那種更簡潔的畫風(fēng),可謂 “ 潤物細(xì)無聲 ” 了。

鑒于這兩部動漫在寫實性上差距不是太大,我們再用更具差異的畫風(fēng)來測試,也就是《 蠟筆小新 》。

畫風(fēng)參考圖:



Nano Banana Pro 基本是重復(fù)了原來的套路,背景更換、表情畫風(fēng)模仿,其它幾乎一成不變。



GPT Image-1 的表現(xiàn)乍一看是直接崩壞。



但仔細(xì)想想就會發(fā)現(xiàn),這不就是《 蠟筆小新 》里面對路人角色的刻畫方式嘛,太厲害了。



到目前為止,GPT Image-1 是完勝,Nano Banana Pro 的方法也有一定規(guī)律性,重點抓部分人物細(xì)節(jié)比如人臉、體型等,但失了對整體的把控。

而接下來《 JoJo 的奇妙冒險 》畫風(fēng)的轉(zhuǎn)換測試,又一次讓知危開了眼界。

畫風(fēng)參考圖:



Nano Banana Pro 完美再現(xiàn)了 JoJo 獨特的面部雕塑風(fēng)格,當(dāng)然它使用的還是一樣的手法,即聚焦面部和體型模仿,該有的缺點也都有,但就是覺得很成功,可能這兩點就是 JoJo 的畫風(fēng)精髓。



至于 GPT Image-1,且不說有多失敗,簡直可以說沒禮貌。



接下來,為了再極致地測試一下 Nano Banana Pro 的細(xì)節(jié)刻畫能力,我們還是用火影忍者的原圖,以及 JoJo 的畫風(fēng),但要增加人數(shù),比如八人的曉組織。

原圖:



Nano Banana Pro 雖然只是把部分人物 JoJo 化,但人物線條更加硬朗了,而且這次人物的畫面布局沒有被改變。



GPT Image-1 又出現(xiàn)相同的崩壞,原因不明。



我們繼續(xù)增加人數(shù),這一次畫面中大概有百來人。

原圖:



Nano Banana Pro 這次只完成了線條硬朗化,但真的一個人都沒落下。



總體而言,Nano Banana Pro 的畫風(fēng)轉(zhuǎn)換能力還是不如 GPT Image-1,但其有自己的特點,Nano Banana Pro 的一大優(yōu)勢就在于對局部細(xì)節(jié)的精確刻畫,畢竟這項能力是通過死磕文字渲染得到的,可能因此使其對畫面整體把握度不夠。

在測評過程中也發(fā)現(xiàn)很多出問題的案例,Nano Banana Pro 是直接給你一個完全沒改過的圖像。目前大家對這些現(xiàn)象的猜測是模型的自回歸機制比重大于擴散機制,也就是微調(diào)傾向大于重新繪制傾向。



接下來是對復(fù)雜指令遵循能力的測試,主要指一次性批量生成多個元素的能力,這也是當(dāng)時 OpenAI 對 GPT Image-1 模型的宣傳重點,所以這個測試也是對標(biāo) GPT Image-1 的。

首先是直接批量生成 36 個 呈 6*6 網(wǎng)格排列的玩具機器人陣列,并且每個機器人的具體特征需要經(jīng)過進(jìn)一步推導(dǎo)才可得出,綜合考驗推理能力和生圖能力,提示詞會列出機器人基于行的顏色特征和基于列的表面特征。

提示詞:

嚴(yán)格俯視(正上方正交/orthographic top-down),整齊排列的 6x6 網(wǎng)格(6 行 × 6 列),白色背景,細(xì)薄灰色網(wǎng)格線將每個單元格分隔開。每個單元格正中放置一個玩具機器人(總計 36 個),每個機器人都有**確定且唯一**的外形屬性和編號(兩位數(shù),從 01 到 36,編號以黑色或深灰色小字印在機器人底座或底盤一側(cè),清晰可辨)。

機器人風(fēng)格:復(fù)古玩具(懷舊機械/齒輪/鉚釘感),色彩鮮艷但材質(zhì)各異(按規(guī)則分配),每行和每列遵循確定性屬性映射(見下方規(guī)則),確保所有機器人互不重復(fù)。

嚴(yán)格保持頂視無透視變形(無魚眼、無傾斜),均勻平行光(自上而下)、細(xì)微柔和投影以顯示立體感但不改變頂視輪廓。

高分辨率、超細(xì)節(jié),8K 輸出(或更高),極致細(xì)節(jié)(紋理、螺絲、劃痕、貼紙、反光、鉚釘、漆面厚度等),無景深模糊。

畫面干凈:只出現(xiàn)機器人、網(wǎng)格線與白色背景。高保真、真實感玩具質(zhì)感 + 稍微卡通化的色彩飽和度。

確定性生成規(guī)則:

為了保證“每一個機器人都不同且可復(fù)現(xiàn)”,請按照下面規(guī)則組合屬性(行 × 列 的組合生成唯一外形):

行主色(Row 1 → Row 6,決定主色調(diào))

Row 1: 正紅(crimson)

Row 2: 橙黃(amber)

Row 3: 橙(tangerine)

Row 4: 黃(sunny yellow)

Row 5: 綠(emerald)

Row 6: 青(teal)

列材質(zhì)/表面處理(Column 1 → Column 6,決定材質(zhì)與整體質(zhì)感)

Col 1: 拋光金屬(polished steel)

Col 2: 拉絲鋁(brushed aluminum)

Col 3: 黃銅(brass)

Col 4: 鉻鍍層(chrome)

Col 5: 涂漆塑料(high-gloss painted plastic)

Col 6: 半透明塑料(translucent acrylic)

向上滑動文字

Nano Banana Pro 和 GPT Image-1最終都沒有給出好的結(jié)果,在畫面比例選擇、網(wǎng)格編排、機器人編號、顏色行一致性、表面列一致性等方面都有問題,GPT Image-1 的表現(xiàn)更差。

Nano Banana Pro:



GPT Image-1:



下一步降低要求,把提示詞改為逐一描述每個機器人的特征,降低推理負(fù)擔(dān),比如第二行機器人的特征描述:

Row 2(橙 主色)

Robot 07 — 主色:橙;材質(zhì):拋光金屬。桶狀胸腔、豎直鉚釘排。

Robot 08 — 主色:橙;材質(zhì):拉絲鋁。立方胸腔,粗紋理拉絲面。

Robot 09 — 主色:橙;材質(zhì):黃銅。蝕刻花紋胸板。

Robot 10 — 主色:橙;材質(zhì):鉻鍍層。流線腿部,鉻色邊框。

Robot 11 — 主色:橙;材質(zhì):高光塑料。亮面大頭造型,塑料光澤強。

Robot 12 — 主色:橙;材質(zhì):半透明塑料。橙色半透明外殼,見內(nèi)層接縫。

Nano Banana Pro 大幅提高了生成質(zhì)量,畫面比例選擇、網(wǎng)格編排、機器人編號、顏色行一致性基本都沒有問題,表面列一致性上會有較大波動,但整體保持了相同的材質(zhì)和表面處理,不同列之間的差異也很明顯。



GPT Image-1 則幾乎沒有任何改善:



GPT Image-1 目前完敗,我們繼續(xù)給 Nano Banana Pro 上難度,按行且以以下三個特征為一個循環(huán),依次給每一個機器人再添加一個新特征:

  • 戴著圍巾/布條( scarf )。
  • 頭頂有發(fā)光燈泡/信號燈( beacon )。
  • 三指機械手( three-finger )。

比如:

Row 2(橙 主色)

Robot 07 — 主色:橙;材質(zhì):拋光金屬。桶狀胸腔、豎直鉚釘排。戴著圍巾/布條(scarf)。

Robot 08 — 主色:橙;材質(zhì):拉絲鋁。立方胸腔,粗紋理拉絲面。頭頂有發(fā)光燈泡/信號燈(beacon)。

Robot 09 — 主色:橙;材質(zhì):黃銅。蝕刻花紋胸板。三指機械手(three-finger)。

Robot 10 — 主色:橙;材質(zhì):鉻鍍層。流線腿部,鉻色邊框。戴著圍巾/布條(scarf)。

Robot 11 — 主色:橙;材質(zhì):高光塑料。亮面大頭造型,塑料光澤強。頭頂有發(fā)光燈泡/信號燈(beacon)。

Robot 12 — 主色:橙;材質(zhì):半透明塑料。橙色半透明外殼,見內(nèi)層接縫。三指機械手(three-finger)。

生成的結(jié)果既驚艷又令人遺憾,Nano Banana Pro幾乎已經(jīng)按照提示詞生成了每個機器人應(yīng)有的特征,但網(wǎng)格排列錯誤且視覺混亂。



目前可以認(rèn)為 Nano Banana Pro 的復(fù)雜指令遵循能力,是比 GPT Image-1 更勝一籌的。



接下來是測試 Nano Banana Pro 以假亂真的能力。

在 AI 接連攻破各種圖片生成能力限制后,人類只能以圖片瑕疵和現(xiàn)實隨機性作為最后防線,但這道防線也變得越來越脆弱,所以這其實是在測試該模型的安全風(fēng)險。

知危接連測試了監(jiān)控、老版數(shù)碼相機拍攝人物照片、手機拍攝物體照片、新聞屏幕,以及物理、化學(xué)、生物實驗室拍攝等場景。

首先是監(jiān)控畫面的模擬,從圖中場景相關(guān)的線索比如香煙、拍攝時間、監(jiān)控標(biāo)識等很難發(fā)現(xiàn)問題,而最終找到的破綻竟然是畫面左下角不應(yīng)該朝向顧客的計算器。

提示詞:

便利店收銀臺視角的監(jiān)控畫面,低分辨率,色彩略微失真,一個戴著口罩的人正在買煙。



人物照片則是比較能感受到違和感,畢竟 AI 直接生成的人物通常面部油膩光感很強,且特征比較趨同。

提示詞:

2000年代初的數(shù)碼相機拍攝,直射閃光燈,一群年輕朋友在一家昏暗的 KTV 里,紅眼效應(yīng),皮膚上的油光,背景漆黑。



不過若是基于真實照片生成,預(yù)計會很難辨認(rèn)。

對于手機拍攝的物體照片,其仿真度也很高。特別是 Nano Banana Pro 確實能做到讓物體的擺放足夠凌亂而自然,知危找到的唯一破綻是可樂瓶的文字寫倒了,但這通過微調(diào)也能輕松修改過來。

提示詞:

一張在亂糟糟的床上拍的二手顯卡照片,床單皺皺巴巴,旁邊還有雜亂的充電線和半瓶可樂,頂燈光線昏暗。



這個照片的拍攝角度其實不是特別自然,可以讓 Nano Banana Pro 切換視角,生成效果也是一致性驚人,精確到每一個褶皺,還順便把可樂瓶的文字給修正了。



看來,往后很多二手平臺、評論區(qū)照片的真實性都需要更謹(jǐn)慎判斷了。

不僅是照片,連一段新聞是不是真的存在,可能也得多求證一番,為此知危也測試了這個場景。畫面幾乎無可挑剔,連摩爾紋都清晰地呈現(xiàn)了。

提示詞:

電視新聞畫面的屏攝(用手機拍電視屏幕),能看到屏幕的像素摩爾紋,新聞底部有滾動字幕條,一個記者在街頭采訪。



測試實驗室拍攝場景的仿真能力,主要是測試面向科研領(lǐng)域的安全風(fēng)險。科研領(lǐng)域是最嚴(yán)謹(jǐn)?shù)孬@取新數(shù)據(jù)和新知識的場景,如果這道防線被攻破,人類將不自知地被困在 AI 生成數(shù)據(jù)的牢籠中,科研數(shù)據(jù)不再有新穎性或已有規(guī)律下的隨機性,那才是真正被智子封鎖了人類的科技發(fā)展。

當(dāng)然這里測試的更多是比較初級的科研場景,不然知危沒有足夠的專業(yè)知識來判斷真?zhèn)巍?/p>

在物理實驗場景中,有一個很經(jīng)典的實驗,就是用一顆子彈穿過蘋果,觀察蘋果的物理反應(yīng)和變化。



在實際實驗情況下,蘋果潑濺的碎片是近乎粉末狀的。



圖源:
https://www.youtube.com/watch?v=jjUTZH_Vdxs(視頻發(fā)布于18年前)

但 Nano Banana Pro 生成的圖像( 先不管不合理的攝像頭 ),蘋果潑濺的碎片卻像是切好的蘋果塊。

提示詞:

一顆子彈高速穿過一顆蘋果的瞬間。實驗室實拍,分辨率較低。



Nano Banana Pro 還能生成子彈穿過梨的圖像,至于是否足夠仿真暫時無法判斷,知危沒有找到類似的實驗視頻來比較。

提示詞:

一顆子彈高速穿過一顆梨的瞬間。實驗室實拍,分辨率較低。



在接下來的化學(xué)實驗、生物實驗仿真測試中,Nano Banana Pro 的表現(xiàn)也是驚人的。

提示詞:

鋁粉與氧化鐵(鐵銹)在高溫下發(fā)生劇烈的氧化還原反應(yīng),火花四濺,實驗室實拍,分辨率較低。



提示詞:

培養(yǎng)皿中的細(xì)菌菌落特寫,瓊脂表面有反光,菌落呈現(xiàn)不規(guī)則的圓形,邊緣有絨毛感。實驗室實拍,分辨率較低。



以上種種場景,如果以后都要依賴人類靠肉眼去判斷,不僅難度大,也非常消耗時間精力。

這就不得不慶幸谷歌已經(jīng)推出了安全功能,Nano Banana Pro 會給每一張生成圖像添加的不可見獨特 SynthID 水印,讓用戶可以用 Gemini 直接檢驗圖像是否由 Nano Banana Pro 生成。



空間感可謂是 Nano Banana Pro 的招牌能力,類似 GPT Image-1 的畫風(fēng)轉(zhuǎn)換目前牢不可破的 “ 江湖地位 ”。

網(wǎng)上已經(jīng)有很多例子了,知危這里只是用比較困難的場景再給 Nano Banana Pro 再上上難度。

比如對于下圖,要求 Nano Banana Pro 畫出從左向右觀察的鳥瞰視圖。



圖源:
https://unsplash.com/photos/a-view-of-a-city-with-a-bridge-in-the-background-ZuxmKH6sCz8

Nano Banana Pro 最終沒有執(zhí)行成功,而是給出了和原圖一樣的輸出。



通過查看推導(dǎo)過程,發(fā)現(xiàn) Nano Banana Pro 可以認(rèn)出圖中中央位置的大橋是曼哈頓大橋。



知危又替換了新的提示詞:

畫出從這張圖的中央位置的大橋的左端駕車前進(jìn)的視圖。

這個任務(wù)其實更加困難,但 Nano Banana Pro 卻執(zhí)行成功了,雖然觀察視角并不是真的在車上。當(dāng)然圖中也出現(xiàn)了很明顯的幻覺,右側(cè)的大樓其實不存在,那是建好的曼哈頓廣場一號,正好就是左側(cè)正在施工中的大樓。



對現(xiàn)實中的圖片做空間轉(zhuǎn)換有過度依賴訓(xùn)練數(shù)據(jù)的可能,比如從谷歌地圖的全景照也能找到類似上圖幻覺部分的視角。



為了擺脫這個依賴,我們再找一些現(xiàn)實中未建成的建筑設(shè)計圖來考考 Nano Banana Pro 。

比如下圖是出自伊斯坦布爾 Hayri Atak 建筑設(shè)計工作室的作品,其建筑形態(tài)很罕見,借鑒了生物細(xì)胞結(jié)構(gòu)。



當(dāng)要求 Nano Banana Pro 畫出這張建筑的空中鳥瞰視圖,結(jié)果很不錯,建筑內(nèi)部四個交叉通道的空間細(xì)節(jié)都有考慮到,周邊建筑的細(xì)節(jié)也沒毛病。但陽光和陰影的呈現(xiàn)表明建筑左側(cè)是不透光的,這里其實有誤。



當(dāng)再要求畫出建筑的空中鳥瞰左視圖,對內(nèi)部結(jié)構(gòu)的呈現(xiàn)就出現(xiàn)了比較嚴(yán)重的錯誤,通道的連接不再是交叉的而是近乎無規(guī)則的。



總之,對于空間智能,谷歌邁出了很重要的一小步,且有數(shù)據(jù)優(yōu)勢( 視頻、地圖等 ),但未來還有很長的路要走。



最后一個測試場景是重頭戲!

我們要考驗 Nano Banana Pro 的長上下文感知能力,類似 PPT 生成需要保持多圖一致性,并且該場景更有趣,是用五張橫版圖片拼接而成的《 清明上河圖 》畫風(fēng)的、展現(xiàn)明朝或唐朝時期的長江流域風(fēng)景與民俗風(fēng)情的新版《 清明上河圖 》。

要知道,原版《 清明上河圖 》刻畫的只有一個城市,也就是北宋都城汴京( 今河南開封 )的汴河兩岸繁華景象,現(xiàn)在要切換到整個長江流域,跨度差距非常大,很考驗?zāi)P偷某橄竽芰桶殉橄蟾拍罹呦窕哪芰?/strong>,并且結(jié)合中國古畫 “ 在意不在形 ” 的特點( 在我們這個測試中通俗理解就是,畫中場景一般不存在現(xiàn)實中,且有諸多不合理之處,但能表達(dá)作者的意圖 )。

在實現(xiàn)過程中,知危還會先用 Nano Banana Pro 先做整個項目的藍(lán)圖,再逐一生成五張成圖,相當(dāng)于把知識科普能力融入到復(fù)雜生圖項目工作流的規(guī)劃階段。

在藍(lán)圖規(guī)劃中,Nano Banana Pro 對地理版圖的刻畫可謂相當(dāng)精準(zhǔn)。

提示詞:

時間背景為明朝1587年,把長江劃分為5段,用橫版歷史科普圖的方式展示,以長江主河道為脈絡(luò)(抽象化為直線),用文字和圖像標(biāo)注每一段的端點地理特征(比如城市、山脈等)、沿岸主要城市和民俗風(fēng)情。



為了生成這幅明朝長江版《 清明上河圖 》的第一張,知危要求 Nano Banana Pro 只將第一段轉(zhuǎn)換成清明上河圖畫風(fēng),即 “ 金沙江至敘州 ” 部分,并且為了讓五張圖片能夠首尾連接,要求長江從圖片左側(cè)流向右側(cè)。

Nano Banana Pro 在圖像左側(cè)展現(xiàn)了長江的源頭:白雪皚皚的山峰、牦牛和茶馬商隊,體現(xiàn)了藏族和彝族文化。圖像右側(cè)則聚焦于敘州,描繪了城墻、熙熙攘攘的碼頭、餐館和熱鬧的集市,以及眾多活躍的人物。江面上也充滿生機,描繪了貨輪、小渡船和船夫,展現(xiàn)一幅繁榮的貿(mào)易景象。

提示詞:

請將“上游一段:金沙江至敘州”部分轉(zhuǎn)換成清明上河圖畫風(fēng),橫版圖片,長江從圖片左側(cè)流入,從圖片右側(cè)流出。



生成第二張圖即 “ 上游二段:敘州至夷陵”部分的提示詞是類似的形式,需要加一句“與上一段首尾連接 ”。

Nano Banana Pro 重點刻畫了長江的奔流以及三峽的壯麗景色,畫面中還點綴著精致的船只,并在右側(cè)過渡到夷陵。

提示詞:

請將“上游二段:敘州至夷陵”部分轉(zhuǎn)換成清明上河圖畫風(fēng),橫版圖片,長江從圖片左側(cè)流入,從圖片右側(cè)流出,并且圖片左側(cè)與“上游一段:金沙江至敘州”部分的圖片右側(cè)銜接。



在第三張圖 “ 中游:夷陵至九江 ” 部分,Nano Banana Pro 刻畫了更加繁榮的城市景象,融入了沿河生活和商業(yè)的豐富細(xì)節(jié),河流蜿蜒穿過山巒和富饒的平原,形形色色的船只在繁忙的水道上來往。



在第四張圖 “ 下游:九江至應(yīng)天 ” 部分,Nano Banana Pro 生成的內(nèi)容感覺和第三張重復(fù)太多。



在第五張圖 “ 入??冢簯?yīng)天至東海 ” 部分,Nano Banana Pro 采用更廣闊的視角,展現(xiàn)了長江入海口的景象,并過渡到了三角洲景觀,最后以東海的景色結(jié)束。



可以看出,這五張畫作的畫風(fēng)一致性很強,并呈現(xiàn)和區(qū)分了長江流域不同河段的地理特點,人物分布非常密集,細(xì)看也能看出他們是真的在忙活,活靈活現(xiàn)。

如果把它們首尾拼接,雖說不能完美銜接,卻也真的有自然過渡的效果。











以上案例已經(jīng)非常接近完美,但更多是視覺娛樂,如果是為了教育目的,則目前對知識細(xì)節(jié)比如民俗的呈現(xiàn)其實不夠明確。

為此,我們提高對明確信息的要求,讓 Nano Banana Pro 在每一段呈現(xiàn) 5 個民俗點,并寫一首七言絕句,以唐朝為背景。

強調(diào)明確信息的結(jié)果是,Gemini 可能覺得任務(wù)復(fù)雜,先調(diào)用 Gemini 3 Pro 分析了一番。



可能是因為知識密度更高,Nano Banana Pro 選擇了抽象的概念圖而不是地理圖來呈現(xiàn)。

提示詞:

時間背景為唐朝636年,把長江劃分為5段,用橫版歷史科普圖的方式展示,以長江主河道為脈絡(luò)(抽象化為直線),用文字和圖像標(biāo)注每一段的端點地理特征(比如城市、山脈等)、沿岸主要城市和民俗風(fēng)情(每段至少5個),并給每一段基于民俗風(fēng)情寫一首七言絕句。



最終成圖中,Nano Banana Pro 生成的幾乎每一個人物細(xì)節(jié)都是可辨識的知識點,比如第一張圖的吹羌笛、牦牛運輸?shù)龋恳粡垐D之間的區(qū)分度也更高了。不過對比之下,人物數(shù)量少了很多。

以下知危將 Gemini 3 Pro 列舉的民俗風(fēng)情與對應(yīng)畫作呈現(xiàn)出來,大家可以細(xì)看匹配程度。

“ 第一段:雪域清源·羌藏高原 ” 民俗風(fēng)情:

  • 羌笛悠揚:居住在岷山一帶的羌人吹奏羌笛,聲音蒼涼,寄托思鄉(xiāng)之情。
  • 游牧生活:吐蕃部族逐水草而居,住黑牦牛毛帳篷,以乳酪、肉食為主。
  • 牦牛運輸:高寒山路上,耐寒負(fù)重的牦牛是唯一的駝運工具。
  • 原始苯教:對自然神靈、神山圣湖的崇拜信仰,進(jìn)行祭祀活動。
  • 毛紡織藝:利用牛羊毛紡織毪子(毛毯)、褐衫等御寒衣物。



“ 第二段:巴山蜀水·川江號子 ” 民俗風(fēng)情:

  • 川江號子:船工們在險灘惡水中齊力拉纖、劃槳時吼唱的勞動號子,聲震峽谷。
  • 井鹽生產(chǎn):蜀地(如陵州、富順)利用竹筒汲取地下鹵水,用天然氣熬制食鹽。
  • 蜀錦織造:成都平原生產(chǎn)的絲織品,工藝精湛,圖案華麗,為唐代貢品。
  • 棧道交通:在沿江絕壁上開鑿孔穴、鋪設(shè)木板而成的險要通道。
  • 竹枝詞風(fēng):流行于巴渝民間的歌謠,常以笛、鼓伴奏,描寫當(dāng)?shù)仫L(fēng)土人情。



“ 第三段:峽江天險·猿啼巫云 ” 民俗風(fēng)情:

  • 纖夫拉纖:逆水經(jīng)過險灘時,數(shù)十名纖夫在岸邊巖石上赤身裸體、肩拉背拽。
  • 巫山神女:巫山十二峰云霧繚繞,關(guān)于神女瑤姬的美麗傳說引人遐想。
  • 兩岸猿聲:峽谷兩岸森林茂密,常有猿猴攀援啼叫,聲音空曠凄清。
  • 險灘祭江:船只過青灘、泄灘等著名險灘前,船家祭拜江神求平安。
  • 白帝城懷古:夔州白帝城,因三國劉備托孤的故事而成為文人憑吊之地。



“ 第四段:云夢澤國·荊楚魚米 ” 民俗風(fēng)情:

  • 云夢大澤:唐初江漢平原上湖泊眾多,尚未完全淤塞,呈現(xiàn)“云夢澤”的水鄉(xiāng)澤國景觀。
  • 龍舟競渡:荊楚之地紀(jì)念屈原的風(fēng)俗極盛,端午節(jié)在江面舉行賽龍舟活動。
  • 魚米之鄉(xiāng):氣候濕潤,土地肥沃,水稻種植發(fā)達(dá),漁業(yè)資源極豐富。
  • 采菱唱曲:江南女子劃著小盆船在湖中采摘菱角,口唱清新的菱歌。
  • 黃鶴樓宴飲:鄂州(今武漢)黃鶴樓是文人墨客登高望遠(yuǎn)、宴飲賦詩的名勝。



“ 第五段:吳越水鄉(xiāng)·揚一益二 ” 民俗風(fēng)情:

  • 揚州繁華:當(dāng)時中國最繁華的商業(yè)都會,號稱“揚一益二”,夜市喧鬧,胡商云集。
  • 運河漕運:隋唐大運河江南河段與長江在此交匯,南糧北運,舟船如織。
  • 江南絲綢:吳綾、越羅等絲織品品質(zhì)上乘,色彩輕盈,遠(yuǎn)銷海內(nèi)外。
  • 寺院鐘聲:繼承南朝佛教傳統(tǒng),沿江城市寺廟林立,晨鐘暮鼓,香火鼎盛。
  • 茶葉貿(mào)易:江南茶區(qū)(如湖州、常州)興盛,茶葉通過便捷水路運往全國各地。



總體來看,Nano Banana Pro 的長上下文感知能力還是很驚人的,前后一致性和自然銜接,世界知識的融入,對指令遵循的細(xì)節(jié)程度,幫助我們完成了這幅紛繁復(fù)雜的作品。











好了,本次評測就到這里了。這次測評并不是為了證明 Nano Banana Pro 不夠好,而是盡可能以 “ 能力邊界 ” 作為切入點,看它在頭部競品對標(biāo)、復(fù)雜性、真實性、多輪一致性等更極端的場景中到底能走多遠(yuǎn)。

可以看到,它在畫風(fēng)轉(zhuǎn)換上的整體性、完成度和穩(wěn)定性不如 GPT Image-1,但在元素批量生成、細(xì)節(jié)保持、多視角一致性方面展現(xiàn)出了驚喜般的優(yōu)勢;在仿真類場景中,其以假亂真的能力也已經(jīng)觸及安全性的臨界區(qū),除了谷歌自身應(yīng)承擔(dān)的責(zé)任和應(yīng)對手段,也需要行業(yè)進(jìn)一步思考防范機制。

從更宏觀的角度看,Nano Banana Pro 畫新版《 清明上河圖 》的完成度以及生成 PPT 的能力,讓我們意識到一個很自然的趨勢,未來的生圖模型不再只是一次性 “ 把提示詞畫出來 ”,而是深度結(jié)合上下文以及 Agentic 化,類似于編程模型的發(fā)展路徑,不斷嵌入到更復(fù)雜、更核心的項目工作流中。

總之,Nano Banana Pro 是一款極具潛力、但也需要被認(rèn)真認(rèn)識的下一代模型。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗宣布斬首以色列空軍司令,摧毀法國海軍基地!

伊朗宣布斬首以色列空軍司令,摧毀法國海軍基地!

勝研集
2026-03-02 00:05:34
NBA中國官網(wǎng):楊瀚森最近有個“不成文義務(wù)”,給傷員當(dāng)“陪練”

NBA中國官網(wǎng):楊瀚森最近有個“不成文義務(wù)”,給傷員當(dāng)“陪練”

懂球帝
2026-03-02 15:23:08
任意球世界波!梅西70球追平貝利,2射1傳獲9.5分,5數(shù)據(jù)居首

任意球世界波!梅西70球追平貝利,2射1傳獲9.5分,5數(shù)據(jù)居首

奧拜爾
2026-03-02 10:28:16
重磅消息:數(shù)架美國戰(zhàn)機墜毀!

重磅消息:數(shù)架美國戰(zhàn)機墜毀!

占豪
2026-03-02 17:32:13
大量食用油被檢測出致癌物!自查廚房是否有這3種油,可別再吃了

大量食用油被檢測出致癌物!自查廚房是否有這3種油,可別再吃了

讀懂世界歷史
2026-03-01 18:09:06
官宣!17歲新星前鋒,獲中國足球金童獎,U17亞預(yù)賽狂轟5場9球

官宣!17歲新星前鋒,獲中國足球金童獎,U17亞預(yù)賽狂轟5場9球

小金體壇大視野
2026-03-02 17:08:27
又有兩國參戰(zhàn)中東!關(guān)鍵時刻,美媒曝出消息:沙特把中國也騙了?

又有兩國參戰(zhàn)中東!關(guān)鍵時刻,美媒曝出消息:沙特把中國也騙了?

讓心靈得以棲息
2026-03-02 17:31:20
美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點燃

美軍瞞不住了!炸航母基地,炸11億美元雷達(dá),幾十萬噸燃油被點燃

夢史
2026-03-01 11:22:23
美國防部將就針對伊朗的軍事行動召開新聞發(fā)布會

美國防部將就針對伊朗的軍事行動召開新聞發(fā)布會

界面新聞
2026-03-02 10:30:00
NBA排名大亂!火箭第3,湖人掉第6;騎士坐4望3,黃蜂沖前7

NBA排名大亂!火箭第3,湖人掉第6;騎士坐4望3,黃蜂沖前7

麥子的籃球故事
2026-03-02 18:25:41
彈跳驚人,謝什科慶祝時跳得太高在鏡頭前出畫了

彈跳驚人,謝什科慶祝時跳得太高在鏡頭前出畫了

懂球帝
2026-03-02 01:05:13
日本玩大了!P-3C首闖臺島咽喉,解放軍當(dāng)場翻臉,全程貼臉硬剛!

日本玩大了!P-3C首闖臺島咽喉,解放軍當(dāng)場翻臉,全程貼臉硬剛!

古史青云啊
2026-03-02 10:36:50
從設(shè)計院到包子店:一位45歲建筑師靠“打零工”重啟人生

從設(shè)計院到包子店:一位45歲建筑師靠“打零工”重啟人生

北青深一度
2026-02-28 16:09:26
300萬在上海買得了什么樣的房?

300萬在上海買得了什么樣的房?

真叫盧俊
2026-03-02 10:14:16
臨死之前,哈梅內(nèi)伊做對了此生最后一件事!讓特朗普無法如愿以償

臨死之前,哈梅內(nèi)伊做對了此生最后一件事!讓特朗普無法如愿以償

青煙小先生
2026-03-02 11:03:39
真相大白!王曼昱丟冠原因曝光,是打不過莎莎嗎?張繼科早有預(yù)言

真相大白!王曼昱丟冠原因曝光,是打不過莎莎嗎?張繼科早有預(yù)言

曹說體育
2026-03-01 22:16:15
美國媒體:因芯片含有中國稀土,臺積電無法向美國供應(yīng)半導(dǎo)體芯片

美國媒體:因芯片含有中國稀土,臺積電無法向美國供應(yīng)半導(dǎo)體芯片

Thurman在昆明
2026-03-02 01:17:58
上海富人家保姆狂偷戶主奢侈品,監(jiān)控流出評論區(qū)嚇傻了

上海富人家保姆狂偷戶主奢侈品,監(jiān)控流出評論區(qū)嚇傻了

不二表姐
2026-02-24 22:17:15
美國警方承認(rèn)谷愛凌曾遭毆打,手臂抓傷嚴(yán)重,未來人身安全存隱患

美國警方承認(rèn)谷愛凌曾遭毆打,手臂抓傷嚴(yán)重,未來人身安全存隱患

削桐作琴
2026-03-01 14:27:41
CME:紐約商交所原油期貨開盤時觸發(fā)熔斷機制

CME:紐約商交所原油期貨開盤時觸發(fā)熔斷機制

每日經(jīng)濟新聞
2026-03-02 09:27:05
2026-03-02 18:43:00
知危 incentive-icons
知危
投資不立危墻之下
540文章數(shù) 1833關(guān)注度
往期回顧 全部

數(shù)碼要聞

內(nèi)存價格創(chuàng)下歷史記錄 手機漲價潮最快一周內(nèi)“殺到”

頭條要聞

伊朗曾組建反間諜機構(gòu) 結(jié)果最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜

頭條要聞

伊朗曾組建反間諜機構(gòu) 結(jié)果最后發(fā)現(xiàn)負(fù)責(zé)人就是以間諜

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財經(jīng)要聞

金銀大漲 市場仍在評估沖突會否長期化

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
手機
旅游
藝術(shù)

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫#钟袝蟊P殺出!

數(shù)碼要聞

雙OLED屏加持專攻3D開發(fā)!聯(lián)想發(fā)布Yoga Book Pro 3D筆記本

手機要聞

視頻能力能媲美iPhone 春晚已經(jīng)驗證!vivo X300 Ultra正式亮相 三大創(chuàng)新公布

旅游要聞

門票半價 財神送湯圓!雞公山、白云山給全國游客送福利啦!

藝術(shù)要聞

日本選出的“新書圣”!他的字500年難得一遇,據(jù)說只有博士才能看懂

無障礙瀏覽 進(jìn)入關(guān)懷版