国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Nano Banana團(tuán)隊(duì)談產(chǎn)品和圖像模型:希望各種模態(tài)能融合在一起

0
分享至

在美國紅點(diǎn)創(chuàng)投的播客Unsupervised Learning最新一期節(jié)目中,紅點(diǎn)創(chuàng)投合伙人Jacob Effron對話了負(fù)責(zé)Nano Banana的兩位Google研究員Nicole Brichtova和Oliver Wang。討論認(rèn)為,Nano Banana的流行,歸功于這款模型實(shí)現(xiàn)了前所未有的“角色一致性”。

Nano Banana在8月26日“匿名”發(fā)布,后來證明這款模型就是谷歌的Gemini 2.5 Flash Image模型。Nano Banana的成功也使得谷歌的Gemini APP的下載量飆升。

據(jù)應(yīng)用數(shù)據(jù)分析公司Appfigures提供的最新數(shù)據(jù),這款應(yīng)用已經(jīng)攀升至全球應(yīng)用商店排行榜的榜首,并且在九月份下載量環(huán)比增長了45%。雖然九月份才過了一半,Gemini應(yīng)用本月已經(jīng)獲得了1260萬次下載,遠(yuǎn)高于八月份的870萬次。在此之前,Gemini僅在2025年1月28日達(dá)到過美國App Store的第三名。谷歌母公司Alphabet(GOOG.US)在8月26日至9月17日收盤的股價(jià)漲幅為19.56%。

Gemini下載量數(shù)據(jù)(來源:Appfigures、TechCrunch)

在產(chǎn)品之外,這期播客訪談內(nèi)容涵蓋了模型如何融入創(chuàng)意工作流程,為什么盡管當(dāng)前AI圖像能力已經(jīng)讓人感覺很強(qiáng)大但“仍處于AI圖像發(fā)展的早期階段”,以及圖像與視頻生成如何正趨向統(tǒng)一。

在訪談中,Nicole Brichtova和Oliver Wang分還享了當(dāng)前模型的局限性、安全策略,以及為什么“從提示一步到生成可直接用于生產(chǎn)的內(nèi)容”這一期待其實(shí)被嚴(yán)重高估了。

以下為「明亮公司」編譯的訪談?wù)模ㄓ袆h節(jié)):

Nicole(左)、Oliver(中),主持人Jacob(右)

Nano Banana的成功歸功于角色的一致性

Jacob:Nicole和Oliver,非常感謝你們來到節(jié)目。我一直很期待這次對話。感覺你們已經(jīng)占據(jù)了我整個(gè)Twitter動態(tài)、還有我所有的空閑時(shí)間,都是Nano Banana。

今天我們會深入探討很多話題。也許我們可以先從這個(gè)問題開始——你們在產(chǎn)品和模型發(fā)布前就已經(jīng)接觸并體驗(yàn)了它,我記得最初可能是匿名發(fā)布的。但你們是最早一批玩轉(zhuǎn)它的人,我很好奇,你們最初認(rèn)為哪些用例會最流行或讓你們最興奮?而現(xiàn)在發(fā)布后,實(shí)際情況又如何?

Nicole:Oliver已經(jīng)見過很多我臉部的各種迭代圖片。對我來說,最激動人心的是角色一致性,以及能在新場景中看到自己——所以我真的有一堆幻燈片,都是我的臉,比如通緝海報(bào)、考古學(xué)家,還有我童年夢想的職業(yè)。

基本上,我們現(xiàn)在創(chuàng)建了一個(gè)包含我的臉和團(tuán)隊(duì)其他成員的評估數(shù)據(jù)集,每當(dāng)我們開發(fā)新模型時(shí)都會用來測試。

Jacob:在AI領(lǐng)域,這簡直是最高榮譽(yù)了。

Nicole:我真的很興奮。所以我非??粗亟巧恢滦裕?yàn)樗o了人們一種全新的方式去想象自己,以前很難做到。這也是大家最終非常激動的原因之一。我們看到很多人把自己變成了手辦,這是非常受歡迎的用例之一。還有一個(gè)讓我感到驚喜但其實(shí)也合理的用法——人們?yōu)槔险掌仙?,這是非常有情感價(jià)值的用例。比如:現(xiàn)在我能看到自己小時(shí)候真實(shí)的樣子,或者能看到父母從黑白照片中還原出來的真實(shí)模樣。

Jacob:這真的很有趣。我相信看到大家的各種用法也是你們擁有熱門產(chǎn)品的樂趣之一。我在Twitter上也見過,你們一定收到無數(shù)功能請求吧?每個(gè)人都希望模型能做這或那。最常見的需求有哪些?你們?nèi)绾慰创@些產(chǎn)品和模型的下一個(gè)里程碑或發(fā)展的方向?

Nicole:Twitter上最多的需求是更高分辨率。目前很多專業(yè)用戶都在請求1K分辨率以上的圖像。還有很多請求希望支持透明背景,這是專業(yè)用戶很常見的需求。這兩點(diǎn)是我見到最多的,還有更好的文本渲染。

Jacob:角色一致性曾經(jīng)是很難解決的大問題,你們在這方面做得非常棒。你們認(rèn)為圖像模型改進(jìn)的下一個(gè)前沿是什么?

Oliver:對我來說,這個(gè)模型最令人興奮的一點(diǎn)是它可以開始接受更難的問題。以前你必須定義你想要的圖像的每個(gè)細(xì)節(jié),現(xiàn)在你可以像問語言模型一樣尋求幫助。例如,有人用它來重新裝修房間,但自己沒有主意,讓模型給出建議。模型能根據(jù)配色方案等給出合理建議。

我認(rèn)為最有趣的是結(jié)合語言模型的世界知識,讓圖像模型真正幫助用戶,甚至展示他們沒想到的東西。比如信息檢索請求——我想知道某個(gè)東西是如何工作的,模型能生成解釋圖片。我覺得這是未來很重要的用例。

Jacob:在這方面進(jìn)展如何?

Oliver:審美方面始終比較棘手,因?yàn)樾枰疃葌€(gè)性化才能給出有用的信息。我認(rèn)為個(gè)性化是技術(shù)側(cè)還在不斷改進(jìn)的領(lǐng)域。我們還需要一段時(shí)間才能真正理解用戶的需求,但如果能和模型對話,不斷澄清和細(xì)化,我覺得很令人期待。比如可以在對話線程中反復(fù)溝通,直到生成你想要的圖片。

Jacob:你覺得個(gè)性化會只發(fā)生在提示層面嗎?就是通過足夠的描述,給模型足夠的上下文來實(shí)現(xiàn)個(gè)性化?還是大家會有不同的美學(xué)模型?

Oliver:我認(rèn)為會更多發(fā)生在提示層面。比如用戶告訴你的信息,可以讓我們做出更明智的決策。希望能這樣,畢竟每個(gè)人都有自己的模型并分別服務(wù),聽起來很復(fù)雜,但也許未來就是這樣。

Nicole:但我確實(shí)認(rèn)為美學(xué)會有很大差異。我覺得在某種程度上,個(gè)性化必須在那個(gè)層面實(shí)現(xiàn)。你在Google購物標(biāo)簽頁就能看到,比如你在找毛衣,系統(tǒng)會給你推薦一堆,但你其實(shí)希望聚焦于自己的美學(xué),甚至能從你的衣柜中選出搭配。我希望這些都能在模型的上下文窗口里實(shí)現(xiàn)。我們應(yīng)該能把你衣柜里的圖片喂給模型,然后幫你找出合適的搭配。我對此很期待,希望能做到。也許還需要更高級的美學(xué)控制,但我覺得那可能更多發(fā)生在專業(yè)用戶層面。

在語言模型領(lǐng)域,甚至在圖像領(lǐng)域,很多決定其實(shí)都取決于預(yù)訓(xùn)練時(shí)用的數(shù)據(jù),這直接影響了模型的最終能力和美學(xué)風(fēng)格。所以我也很好奇,未來會不會有一個(gè)萬能模型,通過提示就能覆蓋所有圖像用例?還是會有各種風(fēng)格的模型?

Nicole:我們一直對現(xiàn)成模型能支持的用例范圍感到驚訝。你說得很對,很多面向消費(fèi)者的用例,比如你只是想畫出房間的效果圖,這些都可以。但一旦進(jìn)入更高級的功能,就需要集成其他工具來讓它成為最終產(chǎn)品,在營銷或設(shè)計(jì)等工作流程中發(fā)揮作用。

Jacob:大家肯定很好奇,這些模型為什么會變得這么好?

Nicole:有很多特別的原因。

Oliver:其實(shí)沒有某個(gè)單一因素,而是把所有細(xì)節(jié)都做好了,真正調(diào)試好配方,還要有一個(gè)長期專注于這個(gè)問題的團(tuán)隊(duì)。我們其實(shí)也被模型的成功程度嚇了一跳。我們知道模型很酷,很期待發(fā)布。但當(dāng)我們在LM Arena上線后,不僅Elo分?jǐn)?shù)很高,這當(dāng)然很好。分?jǐn)?shù)高是模型有用的好跡象,但對我來說,真正的指標(biāo)是有大量用戶涌入LM Arena使用模型。我們不得不不斷增加每秒查詢量,完全沒預(yù)料到。這是第一次意識到,這確實(shí)是非常有用的東西。有很多人都需要這樣的模型。

上線后Nano Banana的Elo分?jǐn)?shù)明顯領(lǐng)先(來源:LM Arena網(wǎng)站)

Jacob:我覺得這是這個(gè)生態(tài)系統(tǒng)最有趣的部分。你們自己構(gòu)建模型時(shí)有些預(yù)期,但只有真正發(fā)布到用戶手中,才能發(fā)現(xiàn)它的強(qiáng)大和影響力,這次顯然引發(fā)了巨大反響。

顯然,模型的推理能力很大程度上受益于語言模型本身的進(jìn)步。你能否介紹一下圖像模型從語言模型進(jìn)步中獲得了多少好處?你認(rèn)為這種趨勢會隨著LLM發(fā)展繼續(xù)嗎?

Oliver:當(dāng)然受益,幾乎100%依賴語言模型的世界知識。比如Gemini 2.5 Flash Image(就是這個(gè)模型的名字)。

Jacob:名字有趣一點(diǎn)就好了。

Nicole:(Nano Banana)確實(shí)更容易讀。

Oliver:我有點(diǎn)好奇我們的成功是不是因?yàn)榇蠹蚁矚g說Nano Banana這個(gè)名字。但它確實(shí)是Gemini模型的一部分,你可以像和Gemini對話一樣和它交流,它懂Gemini懂的所有東西。這是這些模型邁向?qū)嵱眯缘年P(guān)鍵一步,就是和語言模型整合。

Nicole:你可能還記得,兩三年前你必須非常具體地描述需求。比如“桌子上的貓,背景是什么,這些顏色”,現(xiàn)在不用那么詳細(xì)了。很大原因就是語言模型變得更強(qiáng)了。

Jacob:不再是后臺魔法提示轉(zhuǎn)換了。以前你輸入一句話,系統(tǒng)會自動擴(kuò)展成十句話的詳細(xì)提示,現(xiàn)在模型本身就足夠聰明,能理解你的意圖,這真的很讓人興奮。

如何打磨產(chǎn)品、多模態(tài)和語音AI的潛力

Jacob:從產(chǎn)品角度看,你們有各種不同類型的用戶。有些是專家,一上線就去LM Arena玩模型,他們很懂怎么用;還有很多普通Gemini用戶,面對“空白畫布”完全不知道該做什么。你們是怎么考慮為這兩類用戶打造產(chǎn)品的?

Nicole:我們還有很多可以做的。你說得對,LM Arena的用戶和開發(fā)者都很專業(yè),能用這些工具創(chuàng)造我們沒想到的新用例。比如有人在照片里把物體變成全息影像,我們根本沒訓(xùn)練過這種場景,但模型表現(xiàn)得很好。對于普通消費(fèi)者來說,易用性極其重要?,F(xiàn)在你進(jìn)入Gemini應(yīng)用,會發(fā)現(xiàn)到處都是香蕉表情。我們這么做是因?yàn)榇蠹衣犝fNano Banana后去找,但應(yīng)用里沒有明顯入口。

我們做了很多工作,比如和創(chuàng)作者合作預(yù)置一些用例,放出直接鏈接到Gemini應(yīng)用的示例,提示會自動填充。我覺得“零狀態(tài)”問題還有很大改進(jìn)空間,比如用視覺引導(dǎo)用戶。未來還可以讓手勢成為編輯圖片的方式,不只是靠文字提示。

有時(shí)你想要很具體的效果,還是需要很長的提示,但這對大多數(shù)用戶來說并不自然。所以我會用“父母測試法”——如果我父母能用,那就合格了,現(xiàn)在還沒做到,所以還有很長路要走。

很多問題其實(shí)就是要“展示而不是講述”,給用戶易于復(fù)制的示例,讓分享變得簡單。沒有一個(gè)魔法答案,需要多方面共同努力。

Oliver:我們還發(fā)現(xiàn)社交分享在解決“空白畫布”問題上很重要。用戶看到別人做的東西,因?yàn)槟P湍J(rèn)就能個(gè)性化,可以用自己的照片、朋友、寵物嘗試,非常容易就能模仿,這也是模型傳播的重要方式。

Jacob:現(xiàn)在大家都是用文本和模型互動,你們對未來還有什么新型設(shè)計(jì)界面感到興奮嗎?

Nicole:我覺得我們才剛剛開始探索可能性。最終我希望各種模態(tài)能融合在一起,界面能根據(jù)任務(wù)自動切換最合適的方式。現(xiàn)在大模型不僅能輸出文本,還能輸出圖片和視覺解釋,滿足用戶需求。

我覺得語音很有潛力,是很自然的交互方式,但還沒人真正做出很棒的語音界面。現(xiàn)在我們還是在輸入文字,所以未來可能結(jié)合暫停、手勢等,比如你想擦除圖片中的物體,應(yīng)該能像在草稿本上一樣操作。如何在不同模態(tài)間無縫切換,是我非常期待的方向,還有很多空間去探索實(shí)際形態(tài)。

Jacob:你覺得語音的限制是什么?我完全能想象和圖片對話。

Nicole:有些問題是優(yōu)先級的,我們還在推進(jìn)模型能力,語音這兩年也進(jìn)步很大。我覺得很快會有人嘗試,也許我們也會做一些相關(guān)工作。

問題在于如何檢測用戶意圖,然后根據(jù)意圖切換不同模式,因?yàn)椴⒉幻黠@。你可能又回到“空白畫布”問題,怎么向用戶展示功能?我們發(fā)現(xiàn)用戶進(jìn)來后對聊天機(jī)器人期望很高,覺得它什么都能做,實(shí)際上很難解釋限制,也很難展示所有功能,尤其工具能力越來越強(qiáng)時(shí)。所以要想辦法劃定范圍,在UI里展示可能性,幫助用戶完成任務(wù)。

Jacob:而且你教會用戶某個(gè)時(shí)刻機(jī)器人能做什么,三個(gè)月后又得重新教,因?yàn)楣δ芤呀?jīng)變了,這也是很有意思的產(chǎn)品挑戰(zhàn)。

很多產(chǎn)品都有評估機(jī)制,你們有自己的評估數(shù)據(jù)集,比如Nicole自己的照片。圖像模型的評估通常是什么樣?除了放到LM Arena讓用戶體驗(yàn)外,你們在追蹤模型進(jìn)步方面有哪些經(jīng)驗(yàn)?

Oliver:語言模型和視覺語言模型進(jìn)步的一個(gè)好處是能形成反饋環(huán),用語言模型的智能來評估自己生成的內(nèi)容。這形成了良性循環(huán),可以同時(shí)提升兩個(gè)維度。

但最終,用戶才是他們想要圖片的裁判。所以像LM Arena這種用戶自己輸入提示的場景,是評估模型的最佳方式。

Nicole:品味也很重要。Oliver不會夸自己,其實(shí)他在團(tuán)隊(duì)里很擅長判斷圖片效果,能發(fā)現(xiàn)問題和缺陷。我們團(tuán)隊(duì)有幾個(gè)人專門做這種“眼球評估”,就是技術(shù)性地看模型輸出效果,這在初期仍然很重要。我們也會收集用戶反饋,包括X(推特)上的意見,看看哪些地方有效,哪些地方需要改進(jìn),然后調(diào)整評估標(biāo)準(zhǔn),既保證已有功能不退步,也推動社區(qū)關(guān)心的方向。歡迎大家持續(xù)反饋。

Jacob:感覺這比語言模型難多了,比如法律用例有標(biāo)準(zhǔn)答案,模型偏離時(shí)有純粹的評估數(shù)據(jù)集。但圖片很主觀,很難明確爬坡方向。比如角色一致性能量化,但主觀性確實(shí)讓優(yōu)化變得很難。對了,Nano Banana這個(gè)名字有什么故事?

Nicole:我們團(tuán)隊(duì)有個(gè)PM叫Nana,她凌晨兩點(diǎn)半在準(zhǔn)備發(fā)布時(shí)想出了這個(gè)名字,然后大家覺得很有趣就用上了,現(xiàn)在甚至成了半官方名字。畢竟Gemini 2.5 flash image太難念了。

Jacob:確實(shí)很成功,連Google CEO都在發(fā)香蕉表情,名字的影響力很大。

Alphabet CEO Pichai在模型發(fā)布后的社交媒體信息(來源:X.com)

Nicole:品牌建議就是名字最好有合適的表情符號,這樣更容易傳播。

Jacob:感覺Hugging Face是AI界最早用表情做品牌的,現(xiàn)在我們離公司股票代碼都是表情的時(shí)代也不遠(yuǎn)了。

專業(yè)用戶的潛在應(yīng)用場景

Jacob:回到剛才的話題,你們有很多專業(yè)用戶,也有很多面對空白屏幕不知道做什么的普通用戶。你們見過最專業(yè)的用戶有哪些用法?

Oliver:我最喜歡的高級用例是視頻相關(guān)的。我大部分職業(yè)生涯都在做視頻工具,發(fā)現(xiàn)Nano Banana在AI生成視頻方面非常有用。比如結(jié)合視頻模型(VO3)可以更快地構(gòu)思、規(guī)劃鏡頭,這其實(shí)也是電影制作的流程,先做分鏡,再拍攝。現(xiàn)在大家用它構(gòu)建更連貫、更長的視頻內(nèi)容。

Nicole:我對大家用它在建筑設(shè)計(jì)流程中的表現(xiàn)印象很深??梢詮乃{(lán)圖到類似三維模型,再到設(shè)計(jì)圖,快速迭代,節(jié)省了繁瑣的流程,讓人專注于創(chuàng)意和樂趣。這種效果出乎我的意料,模型開箱即用就能做到。

Jacob:感覺是各種“五分鐘編碼”圖像用例,幫你快速搭建基礎(chǔ)內(nèi)容。

Nicole:還有網(wǎng)站設(shè)計(jì),以前從提示直接生成網(wǎng)站代碼,總覺得中間少了一個(gè)步驟,現(xiàn)在可以先快速迭代設(shè)計(jì),滿意后再編碼。

Jacob:你覺得這會成為未來的工作流嗎?確實(shí)很合理,為什么要先消耗算力生成代碼,如果審美完全不滿意,還得重來?

Nicole:而且這樣更有趣。以前大家就在現(xiàn)有流程里用技術(shù),現(xiàn)在大模型發(fā)展太快,能直接從提示到網(wǎng)站,非常驚人。但我覺得大家還是很喜歡在中間環(huán)節(jié)迭代,確保風(fēng)格符合自己需求。

Jacob:你們既有模型也有API,未來會有各種接口和用例。你們?nèi)绾螀^(qū)分哪些功能適合放在Gemini聊天工具里,哪些適合通過其他產(chǎn)品實(shí)現(xiàn)?

Nicole:體驗(yàn)很不同。我們看到大家會用Gemini做快速迭代,比如團(tuán)隊(duì)成員在重新設(shè)計(jì)花園時(shí),會用Gemini想象效果圖。然后再和景觀設(shè)計(jì)師合作,把想法進(jìn)一步完善。這是創(chuàng)意過程的第一步,很少是最終成品。而專業(yè)開發(fā)者會用更復(fù)雜的工具,串聯(lián)多個(gè)模型,工作流更復(fù)雜。聊天機(jī)器人適合啟發(fā)、靈感和分享,專業(yè)用戶還是更需要視覺化的UI。

Jacob:編輯流程會如何融合進(jìn)來?你們的API已經(jīng)集成到Adobe等工具了,傳統(tǒng)編輯流程會變得很不一樣嗎?還是最后從95%到100%完成度,還是需要傳統(tǒng)編輯工具?

Oliver:很大程度上取決于用戶。有些人對細(xì)節(jié)要求極高,像素級控制,這種場景必須和現(xiàn)有工具深度集成,比如Adobe產(chǎn)品。有些用戶只是找靈感,要求沒那么嚴(yán)格,聊天機(jī)器人快速生成想法就夠了。所以兩者都是模型的重要應(yīng)用。

Nicole:像素級控制讓我最近學(xué)到一個(gè)新點(diǎn),比如做廣告時(shí),不同品牌對模特視線的位置有嚴(yán)格要求,因?yàn)橐暰€影響廣告?zhèn)鬟_(dá)的信息。這種控制很難用聊天機(jī)器人實(shí)現(xiàn),所以專業(yè)用戶還是需要專門的精確工具。

Oliver:歸根結(jié)底,看能否用語言描述。如果只是高層次想法,語言很合適,但如果要左移三像素,語言就不太優(yōu)雅了。兩種方式都有存在意義。

Jacob:看真正的藝術(shù)家或創(chuàng)作者的完整流程,他們很難用語言精確描述自己的操作,很多時(shí)候是憑感覺。Google內(nèi)部也有很多團(tuán)隊(duì)對圖像模型感興趣,你們最期待它在Google各產(chǎn)品中的應(yīng)用有哪些?

Nicole:創(chuàng)意方面,比如在Google Photos做照片編輯很有前景,畢竟你的圖庫就在那兒。比如把家庭照片直接變成生日卡片,我每年都用得上。如果能直接在Photos里做很棒。

還有像一開始說的“事實(shí)性”用例也很有趣,比如讓模型用適合五歲孩子的方式解釋光合作用,并生成視覺化內(nèi)容,這在網(wǎng)上可能都找不到。這樣能為用戶開啟個(gè)性化、視覺化的學(xué)習(xí)體驗(yàn)。

Oliver:還有Workspace,比如PowerPoint和Google Slides。讓大家能做出更有吸引力的演示文稿,不再千篇一律。

Jacob:作為前咨詢行業(yè)人士,如果能實(shí)現(xiàn)就太棒了,大家都花太多時(shí)間在排版上了。

Nicole:以前都是先在白板上畫出幻燈片結(jié)構(gòu),寫好標(biāo)題。比如左側(cè)放某個(gè)數(shù)據(jù)集的圖表,然后把這些信息交給大模型,讓它幫你完成很多工作,我對此非常期待。

圖像模型的未來:小團(tuán)隊(duì)有機(jī)會,但調(diào)用世界知識需要大模型支持

Jacob:回顧近幾年圖像模型的發(fā)展,從Stable Diffusion到Mid Journey,Oliver你怎么看這幾年的主要里程碑?整個(gè)路徑和變化你怎么總結(jié)?

Oliver:這幾年發(fā)展簡直像火箭一樣。我早期做這方面時(shí),GAN(生成對抗網(wǎng)絡(luò))是主流方法,我們對GAN能做的事很驚訝,但它只能生成很窄分布的圖片。

比如可以生成看起來不錯(cuò)的人臉,但只能是正面照。后來出現(xiàn)能泛化、完全由文本控制的模型,雖然起步時(shí)很小很模糊,但很多人都覺得這會改變一切,于是大家都全力投入,但沒人能預(yù)料到進(jìn)步速度如此之快。

我認(rèn)為這得益于很多頂尖團(tuán)隊(duì)的良性競爭。大家看到其他團(tuán)隊(duì)出色的模型,比如Mid Journey一度遙遙領(lǐng)先,效果驚人,大家都很受激勵(lì),想知道他們怎么做到的。

尤其Stable Diffusion開源后,展示了開發(fā)者社區(qū)的規(guī)模,很多人愿意在這些模型上構(gòu)建產(chǎn)品,這是另一個(gè)重要節(jié)點(diǎn)。從那以后,整個(gè)領(lǐng)域發(fā)展非常快,雖然有時(shí)壓力很大,因?yàn)椴粌H模型變強(qiáng)了,用戶期望也越來越高?,F(xiàn)在大家會抱怨一些小問題,但一年前我們還在為不真實(shí)的圖片感到驚訝。人類對新技術(shù)的適應(yīng)力真的很強(qiáng)。

Jacob:確實(shí),如果2017年有人告訴我們會有如此強(qiáng)大的技術(shù),我們肯定會震驚,但現(xiàn)在大家總是抱怨不足。這也是人性有趣的地方。你怎么看Mid Journey當(dāng)初能領(lǐng)先一步的原因?他們一度是行業(yè)標(biāo)桿,所有人都盯著它。

Oliver:Mid Journey比其他團(tuán)隊(duì)更早掌握了后訓(xùn)練技巧,尤其是讓模型生成風(fēng)格化、藝術(shù)化圖像。他們一直專注于風(fēng)格控制,確保生成的圖片都很漂亮。剛開始時(shí),聚焦于高質(zhì)量圖片的小領(lǐng)域是很好的策略。后來所有模型,包括Midjourney和Flux等,都擴(kuò)展到更廣泛的類別,同時(shí)保持高質(zhì)量。

Jacob:是什么讓模型能生成更廣泛的圖片,不再只挑選完美作品?

Oliver:有很多原因,大家都不斷完善細(xì)節(jié),尤其是數(shù)據(jù)質(zhì)量。同時(shí),模型規(guī)模自然擴(kuò)大,算力提升,很多以前做不到的事現(xiàn)在都能實(shí)現(xiàn)了。

Jacob:你剛才也提到,我們在圖像模型上取得了巨大進(jìn)步,我很難判斷還剩多少提升空間。你怎么看未來三年?我們會不會回頭覺得現(xiàn)在的模型其實(shí)還很一般?

Oliver:我完全支持后者觀點(diǎn)。僅就圖像質(zhì)量而言,還有很大提升空間。未來的改進(jìn)點(diǎn)在于模型的表達(dá)能力?,F(xiàn)在我們能完美生成一些常見內(nèi)容,完全無法分辨是生成的還是現(xiàn)實(shí)的。但只要超出常規(guī)場景,質(zhì)量就會迅速下降,尤其是需要更多想象力、組合多概念的提示。這類場景模型很快就崩潰了。

未來模型最好的圖片可能和現(xiàn)在一樣好,但最差的圖片會大幅提升,模型會更有用、適用范圍更廣。我們發(fā)現(xiàn)模型越泛化,可支持的用例越多,價(jià)值也越大。

Jacob:你怎么看圖像模型領(lǐng)域的未來格局?相比大模型領(lǐng)域,主要是你們、OpenAI、Anthropic等大玩家,圖像模型會類似嗎?

Oliver:這是個(gè)好問題。到目前為止,圖像領(lǐng)域小團(tuán)隊(duì)也能做出頂級模型。我們看到一些小實(shí)驗(yàn)室的作品非常驚艷。我希望這種情況能持續(xù),因?yàn)槲蚁矚g小團(tuán)隊(duì)的創(chuàng)新。

但模型的世界知識、實(shí)用性很需要規(guī)模,尤其是語言模型的規(guī)模。所以我猜未來還是大型團(tuán)隊(duì)能同時(shí)訓(xùn)練強(qiáng)大的語言和圖像模型。我們看到中國的大型實(shí)驗(yàn)室也在推出很棒的模型,和語言模型一樣,所以未來他們也會成為圖像領(lǐng)域的重要玩家。

Jacob:如果用最好的開源模型而不是閉源模型,會有很大劣勢嗎?

Oliver:這很難說,取決于開源模型的未來,變化很快。一年前可能覺得開源很安全,現(xiàn)在不一定。但開源確實(shí)有可能支撐很多小團(tuán)隊(duì)繼續(xù)創(chuàng)新。好模型肯定可以。

Jacob:Oliver,想問你一個(gè)問題。你之前做視頻很多年,我一直想弄明白圖像模型和視頻模型的關(guān)系。你們團(tuán)隊(duì)在視頻方面也有很大突破。兩者是獨(dú)立的嗎?還是互相借鑒?現(xiàn)在圖像和視頻領(lǐng)域是怎樣互動的?

Oliver:非常密切相關(guān)。未來大家都在向“全能模型”發(fā)展,就是能做所有事情的模型。這些模型有很多優(yōu)勢,可能最終會勝出。

我覺得我們在圖像生成領(lǐng)域?qū)W到的很多技術(shù)都應(yīng)用到了視頻生成模型,反之亦然。這也是視頻生成能迅速發(fā)展的原因之一,因?yàn)檎麄€(gè)社區(qū)都在學(xué)習(xí)如何解決這些問題。所以我覺得兩者是非常親密的“朋友”,很多技術(shù)共享,未來可能會完全融合。

Jacob:你說的技術(shù),就是很多底層方法在不同模型間都很相似吧?

Nicole:連工作流也很像。很多用戶會把這些模型結(jié)合使用。比如電影制作,最初的構(gòu)思在大模型領(lǐng)域,然后在圖片或幀空間迭代,因?yàn)楦旄阋耍詈蟛胚M(jìn)入視頻階段。所以從工作流和可用性角度看,圖像和視頻模型之間有很多互補(bǔ)性。很多用例和問題都是共通的,比如角色、物體、場景一致性,圖像和視頻都有,只是視頻更復(fù)雜。

Jacob:你覺得視頻領(lǐng)域下一個(gè)要解決的難題是什么?

Oliver:我覺得在視頻領(lǐng)域獲得和最新圖像模型一樣的控制力,會非常有影響力,這是值得關(guān)注的方向。視頻團(tuán)隊(duì)也在提升分辨率和時(shí)間一致性,當(dāng)然還有跨場景角色一致性,大家最關(guān)心的就是這個(gè)。未來肯定會朝著更長、更連貫的內(nèi)容發(fā)展。

Jacob:這些問題可以在圖像領(lǐng)域先解決,很多方法都能遷移到視頻領(lǐng)域,這很酷。今天聊得很精彩,我們最后有一組快問快答。

首先,你們認(rèn)為目前AI領(lǐng)域有什么被高估,什么被低估?

Nicole:我覺得被高估的是“一個(gè)簡短提示就能生成可用于生產(chǎn)的成果”。其實(shí)還需要很多迭代。即使是社交媒體上大家分享的內(nèi)容,背后也有很多工作。所以這個(gè)有點(diǎn)被過度宣傳了。被低估的是未來的融合,我們已經(jīng)聊過了,就是如何讓大家更容易使用這些模型,展示可能性,并針對具體工作流提供幫助。

Jacob:你見過哪些產(chǎn)品,在UI設(shè)計(jì)上有新穎的想法?

Nicole:我還在等,暫時(shí)沒看到。

Oliver:我喜歡節(jié)點(diǎn)式界面,但這不是大眾化的設(shè)計(jì)。

Jacob:未來每個(gè)人都能有自己的UI,也許會進(jìn)入個(gè)性化時(shí)代。你覺得明年圖像模型的進(jìn)步會比今年更快,還是差不多?

Nicole:希望更快。

Oliver:有更多聰明人投入,更多資源,肯定會加速進(jìn)步。

Jacob:你們已經(jīng)讓Nano Banana火遍全網(wǎng),還有哪些AI圖像領(lǐng)域的趨勢是你們關(guān)注的,但大家沒有足夠重視?

Nicole:我覺得是“事實(shí)性”維度。比如大家用Nano Banana做信息圖或給尼亞加拉瀑布標(biāo)注,雖然演示效果不錯(cuò),但仔細(xì)看文字還是有點(diǎn)混亂,不夠準(zhǔn)確,會重復(fù)信息。所以這是下一個(gè)前沿,大家還沒太關(guān)注。

Oliver:這和文本語言模型很像。GPT-1和2剛出來時(shí),大家覺得很酷,可以寫俳句、做創(chuàng)意任務(wù),答案范圍很廣?,F(xiàn)在大家都用語言模型做信息檢索、對話、陪伴等。所以我覺得圖像領(lǐng)域也會有類似變化,從創(chuàng)意工具到信息檢索工具,未來甚至?xí)腥撕鸵曨l模型對話,這很有可能出現(xiàn)。

Nicole:模型也應(yīng)該更主動,現(xiàn)在都是用戶主動請求圖片。如果查詢本身適合用圖片回答,模型應(yīng)該主動生成。我們在搜索中已經(jīng)習(xí)慣了,有時(shí)返回文本,有時(shí)返回圖片,有時(shí)兩者都有。所以我也期待模型能更主動、更智能地根據(jù)需求選擇模態(tài)。

Jacob:我很喜歡這種無縫切換的未來。正如你說的,可靠性是關(guān)鍵。早期語言模型偶爾很驚艷,但遠(yuǎn)不夠穩(wěn)定,工作場景用不了。圖像模型也會經(jīng)歷類似的進(jìn)化。

最重要的問題:你們最喜歡用Nano Banana生成的內(nèi)容是什么?

Oliver:我最喜歡的是和孩子一起玩模型,把他們放到各種有趣場景里,讓他們的玩偶“活”起來。這些內(nèi)容非常個(gè)人化,孩子們很喜歡,對我來說最有價(jià)值。

作者:MD

出品:明亮公司

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
進(jìn)攻效率不佳,防守端被打爆,火箭內(nèi)線支柱的情況令人非常擔(dān)心?

進(jìn)攻效率不佳,防守端被打爆,火箭內(nèi)線支柱的情況令人非常擔(dān)心?

稻谷與小麥
2026-04-20 01:12:09
就在今天!NBA傳來騎士最新消息!哈登被圍毆!哈登承認(rèn)錯(cuò)誤!

就在今天!NBA傳來騎士最新消息!哈登被圍毆!哈登承認(rèn)錯(cuò)誤!

林子說事
2026-04-19 12:42:59
別被今天的太陽“騙”了!下一波暴雨,馬上到廣東

別被今天的太陽“騙”了!下一波暴雨,馬上到廣東

新浪財(cái)經(jīng)
2026-04-19 14:34:10
蕭旭岑再發(fā)聲:絕對清白,保持沉默是因前“閣揆”勸我以大局為重

蕭旭岑再發(fā)聲:絕對清白,保持沉默是因前“閣揆”勸我以大局為重

徐云流浪中國
2026-04-19 22:27:06
山東一戶人家,因“院子圍墻開滿花”走紅,太漂亮了

山東一戶人家,因“院子圍墻開滿花”走紅,太漂亮了

三農(nóng)老歷
2026-04-19 15:37:23
中紀(jì)委放了話:寧可掉層皮,也要抓出群眾滿意成效!

中紀(jì)委放了話:寧可掉層皮,也要抓出群眾滿意成效!

林子說事
2026-04-19 02:00:33
大病來襲,腳會說話!腳上若是出現(xiàn)這5種異常,或是身體出了問題

大病來襲,腳會說話!腳上若是出現(xiàn)這5種異常,或是身體出了問題

熊貓醫(yī)學(xué)社
2026-04-19 11:35:03
狂攬911億,政法博士設(shè)完美騙局,湖南十萬家庭最終血本無歸?

狂攬911億,政法博士設(shè)完美騙局,湖南十萬家庭最終血本無歸?

一號位故事
2026-04-19 10:51:30
2026年電費(fèi)新規(guī)出爐,7月1日執(zhí)行,6大調(diào)整,每家每戶都要了解

2026年電費(fèi)新規(guī)出爐,7月1日執(zhí)行,6大調(diào)整,每家每戶都要了解

小談食刻美食
2026-04-19 08:31:32
關(guān)于“陰道”,有4個(gè)正經(jīng)冷知識,女人別羞于查看

關(guān)于“陰道”,有4個(gè)正經(jīng)冷知識,女人別羞于查看

皓皓情感說
2026-04-18 11:19:16
特朗普:一艘伊朗貨船試圖突破封鎖 美軍武力攔截并控制

特朗普:一艘伊朗貨船試圖突破封鎖 美軍武力攔截并控制

財(cái)聯(lián)社
2026-04-20 03:47:04
麥金:被追成3-3無法接受;我們要全力沖擊前五和打歐聯(lián)杯

麥金:被追成3-3無法接受;我們要全力沖擊前五和打歐聯(lián)杯

懂球帝
2026-04-19 23:28:59
馬筱梅哭訴婆婆家沒房間,68歲張?zhí)m一張健身照回?fù)簦荷儋u慘多讀書

馬筱梅哭訴婆婆家沒房間,68歲張?zhí)m一張健身照回?fù)簦荷儋u慘多讀書

未曾青梅
2026-04-19 22:11:35
100 日元兌 4.33 元:日本用三十年,把自己熬成了 “廉價(jià)國家”

100 日元兌 4.33 元:日本用三十年,把自己熬成了 “廉價(jià)國家”

深析古今
2026-03-31 10:10:57
老了才明白:女婿好不好,一看便知,真正的好女婿,看這三點(diǎn)就好

老了才明白:女婿好不好,一看便知,真正的好女婿,看這三點(diǎn)就好

荷蘭豆愛健康
2026-04-20 03:06:25
全程眼突鼓腮,看了觀眾對孫儷的評價(jià),才知張藝謀這句話的含金量

全程眼突鼓腮,看了觀眾對孫儷的評價(jià),才知張藝謀這句話的含金量

陳述影視
2026-04-04 17:53:34
人窮能卑微到什么地步?網(wǎng)友說:一個(gè)男人兩千塊買了我三個(gè)晚上!

人窮能卑微到什么地步?網(wǎng)友說:一個(gè)男人兩千塊買了我三個(gè)晚上!

黯泉
2026-04-14 12:13:04
瓜迪奧拉:每一個(gè)人類在應(yīng)對加布和薩利巴的時(shí)候都會感到困難

瓜迪奧拉:每一個(gè)人類在應(yīng)對加布和薩利巴的時(shí)候都會感到困難

懂球帝
2026-04-20 03:23:46
放假通知!2026中小學(xué)暑假時(shí)間確定了,家長卻表示難以接受

放假通知!2026中小學(xué)暑假時(shí)間確定了,家長卻表示難以接受

凱旋學(xué)長
2026-04-19 15:04:39
驚天大逆轉(zhuǎn)!中國國運(yùn)爆發(fā),百年機(jī)遇降臨,西方要慌了!

驚天大逆轉(zhuǎn)!中國國運(yùn)爆發(fā),百年機(jī)遇降臨,西方要慌了!

墜入二次元的海洋
2026-04-19 18:09:47
2026-04-20 05:04:49
明亮Company incentive-icons
明亮Company
追蹤新商業(yè)、好公司。
643文章數(shù) 407關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

本地
家居
親子
公開課
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

家居要聞

法式線條 時(shí)光靜淌

親子要聞

孩子總打噴嚏、起疹子,時(shí)過敏嗎?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進(jìn)入關(guān)懷版