AI是“外星智能”而非人類鏡像｜李飛飛對談World Labs聯(lián)合創(chuàng)始人萬字實錄

2025-11-29 17:32:30　來源: 人工智能學(xué)家

北京舉報

分享至

11月26日，World Labs 聯(lián)合創(chuàng)始人、斯坦福大學(xué)以人為本HAI院長李飛飛與 World Labs 聯(lián)合創(chuàng)始人 Justin Johnson 接受了海外播客 Latent Space 的專訪。本次對話全面探討了 World Labs 的成立契機(jī)、從“識別”到“生成”的技術(shù)演進(jìn)、世界模型的“AlexNet時刻”、學(xué)術(shù)界在“算力霸權(quán)”時代的定位重構(gòu)、視覺與語言的本質(zhì)差異、空間智能的生物學(xué)起源，以及 Transformer 架構(gòu)等話題內(nèi)容。

李飛飛與 Justin Johnson 首先回顧了深度學(xué)習(xí)的發(fā)展脈絡(luò)。Justin 指出，深度學(xué)習(xí)的歷史本質(zhì)上就是算力擴(kuò)展的歷史，從 AlexNet 至今，單卡性能提升千倍，集群規(guī)模擴(kuò)大百萬倍，這為將 AI 從數(shù)據(jù)中心帶入 3D 物理世界提供了必要的“AlexNet 時刻”。針對學(xué)術(shù)界與工業(yè)界的張力，兩人一致認(rèn)為，學(xué)術(shù)界不應(yīng)卷入“訓(xùn)練最大模型”的競賽，因為那是工業(yè)界的主場；相反，學(xué)術(shù)界應(yīng)回歸探索那些當(dāng)前看起來“古怪”的基礎(chǔ)科學(xué)想法，例如設(shè)想適應(yīng)未來十到二十年后非 GPU 硬件的全新神經(jīng)網(wǎng)絡(luò)架構(gòu)，以及填補(bǔ)大模型理論基礎(chǔ)的空白。

針對技術(shù)路線的演進(jìn)，Justin 提出了“像素至上論”，認(rèn)為像素是對物理世界更無損、更通用的表征，而語言本質(zhì)上是經(jīng)過高度抽象的“有損壓縮”，將文本渲染成圖像再喂給模型可能是一種效率低下的路徑。李飛飛則指出“空間智能”經(jīng)過了 5.4 億年的進(jìn)化優(yōu)化，是人類文明的基石，而語言僅有 50 萬年歷史，兩者是互補(bǔ)而非替代關(guān)系。

在談及 AI 是否“理解”世界時，雙方認(rèn)為目前的模型表現(xiàn)出的是一種不同于人類的“外星智能”，它們通過海量數(shù)據(jù)擬合模式，但尚未真正掌握因果物理定律，單純的潛空間建模未必能自動涌現(xiàn)出物理法則。

關(guān)于 World Labs 的首款產(chǎn)品 Marble，李飛飛強(qiáng)調(diào)其核心在于構(gòu)建一個可交互、可編輯的 3D 世界，而非簡單的視頻生成，這將填補(bǔ)具身智能訓(xùn)練中“合成數(shù)據(jù)”的巨大缺口。Justin指出，Transformer 本質(zhì)上不是序列模型，而是基于集合論的“集合模型”，位置編碼是唯一注入順序信息的機(jī)制，這一特性使其天然適合處理多模態(tài)的 3D 空間數(shù)據(jù)。兩人認(rèn)為，未來的世界模型將不再局限于單一模態(tài)，而是走向視覺、物理與語言的深度融合。

從 ImageNet 到空間智能的自然演進(jìn)

大家對世界模型非常有興趣，你們也圍繞空間智能等話題做了一些宣傳。我想這個故事中你們難得有機(jī)會講述的部分也許是：你們兩位是如何走到一起并創(chuàng)立 World Labs 的？

李飛飛：這很簡單，因為 Justin 是我以前的學(xué)生。Justin 來到了我的實驗室，我的另一個身份是斯坦福大學(xué)計算機(jī)科學(xué)教授，Justin 是什么時候加入我實驗室的？

Justin Johnson:2012 年。實際上，我加入你實驗室的那個季度正是 AlexNet 發(fā)布的那個季度。

李飛飛：Justin 是我最優(yōu)秀的學(xué)生之一，隨后他在密歇根大學(xué)安娜堡分校和 Meta 開啟了非常成功的早期職業(yè)生涯，成為了一名教授。然后肯定是在兩年多前，我想我們兩人都獨立地關(guān)注著大模型的發(fā)展，并思考語言模型之后會是什么。這種構(gòu)建世界模型、空間智能的想法對我們來說真的很自然。所以我們開始交流，并決定我們應(yīng)該孤注一擲，專注于解決這個問題，于是共同創(chuàng)立了 World Labs。

Justin Johnson:是的，基本就是這樣。在讀博期間目睹了 ImageNet 時代后，我有種感覺，計算機(jī)視覺的下一個十年將致力于把 AI 帶出數(shù)據(jù)中心并帶入現(xiàn)實世界。所以我博士畢業(yè)后的很多興趣轉(zhuǎn)移到了 3D 視覺，多了一點計算機(jī)圖形學(xué)，也多了一點生成式建模。我當(dāng)時以為在博士畢業(yè)后我和導(dǎo)師的關(guān)系會逐漸疏遠(yuǎn)，但當(dāng)我們幾年后重聚時，發(fā)現(xiàn)她在思考非常相似的事情。

如果回顧 AlexNet，它的核心顯然是 ImageNet，那是向 GPU 和神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)變。你如何看待世界模型領(lǐng)域的“AlexNet 時刻”？在數(shù)據(jù)、不同類型的算法或計算方法方面，你想要構(gòu)建哪些基礎(chǔ)要素來讓世界模型真正成為現(xiàn)實？

Justin Johnson:我認(rèn)為一點是通常有更多的數(shù)據(jù)和算力可用。我認(rèn)為深度學(xué)習(xí)的整個歷史，在某種意義上就是算力擴(kuò)展的歷史。如果你回想 AlexNet，它需要從 CPU 到 GPU 的跨越，但即使是從 AlexNet 到今天，我們在單張顯卡上獲得的性能也是 AlexNet 時代的約一千倍。現(xiàn)在訓(xùn)練模型不僅常見于在一個 GPU 上，而是在數(shù)百、數(shù)千、數(shù)萬甚至更多 GPU 上。所以我們今天能在一個單一模型上調(diào)度的計算量，是我們（即使在我博士剛開始時）能擁有的約一百萬倍。語言模型是過去幾年開始運作得很好的真正有趣的事情之一，但當(dāng)我們考慮轉(zhuǎn)向視覺數(shù)據(jù)、空間數(shù)據(jù)和世界數(shù)據(jù)時，你需要處理的數(shù)據(jù)量要大得多。我認(rèn)為這將是一個很好的方式來充分利用這些越來越多上線的新增算力。

這種舉辦公開挑戰(zhàn)賽的模式還有效嗎？還是說研發(fā)應(yīng)該集中在實驗室內(nèi)部進(jìn)行？這僅僅是資金和商業(yè)模式的問題嗎？比如你必須從中看到一些投資回報率？現(xiàn)在涉及到這么多資金，以及它給學(xué)術(shù)界和開放研究領(lǐng)域帶來的壓力是一個問題嗎？還是說你覺得那真的不必過慮？

李飛飛：我認(rèn)為開放科學(xué)仍然很重要。顯然，現(xiàn)在的 AI 與 ImageNet/AlexNet 時代相比已經(jīng)真正進(jìn)化了。那時候它只是一個如此小眾的計算機(jī)科學(xué)學(xué)科，現(xiàn)在它已是文明變革級的技術(shù)。但我會給你一個例子，最近我的斯坦福實驗室剛剛宣布了一個名為 BEHAVIOR 的開放數(shù)據(jù)集和基準(zhǔn)，這是為了在模擬環(huán)境中對機(jī)器人學(xué)習(xí)進(jìn)行基準(zhǔn)測試。那是一個非常明確的努力，旨在繼續(xù)保持這種（特別是在學(xué)術(shù)界）做研究的開放科學(xué)模式。

（關(guān)于生態(tài)系統(tǒng)）但我認(rèn)為認(rèn)識到生態(tài)系統(tǒng)是一個混合體很重要。我認(rèn)為很多在工業(yè)界非常專注的工作，其中一些更多是以產(chǎn)品的形式面世，而不是作為一個公開挑戰(zhàn)賽本身。

（關(guān)于商業(yè)模式）我認(rèn)為這只是生態(tài)系統(tǒng)多樣性的問題。即使在所謂的 AlexNet/ImageNet 時代，也有封閉模型，有專有模型，也有開放模型。或者你看看 iOS 對比 Android，有不同的商業(yè)模式。我不會說這僅僅是資金本身的問題，這只是市場原本的形態(tài)。有不同的玩法。

（關(guān)于資源配置）我確實有顧慮，倒不是關(guān)于壓力，更多是關(guān)于資源配置以及學(xué)術(shù)界資源配置的不平衡。這與 World Labs 的話題稍有不同。作為斯坦福以人為本人工智能研究院（Stanford HAI）的創(chuàng)始院長和聯(lián)席院長，我一直在與政策制定者合作，討論公共部門和學(xué)術(shù)界 AI 工作的資源配置問題。我們與第一屆特朗普政府和拜登政府在《國家人工智能研究資源法案》（NAIRR）上進(jìn)行了合作，該法案正在規(guī)劃一個國家級的 AI 計算云以及數(shù)據(jù)存儲庫。我也認(rèn)為開源、開放數(shù)據(jù)集繼續(xù)是生態(tài)系統(tǒng)的重要部分。就像我說的，現(xiàn)在在我的斯坦福實驗室，我們正在做一個關(guān)于機(jī)器人學(xué)習(xí)的開放數(shù)據(jù)集和基準(zhǔn)測試叫 BEHAVIOR，我的許多同事仍然在做這類工作。我認(rèn)為那是生態(tài)系統(tǒng)的一部分。我認(rèn)為工業(yè)界正在做的事情——一些初創(chuàng)公司正在利用模型快速奔跑創(chuàng)造產(chǎn)品——也是一件好事。

如果設(shè)身處地為你著想，你擁有為此準(zhǔn)備的最好的數(shù)據(jù)集，你真的有什么動力去發(fā)布它？感覺實驗室里的人正越來越早地被從博士項目中拉進(jìn)這些實驗室?；氐綄W(xué)術(shù)界和工業(yè)界的選擇問題，是什么動力讓你如此感興趣？

Justin Johnson:我在本科期間實際上跟隨 Fei-Fei 的博士導(dǎo)師做了一些計算機(jī)視覺研究。所以這里有一種師承關(guān)系。所以我甚至作為一個本科生也做了一些計算機(jī)視覺研究，我認(rèn)為它真的很酷，我想繼續(xù)做。隨后我面臨著這種工業(yè)界與學(xué)術(shù)界的選擇——即使是本科畢業(yè)出來——我認(rèn)為研究社區(qū)的很多人現(xiàn)在正面臨著這個問題。但回到你的問題，我認(rèn)為學(xué)術(shù)界的角色，特別是在 AI 領(lǐng)域，在過去十年已經(jīng)發(fā)生了相當(dāng)大的轉(zhuǎn)變。這并不是一件壞事。這是一種因為技術(shù)已經(jīng)成長和涌現(xiàn)而產(chǎn)生的感覺。

（關(guān)于學(xué)術(shù)界定位）五年或十年前，你真的可以在實驗室訓(xùn)練最先進(jìn)的模型，即使只有幾個 GPU。但因為那項技術(shù)如此成功并擴(kuò)展了這么大的規(guī)模，你再也不能只用幾個 GPU 訓(xùn)練最先進(jìn)的模型了。那不是一件壞事，這是一件好事。這意味著技術(shù)實際上起作用了。但這意味圍繞我們作為學(xué)者應(yīng)該做什么的期望稍微轉(zhuǎn)變了一點。它不應(yīng)該是關(guān)于試圖訓(xùn)練最大的模型和擴(kuò)展最大的東西。它應(yīng)該是關(guān)于嘗試古怪的想法、新的想法和瘋狂的想法，其中大多數(shù)可能不會成功。我認(rèn)為那里有很多事可做。

（關(guān)于研究顧慮）如果說有什么顧慮的話，我擔(dān)心學(xué)術(shù)界有太多人過度專注于這種試圖假裝我們可以訓(xùn)練最大模型的概念，或者是把它幾乎當(dāng)作一個職業(yè)培訓(xùn)項目，以便畢業(yè)后去一個大實驗室并能夠玩轉(zhuǎn)所有的 GPU。我認(rèn)為圍繞新算法、新架構(gòu)、新系統(tǒng)有太多瘋狂的東西你可以做，作為一個個體你可以做很多。

李飛飛：而且學(xué)術(shù)界在理解這些大模型的理論基礎(chǔ)方面也有角色要扮演。我們對這個仍然知之甚少?；蛘邤U(kuò)展到跨學(xué)科，有很多基礎(chǔ)科學(xué)想法，有很多藍(lán)天探索式問題。所以我同意，我不認(rèn)為問題是開放對封閉，產(chǎn)品化對開源。我認(rèn)為現(xiàn)在的問題是學(xué)術(shù)界本身嚴(yán)重資源不足，導(dǎo)致研究人員和學(xué)生沒有足夠的資源來嘗試這些想法。

為未來十年的硬件設(shè)計截然不同的架構(gòu)

當(dāng)你談?wù)摗肮殴值南敕ā睍r，腦海中浮現(xiàn)的一個例子是什么？真的很難下那些賭注，因為也有“硬件彩票”的概念。假設(shè) Nvidia 贏了，我們應(yīng)該只是無限擴(kuò)展它，并編寫軟件來修補(bǔ)我們在組合中遇到的任何差距嗎？

Justin Johnson:比如，我有這個一直向我在密歇根的學(xué)生推銷的想法，就是我真的很喜歡硬件，我真的很喜歡新種類的硬件上線。在某種意義上，我們今天使用的神經(jīng)網(wǎng)絡(luò)和 Transformer 的出現(xiàn)真的是基于矩陣乘法，因為矩陣乘法非常適合 GPU。但如果我們思考硬件在未來可能如何擴(kuò)展，我不認(rèn)為我們擁有的當(dāng)前系統(tǒng)，像 GPU 硬件設(shè)計，將會無限擴(kuò)展。我們甚至現(xiàn)在已經(jīng)開始看到，計算的單位不再是單一設(shè)備，而是這整個設(shè)備集群。

（關(guān)于分布式原語）所以如果你想象硬件擴(kuò)展出去，是否有其他對大規(guī)模分布式系統(tǒng)更有意義的原語，可以讓我們在其上建立神經(jīng)網(wǎng)絡(luò)？我認(rèn)為有可能出現(xiàn)截然不同的架構(gòu)，以適應(yīng)下一代或未來十或二十年將要到來的硬件。我們今天就可以開始設(shè)想那個未來。

（關(guān)于摩爾定律極限）我意思是，是也不是。但如果你看數(shù)字，即使從 Hopper 到 Blackwell，每瓦性能大約是一樣的。他們主要是讓晶體管數(shù)量增加，讓芯片尺寸增加，讓功耗增加。但即使從 Hopper 到 Blackwell，我們在可以獲得的每瓦性能方面已經(jīng)有點看到了擴(kuò)展限制。所以我認(rèn)為有空間做一些新的東西。我不知道它確切是什么，而且我不認(rèn)為你作為一個初創(chuàng)公司可以在三個月的周期內(nèi)完成它，但我認(rèn)為那是那種長期范圍的東西，是學(xué)術(shù)界的完美匹配。

圖像描述的起源與早期生成式探索

回到一點背景和歷史，我們看到了這份關(guān)于“場景敘事”工作的研究筆記，或者叫神經(jīng)圖像字幕，是你和 Andrej Karpathy 做的工作。我只是想聽你們講講那個故事，關(guān)于你如何在博士期間著手做那個，以及 Fei-Fei，你當(dāng)時的反應(yīng)。

李飛飛：是的，所以我認(rèn)為那行工作開始于我和 Andrej 之間，然后 Justin 加入了。Andrej 開始讀博時，他和我在看 ImageNet 物體識別之后是什么。在那時，卷積神經(jīng)網(wǎng)絡(luò)（ConvNet）已經(jīng)在 ImageNet 任務(wù)中證明了一些威力，所以 ConvNet 是表征圖像的一種好方法。與此同時，我認(rèn)為在語言領(lǐng)域，一個早期的順序模型叫 LSTM 也在被實驗。所以 Andrej 和我只是在談?wù)?..這一直是我的一個長期夢想。我以為需要一百年才能解決，就是講述圖像的故事。當(dāng)我博士畢業(yè)時，我真的以為我余下的整個職業(yè)生涯都將致力于解決那單一的問題，就是：給定一張圖片或給定一個場景，用自然語言講述故事。

（關(guān)于早期突破）但事情發(fā)展得太快了。當(dāng) Andrej 開始時，我們想，也許結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的表征以及 LSTM 的語言順序模型，我們也許能夠通過訓(xùn)練來將字幕與圖像進(jìn)行匹配。所以那是我們開始那行工作的時候。我想那是 2014 年或 2015 年？

Justin Johnson:字幕論文是在 CVPR 2015 發(fā)表的。

李飛飛：對。所以那是我們的第一篇論文，Andrej 讓它工作了，也就是，給定一個圖像，圖像用 ConvNet 表征，語言模型是 LSTM 模型，然后我們將它結(jié)合，它能夠生成一個句子。那是首批成果之一。我想我在我的書里寫了它。我們以為我們是第一批做這件事的人。結(jié)果發(fā)現(xiàn) Google 那個時候也在同步做這件事，還有一個記者，是《紐約時報》的 John Markoff，正在報道 Google 的故事，但他偶然聽說了我們。然后他意識到我們真的是獨立地在同一時間到達(dá)了那里。所以他寫了關(guān)于 Google 研究以及 Andrej 和我的研究的故事。但在那之后，我想 Justin 那時已經(jīng)在實驗室里了。

Justin Johnson:是的。我記得那個小組會議，Andrej 正在展示一些那些結(jié)果并解釋這個叫做 LSTM 和 RNN 的新東西，我以前從未聽說過。我想，“哇，這真是令人驚嘆的東西。我想做那個?！彼匀缓笏?CVPR 2015 上發(fā)表了關(guān)于第一批圖像字幕結(jié)果的論文。然后在那之后我們開始一起工作，我們做了一個第一...我們實際上只是做了一篇關(guān)于語言建模的論文，我和 Andrej，回到 ICLR 2015。

李飛飛：是的，我應(yīng)該堅持做語言建模的。回想起來那結(jié)果是相當(dāng)有利可圖的！

Justin Johnson:但我們一起做了這篇語言建模論文，我和 Andrej，在 2015 年，那里真的很酷。我們訓(xùn)練了這些小的 RNN 語言模型，可以一次吐出幾個句子，并戳戳它們，試圖理解神經(jīng)網(wǎng)絡(luò)內(nèi)部的神經(jīng)元在做什么。

李飛飛：記得你們當(dāng)時正在分析 LSTM 內(nèi)部不同的記憶單元。

Justin Johnson:沒錯，真的很難酷。即使在那個時候，我們就已經(jīng)得出了一些結(jié)果，可以深入 LSTM 內(nèi)部觀察，發(fā)現(xiàn)它“正在閱讀代碼”。我們訓(xùn)練用的數(shù)據(jù)集之一是 Linux 源代碼，因為它是開源的，可以直接下載。我們在該數(shù)據(jù)集上訓(xùn)練了一個 RNN，當(dāng)網(wǎng)絡(luò)嘗試預(yù)測接下來的 Token 時，我們試圖將它的預(yù)測類型與 RNN 內(nèi)部的結(jié)構(gòu)對應(yīng)起來。我們發(fā)現(xiàn)了一些相關(guān)性，比如當(dāng)遇到左括號時，LSTM 這一層的某個單元會被激活，而遇到右括號時則會關(guān)閉。我們嘗試通過這類實證研究來搞清楚它的原理。這確實很酷，基本上是將 CNN 從語言建模部分剝離出來，孤立地研究語言模型。

從單一圖像到密集描述的實時流傳輸演示

后來你們是如何擴(kuò)展圖像描述工作的？我記得還有關(guān)于密集描述的系統(tǒng)，這是一個非常復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)。它是通過一次前向傳播完成的嗎？我還聽說你做了一個瘋狂的實時演示，當(dāng)時的延遲是不是很嚴(yán)重？

李飛飛：后來我們想擴(kuò)展圖像描述的工作。我記得當(dāng)時我們甚至有一種空間感上的缺失，感覺原本的描述并沒有捕捉到圖像的不同部分。所以我當(dāng)時跟 Justin 和 Andrej 討論，能不能做我們后來稱之為“密集描述”的項目，也就是更詳細(xì)地描述場景，特別是場景的不同部分。

Justin Johnson:是的。第二年，也就是 2016 年的 CVPR，我和 Andrej 以及 Fei-Fei 合作發(fā)表了一篇論文，構(gòu)建了這個進(jìn)行密集描述的系統(tǒng)。輸入一張圖像，它會在所有感興趣的目標(biāo)周圍畫框，并針對每一個目標(biāo)寫一段簡短的描述。比如“這是一個桌上的綠色水瓶”或“這是一個穿著黑色襯衫的人”。這是一個非常復(fù)雜的神經(jīng)網(wǎng)絡(luò)，因為它建立在當(dāng)時目標(biāo)檢測領(lǐng)域取得的許多進(jìn)展之上，而目標(biāo)檢測長期以來一直是計算機(jī)視覺的主要課題。它實際上是一個聯(lián)合神經(jīng)網(wǎng)絡(luò)，既學(xué)習(xí)觀察單張圖像，網(wǎng)絡(luò)內(nèi)部又有三種不同的表示。一種是整張圖像的表示，用來獲取整體全貌。然后它會提出想要關(guān)注的獨立區(qū)域，并獨立地表示每個區(qū)域。一旦關(guān)注了某個區(qū)域，就需要為該區(qū)域輸出文本。這是一個相當(dāng)復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)，而且是在 PyTorch 出現(xiàn)之前的時代。

（關(guān)于推理優(yōu)化）對，一次前向傳播就完成了所有工作。

李飛飛：不僅是一次完成，你還優(yōu)化了推理，我記得你是在網(wǎng)絡(luò)攝像頭上運行它的。

Justin Johnson:是的，我做了一個瘋狂的實時演示。我在 Stanford 的服務(wù)器上運行網(wǎng)絡(luò)，前端網(wǎng)頁從網(wǎng)絡(luò)攝像頭流式傳輸視頻，將圖像發(fā)回服務(wù)器。服務(wù)器運行模型后再將預(yù)測結(jié)果回傳。當(dāng)時我就拿著筆記本電腦在實驗室里走來走去，給人們展示這個實時運行的網(wǎng)絡(luò)。

李飛飛：這非常令人印象深刻，因為我的大多數(shù)研究生如果能發(fā)表論文就滿足了。他們通常把研究打包寫進(jìn)論文里，但 Justin 更進(jìn)一步，他說想做這個實時的網(wǎng)頁演示。

Justin Johnson:其實還有個故事，那年我們在圣地亞哥參加 ICCV '15 會議。我在那個會議上有一篇關(guān)于其他內(nèi)容的論文，但我?guī)еP記本電腦在會議現(xiàn)場走來走去，向每個人展示這個實時描述的演示。模型其實是在 California 的服務(wù)器上運行的，所以數(shù)據(jù)實際上是跨越了從 California 到圣地亞哥的距離進(jìn)行流式傳輸。

（關(guān)于延遲）非常嚴(yán)重，大概只有 1 FPS。但它居然能運行，這本身就挺驚人的。

像素是比語言更無損、更通用的物理世界表征

也許視覺和語言建模并沒有那么大的不同。DeepSeek-VL 最近嘗試了一個瘋狂的想法，即從像素對文本進(jìn)行建模，直接在像素上訓(xùn)練。這可能是未來，我不知道你們對于“語言是否真的完全必要”有什么看法。我們是應(yīng)該堅持語言模型，還是說“像素至上論”有其道理？

李飛飛：我剛寫了一整篇關(guān)于空間智能的宣言。我認(rèn)為它們是不同的。我確實認(rèn)為這些生成式模型的架構(gòu)會共享很多組件，但我認(rèn)為深度的 3D、4D 空間世界擁有某種結(jié)構(gòu)層級，這與一維的純生成信號有著根本的不同。

Justin Johnson:我認(rèn)為“像素至上論”是有一定道理的。有一種觀點認(rèn)為語言是某種不同的東西，但我們是用眼睛看語言的，而我們的眼睛本質(zhì)上就是在處理像素。我們眼球后方有某種生物像素在處理這些信息。我們看到文本，將其視為離散的東西，但這真的只存在于我們的思維中。文本和語言在現(xiàn)實世界中的物理表現(xiàn)是印在物體上的物理對象，我們要用眼睛去通過視覺捕捉它。

（關(guān)于信息丟失）沒錯。如果你將其轉(zhuǎn)化為我們在大語言模型中使用的那些純粹 Token 化的表示，實際上就丟失了一些信息。你丟失了字體、換行符、頁面上的 2D 排版。在很多情況下也許這并不重要，但對于某些事情這很重要。我認(rèn)為像素是對世界上正在發(fā)生的事情的一種更無損的表示，在某些方面也是一種更通用的表示，更符合我們?nèi)祟愒谔剿魇澜鐣r所看到的。所以這里有一個效率的論點：也許把文本渲染成圖像然后喂給視覺模型并不是超級高效。

世界模型的歸納偏置與物理規(guī)律

這與整個世界模型有關(guān)。我今年看到的最喜歡的論文之一是關(guān)于探測世界模型的歸納偏置。所以，你怎么思考嵌入在數(shù)據(jù)中的內(nèi)容？我們可以討論 3D 世界模型的 Token 化。比如信息的維度是什么？有視覺維度，但你需要從數(shù)據(jù)中提取多少潛在的隱藏力？是顯式地測量所有的力喂給模型，還是寄希望于某種東西能更潛在地涌現(xiàn)？

Justin Johnson:這正是 DeepSeek 所做的，而且似乎還挺管用的。但關(guān)于歸納偏置，那是 Harvard 的一篇論文，他們將很多軌道模式輸入到一個大語言模型中，然后要求它預(yù)測行星繞太陽的軌道。它生成的模型看起來不錯，但如果你讓它畫出力矢量，結(jié)果就會非常離譜，實際上并不遵循物理規(guī)律。所以，這其中的挑戰(zhàn)是什么？

（關(guān)于兩種范式）我認(rèn)為可以用不同的方式來處理這個問題。一種是顯式地處理，比如測量所有的力，并將這些作為訓(xùn)練數(shù)據(jù)喂給模型。你可以運行一個傳統(tǒng)的物理模擬，獲知場景中所有的力，然后用這些作為訓(xùn)練數(shù)據(jù)來訓(xùn)練一個模型，希望它能預(yù)測這些力?；蛘吣憧梢约南Ｍ谀撤N東西能更潛在地涌現(xiàn)，即你在某種端到端的任務(wù)上訓(xùn)練，解決一個更通用的問題，然后希望模型內(nèi)部的某處必須學(xué)會建模像物理學(xué)這樣的東西，以便做出正確的預(yù)測。這是我們目前普遍存在的兩大范式。

李飛飛：但是沒有跡象表明那些潛在建模會帶你找到空間和動力學(xué)的因果定律。這就是今天的深度學(xué)習(xí)和人類智能實際上開始分叉的地方，因為從根本上說，深度學(xué)習(xí)仍然是在擬合模式。

AI是否真的“理解”世界

這就有點上升到哲學(xué)層面了。你會說我們?nèi)祟愐苍谠噲D擬合模式，但那篇論文的模型學(xué)會了擬合軌道的特定模式，卻泛化失敗，沒有重力的因果模型。因為即使在 Marble 中，我在試用時發(fā)現(xiàn)它生成了美麗的風(fēng)景，里面有拱門。但是模型真的理解拱門是如何依靠中心石支撐的，以及它的實際物理結(jié)構(gòu)嗎？只要它總是渲染出符合我們想象的物理模型的東西，它是否理解真的重要嗎？最終會需要兩個不同的模型來分別做視覺生成和建筑生成嗎？

李飛飛：如果你用人類理解的方式使用“理解”這個詞，我相當(dāng)確定模型并不理解。模型是在從數(shù)據(jù)中學(xué)習(xí)，從模式中學(xué)習(xí)。至于這是否重要，取決于具體用例。目前我不認(rèn)為這重要，因為它渲染出了你想要的東西，假設(shè)效果是完美的。

Justin Johnson:這取決于用例。如果用例是想要為虛擬電影或制作生成某種背景，你需要的只是看起來合理的東西。在那種情況下，可能這并不重要。但如果你是一名建筑師，要用這個來設(shè)計一棟隨后要在現(xiàn)實世界中建造的建筑物，那么正確地建模力學(xué)確實很重要，因為你不想在實際建造時東西塌掉。

（關(guān)于理解的哲學(xué)）“理解”這個詞有個陷阱。這些模型是一種與人類智能截然不同的智能。人類智能很有趣，因為我認(rèn)為我理解事物是因為我可以在某種程度上內(nèi)省我自己的思維過程。我相信我的思維過程可能和其他人相似，所以當(dāng)我觀察別人的行為時，我會推斷他們的內(nèi)部心理狀態(tài)可能與我觀察到的自己的內(nèi)部心理狀態(tài)相似，因此我知道我理解事物，所以我假設(shè)你也理解某些東西。但是這些模型就像某種外星形式的智能，它們可以做非常有趣的事情，展示非常有趣的行為。但無論它們擁有什么樣的內(nèi)部認(rèn)知或自我反思——如果存在的話——都與我們完全不同。

李飛飛：它沒有自我意識。

Justin Johnson:沒錯。所以這意味著當(dāng)我們觀察到這些系統(tǒng)表現(xiàn)出看似有趣或智能的行為時，我們不能必然推斷出關(guān)于它們的其他事情，因為它們的世界模型和思考方式與我們截然不同。

（關(guān)于單一模型與涌現(xiàn)）我希望它是一個模型。但深度學(xué)習(xí)中的大問題在某種意義上是：你如何獲得超出訓(xùn)練數(shù)據(jù)的涌現(xiàn)能力。你能得到某種具備理解力的東西嗎？即使它并沒有被訓(xùn)練去預(yù)測力，但它會在內(nèi)部隱式地學(xué)習(xí)它們？我認(rèn)為我們在其他大語言模型中看到的情況是，這種涌現(xiàn)行為確實會在大規(guī)模下發(fā)生。這會轉(zhuǎn)移到其他模態(tài)、其他用例和其他任務(wù)上嗎？我希望如此，但這將是一個需要隨時間推移去驗證的過程。

李飛飛：我認(rèn)為這是關(guān)于擴(kuò)展數(shù)據(jù)和改進(jìn)模型的問題。我不認(rèn)為這兩者之間有什么根本性的隔閡。

Marble 產(chǎn)品揭秘與空間智能愿景

我們稍微談到了 Marble，你們選擇了它作為走出隱身模式的時刻。人們應(yīng)該從中帶走什么信息？它與你們的愿景，以及與其他實驗室可能看到的其他生成式世界之間的差異是什么？我注意到一個非常有趣的工具，你可以在場景內(nèi)部進(jìn)行錄制。試用視頻生成模型時，我不得不學(xué)習(xí)導(dǎo)演的術(shù)語，但在 Marble 中似乎不同。

李飛飛：Marble 是我們窺見未來的第一眼，是這段旅程的起點。這是全球首個同類首創(chuàng)模型，能以如此高的保真度生成 3D 世界，并且已經(jīng)面向公眾發(fā)布。這只是一個開始。我們寫了一篇技術(shù)博客，Justin 花了很多時間撰寫。不知道你們有沒有時間看。Justin 在文中詳細(xì)拆解了 Marble 支持哪些多模態(tài)輸入，支持哪些類型的可編輯性——即允許用戶與模型進(jìn)行交互，以及我們可以得到什么樣的輸出。

（關(guān)于核心愿景）Marble 是對我們模型的一瞥。我們是一家空間智能模型公司，相信空間智能是下一個前沿。為了制造空間智能模型，模型必須在多模態(tài)世界的理解、推理和生成能力方面非常強(qiáng)大，并且允許的交互水平最終要像人類與世界交互一樣復(fù)雜。這就是空間智能的宏大愿景，以及我們要構(gòu)建的那種世界模型。

（關(guān)于相機(jī)控制）沒錯，這非常重要。錄制能力意味著對相機(jī)機(jī)位的精確控制。要實現(xiàn)精確的相機(jī)控制，必須具備 3D 空間感。否則你就不知道如何調(diào)整相機(jī)的朝向或移動軌跡。這是這種模型自然衍生的結(jié)果，只是眾多例子之一。但即使那樣，你也不能指令說“向北平移 63 度”，你根本沒有那種控制力。而在 Marble 中，你對相機(jī)的放置擁有精確的控制權(quán)。

Justin Johnson:基本上，你可以把 Marble 看作是一個 3D 世界的生成式 AI 模型。你可以輸入文本、圖像或多張圖像，它會為你生成一個與輸入相匹配的 3D 世界。它也是交互式的，意味著你可以對場景進(jìn)行實時編輯。比如我生成一個場景后，可以說：“我不喜歡這個水瓶，把它改成藍(lán)色。去掉桌子。調(diào)整麥克風(fēng)的位置?！比缓蠡谶@些交互式編輯生成新的世界，并導(dǎo)出為各種格式。

（關(guān)于產(chǎn)品與科研的平衡）對于 Marble，我們試圖同時兼顧兩件事，我認(rèn)為我們很好地實現(xiàn)了平衡。一方面是構(gòu)建一個邁向“空間智能”宏偉愿景的模型。這種模型需要能夠理解多種類型的輸入，在多種情境下模擬世界，并推演世界隨時間變化的反事實情況。我們要開始構(gòu)建具備這些能力的模型，而今天的 Marble 確實已經(jīng)展現(xiàn)出了這些能力的雛形。但與此同時，我們是一家企業(yè)。我們不想讓這只停留在科研項目層面，而是要打造出對當(dāng)今現(xiàn)實世界有用的產(chǎn)品。因此，雖然 Marble 是一個致力于空間智能愿景的世界模型，但我們在設(shè)計時也有意讓它成為人們當(dāng)下就能使用的工具。我們已經(jīng)看到游戲、視覺特效和電影領(lǐng)域涌現(xiàn)出的用例。我認(rèn)為 Marble 作為一款產(chǎn)品在今天就能發(fā)揮很多作用，同時也為我們未來想要構(gòu)建的宏大世界模型奠定了基礎(chǔ)。

技術(shù)路線解密：高斯?jié)姙R與物理模擬

我認(rèn)為這是人們首先需要理解的一點，它不是像許多其他模型那樣逐幀生成的。這里的基本單元是什么？是網(wǎng)格、潑濺還是體素？世界模型的根本數(shù)據(jù)結(jié)構(gòu)是什么？另外，我還沒看到物理和力，如果有 Marble 2，會有運動機(jī)制嗎？是對高斯?jié)姙R進(jìn)行修改，還是完全不同的東西？潑濺密度的現(xiàn)狀如何？受限于生成數(shù)量還是渲染數(shù)量？

Justin Johnson:這要分“現(xiàn)狀”和“未來”。目前的模型原生輸出的是潑濺。高斯?jié)姙R就像微小的半透明粒子，在 3D 空間中有位置和方向，場景就是由大量這種高斯?jié)姙R構(gòu)建起來的。高斯?jié)姙R非常酷，因為可以高效地實時渲染。你可以在 iPhone 上渲染所有內(nèi)容。這就是我們獲得精確相機(jī)控制的方式，因為潑濺可以在幾乎任何客戶端設(shè)備上實時渲染。所以對于今天生成的許多場景，基本單元就是單個潑濺。

（關(guān)于未來的架構(gòu)）但我不認(rèn)為這是根本性的。我可以想象未來會有其他有趣的方法。比如我們在 World Labs 內(nèi)部研究過的 RTFM 模型，它確實是一次生成一幀，其基本單元就是隨著用戶交互逐幀生成的。或者未來的架構(gòu)中，基本單元可能是一個 Token，代表 3D 世界的某個區(qū)塊。我認(rèn)為隨著時間推移，我們可以嘗試許多不同的架構(gòu)。

（關(guān)于物理引擎集成）我認(rèn)為有幾種修改是合理的。在這個領(lǐng)域工作的美妙之處在于有很多集成方式。學(xué)術(shù)界已經(jīng)有很多關(guān)于注入物理屬性的有趣研究。高斯?jié)姙R本身是小粒子，已經(jīng)有很多方法將物理屬性附加到潑濺上，比如設(shè)定質(zhì)量，或者視為通過虛擬彈簧與鄰居耦合。這樣就可以在潑濺之上做物理模擬了。為這些增加物理、動力學(xué)或交互性的一種途徑是，預(yù)測每個潑濺粒子的物理屬性，然后利用經(jīng)典物理學(xué)或?qū)W習(xí)算法進(jìn)行下游模擬?；蛘?，利用 3D 的可組合性在不同環(huán)節(jié)注入邏輯。比如我們生成 3D 場景，預(yù)測物體的 3D 屬性，再用經(jīng)典物理引擎模擬交互。另一種方式是，作為用戶動作的結(jié)果，模型以潑濺或其他形式重新生成整個場景。這可能更通用，因為不受限于已知的物理建模方式，但計算要求更高。這是未來工作的一個有趣領(lǐng)域，正如你所說，可以添加到潛在的 Marble 2 中。

（關(guān)于渲染限制）會有一些限制，取決于目標(biāo)用例。我們的一大限制條件是希望內(nèi)容能在移動設(shè)備和 VR 頭顯中清晰渲染，這些設(shè)備的算力較弱。如果你想在四年前的 iPhone 上以 30 到 60 FPS 的高幀率渲染高分辨率潑濺文件，處理數(shù)量確實受限。但如果使用今年的 iPhone、最新的 MacBook 或本地 GPU，或者不需要 60 FPS 1080p 的流暢度，就可以放寬限制，使用更多潑濺，獲得更高分辨率。

李飛飛：這里也存在動力學(xué)的機(jī)會。

合成數(shù)據(jù)是解決機(jī)器人“數(shù)據(jù)饑渴”的關(guān)鍵

我原本期待但沒聽到的一個用例是具身智能。你們現(xiàn)在只專注于虛擬領(lǐng)域嗎？也許需要先解決虛擬世界，再轉(zhuǎn)向具身領(lǐng)域。這本身就是一大步。我剛裝修了車庫，早該知道這個的。我想廚房是下一個。

李飛飛：如果你去 World Labs 主頁的 Marble Labs 頁面，會看到我們展示了不同的用例，包括視覺效果、游戲以及模擬用例。我們確實展示了這是一項可以在機(jī)器人訓(xùn)練中提供巨大幫助的技術(shù)。這回到了我之前談到的數(shù)據(jù)匱乏問題。機(jī)器人訓(xùn)練非常缺乏數(shù)據(jù)，高保真的現(xiàn)實世界數(shù)據(jù)至關(guān)重要但難以獲取。另一個極端是純粹的互聯(lián)網(wǎng)視頻數(shù)據(jù)，但那樣缺乏訓(xùn)練具身智能體所需的可控性。所以模擬和合成數(shù)據(jù)實際上是一個非常重要的中間地帶。我在這個領(lǐng)域工作多年，最大的痛點之一就是獲取合成模擬數(shù)據(jù)。你需要策劃資產(chǎn)、構(gòu)建場景、組合復(fù)雜情況。在機(jī)器人學(xué)中，你需要很多不同的狀態(tài)，讓具身智能體在合成環(huán)境中交互。Marble 非常有潛力幫助生成這些用于訓(xùn)練的合成模擬世界。

（關(guān)于應(yīng)用領(lǐng)域）這還有待決定。我確實認(rèn)為……

Justin Johnson:因為其他人都在直接進(jìn)軍那個領(lǐng)域，對吧？

李飛飛：也不完全是，但我會說那里很熱門。不過世界足夠大，容得下不同的方法。我們有早期測試版用戶已經(jīng)在使用 API 針對室內(nèi)設(shè)計用例進(jìn)行開發(fā)了。下次裝修時我們可以幫忙。

Justin Johnson:我們一直將其視為一種相當(dāng)橫向的技術(shù)，隨著時間推移應(yīng)該能觸及許多行業(yè)。Marble 目前可能更側(cè)重于創(chuàng)意行業(yè)，但驅(qū)動它的技術(shù)適用于許多事物。機(jī)器人學(xué)的應(yīng)用可能會比預(yù)期來得更早。我在網(wǎng)上開了個玩笑，在 Slack 上發(fā)視頻說：“誰想用 Marble 來規(guī)劃下一次廚房改造？”它在實際用途上效果很好。只要拍兩張廚房照片，在 Marble 中重建，然后使用編輯功能看看更換臺面、地板或櫥柜后的效果。即使我們沒有專門為此構(gòu)建功能，但作為強(qiáng)大的橫向技術(shù)，模型自然會衍生出這些用例。

5.4 億年的進(jìn)化 vs 50 萬年的語言

我對整個空間智能領(lǐng)域很好奇，首先你如何定義它？它與人們認(rèn)為 LLM 代表的傳統(tǒng)智能之間有何差距？比如 Dario 說我們有一個“充滿愛因斯坦的數(shù)據(jù)中心”，那像傳統(tǒng)智能而非空間智能。要具備空間智能需要什么？我們是生來就會的嗎？

李飛飛：首先我不理解“一個充滿愛因斯坦的數(shù)據(jù)中心”這個比喻。AI 作為一個學(xué)科是受人類智能啟發(fā)的。人類是已知宇宙中最聰明的動物。觀察人類智能，它是非常多元的。心理學(xué)家 Howard Gardner 在 20 世紀(jì) 60 年代提出了“多元智能”理論，包括語言智能、空間智能、邏輯智能和情感智能等。對我來說，空間智能是對語言智能的補(bǔ)充，而不是對立。我們將空間智能定義為在空間中推理、理解、移動和交互的能力。我常用 DNA 結(jié)構(gòu)推導(dǎo)做例子。雖然簡化了故事，但這很大程度上涉及分子和化學(xué)鍵在 3D 空間中的空間推理，最終才推測出雙螺旋結(jié)構(gòu)。這種能力很難簡化為純語言，卻是人類文明的巔峰時刻。

（關(guān)于不可言說性）但在日常生活中，比如我試圖抓起一個馬克杯?？吹今R克杯及其環(huán)境，看到自己的手，張開手在幾何上匹配馬克杯并觸摸正確的功能可供性點（affordance points），整個過程都是深度的空間行為。這很難用語言敘述，而且敘述語言本身無法讓你拿起馬克杯。

（關(guān)于進(jìn)化時間）作為一名視覺科學(xué)家，這很有趣。我總覺得視覺被低估了，因為它對人類來說太毫不費力了。你睜開眼睛，作為嬰兒就開始看世界，仿佛生來就會。確實，我們幾乎是與生俱來的，但你必須努力學(xué)習(xí)語言，包括學(xué)習(xí)寫作、語法和表達(dá)，這讓你感覺很困難。然而，大自然實際上花費了更多時間來優(yōu)化的能力，即感知和空間智能，卻被人類低估了。出生時我們的視敏度較低，感知能力確實會隨著時間增強(qiáng)，但大多數(shù)人類生來就具備看的能力，也生來就具備將感知與運動聯(lián)系起來的能力。在大自然中，優(yōu)化感知和空間智能花費了 5.4 億年，而語言——對語言發(fā)展的最慷慨估計大概也只有 50 萬年。

知識的蒸餾與物理定律的涌現(xiàn)

這讓我想起牛頓。我們使用語言來捕捉某些在經(jīng)驗和空間上也能理解的東西，但用語言描述更便捷。我們需要多久才能從你們的世界模型中“蒸餾”出知識并融入語言模型？難道為了做到這一點，必須完全拋棄語言模型嗎？如果你有一個高精度的世界模型，但不給它任何關(guān)于我們目前物理學(xué)標(biāo)準(zhǔn)模型的概念，它能從頭重構(gòu)出物理定律嗎？

Justin Johnson:我不認(rèn)為需要拋棄。我覺得它們是多模態(tài)的。即使是我們現(xiàn)在的模型 Marble 也接受語言作為輸入。所以它是深度的多模態(tài)模型，在許多應(yīng)用場景中，這些模型將協(xié)同工作。即使擁有了通用模型，還有一個務(wù)實的問題：人們使用語言，并且希望用語言與系統(tǒng)交互。

（關(guān)于重構(gòu)物理學(xué)）這確實是個有趣的問題。實際上你甚至不需要做 AI 來回答這個問題。如果發(fā)現(xiàn)外星人，看看他們擁有什么樣的物理學(xué)就知道了。他們可能擁有一套完全不同的體系。我們對宇宙的知識和對物理學(xué)的理解，是否在某種程度上受到我們自身認(rèn)知或技術(shù)進(jìn)化路徑依賴的限制？如果給予足夠的天體運動數(shù)據(jù)，一個大語言模型實際上能預(yù)測出相當(dāng)準(zhǔn)確的運動軌跡，我也不會感到驚訝。假設(shè)我虛構(gòu)了一個圍繞恒星的行星系統(tǒng)，給予足夠的數(shù)據(jù)，模型會告訴你第一天它在哪里，第二天它在哪里。這我不驚訝。但是 $F=ma$ 或者“作用力等于反作用力”，那完全是另一個抽象層級。這超出了今天大語言模型的能力范圍。

李飛飛：舉個例子，牛頓之所以能寫下那些定律，正是因為他在觀察物體下落的物理世界中，積累了大量的具身經(jīng)驗。我想知道人們是否可以運行這樣一個實驗：我們現(xiàn)在有大量關(guān)于行星或天體運動的天體物理數(shù)據(jù)。只要把這些數(shù)據(jù)輸入到一個模型中，看看牛頓定律是否會涌現(xiàn)。我猜不會。牛頓定律的抽象層級與這些大語言模型所代表的層級不同。心理理論可能還會涉及到情商，這是今天的 AI 真的完全沒有觸及的領(lǐng)域。

Transformer 架構(gòu)的本質(zhì)

我必須問一個很多人發(fā)給我們的問題：我們需要拋棄多少東西？序列到序列建模過時了嗎？注意力機(jī)制過時了嗎？我們是在質(zhì)疑一切嗎？

李飛飛：我認(rèn)為在世界模型中，我們將看到超越序列到序列的算法或架構(gòu)。

Justin Johnson:我認(rèn)為應(yīng)該堅持使用有效的東西。注意力機(jī)制依然重要。很多東西如果沒壞就不用修。世界上有很多難題要解決，讓我們一次專注于一個。不過這里我覺得有一點技術(shù)上的誤解。Transformer 實際上已經(jīng)為我們解決了這個問題。Transformer 本質(zhì)上并不是序列模型，它本質(zhì)上是集合的模型。這非常強(qiáng)大。因為很多 Transformer 是從基于循環(huán)神經(jīng)網(wǎng)絡(luò)的早期架構(gòu)演變而來的，而 RNN 確實有內(nèi)置的順序架構(gòu)，它們確實是模擬一維序列的。但 Transformer 只是集合的模型，它們可以模擬很多東西，這些集合可以是一維序列，也可以是其他形式。

（關(guān)于技術(shù)細(xì)節(jié)）對，沒錯。所以 Transformer 實際上不是 Token 序列的模型，而是 Token 集合的模型。在標(biāo)準(zhǔn) Transformer 架構(gòu)中，唯一注入順序信息、區(qū)分事物順序的東西，是你給 Token 的位置嵌入。如果你選擇給它一種一維的位置嵌入，那是模型知道它是一維序列的唯一機(jī)制。在 Transformer 塊內(nèi)發(fā)生的所有算子要么是 Token 級的，例如前饋網(wǎng)絡(luò)、QKV 投影、逐 Token 歸一化，所有這些都是每個 Token 獨立進(jìn)行的。Token 之間的交互是通過注意力機(jī)制發(fā)生的，但這本身是置換等變的。也就是說，如果我打亂我的 Token 順序，注意力算子會以完全相同的方式輸出打亂后的結(jié)果。所以它本質(zhì)上是一個處理 Token 集合的架構(gòu)。

尋找具備“智力無畏”精神的伙伴

我知道時間不多了，但想給你們一些時間來呼吁行動，無論是對于那些想在 World Labs 工作的人，什么樣的人應(yīng)該申請，或者除了 World Labs 之外人們應(yīng)該做什么研究對你們有幫助？我們清楚地感覺到，你們在尋找的一樣特質(zhì)是“智力上的無畏”，這是你們的一項原則。

李飛飛：我確實認(rèn)為現(xiàn)在是一個非常激動人心的時刻，去超越大語言模型，思考空間智能的無限可能性。我們實際上非?？释瞬牛秶鷱姆浅ＹY深的研究人員——思考像 Justin 剛才描述的那種訓(xùn)練世界模型大模型的問題，到優(yōu)秀的工程師——構(gòu)建從訓(xùn)練優(yōu)化到推理再到產(chǎn)品的系統(tǒng)。我們也渴望優(yōu)秀的商業(yè)人才、產(chǎn)品思想家和市場進(jìn)入人才。特別是現(xiàn)在我們通過 Marble 向世界展示了模型，我認(rèn)為我們有一個絕佳的機(jī)會與更大的人才庫合作，既解決模型問題，又向世界交付最好的產(chǎn)品。是的，我們真的是第一批既在模型方面又在產(chǎn)品方面嘗試這件事的人。

Justin Johnson:是的，我也很興奮人們能嘗試 Marble 并用它做很多很酷的事情。我認(rèn)為它有很多非常棒的能力和功能，結(jié)合得非常完美。

李飛飛：確實如此。在來的車上，Justin 和我說人們還沒有完全發(fā)現(xiàn)，好吧才過了 24 小時，還沒有完全發(fā)現(xiàn)一些高級編輯模式。比如打開高級模式，你可以像 Justin 說的那樣改變瓶子的顏色，改變地板，改變樹木。你需要點擊“高級模式”。我們在 UI/UX 上還有改進(jìn)空間，但記得點擊。

Justin Johnson:其實我試過這么做，但當(dāng)它顯示“創(chuàng)建”時，它只是讓我創(chuàng)建了一個完全不同的世界，而不是在原有基礎(chǔ)上修改。是的，我們需要招聘人來做產(chǎn)品。

| 文章來源：數(shù)字開物

第二十屆中國IDC產(chǎn)業(yè)年度大典(IDCC2025)暨數(shù)字基礎(chǔ)設(shè)施科技展(DITExpo) 以“重塑算力破界而生”為主題，將于2025年12月10-11日在北京首鋼國際會展中心1號館舉辦，將有超過12場主題平行論壇聯(lián)合舉辦。

萬卡集群怎么建？液冷如何用？算力出?，F(xiàn)狀如何？算電怎樣協(xié)同？國產(chǎn)芯片如何破局？算力資產(chǎn)如何定價？綠電直連路徑在哪？聚焦IDCC2025以及15+場論壇直擊算力產(chǎn)業(yè)核心命題！

↓↓↓掃碼立即報名參會↓↓↓

? END?

【專欄】精品再讀

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.