国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李飛飛World Labs最新判斷:AI寫完代碼,下一步是「寫世界」?

0
分享至



機器之心編輯部

AI 時代,我們已經(jīng)習慣了用「說話」搞定一切:想要一個表格,動動嘴皮子,大模型分分鐘就給生成出來;想完成個復(fù)雜任務(wù),交代清楚目標和限制,「小龍蝦」自己就干活去了。

這個時代,只要會用語言,就能調(diào)動越來越復(fù)雜的系統(tǒng)。大模型之所以迅速滲透各行各業(yè),本質(zhì)上是因為它們踩在了「文本」這個成熟接口之上。

但當問題換成空間時,事情就沒那么簡單了。比如你想改一套房子的布局,或者給機器人一個新的倉庫環(huán)境讓它學會搬貨,你不能只靠一句話反復(fù)「生成畫面」。如果每次移動一面墻、改變一盞燈,都要把整個世界從頭渲染一遍,那效率和可靠性都會出問題??臻g世界需要結(jié)構(gòu),需要持久存在的物體和規(guī)則,就像程序需要代碼,而不是每次都臨時算一遍結(jié)果。

這篇來自 World Labs 的博客,討論的正是這個問題:當 AI 開始真正參與空間創(chuàng)作和現(xiàn)實世界任務(wù)時,什么才是它與人類、與其他系統(tǒng)溝通的「通用接口」?作者給出的答案是:3D。3D 不只是視覺效果,而是一種像代碼一樣的結(jié)構(gòu)化表達。它可以被生成、被檢查、被修改、被版本管理,也可以接入模擬系統(tǒng)、機器人系統(tǒng)和現(xiàn)有的設(shè)計工具鏈。



圍繞這個核心類比,文章進一步展開:神經(jīng)圖形學像編程語言,負責表達空間結(jié)構(gòu);模擬引擎像芯片,負責執(zhí)行規(guī)則與物理;而世界模型則開始承擔「寫空間代碼」的角色。理解這一點,其實是在理解一個更大的變化——當空間本身變成可編程的媒介,人類和機器協(xié)作的方式,也會被重新定義。

以下是博客的具體內(nèi)容。

3D —— 空間「代碼」

我們可以通過將 3D 表示與代碼進行比較,來理解它在空間領(lǐng)域中的作用。代碼是一種持久的抽象,旨在指定由處理器執(zhí)行的底層邏輯。幾十年來,它驅(qū)動了現(xiàn)代世界的很大一部分。如今,AI 模型在推理和生成代碼方面變得極其熟練;隨后,這些代碼在遠早于 LLM 出現(xiàn)的硬件上執(zhí)行。作為接口,代碼和 3D 在我們使用它們的原因和方式上有著重要的結(jié)構(gòu)相似性。

人與機器之間

  • 代碼是人機之間極其強大的接口。當 AI 系統(tǒng)生成代碼時,人類可以對其進行檢查、修改、調(diào)試,并將其集成到更大的系統(tǒng)中。這促成了復(fù)合工作流:程序員和 AI 編程智能體可以共同迭代完善解決方案。
  • 3D 表示也可以發(fā)揮類似的作用。當世界模型生成一個 3D 場景、物體或環(huán)境時,人類可以在熟悉的工具中打開它,編輯幾何體、調(diào)整約束、重新運行模擬并糾正錯誤。在這里,同樣可以構(gòu)建復(fù)合工作流和流水線:設(shè)計師和工程師可以與生成式世界模型進行協(xié)作。

機器與機器之間

  • 代碼還可以作為機器到機器的接口。AI 生成的程序可以插入編譯器、運行時環(huán)境、API 以及現(xiàn)有的軟件基礎(chǔ)設(shè)施中。由于代碼遵循既定的抽象,它可以與現(xiàn)有工具互操作。
  • 同樣,3D 輸出也能與渲染引擎、模擬系統(tǒng)、物理求解器、機器人軟件棧和 CAD 工具集成。當世界模型生成結(jié)構(gòu)化的 3D 表示而非像素時,它就可以參與到現(xiàn)有的流水線中,并與編輯軟件和模擬引擎對接。

在這兩種情況下,關(guān)鍵屬性都是將狀態(tài)外化為其他系統(tǒng)可以使用的結(jié)構(gòu)化構(gòu)件。

試想在「代碼」領(lǐng)域的一種替代方案。與其讓 LLM 編寫程序,我們不如讓它成為程序本身。例如,我們可以提示 LLM:「對以下一百萬個數(shù)字的列表進行排序?!乖撃P陀心芰L試完全在其 token 流中模擬這種行為,方法是攝取列表并嘗試以排序后的順序重新輸出。

但我們很少這樣使用 LLM,除非是作為一種「小把戲」,而且我們也不指望它們能在這種任務(wù)上完美成功。為什么?因為代碼執(zhí)行提供了原始推理所不具備的保證,比如可重復(fù)執(zhí)行性、人類可讀性和模塊化可組合性。代碼可以獨立于模型的短暫上下文窗口進行存儲、版本控制、測試和運行。它將推理、表示和執(zhí)行分離開來:你思考算法,將程序?qū)懗晌谋?,然后再運行它。

空間系統(tǒng)中也有一個直接的對應(yīng)關(guān)系。讓 LLM 「成為程序」的等效做法,就是拋棄結(jié)構(gòu)化的世界表示和模擬引擎,轉(zhuǎn)而純粹依賴狀態(tài)與觀測混雜的黑盒系統(tǒng),例如逐幀查詢用于動作條件像素或狀態(tài)生成的模型。此類模型可能在其核心任務(wù)上表現(xiàn)優(yōu)異,并可用于各種應(yīng)用,但它們缺乏可操作的結(jié)構(gòu):它們的輸出無法被檢查、編輯、輕松共享(例如,像多人系統(tǒng)這樣的共享體驗,或機器人之間的共享意圖和狀態(tài)),也無法集成到現(xiàn)有的模擬和控制系統(tǒng)中。

神經(jīng)圖形學 —— 空間「編程語言」

如果說 3D 是代碼在空間領(lǐng)域的類比,那么什么扮演著編程語言的角色:精確、具有表現(xiàn)力且足夠通用以模擬世界?

幾十年來,出現(xiàn)了各種各樣的 3D 表示:網(wǎng)格(meshes)、體素(voxels)、點云(point clouds)、隱式場(implicit fields)、CAD 格式等等。但是,創(chuàng)建豐富的大規(guī)??臻g,特別是針對數(shù)字孿生,一直十分困難并受制于硬件。傳統(tǒng)的 3D 引擎是圍繞嚴格的內(nèi)存和計算限制構(gòu)建的,需要簡化的幾何體,且通常需要手工制作資產(chǎn)。為了最大限度地減少內(nèi)存使用和帶寬,流水線的設(shè)計初衷是資產(chǎn)的重用和壓縮。數(shù)據(jù)驅(qū)動的方法過于昂貴,并與驅(qū)動這些系統(tǒng)設(shè)計的基本假設(shè)相沖突。

針對機器學習優(yōu)化的軟硬件的爆炸式增長打破了這些限制?,F(xiàn)代 GPU 最初是為了渲染三角形而創(chuàng)建的,事實證明它對支持神經(jīng)網(wǎng)絡(luò)的大規(guī)模矩陣乘法運算異常有用。新一代的 GPU 被顯式設(shè)計為適應(yīng) AI 工作負載,擁有龐大的內(nèi)存芯片來容納模型和數(shù)據(jù)集。與此同時,這些 GPUs 依然能夠異常出色地渲染圖形和運行模擬。

具體而言,這一硬件趨勢使得 NeRF 和 Gaussian splatting 等新的消耗大量內(nèi)存和計算資源的技術(shù)大放異彩。我們現(xiàn)在可以生成、存儲和渲染能夠裝入內(nèi)存的世界級規(guī)模的表示,并在需要時動態(tài)重新計算它們。曾經(jīng)依賴靜態(tài)資產(chǎn)的流水線可以變得(部分或完全)生成式。這催生了保真度更高的環(huán)境、更大的多樣性以及新的應(yīng)用領(lǐng)域。例如,數(shù)字孿生可以從簡化且需手動更新的模型,轉(zhuǎn)變?yōu)槠湮锢韺?yīng)物不斷更新的高精度鏡像,從而支持監(jiān)控、控制和安全關(guān)鍵型工作流。

在這個新穎的架構(gòu)棧中,神經(jīng)圖形學發(fā)揮著類似編程語言的作用。它提供了一種表現(xiàn)力豐富的媒介,用于描述和生成空間結(jié)構(gòu),就像高級語言描述計算結(jié)構(gòu)一樣。

模擬引擎 —— 空間「芯片」

當世界模型隨著時間運行以實現(xiàn)交互、持久性和動態(tài)變化時,它才變得真正有用。如果 3D 是代碼,那么模擬引擎就是運行它的芯片。

交互性不僅是一個單一功能。它是模擬引擎幾十年來一直在解決的一系列系統(tǒng)問題:狀態(tài)管理、物理機制、碰撞檢測、光照、同步、確定性和回放。

至少,長時間跨度的交互體驗需要持久性。世界必須擁有一種能在單次渲染傳遞之后依然存活的身份。動作會留下痕跡,物體會保持狀態(tài),而一個會話也可以被恢復(fù)。這涉及三個核心組件:

  • 狀態(tài)管理(存在什么)
  • 更新規(guī)則(動作和物理/規(guī)則如何改變它)
  • 觀測(當前狀態(tài)如何被渲染為像素或傳感器輸出)

原則上,大型擴散或生成模型可以將這一切折疊成一個端到端的映射:(歷史 + 動作)→ 下一幀。在這里,「狀態(tài)」僅存在于短暫的神經(jīng)激活之中。這是一個引人注目的研究方向,已有多個模型和項目在探索這種「完全像素化」方法究竟能走多遠。

但折疊這個架構(gòu)棧會引入一個根本性的權(quán)衡。當內(nèi)存、動態(tài)和渲染都糾纏在一個單一網(wǎng)絡(luò)內(nèi)部時,創(chuàng)造和消費之間的界限就模糊了。運行時的物理交互(踢球)和非物理編輯(拆除墻壁)變成了同一類型的輸入。使用我們上面的類比,編輯代碼變得與執(zhí)行代碼無法區(qū)分。雖然這作為訓練大規(guī)模模型的目標很方便,但這種混為一談削弱了有關(guān)物理一致性、可回放性和確定性的保證。

另一種替代方案是因式分解或混合運行時:學習到的世界模型生成和解釋結(jié)構(gòu),但在 3D 接口和表示的媒介作用下,有針對性地使用類似于現(xiàn)有引擎組件的外部工具。鑒于基于 LLM 的編程的發(fā)展軌跡,這些模型很可能能夠比現(xiàn)成的庫和引擎構(gòu)建出更適合其用例的定制邏輯。但我們預(yù)測,在用于感知、生成和推理的組件與那些「規(guī)則至關(guān)重要」的組件之間,依然會存在明顯的區(qū)分。

在因式分解的系統(tǒng)中,3D 成為人機之間一個強大的接口,暴露出可控、可重復(fù)且可互操作的輸入和輸出。

3D 是人機接口

鑒于我們將 3D 比作代碼,讓我們探討一下為什么 3D 是人機之間交互的一門強大媒介,能夠描述物理和虛擬世界并與之互動。

對于機器:許多軟件系統(tǒng)已經(jīng)在空間維度上運行:模擬器、機器人軟件棧、游戲引擎、CAD 工具和 GIS 系統(tǒng)都通過幾何體、變換、材質(zhì)、軌跡和約束來進行交互。如果世界模型以相同的結(jié)構(gòu)化語言生成輸出,它就可以直接接入現(xiàn)有的流水線。

同樣重要的是,機器越來越需要相互交流空間意圖。規(guī)劃智能體可能會標記目標區(qū)域,安全監(jiān)視器可能會標記禁區(qū),感知模塊可能會標注不確定的幾何體,渲染模塊可能會請求新的視角:這些都是空間概念。

如果所有的空間推理都糾纏在一個單一的龐大模型中,實現(xiàn)這一目標的一種方法可能是共享隱向量。但這是一種很強的假設(shè),需要共享模型或者至少共享隱空間。在異構(gòu)的模塊化環(huán)境中,這種假設(shè)不成立。哪怕是語言,對于傳達幾何和約束而言也是一種效率低下的交換格式;而結(jié)構(gòu)化的 3D 則是一種更為自然的通用語。

導出能力同樣重要。當一個世界模型能夠?qū)⑵洹杆枷搿雇饣癁榫唧w的表示(如 splats、網(wǎng)格、視頻)時,它們就成了可以被檢查、驗證、進行版本控制、測試和重用的構(gòu)件 —— 可組合的流水線應(yīng)運而生。

對于人:3D 交互對人類來說也是很自然的。我們一生中醒著的時間都在空間中導航:伸手、行走、操縱、對齊……我們的心智模型是圍繞持久的物體和關(guān)系構(gòu)建的:「椅子在桌子下面」,「門廊連接著這些房間」。當系統(tǒng)暴露出這種顯式的結(jié)構(gòu)時,它們便與我們原有的思考方式對齊了。

這與純粹基于圖像的工作流形成了鮮明的對比。在 2D 動畫中,每一幀都必須重繪,實際上相當于每秒將世界重建幾十次。而在 3D 中,世界被構(gòu)建一次,隨后只需移動相機、改變光照、讓物體動起來即可。單次空間編輯會自動傳播到渲染出的每一幀。

這種將空間 3D 表示與渲染分離的做法,恰恰反映了代碼與執(zhí)行之間的分離。你只需修改一次源代碼然后重新運行,而不是從頭重寫每一個輸出。

邁向未來

如果 3D 扮演著類似于代碼作為人機接口的角色,那么發(fā)展軌跡就很清晰了:世界變得「可編程」,成為一種人與機器都能生成、編輯、組合和分享的媒介。

這正是我們在 World Labs 努力建設(shè)的方向:

  • Marble是一個多模態(tài)世界模型,旨在重建、生成和模擬 3D 世界。它可以從文本、圖像、視頻或粗略的 3D 布局中創(chuàng)建持久的、可導航的世界。這些世界可以被編輯、擴展、導出(作為 Gaussian splats、網(wǎng)格或視頻),并集成到下游工具中。
  • Marble 的 3D 調(diào)節(jié)接口是一個名為Chisel的實驗性功能,它推進了將 3D 作為粗粒度控制層的理念。它允許創(chuàng)作者使用墻壁、平面、體積和導入的資產(chǎn)來勾勒出結(jié)構(gòu)輪廓,然后將這些作為輸入提供給我們的模型,從而在上面生成豐富詳細的視覺效果。將布局和樣式分離,讓用戶能夠?qū)?gòu)圖和外觀進行顯式的控制。
  • RTFMSpark探索了渲染層。RTFM 正在對「學習型渲染(learned rendering)」進行實驗,能從簡單的結(jié)構(gòu)化輸入中產(chǎn)生復(fù)雜的視覺效果(如反射和陰影)。Spark 是一款高性能的 Gaussian splatting 渲染器,它集成了 WebGL,將神經(jīng)圖形學帶入了實時的 Web 環(huán)境中。

這一領(lǐng)域正在快速演變。世界模型將越來越多地參與到混合架構(gòu)棧中:生成結(jié)構(gòu)化的世界(「代碼」),通過神經(jīng)圖形學(「語言」)進行表達,并在模擬引擎(「芯片」)內(nèi)部執(zhí)行。這是一場向可編程、數(shù)據(jù)驅(qū)動的空間系統(tǒng)邁進的范式轉(zhuǎn)移,該系統(tǒng)能夠支持逼真的環(huán)境、數(shù)字孿生、機器人、培訓、設(shè)計以及全新的應(yīng)用類別。其核心前提始終不變:人類、智能體和軟件之間可靠的溝通與協(xié)作,需要一個精確、緊湊、可檢查且可操縱的接口。

那個接口,就是 3D。

原文鏈接:https://www.worldlabs.ai/blog/3d-as-code

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
一發(fā)癱瘓全美?美專家急喊中國停手,自己玩了60年卻不讓中國碰!

一發(fā)癱瘓全美?美專家急喊中國停手,自己玩了60年卻不讓中國碰!

李健政觀察
2026-03-04 17:27:14
爺爺奶奶摳搜63年,每月雷打不動存1900元,取錢那天嚇得腿都軟了

爺爺奶奶摳搜63年,每月雷打不動存1900元,取錢那天嚇得腿都軟了

小秋情感說
2026-03-01 09:54:29
伊朗高層被第三次團滅

伊朗高層被第三次團滅

仰望星空的一粒沙子
2026-03-04 07:36:50
部分高鐵線路重回350公里設(shè)計時速運營

部分高鐵線路重回350公里設(shè)計時速運營

中國青年報
2026-03-04 11:36:02
國際貨幣基金組織副總裁卡茨:如果戰(zhàn)爭帶來的長期不確定性持續(xù)存在 預(yù)計各國央行將保持謹慎

國際貨幣基金組織副總裁卡茨:如果戰(zhàn)爭帶來的長期不確定性持續(xù)存在 預(yù)計各國央行將保持謹慎

財聯(lián)社
2026-03-04 00:27:11
上海市市長龔正:為國擔當、勇為尖兵,奮力推動上海“十五五”發(fā)展實現(xiàn)良好開局

上海市市長龔正:為國擔當、勇為尖兵,奮力推動上?!笆逦濉卑l(fā)展實現(xiàn)良好開局

澎湃新聞
2026-03-04 17:06:10
全國人大代表方燕:建議強制清退嚴重侵害業(yè)主利益的物業(yè)公司

全國人大代表方燕:建議強制清退嚴重侵害業(yè)主利益的物業(yè)公司

大風新聞
2026-03-04 17:31:02
買前白月光,買后真垃圾!這6個家居物品,坑了太多人!

買前白月光,買后真垃圾!這6個家居物品,坑了太多人!

室內(nèi)設(shè)計師有料兒
2026-02-24 15:06:49
3月4日俄烏最新:戰(zhàn)爭研究所的評估

3月4日俄烏最新:戰(zhàn)爭研究所的評估

西樓飲月
2026-03-04 16:15:31
難以置信!網(wǎng)傳一大廠員工稱自己賺了1000多萬,卻覺得人生很失敗

難以置信!網(wǎng)傳一大廠員工稱自己賺了1000多萬,卻覺得人生很失敗

火山詩話
2026-03-04 09:56:36
詹姆斯賽后爆粗原聲曝光!摟著錫安說道:別聽A-史密斯那些廢話

詹姆斯賽后爆粗原聲曝光!摟著錫安說道:別聽A-史密斯那些廢話

追球者
2026-03-04 14:57:28
朱芳雨早已注意他3年,15歲身高2米07,11投全中,真是個好苗子

朱芳雨早已注意他3年,15歲身高2米07,11投全中,真是個好苗子

查爾菲的筆記
2026-03-04 18:15:58
現(xiàn)貨黃金突破5200美元/盎司,日內(nèi)漲2.21%

現(xiàn)貨黃金突破5200美元/盎司,日內(nèi)漲2.21%

每日經(jīng)濟新聞
2026-03-04 18:26:06
全球市場開啟無差別拋售

全球市場開啟無差別拋售

第一財經(jīng)資訊
2026-03-04 16:13:40
黃金白銀斷崖跳水

黃金白銀斷崖跳水

每日經(jīng)濟新聞
2026-03-03 20:06:15
媒體:美國官員證實美軍向巴基斯坦卡拉奇的抗議者開槍

媒體:美國官員證實美軍向巴基斯坦卡拉奇的抗議者開槍

澎湃新聞
2026-03-03 15:57:09
41歲打鐵花網(wǎng)紅一氧化碳中毒去世,弟弟回應(yīng):除夕夜表演后出了事

41歲打鐵花網(wǎng)紅一氧化碳中毒去世,弟弟回應(yīng):除夕夜表演后出了事

南國今報
2026-03-03 21:03:07
悉尼妹:我最喜歡的球員是C羅,如果我踢球,他會是我的榜樣

悉尼妹:我最喜歡的球員是C羅,如果我踢球,他會是我的榜樣

懂球帝
2026-03-04 19:34:07
歷史性轉(zhuǎn)折!黎巴嫩正式清場真主黨,中東格局一夜改寫

歷史性轉(zhuǎn)折!黎巴嫩正式清場真主黨,中東格局一夜改寫

老馬拉車莫少裝
2026-03-02 23:27:10
第16波打擊來了,美航母開始后撤,伊朗犯下大錯,以色列致電中國

第16波打擊來了,美航母開始后撤,伊朗犯下大錯,以色列致電中國

小小科普員
2026-03-04 13:58:08
2026-03-04 20:43:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12410文章數(shù) 142578關(guān)注度
往期回顧 全部

科技要聞

多位核心離職,阿里親手廢掉最強AI天團?

頭條要聞

特朗普政府在眾院通報伊朗簡報 多議員憤怒:純屬胡扯

頭條要聞

特朗普政府在眾院通報伊朗簡報 多議員憤怒:純屬胡扯

體育要聞

2026年中超,為什么值得你多看一眼?

娛樂要聞

謝謝謝娜 貢獻出26年內(nèi)娛的第一個笑話

財經(jīng)要聞

談擴內(nèi)需等 人大新聞發(fā)布會回應(yīng)這些熱點

汽車要聞

鴻蒙智行首款獵裝車 尚界Z7/Z7T首發(fā)

態(tài)度原創(chuàng)

健康
教育
數(shù)碼
房產(chǎn)
時尚

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

開始體檢!濟南、青島、臨沂等地2026高考體檢要求!繳費只收現(xiàn)金!

數(shù)碼要聞

消息稱聯(lián)想下發(fā)漲價函,部分電腦終端零售價相比去年漲幅超千元

房產(chǎn)要聞

400組,30套!聚億·椰海錦程為何能在春節(jié)火出圈?

小院迎來了最美的季節(jié)

無障礙瀏覽 進入關(guān)懷版