国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

VLA死了,遙操也死了!英偉達(dá)機(jī)器人一號(hào)位說的

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

VLA已死,世界動(dòng)作模型當(dāng)立。遙操已死,人類的傳感器數(shù)據(jù)長存。

在今年的紅杉AI Ascent 2026上,Jim Fan只用了20分鐘,就給機(jī)器人行業(yè)連開了兩場“葬禮”。

第一場,送別過去三年幾乎統(tǒng)治具身智能的VLA;第二場,送別所有人以為還能再吃很多年的遙操作。

作為現(xiàn)任英偉達(dá)機(jī)器人方向負(fù)責(zé)人,Jim Fan去年還在同一張講臺(tái)上講機(jī)器人如何通過測試。今年,他已經(jīng)開始討論——

舊范式怎么死,新范式怎么立。

而這一新范式在Jim眼里,很大程度上得靠抄LLM的作業(yè)。

預(yù)訓(xùn)練模擬下一個(gè)世界狀態(tài),對應(yīng)LLM的next token prediction;

動(dòng)作微調(diào)校準(zhǔn)對真實(shí)機(jī)器人有價(jià)值的部分,對應(yīng)supervised finetuning;

最后,由強(qiáng)化學(xué)習(xí)完成最后一里路。



過去一段時(shí)間,英偉達(dá)陸續(xù)放出EgoScale、DreamDojo、Dream Zero等一系列工作,幾乎以一己之力定義了具身智能2026年的走向。

而在這場名叫Robotics: Endgame(機(jī)器人聯(lián)盟,終局之戰(zhàn))的演講中,則匯聚了Jim Fan關(guān)于VLA世界模型遙操作UMIegocentric仿真Scaling Law等機(jī)器人領(lǐng)域思考的最新沉淀,十分值得一看。

以下是演講核心觀點(diǎn)摘錄:

  • VLA已死,WAM將作為新的預(yù)訓(xùn)練范式。
  • 未來一到兩年,遙操占比會(huì)降到幾乎可以忽略不計(jì)。機(jī)器人的「主食」會(huì)變成第一視角人類視頻,整個(gè)數(shù)據(jù)范式轉(zhuǎn)向Sensorized Human Data(人類傳感器數(shù)據(jù))。
  • 人類第一視角視頻成功啟示了機(jī)器人領(lǐng)域的scaling law,英偉達(dá)將徹底押注第一視角人類視頻。
  • 算力=環(huán)境=數(shù)據(jù)。
  • 機(jī)器人科技樹只剩三個(gè)成就待解鎖,物理圖靈測試(2-3年內(nèi))、Physical API、Physical Auto Research,2040年有望全部點(diǎn)亮。

以下為演講全文。

(為方便閱讀,做了適當(dāng)?shù)臐櫳c刪減)

機(jī)器人聯(lián)盟:終局之戰(zhàn)

2016年的一個(gè)夏日,我就在我們現(xiàn)在坐的辦公室里。有一個(gè)身穿亮皮夾克、手臂粗壯的家伙,舉著一個(gè)大金屬托盤。

他在上面寫道:致Elon和OpenAI團(tuán)隊(duì),致計(jì)算與人類的未來,我將向你們展示世界上第一臺(tái)DGX1。

那是我第一次見到黃仁勛。和任何優(yōu)秀的實(shí)習(xí)生一樣,我迫不及待地排隊(duì)簽上自己的名字。

你能找到嗎?我的名字在這里,還有Andrej Karpathy的名字。



那時(shí),我完全不知道自己將要經(jīng)歷什么。而接下來的事情,沒人能比Ilya本人描述得更好:

如果你相信深度學(xué)習(xí),那它也會(huì)相信你。



果然,他們對深度學(xué)習(xí)的信念感染了我們每一個(gè)人。

三步函數(shù),六年時(shí)間,這就是我們到今天的全部歷程。



第一步(2020年),GPT-3預(yù)訓(xùn)練。預(yù)測下一個(gè)詞元(next token prediction)主要是學(xué)習(xí)語法規(guī)則,理解語言結(jié)構(gòu),模擬思想、代碼和字符串的展開方式。

第二步(2022年),InstructGPT(指令GPT)通過監(jiān)督微調(diào)對模擬進(jìn)行校準(zhǔn),使其能夠執(zhí)行實(shí)際任務(wù),或使用強(qiáng)化學(xué)習(xí)超越模仿學(xué)習(xí)。

第三步(2026年),自動(dòng)化研究(autoresearch)加速整個(gè)循環(huán),超越人類能力。

正如Andrej所說,所有付出都在向最終目標(biāo)沖刺,對于LMS(語言模型系統(tǒng))來說,他們正處于終局階段。



老實(shí)說,我非常羨慕,看Andrej的笑容就知道他有多開心。

語言模型團(tuán)隊(duì)正在享受他們的巔峰時(shí)刻,他們正在極速開發(fā)AGI(通用人工智能),并將路上的創(chuàng)造稱之為“神話(myhtos)”。

那為什么搞機(jī)器人的不能也享受這種樂趣呢?

作為自尊心強(qiáng)的科學(xué)家,我復(fù)制了他們的思路并將它重新命名——“大平行(Great Parallel)”。

我們不再模擬字符串,而是模擬物理世界的下一個(gè)狀態(tài)(next physical world state),然后通過動(dòng)作微調(diào)(action finetuning)校準(zhǔn)模擬中對真實(shí)機(jī)器人有價(jià)值的部分,并讓強(qiáng)化學(xué)習(xí)完成最后一里路。



大平行就是復(fù)制語言模型的成功策略。打不過他們,就加入。

接下來的章節(jié)就到了——機(jī)器人聯(lián)盟:終局之戰(zhàn)(Robotics:The End Game)。

抱歉,我忍不住開個(gè)小玩笑,香蕉太有趣了,感謝哈薩比斯。



如何玩轉(zhuǎn)終局?歸結(jié)為兩點(diǎn):模型策略(models trategy)和數(shù)據(jù)策略(data strategy)。



先看模型策略。過去三年,視覺-語言-動(dòng)作模型(VisualLanguageActionModels,VLA)占據(jù)主導(dǎo),Pi和Gr00t等模型也屬于這一類。




我們假設(shè)預(yù)訓(xùn)練由VLM(視覺語言模型,Visual Language Model)完成,然后在其上添加動(dòng)作頭(action head)。

但實(shí)際上,這些模型都是LVA(語言視覺動(dòng)作模型,Language Visual Action),大部分參數(shù)用于語言,使語言成為核心,其次是視覺和動(dòng)作。

在VLA里,語言才是一等公民,視覺和動(dòng)作只能靠邊站。



設(shè)計(jì)上,VLA更擅長編碼知識(shí)和名詞,但在物理和動(dòng)詞方面表現(xiàn)不足,有點(diǎn)「頭重腳輕」。

我最喜歡VLA原論文(RT-2)中的例子,把代碼移動(dòng)到泰勒·斯威夫特(TaylorSwift)的圖片上。

它從未見過她,卻能泛化,但這并不是我們想要的預(yù)訓(xùn)練能力。



那么,第二條預(yù)訓(xùn)練范式是什么?

我們認(rèn)為,第二種預(yù)訓(xùn)練范式理應(yīng)應(yīng)該非常美麗,但不幸的是,它變成了AI視頻垃圾(AI Video Slop),比如看貓咪在監(jiān)控?cái)z像頭上彈班卓琴。

這雖然表面上看很娛樂,但沒人認(rèn)真對待它,直到我們意識(shí)到這些視頻模型實(shí)際上在內(nèi)部學(xué)習(xí)模擬下一個(gè)世界狀態(tài)。

這是Veo3的一些例子,模型自動(dòng)學(xué)習(xí)了重力、浮力、光照、反射、折射等物理規(guī)律,沒有顯式編碼,通過大規(guī)模預(yù)測下一團(tuán)像素,物理規(guī)律自己涌現(xiàn)了,視覺規(guī)劃也自然出現(xiàn)。



Veo-3是如何解決這些物體的?通過在像素空間前向模擬。特別注意右下角,這是我最喜歡的例子。Veo3超聰明,它能發(fā)現(xiàn)如果你沒看,幾何就是可選的。我稱之為“物理垃圾(physics slop)”。

如何讓這些世界模型有用?我們通過動(dòng)作微調(diào),將所有可能的未來狀態(tài)的疊加(superposition)壓縮到對真實(shí)機(jī)器人有價(jià)值的部分。

于是,就有了Dream Zero。



Dream Zero是一種全新的策略模型。它會(huì)先“夢”到未來幾秒鐘里可能發(fā)生什么,然后再據(jù)此做出動(dòng)作。

要知道,機(jī)器人的運(yùn)動(dòng)控制本質(zhì)上是一組高維、連續(xù)的信號(hào)。從某種意義上說,它和像素并沒有本質(zhì)區(qū)別,都可以被看作連續(xù)變化的數(shù)據(jù)流。

所以,我們可以像渲染視頻一樣,同時(shí)把動(dòng)作也渲染出來。

Dream Zero能同時(shí)解碼兩個(gè)東西,下一刻的世界狀態(tài),以及下一步該執(zhí)行的動(dòng)作。

也正因?yàn)槿绱?,它能夠零樣本(zero-shot)完成那些訓(xùn)練中從未見過的新任務(wù)、新動(dòng)作。

更有意思的是,當(dāng)機(jī)器人真正開始執(zhí)行時(shí),我們甚至可以實(shí)時(shí)“看到”它正在想什么,而且這種相關(guān)性非常緊密。

如果視頻預(yù)測是對的,動(dòng)作通常就是對的;?如果視頻開始幻覺,動(dòng)作也往往會(huì)失敗。

所以,也直到這里,視覺和行動(dòng)才第一次真正坐到了一張桌子上。

我們后來用Dream Zero做了很多有趣的實(shí)驗(yàn),就讓機(jī)器人在實(shí)驗(yàn)室里到處轉(zhuǎn),然后往prompt輸入框里隨便打各種指令,看看它會(huì)怎么做。

當(dāng)然,Dream Zero現(xiàn)在還做不到把每個(gè)任務(wù)都100%穩(wěn)定完成。

不過,它有點(diǎn)像GPT-2,雖然未必每次都精準(zhǔn),但它幾乎總能先把動(dòng)作的大致“形狀”做對。

Dream Zero,是我們邁向機(jī)器人“開放式任務(wù)”和“開放詞匯提示”(open-ended, open-vocabulary prompting)的第一步。

我們把這類全新的模型稱為:World Action Models,簡稱WAM——世界動(dòng)作模型。

所以此刻,讓我們一起為我們的老朋友VLA 默哀片刻。



它們曾經(jīng)很好地服務(wù)過我們。安息吧,VLA。VLA已死,WAM當(dāng)立。

而要實(shí)現(xiàn)WAM,接下來要拼的,就是下一代數(shù)據(jù)策略。

畫面里的這個(gè)人,是Bill Dally,正在我們實(shí)驗(yàn)室里親自做遙操作。



考慮到他的薪水,我敢說這大概是我們整個(gè)數(shù)據(jù)集里,成本最高的一條遙操作軌跡。

過去三年,機(jī)器人領(lǐng)域幾乎被遙操所統(tǒng)治。那簡直是遙操的黃金時(shí)代。

各種VR頭顯、為低延遲串流做極致優(yōu)化的系統(tǒng)、還有那些結(jié)構(gòu)復(fù)雜、看起來像中世紀(jì)刑具一樣的遙操作設(shè)備。

整個(gè)行業(yè)砸了大量資金。也經(jīng)受了大量痛苦。

但問題是遙操的數(shù)據(jù)產(chǎn)能從物理上就有上限。理論上,一臺(tái)機(jī)器人一天最多也就24小時(shí)的數(shù)據(jù)。

但說實(shí)話,如果現(xiàn)實(shí)里每臺(tái)機(jī)器人一天能穩(wěn)定采到3小時(shí),就已經(jīng)謝天謝地了。



而且前提還是——機(jī)器人之神今天心情不錯(cuò)。因?yàn)檫@些家伙,真的隔三差五就鬧脾氣(機(jī)器人故障)。

那問題來了,我們還能做得更好嗎?

有人的答案是直接把機(jī)器人的手,戴在你自己的手上。

這套系統(tǒng)叫UMI(Universal Manipulation Interface,通用操作接口)。

它的想法簡單得近乎狡猾你把機(jī)器人穿在自己手上。你的手怎么動(dòng),機(jī)器人就怎么動(dòng)。與此同時(shí),把機(jī)器人其余身體部分,統(tǒng)統(tǒng)從數(shù)據(jù)采集閉環(huán)里拿掉。

換句話說,直接用人類的手,去采機(jī)器人需要的數(shù)據(jù)。

在我看來,UMI可能是機(jī)器人數(shù)據(jù)領(lǐng)域最偉大的論文之一。而它最終催生了兩家獨(dú)角獸公司。



左邊,是Generalist團(tuán)隊(duì)成員把這個(gè)設(shè)計(jì)進(jìn)一步優(yōu)化?,F(xiàn)在,你可以直接把機(jī)械夾爪戴在自己的手上。

右邊,則是Sunday做出的三指數(shù)據(jù)手套。

而去年,我們又往前邁了一步。我們設(shè)計(jì)出了一套外骨骼(exoskeleton)系統(tǒng),它和五指靈巧機(jī)器人手之間,能夠做到1:1映射。

我們把它叫做DexUMI,來看實(shí)際效果。



左邊,是最傳統(tǒng)也最快的數(shù)據(jù)采集方式,人類直接完成操作,永遠(yuǎn)是最快的。

右邊,是遙操作。你會(huì)發(fā)現(xiàn)這有多難。畫面里這位操作員,是我們團(tuán)隊(duì)最熟練的PhD之一。

即便如此,他仍然得極其小心地對齊、校準(zhǔn)。整個(gè)過程又慢又累。而且,成功率也不高。

中間,就是我們的方案。你只需要戴上這套外骨骼,直接完成動(dòng)作,數(shù)據(jù)就同步被采集下來。然后,我們用這些數(shù)據(jù)訓(xùn)練機(jī)器人策略模型。

而你現(xiàn)在看到的,是一個(gè)完全自主執(zhí)行的機(jī)器人策略。最關(guān)鍵的是它訓(xùn)練過程中,使用的遙操數(shù)據(jù)是零。

這意味著,我們第一次打破了那個(gè)機(jī)器人領(lǐng)域的詛咒,每臺(tái)機(jī)器人每天最多只能采24小時(shí)數(shù)據(jù)。而且你看這些機(jī)器人有多開心。因?yàn)?,它們終于不用再親自參與數(shù)據(jù)采集了。

但問題來了,這就是終點(diǎn)嗎?我們真的解決了機(jī)器人的scaling問題嗎?

在場有人開Tesla或Waymo嗎?開車的時(shí)候,其實(shí)你一直都在參與世界上最大的物理數(shù)據(jù)飛輪。

更妙的是,你甚至感覺不到。尤其是在Tesla FSD工作的時(shí)候,數(shù)據(jù)上傳,是一個(gè)悄無聲息、在后臺(tái)自動(dòng)完成的過程。

但戴著UMI這種數(shù)據(jù)穿戴設(shè)備呢?

說實(shí)話,還是太麻煩了。它依然是侵入式的。遠(yuǎn)沒有每天開車去上班那樣自然。所以,我們需要一個(gè)屬于機(jī)器人的FSD等價(jià)物。

我們需要讓數(shù)據(jù)采集,徹底退出前臺(tái),融入背景,悄無聲息地發(fā)生。只有這樣,我們才能真正捕捉到,人類靈巧操作最完整的樣子。

不只是實(shí)驗(yàn)室。而是各行各業(yè),而是所有具備經(jīng)濟(jì)價(jià)值的勞動(dòng)場景。

基于此,我們徹底押注在第一視角人類視頻(human egocentric videos)。并且給這些視頻加入精細(xì)的手部位置追蹤;高密度語言標(biāo)注。



我們把這套訓(xùn)練范式叫做EgoScale。在EgoScale中,99.9%的訓(xùn)練數(shù)據(jù),全部來自人類第一視角視頻。

最終的結(jié)果是一個(gè)真正end-to-end的機(jī)器人策略模型。它能夠直接從攝像頭像素輸入,映射到擁有22個(gè)高自由度的靈巧機(jī)器人手。一句話就是,從“看見”,直接到“動(dòng)手”。

你現(xiàn)在看到的,就是一個(gè)完全自主執(zhí)行的機(jī)器人。



在預(yù)訓(xùn)練階段,我們用EgoScale,在2.1萬小時(shí)的真實(shí)世界第一視角人類數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。沒有使用任何機(jī)器人數(shù)據(jù)。

在預(yù)訓(xùn)練過程中模型學(xué)習(xí)去預(yù)測手部關(guān)節(jié)位置和手腕姿態(tài)。



到了動(dòng)作微調(diào)階段,我們只額外采集了50小時(shí)的高精度數(shù)據(jù)手套數(shù)據(jù)以及4小時(shí)的遙操數(shù)據(jù),這甚至不到整個(gè)訓(xùn)練數(shù)據(jù)混合中的0.1%。



而靠著EgoScale,模型已經(jīng)能夠泛化到各種高度靈巧的任務(wù)。比如,整理撲克牌、操作注射器、精準(zhǔn)轉(zhuǎn)移液體。說不定哪天,家里的機(jī)器人護(hù)士,真會(huì)因此出現(xiàn)。

更有意思的是,對于像折襯衫這種任務(wù),模型在測試階段只需要一次示范就能學(xué)會(huì)全新的折疊策略。

這篇論文里,也許最令人興奮的發(fā)現(xiàn)是,我們第一次發(fā)現(xiàn)了“機(jī)器人靈巧性”的神經(jīng)scaling law。

它描述的是預(yù)訓(xùn)練時(shí)長,與最優(yōu)驗(yàn)證損失之間的關(guān)系。這個(gè)關(guān)系,漂亮得驚人。



它幾乎是一條完美的log-linear(對數(shù)線性)曲線。距離語言模型第一次發(fā)現(xiàn)neural scaling law,已經(jīng)過去整整六年。

如今,機(jī)器人,也終于有了自己的scaling law。如果把這些數(shù)據(jù)策略畫成一張圖:X軸,和機(jī)器人硬件的對齊程度;Y軸,可擴(kuò)展性。



那大概會(huì)是這樣,遙操作在最左下角。它最貼近機(jī)器人硬件,但幾乎最難擴(kuò)展。

再往上,是數(shù)據(jù)穿戴設(shè)備,它大概能擴(kuò)展到幾十萬小時(shí)。

而再往上,是第一視角視頻如果我們真的能跑通機(jī)器人版的動(dòng)駕駛飛輪,那它的規(guī)模,輕輕松松就能達(dá)到千萬小時(shí)級(jí)。

如果在圖上畫一條線,那這條線左邊,代表的是機(jī)器人的新范式Sensorized Human Data,人類的傳感器數(shù)據(jù)。

所以,我想大膽做幾個(gè)預(yù)測未來一到兩年,遙操的占比會(huì)越來越低。低到幾乎可以忽略不計(jì)。

接下來,會(huì)出現(xiàn)大量針對不同機(jī)器人硬件、不同場景量身定制的數(shù)據(jù)穿戴設(shè)備。

而最終,機(jī)器人的“主食”,會(huì)變成第一視角人類視頻。

所以,讓我們再次為我們的老朋友,遙操,默哀片刻。



它曾經(jīng)很好地服務(wù)過我們。安息吧。遙操已死。人類傳感器數(shù)據(jù)長存。

但數(shù)據(jù)策略,到這里就結(jié)束了嗎?沒有。

你注意到我畫了兩層圓。那外圈是什么?



今天,所有前沿實(shí)驗(yàn)室都在砸重金購買數(shù)百萬個(gè)代碼環(huán)境用來做強(qiáng)化學(xué)習(xí)。

機(jī)器人也一樣。我們迫切需要海量環(huán)境。

當(dāng)然,你也可以直接在真實(shí)機(jī)器人上做RL。在我們的實(shí)驗(yàn)室里,我們用RL把某些任務(wù)推到了接近100%成功率。

機(jī)器人可以連續(xù)執(zhí)行幾個(gè)小時(shí)不停。說實(shí)話,看著機(jī)器人自己默默組裝GPU,還有點(diǎn)治愈。

正如一位智者說的Good boi(這項(xiàng)任務(wù),已經(jīng)通過老板審批。)



但問題是,如果機(jī)器人也想像今天的大模型一樣,把強(qiáng)化學(xué)習(xí)真正推向百萬環(huán)境的規(guī)模,傳統(tǒng)路線幾乎走不通。

因?yàn)榘催^去的做法,100萬個(gè)環(huán)境幾乎就意味著你得先準(zhǔn)備100萬臺(tái)機(jī)器人,這在成本、維護(hù)、部署上顯然都是不現(xiàn)實(shí)的。

于是,我們開始尋找一條全新的路。

比如,你只需要拿出一臺(tái)iPhone,隨手拍下一張現(xiàn)實(shí)世界的照片,再把它送進(jìn)一套3D world scanning pipeline(3D世界掃描管線),系統(tǒng)就能自動(dòng)識(shí)別場景中的所有物體,提取它們的三維結(jié)構(gòu),并進(jìn)一步把這些物體自動(dòng)重建到經(jīng)典物理模擬器里。

更關(guān)鍵的是,這些被重建出來的物體不是靜態(tài)模型,而是真正可以被交互、被操作、被碰撞的數(shù)字實(shí)體。

接下來,研究人員還可以基于這些場景無限擴(kuò)增各種變體,他們把這些變體稱為Digital Cousins。

到了這一步,iPhone不再只是手機(jī),而變成了一個(gè)真正意義上的“口袋世界掃描儀”。

而整個(gè)流程,也被命名為Real→Sim→Real——從真實(shí)世界出發(fā),進(jìn)入仿真,再回到真實(shí)世界。

靠著這套方法,機(jī)器人終于第一次擁有了一種可以規(guī)模化地把物理世界搬進(jìn)數(shù)字世界的能力。

但即便如此,這套方案本質(zhì)上依然建立在傳統(tǒng)的圖形學(xué)模擬器之上。

那么,我們還能不能再往前走一步?

來吧!Dream Dojo。

Dream Dojo是一套建立在視頻world model之上的、真正意義上的神經(jīng)模擬器,它接收輸入的不再是傳統(tǒng)物理參數(shù),而是一連串連續(xù)的動(dòng)作信號(hào);



而輸出的,則是機(jī)器人下一刻將會(huì)看到的RGB視頻畫面,以及對應(yīng)的傳感器狀態(tài),并且這一切都是實(shí)時(shí)生成的。

換句話說,你此刻看到的畫面里,沒有一個(gè)像素是真的。

Dream Dojo能夠通過一種純粹數(shù)據(jù)驅(qū)動(dòng)的方式,直接捕捉并學(xué)會(huì)不同機(jī)器人背后的運(yùn)動(dòng)機(jī)制和動(dòng)力學(xué)規(guī)律,整個(gè)過程里,沒有任何物理方程參與,也沒有任何圖形學(xué)引擎介入。

因此,機(jī)器人正在進(jìn)入一個(gè)全新的post-training范式。

少量真實(shí)機(jī)器人站點(diǎn)負(fù)責(zé)在物理世界中持續(xù)采集高價(jià)值交互數(shù)據(jù),而另一端則是大規(guī)模并行運(yùn)行的graphics cores、world scans以及高強(qiáng)度推理計(jì)算,共同支撐世界模型的持續(xù)迭代。



在這個(gè)新范式里,有一個(gè)極其關(guān)鍵的等式正在成立——

算力=環(huán)境=數(shù)據(jù)。

也就是說,算力正在變成環(huán)境,環(huán)境正在變成數(shù)據(jù),而數(shù)據(jù)本身又反過來定義下一輪算力投入,整個(gè)過程開始像自動(dòng)駕駛里的FSD flywheel一樣形成自我強(qiáng)化的飛輪。

正如老板半開玩笑地總結(jié)的那樣“買得越多,省得越多?!碑?dāng)然,這句話也已經(jīng)通過他的審批。



把這一切拼在一起,你會(huì)發(fā)現(xiàn),機(jī)器人正在走上一條和大模型幾乎完全平行的進(jìn)化路徑,而且這一切不是未來式,而是此刻正在發(fā)生。

我們眼前看到的,也許正是機(jī)器人終局之戰(zhàn)的開端。

我一直最喜歡《文明》,并且喜歡把自己的研究想象成在文明科技樹上不斷解鎖成就。

如果按照我的判斷,機(jī)器人這棵科技樹上,現(xiàn)在只剩下最后三個(gè)成就等待被點(diǎn)亮,只要全部解鎖,我就可以退休了。

第一個(gè)成就,叫做物理圖靈測試。



所謂物理圖靈測試,說白了就是在足夠豐富、足夠復(fù)雜的現(xiàn)實(shí)任務(wù)里,人類已經(jīng)無法僅靠觀察去判斷,眼前完成工作的到底是人類,還是機(jī)器人。

它并不神秘,無非就是單位能源輸入,單位勞動(dòng)力輸出。只要同樣的能量輸入能夠產(chǎn)出同等級(jí)的勞動(dòng)價(jià)值,機(jī)器人就真正通過了物理世界里的圖靈測試。

也許喝醉的人類不算在內(nèi),而看看今天機(jī)器人那些還有些“僵硬甚至略顯性感”的動(dòng)作姿態(tài),我們顯然還有很多工作要做,但如果一切順利,他認(rèn)為這件事距離我們可能只剩下兩到三年。

第二個(gè)成就,叫做Physical API。



那時(shí)候,機(jī)器人將不再是一臺(tái)臺(tái)獨(dú)立存在的機(jī)器,而會(huì)像今天的軟件服務(wù)一樣,變成一種真正可編程、可調(diào)用、可編排的基礎(chǔ)設(shè)施。

你擁有的可能不再是一臺(tái)機(jī)器人,而是一整個(gè)艦隊(duì),而你控制它們的方式,也不再是按鈕和控制器,而是API、CLI以及更高級(jí)的編制系統(tǒng)。

也許某一天,這一切甚至?xí)杀冉裉旄鼜?qiáng)大的agent,比如Opus4.6,統(tǒng)一進(jìn)行調(diào)度。

而一旦Physical API真正出現(xiàn),很多今天聽起來像科幻的東西都會(huì)迅速落地。

比如所謂的Lighthouse Factories——燈塔工廠,它們本質(zhì)上不再是流水線,而更像“原子打印機(jī)”,你輸入的不再是CAD圖紙,甚至不需要復(fù)雜工程文件,而可能只是一份markdown文檔,輸出的卻是已經(jīng)完全組裝好的實(shí)體產(chǎn)品,整個(gè)過程完全自主完成;

又比如wet labs,也就是自動(dòng)化濕實(shí)驗(yàn)室,機(jī)器人將獨(dú)立完成化學(xué)實(shí)驗(yàn)、生物實(shí)驗(yàn)?zāi)酥了幬镅邪l(fā),把科學(xué)發(fā)現(xiàn)的速度推到人類實(shí)驗(yàn)室從未達(dá)到過的高度。

而最后一個(gè),也是機(jī)器人科技樹上的終極成就,叫做Physical Auto Research。



到了那一天,機(jī)器人將不再只是執(zhí)行人類交給它們的任務(wù),它們會(huì)開始自己設(shè)計(jì)自己,自己優(yōu)化自己,自己制造下一代自己,并且迭代速度將遠(yuǎn)遠(yuǎn)超越任何人類工程團(tuán)隊(duì)所能達(dá)到的極限。

聽到這里,你也許會(huì)覺得,這聽起來已經(jīng)太像科幻了,我們這一代人真的有機(jī)會(huì)看到嗎?

從2012年AlexNet完成第一次forward pass開始,那個(gè)連貓和狗都分得磕磕絆絆的模型。

到今天,整個(gè)AI community只用了14年,就走到了agentic AI時(shí)代。

而今天是2026年,如果機(jī)器人也遵循類似的指數(shù)曲線,那我們不妨再給它14年,2026年剛好站在2012年和2040年的正中間,而技術(shù)從來不是線性前進(jìn)的,它永遠(yuǎn)以指數(shù)形式爆發(fā)。



所以,我有95%的把握,在2040年之前,我們會(huì)真正走到機(jī)器人科技樹的終點(diǎn),而等那一天到來時(shí),我們依然年輕。

如果你相信機(jī)器人,機(jī)器人終將回應(yīng)你的相信。

我們的這一代人,也許出生得太晚,沒趕上探索地球,也出生得太早,還沒趕上探索星辰,但我們出生得剛剛好,因?yàn)槲覀冋泌s上,去解決機(jī)器人。

演講鏈接
[1]https://www.youtube.com/watch?v=3Y8aq_ofEVs&t=2s

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
8家新能源車企遠(yuǎn)程“鎖電”被約談,3家被立案;有車主稱續(xù)航一夜蒸發(fā)200公里

8家新能源車企遠(yuǎn)程“鎖電”被約談,3家被立案;有車主稱續(xù)航一夜蒸發(fā)200公里

魯中晨報(bào)
2026-05-08 11:46:14
50歲像25歲?李小冉自嘲臉垮,只用幾塊錢香皂

50歲像25歲?李小冉自嘲臉垮,只用幾塊錢香皂

小椰的奶奶
2026-05-09 16:56:45
變天了!保加利亞前空軍司令就任總理,上臺(tái)首件事竟是找俄對話

變天了!保加利亞前空軍司令就任總理,上臺(tái)首件事竟是找俄對話

一曲一場談
2026-05-09 02:55:37
瞞了6年!馬伊琍“隱婚”突然曝光:最狠的女人,最頂級(jí)的布局

瞞了6年!馬伊琍“隱婚”突然曝光:最狠的女人,最頂級(jí)的布局

兩只米老鼠
2026-05-07 22:42:50
文章虧大了!老鄉(xiāng)張藝謀攜7位陜西演員,上演40集央視大劇,缺他

文章虧大了!老鄉(xiāng)張藝謀攜7位陜西演員,上演40集央視大劇,缺他

冷紫葉
2026-05-08 23:20:13
讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻(xiàn)祭式擴(kuò)張買單?

讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻(xiàn)祭式擴(kuò)張買單?

小莜讀史
2026-05-08 07:23:38
澤連斯基真的失控了,這或許是俄烏戰(zhàn)爭即將結(jié)束的標(biāo)志

澤連斯基真的失控了,這或許是俄烏戰(zhàn)爭即將結(jié)束的標(biāo)志

羅富強(qiáng)說
2026-05-09 14:02:37
研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險(xiǎn)增高!

研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險(xiǎn)增高!

黯泉
2026-05-03 20:25:37
國際奧委會(huì)直接官宣上海成為2028年奧運(yùn)會(huì)賽事的舉辦城市!

國際奧委會(huì)直接官宣上海成為2028年奧運(yùn)會(huì)賽事的舉辦城市!

回京歷史夢
2026-05-09 11:49:41
缺德到這種地步,已經(jīng)不是諷刺的問題了!

缺德到這種地步,已經(jīng)不是諷刺的問題了!

胖胖說他不胖
2026-05-08 08:55:19
陜西這個(gè)“石破天驚”的發(fā)現(xiàn),將要改寫歷史?它比夏朝還早幾百年

陜西這個(gè)“石破天驚”的發(fā)現(xiàn),將要改寫歷史?它比夏朝還早幾百年

娛樂圈的嗶嗶王
2026-05-09 13:38:28
河北多地漫天楊絮似大雪紛飛 省綠辦:多年前曾定下治理時(shí)間表 每年都有打藥等防治措施

河北多地漫天楊絮似大雪紛飛 省綠辦:多年前曾定下治理時(shí)間表 每年都有打藥等防治措施

閃電新聞
2026-05-09 12:40:08
長得太美被導(dǎo)演占為己有,25歲生下3個(gè)孩子,如今個(gè)個(gè)都給她爭光

長得太美被導(dǎo)演占為己有,25歲生下3個(gè)孩子,如今個(gè)個(gè)都給她爭光

攬星河的筆記
2026-05-07 20:18:36
阿聯(lián)酋決定給世界一點(diǎn)小小的王爺震撼

阿聯(lián)酋決定給世界一點(diǎn)小小的王爺震撼

李建秋
2026-05-08 20:31:37
2:4出局之后,3大核心擺上貨架,全明星后衛(wèi)也放棄,真要重建了?

2:4出局之后,3大核心擺上貨架,全明星后衛(wèi)也放棄,真要重建了?

籃球圈里的那些事
2026-05-09 17:13:03
公安部:吳某某被采取刑事強(qiáng)制措施

公安部:吳某某被采取刑事強(qiáng)制措施

澎湃新聞
2026-05-09 12:58:03
伊朗凌晨發(fā)動(dòng)第二輪打擊,動(dòng)用多種高爆導(dǎo)彈,美軍遭遇失利

伊朗凌晨發(fā)動(dòng)第二輪打擊,動(dòng)用多種高爆導(dǎo)彈,美軍遭遇失利

李橑在北漂
2026-05-09 11:49:17
48歲歐陽夏丹現(xiàn)狀:離開央視,被教授邀請現(xiàn)身挪威,至今未婚未育

48歲歐陽夏丹現(xiàn)狀:離開央視,被教授邀請現(xiàn)身挪威,至今未婚未育

白面書誏
2026-05-07 17:50:08
用所謂的“基本盤”嘲諷人民群眾,只能是搬起石頭,砸自己的腳!

用所謂的“基本盤”嘲諷人民群眾,只能是搬起石頭,砸自己的腳!

讓心靈得以棲息
2026-05-08 11:19:31
一次幾十塊!專割中年男人的新型騙局曝光,網(wǎng)友:連窮鬼也不放過

一次幾十塊!專割中年男人的新型騙局曝光,網(wǎng)友:連窮鬼也不放過

品牌觀察官
2026-05-08 16:43:01
2026-05-09 17:27:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12597文章數(shù) 176461關(guān)注度
往期回顧 全部

科技要聞

美國政府強(qiáng)力下場 蘋果英特爾達(dá)成代工協(xié)議

頭條要聞

新華社調(diào)查"胖東來為啥總被黑" 于東來連發(fā)6動(dòng)態(tài)回應(yīng)

頭條要聞

新華社調(diào)查"胖東來為啥總被黑" 于東來連發(fā)6動(dòng)態(tài)回應(yīng)

體育要聞

成立128年后,這支升班馬首奪頂級(jí)聯(lián)賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認(rèn)不出!

財(cái)經(jīng)要聞

存儲(chǔ)芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

親子
游戲
房產(chǎn)
手機(jī)
本地

親子要聞

哪個(gè)牌子的奶粉好?君樂寶至臻A2奶牛奶粉圈粉廣大家庭

《星空》PS5版將于下周迎來更新 修復(fù)游戲崩潰問題

房產(chǎn)要聞

低價(jià)甩賣!??谶@個(gè)地標(biāo)商業(yè),無人接盤!

手機(jī)要聞

vivo S60工程機(jī)曝光,這配置香不香?

本地新聞

用蘇繡的方式,打開江西婺源

無障礙瀏覽 進(jìn)入關(guān)懷版