網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

對(duì)話地平線前高管牛建偉：萬(wàn)億參數(shù)大模型如何重塑具身智能

2026-04-20 18:23:52　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

VLA是彎路？

作者丨齊鋮湧

編輯丨林覺(jué)民

具身智能的賽道正在分裂。

一邊是智元、自變量代表的"VLA派"，視覺(jué)-語(yǔ)言-動(dòng)作端到端，用海量數(shù)據(jù)訓(xùn)練機(jī)器人疊衣服、抓取物體，估值一路飆到數(shù)百億；一邊是至簡(jiǎn)動(dòng)力、維他動(dòng)力等"智駕降維派"，華為ADS、小鵬、理想背景的團(tuán)隊(duì)涌入，把自動(dòng)駕駛的BEV、端到端經(jīng)驗(yàn)移植到人形機(jī)器人上，動(dòng)輒融資數(shù)億美金。

兩條路線都指向同一個(gè)終點(diǎn)：讓機(jī)器人真正"看懂"世界、自主行動(dòng)。但兩條路都還沒(méi)跑通——VLA困于泛化與成本，智駕派困于場(chǎng)景遷移。行業(yè)共識(shí)遠(yuǎn)未形成，資本卻在瘋狂押注。

時(shí)間來(lái)到2026年，我們發(fā)現(xiàn)業(yè)界出現(xiàn)了另一支派系：“大模型派”。

近期，多家創(chuàng)業(yè)公司都選擇了類(lèi)似的技術(shù)路線，某種意義上，這是"大模型派"對(duì)"VLA派"的宣戰(zhàn)。

最近，我們約到了一些相信能夠能將具身大腦和多模態(tài)大模型結(jié)合的創(chuàng)業(yè)團(tuán)隊(duì)，來(lái)跟他們聊聊這個(gè)新的流派和思路。

牛建偉，進(jìn)入了我們的視線，這位地平線前智能座艙產(chǎn)品線總經(jīng)理，帶著一支"成建制的大模型團(tuán)隊(duì)"進(jìn)軍具身智能賽道。他做過(guò)百度首個(gè)深度學(xué)習(xí)語(yǔ)音系統(tǒng)，做過(guò)國(guó)內(nèi)首個(gè)車(chē)規(guī)級(jí)AI芯片+多模態(tài)人機(jī)交互方案量產(chǎn)，對(duì)多模態(tài)大模型和系統(tǒng)落地有極為精確量化的認(rèn)知——2015年余凱邀請(qǐng)他進(jìn)去，正是為了那個(gè)"瓦力"般的機(jī)器人夢(mèng)想。直到十年后，這個(gè)夢(mèng)想得以延續(xù)。

十年后殺回具身，他卻說(shuō)：VLA是彎路。真正的答案，是"物理世界的GPT"。

這是一個(gè)AI老兵對(duì)舊日經(jīng)驗(yàn)的"出走"。在具身智能的戰(zhàn)國(guó)時(shí)代，牛建偉選擇了一條不一樣的路，以認(rèn)知驅(qū)動(dòng)的大模型范式，來(lái)解決具身的問(wèn)題。不是做最會(huì)疊衣服的機(jī)器人，而是做最懂物理世界的"大腦"。

以下是牛建偉與AI科技評(píng)論的對(duì)話，AI科技評(píng)論作了不改變?cè)獾木庉嫞?/p>

2015年就想做的事，現(xiàn)在終于能做了

AI科技評(píng)論：先聊聊你的背景。2012年你在百度IDL實(shí)習(xí)，搭建了國(guó)內(nèi)第一個(gè)基于深度學(xué)習(xí)的語(yǔ)音系統(tǒng)。當(dāng)時(shí)是什么情況？

牛建偉：當(dāng)時(shí)語(yǔ)音的主流方案還是以GMM的傳統(tǒng)方案為主，局限性很大。而深度學(xué)習(xí)范式剛剛興起，我作為主力去搭建了IDL首個(gè)使用GPU并行訓(xùn)練的深度學(xué)習(xí)框架，花了9個(gè)月，把基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型推上線，支撐了百度語(yǔ)音搜索和語(yǔ)音輸入法等產(chǎn)品。

那時(shí)候叫"大模型"，現(xiàn)在看只有不到0.1B參數(shù)，但當(dāng)時(shí)已經(jīng)是行業(yè)突破了。

AI科技評(píng)論：為什么2015年去地平線？語(yǔ)音和芯片似乎很遠(yuǎn)。

牛建偉：我跟余凱在IDL就已經(jīng)共事。地平線創(chuàng)立之初就想做機(jī)器人，凱哥拉我入伙負(fù)責(zé)機(jī)器人的人機(jī)交互系統(tǒng)。

機(jī)器人的核心是什么？理解人的意圖、執(zhí)行人的指令、給人反饋。沒(méi)有優(yōu)秀的人機(jī)交互系統(tǒng)，機(jī)器人就是聾子啞巴。

當(dāng)時(shí)地平線的構(gòu)想很大，要做"機(jī)器人OS+芯片"，辦公室還擺了個(gè)“瓦力”模型——那個(gè)《機(jī)器人總動(dòng)員》里的智能體，我們做機(jī)器人最早的種子就是這個(gè)。

AI科技評(píng)論：但是那時(shí)做機(jī)器人似乎有些早。

牛建偉：是的，當(dāng)時(shí)的AI技術(shù)還不足以支撐做一個(gè)可用的機(jī)器人，本體也不成熟。機(jī)器人要聽(tīng)懂話、理解意圖、執(zhí)行任務(wù)，這些鏈條都是斷的。

我們花了半年時(shí)間探索，發(fā)現(xiàn)做不下來(lái)，后面就調(diào)整了方向，去圍繞智能汽車(chē)進(jìn)行芯片加AI的產(chǎn)品研發(fā)和落地。行業(yè)的共識(shí)，汽車(chē)就是"四個(gè)輪子的機(jī)器人"，最早就是我們提出的。

大概18年，我領(lǐng)導(dǎo)團(tuán)隊(duì)做面向智能座艙的AI解決方案，在行業(yè)內(nèi)率先提出了"多模態(tài)交互"的理念，整體方案我們研發(fā)打磨了三年，走完了痛苦的0到1的完整過(guò)程，最終拿下長(zhǎng)安汽車(chē)這個(gè)重要的客戶，把地平線首款車(chē)規(guī)級(jí)芯片和行業(yè)首個(gè)多模態(tài)AI解決方案落地到了長(zhǎng)安 UNI-T車(chē)型上，UNI-T也是當(dāng)年的爆款車(chē)型。

我們創(chuàng)造了一款全新的AI芯片在汽車(chē)行業(yè)最快量產(chǎn)的速度記錄。

AI科技評(píng)論：這十年你一直在琢磨機(jī)器人？

牛建偉：對(duì)我們這代最早的AI從業(yè)者而言，機(jī)器人的愿景其實(shí)一直沒(méi)變過(guò)。2018年提"多模態(tài)交互"的時(shí)候，背后有個(gè)認(rèn)知：AI的核心是對(duì)多維度信息的全面、深度的計(jì)算，信息越多、計(jì)算的越多就越有價(jià)值。

機(jī)器人的智能來(lái)自于對(duì)外部世界和本體的全模態(tài)感知與理解的能力。當(dāng)時(shí)我們就想，如果能在座艙里對(duì)人的行為狀態(tài)和所處的環(huán)境，進(jìn)行全模態(tài)的感知理解，我們就能構(gòu)建出汽車(chē)的智能大腦。

AI科技評(píng)論：什么時(shí)候決定創(chuàng)業(yè)？

牛建偉：地平線完整做完了“從0到1”和“從1到10”，內(nèi)心總會(huì)有個(gè)聲音去做更大的事情。

有個(gè)實(shí)際的契機(jī)，當(dāng)時(shí)我?guī)е鴪F(tuán)隊(duì)探索，用大模型通過(guò)GUI Agent的能力直接操作手機(jī)上的美團(tuán)APP完成下單，當(dāng)時(shí)就覺(jué)得：像人一樣感知世界、使用工具解決復(fù)雜問(wèn)題的大腦雛形出現(xiàn)了。時(shí)機(jī)到了。

之前大模型更多的是作為Chatbot被使用，伴隨著大模型的多模態(tài)感知和Agent能力的巨大提升，它能自如的操作手機(jī)、電腦完成復(fù)雜任務(wù)了。如果把它放到機(jī)器人上呢？

正如OpenClaw改變了AI‘只能說(shuō)、不能做’的現(xiàn)狀，我們也要改變機(jī)器人‘只能做，不能學(xué)’的現(xiàn)狀。”以前沒(méi)人相信我，現(xiàn)在全都懂了。

AI科技評(píng)論：你認(rèn)為現(xiàn)在入場(chǎng)時(shí)機(jī)成熟么？具身目前是超級(jí)紅海。

牛建偉：兩個(gè)前提條件很清晰了，才會(huì)決定入場(chǎng)。第一，如果我做的和別人一樣，那肯定泯然眾人了；第二，如果沒(méi)有一個(gè)過(guò)硬的團(tuán)隊(duì)來(lái)實(shí)現(xiàn)真正的具身“智能大腦”，那肯定也活不到最后。簡(jiǎn)單來(lái)說(shuō)，具身還沒(méi)達(dá)到“GPT時(shí)刻”，還沒(méi)有“范式基座”。而過(guò)去十年的積累和身邊人的信任，把我推出來(lái)了。

AI科技評(píng)論：在超過(guò)200家具身公司的競(jìng)爭(zhēng)中能沖出來(lái)？

牛建偉：地平線當(dāng)時(shí)的競(jìng)爭(zhēng)環(huán)境不必這好，我們不也沖出來(lái)了（笑）？而且這件事我已經(jīng)想了超過(guò)十年。

VLA在用大模型最不擅長(zhǎng)的方式做事

AI科技評(píng)論：但現(xiàn)在行業(yè)主流是VLA。智元，銀河通用、自變量都在做VLA。你為什么不做？

牛建偉：VLA正在用大模型最不擅長(zhǎng)的范式解決運(yùn)動(dòng)控制問(wèn)題。大語(yǔ)言模型的根本局限在于離散token化表示——它本質(zhì)上是文本的概率生成器，而非數(shù)值計(jì)算器。

一個(gè)經(jīng)典例證是9.9和9.10的比較：由于token化機(jī)制將'9.10'切分為['9', '.', '10']，模型會(huì)因字符串'10'大于'9'而產(chǎn)生數(shù)值幻覺(jué)。即便進(jìn)行三位數(shù)的乘法計(jì)算，目前最好的大模型也做不到100%的準(zhǔn)確率，主流做法都是大模型通過(guò)調(diào)用計(jì)算工具進(jìn)行計(jì)算。

VLA的結(jié)構(gòu)性矛盾正在于此：要求模型將視覺(jué)-語(yǔ)言理解直接映射為連續(xù)空間中的關(guān)節(jié)坐標(biāo)、動(dòng)作軌跡或路徑點(diǎn)，這種'語(yǔ)言token→連續(xù)數(shù)值序列'的轉(zhuǎn)換，存在明顯的模態(tài)錯(cuò)配和信息損失。VLA架構(gòu)在通過(guò)"揚(yáng)短避長(zhǎng)"的方式在利用大模型的能力，大模型真正擅長(zhǎng)的對(duì)于任務(wù)規(guī)劃推理、工具調(diào)用的能力被明顯弱化了。

AI科技評(píng)論：但VLA能疊衣服、能抓取，視頻看起來(lái)很流暢。

牛建偉：動(dòng)作不是關(guān)鍵，智能才是。小學(xué)生疊十年衣服，不會(huì)變成大學(xué)生。

VLA能疊衣服，是因?yàn)樗槍?duì)這個(gè)任務(wù)采了大量數(shù)據(jù)，但換個(gè)場(chǎng)景、換個(gè)本體，就要重新采。你找一個(gè)小學(xué)生讓他搬十年箱子，他腦子也不會(huì)變聰明；但反過(guò)來(lái)，讓他腦子變聰明，看別人疊一遍衣服就會(huì)了，而且不只會(huì)疊衣服，讓他干什么都行。

簡(jiǎn)言之，我們要先做個(gè)能學(xué)習(xí)的大學(xué)生，也許笨拙，但有自主進(jìn)化的能力。

AI科技評(píng)論：具體說(shuō)，VLA的問(wèn)題在哪？

牛建偉：三個(gè)問(wèn)題。

第一，模型太小。VLA通常3B-7B參數(shù)，根據(jù)Scaling Law 隨著數(shù)據(jù)規(guī)模的指數(shù)級(jí)增加，模型參數(shù)規(guī)模也需要同比例增加。100萬(wàn)小時(shí)視頻按照一秒鐘抽取2幀圖片，那么就對(duì)應(yīng)7.2B張圖像幀，你用7B模型去學(xué)必然會(huì)出現(xiàn)Underfitting。能夠充分學(xué)習(xí)1000萬(wàn)小時(shí)視頻數(shù)據(jù)的模型，參數(shù)量要到100B級(jí)別，我預(yù)計(jì)十年內(nèi)沒(méi)有端側(cè)芯片能跑下來(lái)。

第二，與本體綁定太深。特斯拉Optimus迭代了好幾代，硬件差別很大，你綁著一代去弄，每代都要花大錢(qián)。

第三，沒(méi)有有效的反饋和記憶機(jī)制。VLA直接輸出動(dòng)作序列，將認(rèn)知和執(zhí)行強(qiáng)耦合，無(wú)法通過(guò)外界的反饋來(lái)糾正和學(xué)習(xí)更好的完成任務(wù)。舉個(gè)例子，OpenClaw是可以在用戶的使用過(guò)程中通過(guò)記憶和SKILL的能力持續(xù)成長(zhǎng)，核心在于解耦了認(rèn)知和執(zhí)行，就可以利用大模型擅長(zhǎng)的in-context learning的能力實(shí)現(xiàn)在線學(xué)習(xí)。

AI科技評(píng)論：但VLA派會(huì)說(shuō)，端到端才是未來(lái)，分層架構(gòu)是老派的模塊化方案。

牛建偉：端到端是單點(diǎn)方案。但具身智能是通用問(wèn)題——機(jī)器人要會(huì)開(kāi)車(chē)、做飯、打掃，是人的化身。VLA方案還在嘗試解決自動(dòng)駕駛的L3問(wèn)題，目前還沒(méi)有有效結(jié)局。想解決通用任務(wù)目前看很難。你看人怎么看自動(dòng)駕駛：我會(huì)開(kāi)車(chē)，只是我的一個(gè)技能而已。機(jī)器人也一樣，開(kāi)車(chē)只是它的技能之一，它還要做很多通用的事。

我們要做萬(wàn)億參數(shù)的空間智能大模型

AI科技評(píng)論：你的方案是什么？

牛建偉：分層架構(gòu)。

上面是萬(wàn)億參數(shù)的"空間智能大模型"，是大腦，做任務(wù)規(guī)劃、推理、記憶；下面是VA（Vision-to-Action）小模型，0.1B-1B參數(shù)，是手和腳，專(zhuān)門(mén)執(zhí)行基礎(chǔ)操作。

大模型擅長(zhǎng)什么？推理、任務(wù)編排、調(diào)用工具。我們的方案就是充分利用大模型在邏輯推理、任務(wù)規(guī)劃和工具調(diào)用方面的能力?，F(xiàn)有的GPT類(lèi)大模型在空間理解與推理，物理世界任務(wù)規(guī)劃方面有較大的欠缺，因?yàn)樗鼈兌际腔诨ヂ?lián)網(wǎng)數(shù)據(jù)訓(xùn)練的，天然缺少物理世界的數(shù)據(jù)、對(duì)具身的任務(wù)也沒(méi)有針對(duì)性訓(xùn)練。我們會(huì)在數(shù)據(jù)和訓(xùn)練算法兩方面進(jìn)行大模型的優(yōu)化，來(lái)實(shí)現(xiàn)一個(gè)更懂物理世界的空間智能大模型。

業(yè)內(nèi)能打通空間智能大模型和行為小腦的團(tuán)隊(duì)很少，真正做過(guò)長(zhǎng)周期、大參數(shù)、閉環(huán)落地的，才能做成這套方案。

AI科技評(píng)論：為什么是萬(wàn)億參數(shù)？創(chuàng)業(yè)公司能訓(xùn)么？

牛建偉：物理世界的復(fù)雜度不比數(shù)字世界低，只會(huì)更高。

GPT處理數(shù)字世界需要萬(wàn)億參數(shù)，機(jī)器人理解三維世界的空間關(guān)系和物理規(guī)律，也需要這個(gè)量級(jí)。我們站在巨人肩膀上，千問(wèn)、Llama已經(jīng)開(kāi)源，技術(shù)路線摸清楚了。重新做一個(gè)千問(wèn)要1000億人民幣，我們?cè)陂_(kāi)源基礎(chǔ)上增加三維世界數(shù)據(jù)重新訓(xùn)練，可能幾十億就夠了。

預(yù)訓(xùn)練階段加入大量弱標(biāo)注的三維數(shù)據(jù)，后訓(xùn)練用幾千小時(shí)精標(biāo)數(shù)據(jù)激發(fā)能力。不需要像VLA要采100萬(wàn)小時(shí)、1000萬(wàn)小時(shí)的操作數(shù)據(jù)。（編者注：幾乎每個(gè)問(wèn)題，牛建偉的表達(dá)都是精細(xì)到具體數(shù)字量級(jí)的）

AI科技評(píng)論：具體怎么訓(xùn)練？

牛建偉：大模型范式已經(jīng)很清楚了。預(yù)訓(xùn)練用海量弱標(biāo)注數(shù)據(jù)，學(xué)習(xí)物理世界的知識(shí)和規(guī)律；后訓(xùn)練用少量的通用任務(wù)的精標(biāo)數(shù)據(jù)，激發(fā)能力，讓智能涌現(xiàn)。

GPT就是這樣干的，Coding能力不是預(yù)訓(xùn)練直接得到的，是后訓(xùn)練用相對(duì)少量人類(lèi)專(zhuān)家數(shù)據(jù)激發(fā)的。我們也一樣，預(yù)訓(xùn)練加三維真實(shí)世界數(shù)據(jù)，讓大模型具備物理規(guī)律的理解；后訓(xùn)練用精標(biāo)數(shù)據(jù)，激發(fā)它做任務(wù)規(guī)劃、工具調(diào)用、反饋學(xué)習(xí)的能力。

AI科技評(píng)論：VA是什么？和VLA有什么區(qū)別？

牛建偉：VA是Vision-to-Action，弱化語(yǔ)言部分，視覺(jué)直接驅(qū)動(dòng)動(dòng)作。通過(guò)VA模型來(lái)實(shí)現(xiàn)機(jī)器人的基礎(chǔ)操作能力。VLA是Vision-Language-Action，語(yǔ)言部分參數(shù)量太大，推理慢。VA做到0.XB參數(shù)規(guī)模，推理速度更快，延遲更低。

AI科技評(píng)論：這樣會(huì)不會(huì)限制能力？VLA可以端到端學(xué)習(xí)任意動(dòng)作。

牛建偉：VLA看似靈活，但是是由數(shù)據(jù)驅(qū)動(dòng)的。它只能做訓(xùn)練數(shù)據(jù)里有的動(dòng)作，換個(gè)方式拿杯子就不會(huì)了。

我們的方案，大模型負(fù)責(zé)任務(wù)規(guī)劃，知道"為什么要拿杯子"；VA負(fù)責(zé)執(zhí)行，知道"怎么拿"。比如向前走這個(gè)動(dòng)作，人形機(jī)器人用雙足、輪臂機(jī)器人用輪子，只是調(diào)用不同的VA模型，大腦完全復(fù)用。

特斯拉有Grok，國(guó)內(nèi)只學(xué)了Optimus的一半

AI科技評(píng)論：怎么看待行業(yè)內(nèi)的大規(guī)模數(shù)據(jù)采集的計(jì)劃？

牛建偉：總體上是為行業(yè)做貢獻(xiàn)，很好的補(bǔ)充了之前匱乏的具身行業(yè)數(shù)據(jù)。但問(wèn)題是，如果算法范式錯(cuò)了，采越多越浪費(fèi)。我覺(jué)得目前的人的第一視角的數(shù)據(jù)逐漸成為了行業(yè)的一種共識(shí)，之前采集的很多遙操數(shù)據(jù)的價(jià)值可能就弱化了很多。

AI科技評(píng)論：展開(kāi)說(shuō)說(shuō)？

牛建偉：自動(dòng)駕駛就是例子。過(guò)去十年，自動(dòng)駕駛行業(yè)經(jīng)歷了多次的技術(shù)迭代和硬件傳感器的迭代，每次迭代都會(huì)讓之前積累的數(shù)據(jù)價(jià)值弱化，甚至變得不可用。

具身的本體和技術(shù)方案都在發(fā)展的早期階段，我們應(yīng)該從第一性原理出發(fā)，從智能的終局出發(fā)來(lái)考慮如何采集和標(biāo)注數(shù)據(jù)。我覺(jué)得大模型行業(yè)的經(jīng)驗(yàn)值得借鑒，將預(yù)訓(xùn)練的數(shù)據(jù)和任務(wù)相關(guān)的數(shù)據(jù)分離開(kāi)是一種思路。

AI科技評(píng)論：但投資人認(rèn)這個(gè)。頭部公司都融了很多錢(qián)。

牛建偉：現(xiàn)在投資圈特別認(rèn)智駕背景，覺(jué)得做VLA是降維打擊。但這是錯(cuò)的。

VLA可以非?？斓貙?shí)現(xiàn)一個(gè)很好的Demo效果，不管是抓取柔性物品還是執(zhí)行特定場(chǎng)景的表演動(dòng)作集，但最后消費(fèi)者和B端客戶買(mǎi)的不是“電器”，而是智能體。

自動(dòng)駕駛是單點(diǎn)問(wèn)題，具身智能是通用問(wèn)題?；蛘哒f(shuō)要實(shí)現(xiàn)L4級(jí)的自動(dòng)駕駛問(wèn)題可能也需要站在空間智能的角度，按照一種通用方式來(lái)解決。就像翻譯作為語(yǔ)言大模型的一個(gè)子任務(wù)被較好的解決了一樣。

AI科技評(píng)論：你認(rèn)為具身智能的三派之爭(zhēng)誰(shuí)會(huì)贏？

牛建偉：三派。本體派，比如波士頓動(dòng)力只會(huì)運(yùn)控，沒(méi)有環(huán)境感知，VLA出來(lái)就把他們打懵了；VLA派只會(huì)操作，沒(méi)有大腦，國(guó)內(nèi)只看到本體上的VLA，沒(méi)看到大腦；大模型派（特斯拉、谷歌、我們）做大腦，做任務(wù)規(guī)劃、推理、記憶。

AI科技評(píng)論：谷歌、特斯拉的具體方案是什么？

牛建偉：谷歌有Gemini，特斯拉有Grok，都是萬(wàn)億參數(shù)大模型做大腦，做任務(wù)拆解和推理；本體上用VLA或類(lèi)似模型做執(zhí)行。這是完整的方案。

我們要做物理世界的OpenClaw

AI科技評(píng)論：你們現(xiàn)在產(chǎn)品到什么階段了？

牛建偉：我們已經(jīng)在機(jī)器人上跑通了物理agent架構(gòu)，可以直接通過(guò)對(duì)話交互的方式修正機(jī)器人的任務(wù)執(zhí)行，并積累到機(jī)器人的skill中去。你可以簡(jiǎn)單的理解，我們已經(jīng)搭成了一個(gè)物理世界的OpenClaw，下階段是skill的問(wèn)題。

AI科技評(píng)論：具體能做什么？

牛建偉：告訴它"把杯子拿起來(lái)放到收納盒里"，它自己拆解任務(wù)：調(diào)用相機(jī)看杯子位置，調(diào)用深度感知測(cè)距離，調(diào)用VA模型執(zhí)行拿取，然后移動(dòng)到收納盒上方，執(zhí)行放置。每個(gè)步驟都是大模型規(guī)劃，調(diào)用不同工具完成。

AI科技評(píng)論：這和VLA的端到端有什么區(qū)別？

牛建偉：VLA對(duì)于長(zhǎng)程任務(wù)的規(guī)劃能力其實(shí)是不足的，另外一個(gè)重要區(qū)別是我們的方案引入了物理Agent的架構(gòu)，在我們的方案下機(jī)器人不僅知道如何做一個(gè)任務(wù)，還能夠?qū)崟r(shí)監(jiān)督和反饋任務(wù)完成的情況，并通過(guò)記憶和反思的能力，實(shí)現(xiàn)任務(wù)越做越好。

我們通過(guò)Agent的開(kāi)發(fā)范式構(gòu)建了感知、決策、執(zhí)行、評(píng)估與反思記憶的完整閉環(huán)，使得機(jī)器人可以在和環(huán)境的交互和與人的互動(dòng)中持續(xù)的學(xué)習(xí)與成長(zhǎng)。

AI科技評(píng)論：反饋學(xué)習(xí)怎么做？

牛建偉：就像養(yǎng)“小龍蝦”。你告訴它"郵箱應(yīng)該這樣發(fā)"，它不用重新訓(xùn)練就能學(xué)會(huì)；執(zhí)行任務(wù)報(bào)錯(cuò)，它能自己查資料修正。女主人說(shuō)"杯子以后放廚房"，Agent記住，形成記憶，不需要做任何模型層面的調(diào)整，在線就完成了體驗(yàn)優(yōu)化。VLA干不了這個(gè)，它訓(xùn)練好了就是這樣，能力的泛化有限。

"我們等了十年，不差這一兩年"

AI科技評(píng)論：如果這次錯(cuò)了呢？如果三年后VLA成了主流？

牛建偉：如果VLA成為了通向通用具身智能的主流方案并且具備了很高的智能，這應(yīng)該是是一件特別好的事情。云端萬(wàn)億參數(shù)的大模型完全可以參照VLA來(lái)進(jìn)行模型的尺寸小型化，這個(gè)會(huì)節(jié)省非常多的成本和能源消耗。但我很難相信，一個(gè)參數(shù)規(guī)模比人腦神經(jīng)元數(shù)量（100B）還少的模型可以實(shí)現(xiàn)接近人的智能水平。

AI科技評(píng)論：萬(wàn)一還是做不成呢？

牛建偉：我們等了十年，不差這一兩年。但邏輯是通的，大模型給我們最大的啟示就是：用通用方案解決問(wèn)題，持續(xù)提升智能，新的能力就會(huì)涌現(xiàn)。VLA是反著來(lái)的，針對(duì)每個(gè)場(chǎng)景堆數(shù)據(jù)，這是小模型的范式。

后記

某種意義上，"大模型派"的出現(xiàn)，是對(duì)"VLA派"的宣戰(zhàn)，也是具身發(fā)展進(jìn)入戰(zhàn)國(guó)時(shí)代的一個(gè)標(biāo)志，這一條更慢、更重、但也可能更通吃的路能實(shí)現(xiàn)么？

我們會(huì)持續(xù)關(guān)注，本文作者近期也將帶來(lái)更多大模型派的創(chuàng)業(yè)公司的對(duì)談，歡迎關(guān)注。

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.