国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)話地平線前高管牛建偉:萬(wàn)億參數(shù)大模型如何重塑具身智能

0
分享至


VLA是彎路?

作者丨齊鋮湧

編輯丨林覺(jué)民

具身智能的賽道正在分裂。

一邊是智元、自變量代表的"VLA派",視覺(jué)-語(yǔ)言-動(dòng)作端到端,用海量數(shù)據(jù)訓(xùn)練機(jī)器人疊衣服、抓取物體,估值一路飆到數(shù)百億;一邊是至簡(jiǎn)動(dòng)力、維他動(dòng)力等"智駕降維派",華為ADS、小鵬、理想背景的團(tuán)隊(duì)涌入,把自動(dòng)駕駛的BEV、端到端經(jīng)驗(yàn)移植到人形機(jī)器人上,動(dòng)輒融資數(shù)億美金。

兩條路線都指向同一個(gè)終點(diǎn):讓機(jī)器人真正"看懂"世界、自主行動(dòng)。但兩條路都還沒(méi)跑通——VLA困于泛化與成本,智駕派困于場(chǎng)景遷移。行業(yè)共識(shí)遠(yuǎn)未形成,資本卻在瘋狂押注。

時(shí)間來(lái)到2026年,我們發(fā)現(xiàn)業(yè)界出現(xiàn)了另一支派系:“大模型派”。

近期,多家創(chuàng)業(yè)公司都選擇了類(lèi)似的技術(shù)路線,某種意義上,這是"大模型派"對(duì)"VLA派"的宣戰(zhàn)。

最近,我們約到了一些相信能夠能將具身大腦和多模態(tài)大模型結(jié)合的創(chuàng)業(yè)團(tuán)隊(duì),來(lái)跟他們聊聊這個(gè)新的流派和思路。

牛建偉,進(jìn)入了我們的視線,這位地平線前智能座艙產(chǎn)品線總經(jīng)理,帶著一支"成建制的大模型團(tuán)隊(duì)"進(jìn)軍具身智能賽道。他做過(guò)百度首個(gè)深度學(xué)習(xí)語(yǔ)音系統(tǒng),做過(guò)國(guó)內(nèi)首個(gè)車(chē)規(guī)級(jí)AI芯片+多模態(tài)人機(jī)交互方案量產(chǎn),對(duì)多模態(tài)大模型和系統(tǒng)落地有極為精確量化的認(rèn)知——2015年余凱邀請(qǐng)他進(jìn)去,正是為了那個(gè)"瓦力"般的機(jī)器人夢(mèng)想。直到十年后,這個(gè)夢(mèng)想得以延續(xù)。

十年后殺回具身,他卻說(shuō):VLA是彎路。真正的答案,是"物理世界的GPT"。

這是一個(gè)AI老兵對(duì)舊日經(jīng)驗(yàn)的"出走"。在具身智能的戰(zhàn)國(guó)時(shí)代,牛建偉選擇了一條不一樣的路,以認(rèn)知驅(qū)動(dòng)的大模型范式,來(lái)解決具身的問(wèn)題。不是做最會(huì)疊衣服的機(jī)器人,而是做最懂物理世界的"大腦"。

以下是牛建偉與AI科技評(píng)論的對(duì)話,AI科技評(píng)論作了不改變?cè)獾木庉嫞?/p>

01


2015年就想做的事,現(xiàn)在終于能做了

AI科技評(píng)論:先聊聊你的背景。2012年你在百度IDL實(shí)習(xí),搭建了國(guó)內(nèi)第一個(gè)基于深度學(xué)習(xí)的語(yǔ)音系統(tǒng)。當(dāng)時(shí)是什么情況?

牛建偉:當(dāng)時(shí)語(yǔ)音的主流方案還是以GMM的傳統(tǒng)方案為主,局限性很大。而深度學(xué)習(xí)范式剛剛興起,我作為主力去搭建了IDL首個(gè)使用GPU并行訓(xùn)練的深度學(xué)習(xí)框架,花了9個(gè)月,把基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型推上線,支撐了百度語(yǔ)音搜索和語(yǔ)音輸入法等產(chǎn)品。

那時(shí)候叫"大模型",現(xiàn)在看只有不到0.1B參數(shù),但當(dāng)時(shí)已經(jīng)是行業(yè)突破了。

AI科技評(píng)論:為什么2015年去地平線?語(yǔ)音和芯片似乎很遠(yuǎn)。

牛建偉:我跟余凱在IDL就已經(jīng)共事。地平線創(chuàng)立之初就想做機(jī)器人,凱哥拉我入伙負(fù)責(zé)機(jī)器人的人機(jī)交互系統(tǒng)。

機(jī)器人的核心是什么?理解人的意圖、執(zhí)行人的指令、給人反饋。沒(méi)有優(yōu)秀的人機(jī)交互系統(tǒng),機(jī)器人就是聾子啞巴。

當(dāng)時(shí)地平線的構(gòu)想很大,要做"機(jī)器人OS+芯片",辦公室還擺了個(gè)“瓦力”模型——那個(gè)《機(jī)器人總動(dòng)員》里的智能體,我們做機(jī)器人最早的種子就是這個(gè)。

AI科技評(píng)論:但是那時(shí)做機(jī)器人似乎有些早。

牛建偉:是的,當(dāng)時(shí)的AI技術(shù)還不足以支撐做一個(gè)可用的機(jī)器人,本體也不成熟。機(jī)器人要聽(tīng)懂話、理解意圖、執(zhí)行任務(wù),這些鏈條都是斷的。

我們花了半年時(shí)間探索,發(fā)現(xiàn)做不下來(lái),后面就調(diào)整了方向,去圍繞智能汽車(chē)進(jìn)行芯片加AI的產(chǎn)品研發(fā)和落地。行業(yè)的共識(shí),汽車(chē)就是"四個(gè)輪子的機(jī)器人",最早就是我們提出的。

大概18年,我領(lǐng)導(dǎo)團(tuán)隊(duì)做面向智能座艙的AI解決方案,在行業(yè)內(nèi)率先提出了"多模態(tài)交互"的理念,整體方案我們研發(fā)打磨了三年,走完了痛苦的0到1的完整過(guò)程,最終拿下長(zhǎng)安汽車(chē)這個(gè)重要的客戶,把地平線首款車(chē)規(guī)級(jí)芯片和行業(yè)首個(gè)多模態(tài)AI解決方案落地到了長(zhǎng)安 UNI-T車(chē)型上,UNI-T也是當(dāng)年的爆款車(chē)型。

我們創(chuàng)造了一款全新的AI芯片在汽車(chē)行業(yè)最快量產(chǎn)的速度記錄。

AI科技評(píng)論:這十年你一直在琢磨機(jī)器人?

牛建偉:對(duì)我們這代最早的AI從業(yè)者而言,機(jī)器人的愿景其實(shí)一直沒(méi)變過(guò)。2018年提"多模態(tài)交互"的時(shí)候,背后有個(gè)認(rèn)知:AI的核心是對(duì)多維度信息的全面、深度的計(jì)算,信息越多、計(jì)算的越多就越有價(jià)值。

機(jī)器人的智能來(lái)自于對(duì)外部世界和本體的全模態(tài)感知與理解的能力。當(dāng)時(shí)我們就想,如果能在座艙里對(duì)人的行為狀態(tài)和所處的環(huán)境,進(jìn)行全模態(tài)的感知理解,我們就能構(gòu)建出汽車(chē)的智能大腦。

AI科技評(píng)論:什么時(shí)候決定創(chuàng)業(yè)?

牛建偉:地平線完整做完了“從0到1”和“從1到10”,內(nèi)心總會(huì)有個(gè)聲音去做更大的事情。

有個(gè)實(shí)際的契機(jī),當(dāng)時(shí)我?guī)е鴪F(tuán)隊(duì)探索,用大模型通過(guò)GUI Agent的能力直接操作手機(jī)上的美團(tuán)APP完成下單,當(dāng)時(shí)就覺(jué)得:像人一樣感知世界、使用工具解決復(fù)雜問(wèn)題的大腦雛形出現(xiàn)了。時(shí)機(jī)到了。

之前大模型更多的是作為Chatbot被使用,伴隨著大模型的多模態(tài)感知和Agent能力的巨大提升,它能自如的操作手機(jī)、電腦完成復(fù)雜任務(wù)了。如果把它放到機(jī)器人上呢?

正如OpenClaw改變了AI‘只能說(shuō)、不能做’的現(xiàn)狀,我們也要改變機(jī)器人‘只能做,不能學(xué)’的現(xiàn)狀。”以前沒(méi)人相信我,現(xiàn)在全都懂了。


AI科技評(píng)論:你認(rèn)為現(xiàn)在入場(chǎng)時(shí)機(jī)成熟么?具身目前是超級(jí)紅海。

牛建偉:兩個(gè)前提條件很清晰了,才會(huì)決定入場(chǎng)。第一,如果我做的和別人一樣,那肯定泯然眾人了;第二,如果沒(méi)有一個(gè)過(guò)硬的團(tuán)隊(duì)來(lái)實(shí)現(xiàn)真正的具身“智能大腦”,那肯定也活不到最后。簡(jiǎn)單來(lái)說(shuō),具身還沒(méi)達(dá)到“GPT時(shí)刻”,還沒(méi)有“范式基座”。而過(guò)去十年的積累和身邊人的信任,把我推出來(lái)了。

AI科技評(píng)論:在超過(guò)200家具身公司的競(jìng)爭(zhēng)中能沖出來(lái)?

牛建偉:地平線當(dāng)時(shí)的競(jìng)爭(zhēng)環(huán)境不必這好,我們不也沖出來(lái)了(笑)?而且這件事我已經(jīng)想了超過(guò)十年。

02


VLA在用大模型最不擅長(zhǎng)的方式做事

AI科技評(píng)論:但現(xiàn)在行業(yè)主流是VLA。智元,銀河通用、自變量都在做VLA。你為什么不做?

牛建偉:VLA正在用大模型最不擅長(zhǎng)的范式解決運(yùn)動(dòng)控制問(wèn)題。大語(yǔ)言模型的根本局限在于離散token化表示——它本質(zhì)上是文本的概率生成器,而非數(shù)值計(jì)算器。

一個(gè)經(jīng)典例證是9.9和9.10的比較:由于token化機(jī)制將'9.10'切分為['9', '.', '10'],模型會(huì)因字符串'10'大于'9'而產(chǎn)生數(shù)值幻覺(jué)。即便進(jìn)行三位數(shù)的乘法計(jì)算,目前最好的大模型也做不到100%的準(zhǔn)確率,主流做法都是大模型通過(guò)調(diào)用計(jì)算工具進(jìn)行計(jì)算。

VLA的結(jié)構(gòu)性矛盾正在于此:要求模型將視覺(jué)-語(yǔ)言理解直接映射為連續(xù)空間中的關(guān)節(jié)坐標(biāo)、動(dòng)作軌跡或路徑點(diǎn),這種'語(yǔ)言token→連續(xù)數(shù)值序列'的轉(zhuǎn)換,存在明顯的模態(tài)錯(cuò)配和信息損失。VLA架構(gòu)在通過(guò)"揚(yáng)短避長(zhǎng)"的方式在利用大模型的能力,大模型真正擅長(zhǎng)的對(duì)于任務(wù)規(guī)劃推理、工具調(diào)用的能力被明顯弱化了。

AI科技評(píng)論:但VLA能疊衣服、能抓取,視頻看起來(lái)很流暢。

牛建偉:動(dòng)作不是關(guān)鍵,智能才是。小學(xué)生疊十年衣服,不會(huì)變成大學(xué)生。

VLA能疊衣服,是因?yàn)樗槍?duì)這個(gè)任務(wù)采了大量數(shù)據(jù),但換個(gè)場(chǎng)景、換個(gè)本體,就要重新采。你找一個(gè)小學(xué)生讓他搬十年箱子,他腦子也不會(huì)變聰明;但反過(guò)來(lái),讓他腦子變聰明,看別人疊一遍衣服就會(huì)了,而且不只會(huì)疊衣服,讓他干什么都行。

簡(jiǎn)言之,我們要先做個(gè)能學(xué)習(xí)的大學(xué)生,也許笨拙,但有自主進(jìn)化的能力。

AI科技評(píng)論:具體說(shuō),VLA的問(wèn)題在哪?

牛建偉:三個(gè)問(wèn)題。

第一,模型太小。VLA通常3B-7B參數(shù),根據(jù)Scaling Law 隨著數(shù)據(jù)規(guī)模的指數(shù)級(jí)增加,模型參數(shù)規(guī)模也需要同比例增加。100萬(wàn)小時(shí)視頻按照一秒鐘抽取2幀圖片,那么就對(duì)應(yīng)7.2B張圖像幀,你用7B模型去學(xué)必然會(huì)出現(xiàn)Underfitting。能夠充分學(xué)習(xí)1000萬(wàn)小時(shí)視頻數(shù)據(jù)的模型,參數(shù)量要到100B級(jí)別,我預(yù)計(jì)十年內(nèi)沒(méi)有端側(cè)芯片能跑下來(lái)。

第二,與本體綁定太深。特斯拉Optimus迭代了好幾代,硬件差別很大,你綁著一代去弄,每代都要花大錢(qián)。

第三,沒(méi)有有效的反饋和記憶機(jī)制。VLA直接輸出動(dòng)作序列,將認(rèn)知和執(zhí)行強(qiáng)耦合,無(wú)法通過(guò)外界的反饋來(lái)糾正和學(xué)習(xí)更好的完成任務(wù)。舉個(gè)例子,OpenClaw是可以在用戶的使用過(guò)程中通過(guò)記憶和SKILL的能力持續(xù)成長(zhǎng),核心在于解耦了認(rèn)知和執(zhí)行,就可以利用大模型擅長(zhǎng)的in-context learning的能力實(shí)現(xiàn)在線學(xué)習(xí)。

AI科技評(píng)論:但VLA派會(huì)說(shuō),端到端才是未來(lái),分層架構(gòu)是老派的模塊化方案。

牛建偉:端到端是單點(diǎn)方案。但具身智能是通用問(wèn)題——機(jī)器人要會(huì)開(kāi)車(chē)、做飯、打掃,是人的化身。VLA方案還在嘗試解決自動(dòng)駕駛的L3問(wèn)題,目前還沒(méi)有有效結(jié)局。想解決通用任務(wù)目前看很難。你看人怎么看自動(dòng)駕駛:我會(huì)開(kāi)車(chē),只是我的一個(gè)技能而已。機(jī)器人也一樣,開(kāi)車(chē)只是它的技能之一,它還要做很多通用的事。

03


我們要做萬(wàn)億參數(shù)的空間智能大模型

AI科技評(píng)論:你的方案是什么?

牛建偉:分層架構(gòu)。

上面是萬(wàn)億參數(shù)的"空間智能大模型",是大腦,做任務(wù)規(guī)劃、推理、記憶;下面是VA(Vision-to-Action)小模型,0.1B-1B參數(shù),是手和腳,專(zhuān)門(mén)執(zhí)行基礎(chǔ)操作。

大模型擅長(zhǎng)什么?推理、任務(wù)編排、調(diào)用工具。我們的方案就是充分利用大模型在邏輯推理、任務(wù)規(guī)劃和工具調(diào)用方面的能力?,F(xiàn)有的GPT類(lèi)大模型在空間理解與推理,物理世界任務(wù)規(guī)劃方面有較大的欠缺,因?yàn)樗鼈兌际腔诨ヂ?lián)網(wǎng)數(shù)據(jù)訓(xùn)練的,天然缺少物理世界的數(shù)據(jù)、對(duì)具身的任務(wù)也沒(méi)有針對(duì)性訓(xùn)練。我們會(huì)在數(shù)據(jù)和訓(xùn)練算法兩方面進(jìn)行大模型的優(yōu)化,來(lái)實(shí)現(xiàn)一個(gè)更懂物理世界的空間智能大模型。

業(yè)內(nèi)能打通空間智能大模型和行為小腦的團(tuán)隊(duì)很少,真正做過(guò)長(zhǎng)周期、大參數(shù)、閉環(huán)落地的,才能做成這套方案。


AI科技評(píng)論:為什么是萬(wàn)億參數(shù)?創(chuàng)業(yè)公司訓(xùn)?

牛建偉:物理世界的復(fù)雜度不比數(shù)字世界低,只會(huì)更高。

GPT處理數(shù)字世界需要萬(wàn)億參數(shù),機(jī)器人理解三維世界的空間關(guān)系和物理規(guī)律,也需要這個(gè)量級(jí)。我們站在巨人肩膀上,千問(wèn)、Llama已經(jīng)開(kāi)源,技術(shù)路線摸清楚了。重新做一個(gè)千問(wèn)要1000億人民幣,我們?cè)陂_(kāi)源基礎(chǔ)上增加三維世界數(shù)據(jù)重新訓(xùn)練,可能幾十億就夠了。

預(yù)訓(xùn)練階段加入大量弱標(biāo)注的三維數(shù)據(jù),后訓(xùn)練用幾千小時(shí)精標(biāo)數(shù)據(jù)激發(fā)能力。不需要像VLA要采100萬(wàn)小時(shí)、1000萬(wàn)小時(shí)的操作數(shù)據(jù)。(編者注:幾乎每個(gè)問(wèn)題,牛建偉的表達(dá)都是精細(xì)到具體數(shù)字量級(jí)的)

AI科技評(píng)論:具體怎么訓(xùn)練?

牛建偉:大模型范式已經(jīng)很清楚了。預(yù)訓(xùn)練用海量弱標(biāo)注數(shù)據(jù),學(xué)習(xí)物理世界的知識(shí)和規(guī)律;后訓(xùn)練用少量的通用任務(wù)的精標(biāo)數(shù)據(jù),激發(fā)能力,讓智能涌現(xiàn)。

GPT就是這樣干的,Coding能力不是預(yù)訓(xùn)練直接得到的,是后訓(xùn)練用相對(duì)少量人類(lèi)專(zhuān)家數(shù)據(jù)激發(fā)的。我們也一樣,預(yù)訓(xùn)練加三維真實(shí)世界數(shù)據(jù),讓大模型具備物理規(guī)律的理解;后訓(xùn)練用精標(biāo)數(shù)據(jù),激發(fā)它做任務(wù)規(guī)劃、工具調(diào)用、反饋學(xué)習(xí)的能力。

AI科技評(píng)論:VA是什么?和VLA有什么區(qū)別?

牛建偉:VA是Vision-to-Action,弱化語(yǔ)言部分,視覺(jué)直接驅(qū)動(dòng)動(dòng)作。通過(guò)VA模型來(lái)實(shí)現(xiàn)機(jī)器人的基礎(chǔ)操作能力。VLA是Vision-Language-Action,語(yǔ)言部分參數(shù)量太大,推理慢。VA做到0.XB參數(shù)規(guī)模,推理速度更快,延遲更低。

AI科技評(píng)論:這樣會(huì)不會(huì)限制能力?VLA可以端到端學(xué)習(xí)任意動(dòng)作。

牛建偉:VLA看似靈活,但是是由數(shù)據(jù)驅(qū)動(dòng)的。它只能做訓(xùn)練數(shù)據(jù)里有的動(dòng)作,換個(gè)方式拿杯子就不會(huì)了。

我們的方案,大模型負(fù)責(zé)任務(wù)規(guī)劃,知道"為什么要拿杯子";VA負(fù)責(zé)執(zhí)行,知道"怎么拿"。比如向前走這個(gè)動(dòng)作,人形機(jī)器人用雙足、輪臂機(jī)器人用輪子,只是調(diào)用不同的VA模型,大腦完全復(fù)用。

04


特斯拉有Grok,國(guó)內(nèi)只學(xué)了Optimus的一半

AI科技評(píng)論:怎么看待行業(yè)內(nèi)的大規(guī)模數(shù)據(jù)采集的計(jì)劃?

牛建偉:總體上是為行業(yè)做貢獻(xiàn),很好的補(bǔ)充了之前匱乏的具身行業(yè)數(shù)據(jù)。但問(wèn)題是,如果算法范式錯(cuò)了,采越多越浪費(fèi)。我覺(jué)得目前的人的第一視角的數(shù)據(jù)逐漸成為了行業(yè)的一種共識(shí),之前采集的很多遙操數(shù)據(jù)的價(jià)值可能就弱化了很多。

AI科技評(píng)論:展開(kāi)說(shuō)說(shuō)?

牛建偉:自動(dòng)駕駛就是例子。過(guò)去十年,自動(dòng)駕駛行業(yè)經(jīng)歷了多次的技術(shù)迭代和硬件傳感器的迭代,每次迭代都會(huì)讓之前積累的數(shù)據(jù)價(jià)值弱化,甚至變得不可用。

具身的本體和技術(shù)方案都在發(fā)展的早期階段,我們應(yīng)該從第一性原理出發(fā),從智能的終局出發(fā)來(lái)考慮如何采集和標(biāo)注數(shù)據(jù)。我覺(jué)得大模型行業(yè)的經(jīng)驗(yàn)值得借鑒,將預(yù)訓(xùn)練的數(shù)據(jù)和任務(wù)相關(guān)的數(shù)據(jù)分離開(kāi)是一種思路。

AI科技評(píng)論:但投資人認(rèn)這個(gè)。頭部公司都融了很多錢(qián)。

牛建偉:現(xiàn)在投資圈特別認(rèn)智駕背景,覺(jué)得做VLA是降維打擊。但這是錯(cuò)的。

VLA可以非??斓貙?shí)現(xiàn)一個(gè)很好的Demo效果,不管是抓取柔性物品還是執(zhí)行特定場(chǎng)景的表演動(dòng)作集,但最后消費(fèi)者和B端客戶買(mǎi)的不是“電器”,而是智能體。

自動(dòng)駕駛是單點(diǎn)問(wèn)題,具身智能是通用問(wèn)題?;蛘哒f(shuō)要實(shí)現(xiàn)L4級(jí)的自動(dòng)駕駛問(wèn)題可能也需要站在空間智能的角度,按照一種通用方式來(lái)解決。就像翻譯作為語(yǔ)言大模型的一個(gè)子任務(wù)被較好的解決了一樣。

AI科技評(píng)論:你認(rèn)為具身智能的三派之爭(zhēng)誰(shuí)會(huì)贏?

牛建偉:三派。本體派,比如波士頓動(dòng)力只會(huì)運(yùn)控,沒(méi)有環(huán)境感知,VLA出來(lái)就把他們打懵了;VLA派只會(huì)操作,沒(méi)有大腦,國(guó)內(nèi)只看到本體上的VLA,沒(méi)看到大腦;大模型派(特斯拉、谷歌、我們)做大腦,做任務(wù)規(guī)劃、推理、記憶。

AI科技評(píng)論:谷歌、特斯拉的具體方案是什么?

牛建偉:谷歌有Gemini,特斯拉有Grok,都是萬(wàn)億參數(shù)大模型做大腦,做任務(wù)拆解和推理;本體上用VLA或類(lèi)似模型做執(zhí)行。這是完整的方案。

05


我們要做物理世界的OpenClaw

AI科技評(píng)論:你們現(xiàn)在產(chǎn)品到什么階段了?

牛建偉:我們已經(jīng)在機(jī)器人上跑通了物理agent架構(gòu),可以直接通過(guò)對(duì)話交互的方式修正機(jī)器人的任務(wù)執(zhí)行,并積累到機(jī)器人的skill中去。你可以簡(jiǎn)單的理解,我們已經(jīng)搭成了一個(gè)物理世界的OpenClaw,下階段是skill的問(wèn)題。

AI科技評(píng)論:具體能做什么?

牛建偉:告訴它"把杯子拿起來(lái)放到收納盒里",它自己拆解任務(wù):調(diào)用相機(jī)看杯子位置,調(diào)用深度感知測(cè)距離,調(diào)用VA模型執(zhí)行拿取,然后移動(dòng)到收納盒上方,執(zhí)行放置。每個(gè)步驟都是大模型規(guī)劃,調(diào)用不同工具完成。

AI科技評(píng)論:這和VLA的端到端有什么區(qū)別?

牛建偉:VLA對(duì)于長(zhǎng)程任務(wù)的規(guī)劃能力其實(shí)是不足的,另外一個(gè)重要區(qū)別是我們的方案引入了物理Agent的架構(gòu),在我們的方案下機(jī)器人不僅知道如何做一個(gè)任務(wù),還能夠?qū)崟r(shí)監(jiān)督和反饋任務(wù)完成的情況,并通過(guò)記憶和反思的能力,實(shí)現(xiàn)任務(wù)越做越好。

我們通過(guò)Agent的開(kāi)發(fā)范式構(gòu)建了感知、決策、執(zhí)行、評(píng)估與反思記憶的完整閉環(huán),使得機(jī)器人可以在和環(huán)境的交互和與人的互動(dòng)中持續(xù)的學(xué)習(xí)與成長(zhǎng)。

AI科技評(píng)論:反饋學(xué)習(xí)怎么做?

牛建偉:就像養(yǎng)“小龍蝦”。你告訴它"郵箱應(yīng)該這樣發(fā)",它不用重新訓(xùn)練就能學(xué)會(huì);執(zhí)行任務(wù)報(bào)錯(cuò),它能自己查資料修正。女主人說(shuō)"杯子以后放廚房",Agent記住,形成記憶,不需要做任何模型層面的調(diào)整,在線就完成了體驗(yàn)優(yōu)化。VLA干不了這個(gè),它訓(xùn)練好了就是這樣,能力的泛化有限。

"我們等了十年,不差這一兩年"

AI科技評(píng)論:如果這次錯(cuò)了呢?如果三年后VLA成了主流?

牛建偉:如果VLA成為了通向通用具身智能的主流方案并且具備了很高的智能,這應(yīng)該是是一件特別好的事情。云端萬(wàn)億參數(shù)的大模型完全可以參照VLA來(lái)進(jìn)行模型的尺寸小型化,這個(gè)會(huì)節(jié)省非常多的成本和能源消耗。但我很難相信,一個(gè)參數(shù)規(guī)模比人腦神經(jīng)元數(shù)量(100B)還少的模型可以實(shí)現(xiàn)接近人的智能水平。

AI科技評(píng)論:萬(wàn)一還是做不成呢?

牛建偉:我們等了十年,不差這一兩年。但邏輯是通的,大模型給我們最大的啟示就是:用通用方案解決問(wèn)題,持續(xù)提升智能,新的能力就會(huì)涌現(xiàn)。VLA是反著來(lái)的,針對(duì)每個(gè)場(chǎng)景堆數(shù)據(jù),這是小模型的范式。

06


后記

某種意義上,"大模型派"的出現(xiàn),是對(duì)"VLA派"的宣戰(zhàn),也是具身發(fā)展進(jìn)入戰(zhàn)國(guó)時(shí)代的一個(gè)標(biāo)志,這一條更慢、更重、但也可能更通吃的路能實(shí)現(xiàn)么?

我們會(huì)持續(xù)關(guān)注,本文作者近期也將帶來(lái)更多大模型派的創(chuàng)業(yè)公司的對(duì)談,歡迎關(guān)注。


未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗導(dǎo)彈現(xiàn)“DF”,中國(guó)東風(fēng)出口實(shí)錘?背后信息讓人脊背發(fā)涼

伊朗導(dǎo)彈現(xiàn)“DF”,中國(guó)東風(fēng)出口實(shí)錘?背后信息讓人脊背發(fā)涼

觸摸史跡
2026-04-25 09:26:18
事態(tài)升級(jí),中方軍艦越聚越多,四川艦和遼寧艦會(huì)合,菲日休想鬧事

事態(tài)升級(jí),中方軍艦越聚越多,四川艦和遼寧艦會(huì)合,菲日休想鬧事

聞識(shí)
2026-04-25 17:48:48
上海一市民通過(guò)12345“隨申拍”舉報(bào)地鐵站臺(tái)吸煙者,收到答復(fù):巡視員未發(fā)現(xiàn),若發(fā)現(xiàn)會(huì)制止,不配合會(huì)報(bào)警,市民:理解但希望加強(qiáng)巡視

上海一市民通過(guò)12345“隨申拍”舉報(bào)地鐵站臺(tái)吸煙者,收到答復(fù):巡視員未發(fā)現(xiàn),若發(fā)現(xiàn)會(huì)制止,不配合會(huì)報(bào)警,市民:理解但希望加強(qiáng)巡視

縱相新聞
2026-04-25 01:04:05
斯馬特你太狠,換隊(duì)第一年,詹科鯊魔賈都沒(méi)實(shí)現(xiàn)的紀(jì)錄,你做到了

斯馬特你太狠,換隊(duì)第一年,詹科鯊魔賈都沒(méi)實(shí)現(xiàn)的紀(jì)錄,你做到了

大西體育
2026-04-25 19:48:47
5倍大牛股 宣布將“戴帽”, DeepSeek概念股稱(chēng)可能“戴帽”

5倍大牛股 宣布將“戴帽”, DeepSeek概念股稱(chēng)可能“戴帽”

每日經(jīng)濟(jì)新聞
2026-04-25 12:22:54
斯諾克世錦賽:丁俊暉被罰9分逆轉(zhuǎn)失?。≮w心童脫險(xiǎn),追到3-3!

斯諾克世錦賽:丁俊暉被罰9分逆轉(zhuǎn)失??!趙心童脫險(xiǎn),追到3-3!

劉姚堯的文字城堡
2026-04-24 23:50:42
59歲王祖賢在加拿大超市外面被偶遇,嘴巴有點(diǎn)奇怪,但還是很漂亮

59歲王祖賢在加拿大超市外面被偶遇,嘴巴有點(diǎn)奇怪,但還是很漂亮

TVB的四小花
2026-04-25 17:40:53
悲催!37歲名牌大學(xué)畢業(yè)、年薪30萬(wàn)女醫(yī)生被技術(shù)男嫌棄,當(dāng)場(chǎng)崩潰

悲催!37歲名牌大學(xué)畢業(yè)、年薪30萬(wàn)女醫(yī)生被技術(shù)男嫌棄,當(dāng)場(chǎng)崩潰

火山詩(shī)話
2026-04-24 06:14:58
DeepSeek聯(lián)手華為掀桌子后,黃仁勛給英偉達(dá)下達(dá)了死命令

DeepSeek聯(lián)手華為掀桌子后,黃仁勛給英偉達(dá)下達(dá)了死命令

南宗歷史
2026-04-25 10:12:48
倫敦租房廣告涉嫌“公然歧視非穆斯林”

倫敦租房廣告涉嫌“公然歧視非穆斯林”

名人茍或
2026-04-25 07:04:08
班主任私下告訴我:高一成績(jī)好的孩子,一半以上到高二都會(huì)垮

班主任私下告訴我:高一成績(jī)好的孩子,一半以上到高二都會(huì)垮

鬼菜生活
2026-04-23 01:52:01
斯諾克最新排名,斯佳輝出局丁俊暉跌至15,趙心童有望世界第二

斯諾克最新排名,斯佳輝出局丁俊暉跌至15,趙心童有望世界第二

林子說(shuō)事
2026-04-25 08:07:51
泰山景區(qū)多名游客因觀日出搶位起沖突,有人從石上滑落遭圍毆,警方介入調(diào)查

泰山景區(qū)多名游客因觀日出搶位起沖突,有人從石上滑落遭圍毆,警方介入調(diào)查

瀟湘晨報(bào)
2026-04-25 15:12:12
伊朗用血淚給中國(guó)換來(lái)了教訓(xùn):最大的敵人,并不是美國(guó)和以色列

伊朗用血淚給中國(guó)換來(lái)了教訓(xùn):最大的敵人,并不是美國(guó)和以色列

墨印齋
2026-04-23 15:42:00
第一筆補(bǔ)強(qiáng)來(lái)了,勇士要變天了,他終于回來(lái)了,勇士四冠功臣

第一筆補(bǔ)強(qiáng)來(lái)了,勇士要變天了,他終于回來(lái)了,勇士四冠功臣

體育新角度
2026-04-25 17:43:17
網(wǎng)紅莫氏雞煲涼透了!從通宵排隊(duì)到空無(wú)一人,終究逃不過(guò)曇花一現(xiàn)

網(wǎng)紅莫氏雞煲涼透了!從通宵排隊(duì)到空無(wú)一人,終究逃不過(guò)曇花一現(xiàn)

阿郎娛樂(lè)
2026-04-23 15:28:38
小米粥再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病患者喝小米粥時(shí)要重視這6點(diǎn)

小米粥再次被關(guān)注!醫(yī)生發(fā)現(xiàn):糖尿病患者喝小米粥時(shí)要重視這6點(diǎn)

芹姐說(shuō)生活
2026-04-25 12:32:30
嗜賭成性只是冰山一角,婚內(nèi)出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內(nèi)出軌、睡有婦之夫,體壇丑聞毀三觀

阿訊說(shuō)天下
2026-04-25 11:15:04
臺(tái)灣省經(jīng)濟(jì)數(shù)據(jù)看著越來(lái)越亮眼,可普通老百姓的日子卻越來(lái)越緊巴

臺(tái)灣省經(jīng)濟(jì)數(shù)據(jù)看著越來(lái)越亮眼,可普通老百姓的日子卻越來(lái)越緊巴

流蘇晚晴
2026-04-20 20:12:45
江西兩市市委書(shū)記,同日調(diào)整

江西兩市市委書(shū)記,同日調(diào)整

上觀新聞
2026-04-25 17:56:07
2026-04-25 20:16:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7222文章數(shù) 20749關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

現(xiàn)場(chǎng)視頻:殲-15掛彈起飛硬剛外軍航母編隊(duì)滋擾

頭條要聞

現(xiàn)場(chǎng)視頻:殲-15掛彈起飛硬剛外軍航母編隊(duì)滋擾

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時(shí)賽9戰(zhàn)8敗

娛樂(lè)要聞

鄧超最大的幸運(yùn),就是遇見(jiàn)孫儷

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒(méi)了

汽車(chē)要聞

2026款樂(lè)道L90亮相北京車(chē)展 樂(lè)道L80正式官宣

態(tài)度原創(chuàng)

游戲
房產(chǎn)
教育
親子
家居

索尼新規(guī)落地!所有數(shù)字版游戲都要強(qiáng)制30天聯(lián)網(wǎng)驗(yàn)權(quán)

房產(chǎn)要聞

新一輪教育大爆發(fā)來(lái)了!??冢_(kāi)始瘋狂建學(xué)校!

教育要聞

我國(guó)“就業(yè)率逼近100%”的5所雙非大學(xué),500多分就能上!

親子要聞

我國(guó)兒童腫瘤生存率首次納入年報(bào)體系!5年達(dá)76%,不同癌種差異顯著

家居要聞

自然肌理 溫潤(rùn)美學(xué)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版