国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話原力靈機(jī)周而進(jìn):原生大模型,讓具身智能“更簡單”

0
分享至

文 | 智能相對論

作者 | 葉遠(yuǎn)風(fēng)

在人工智能浪潮席卷全球的當(dāng)下,尤其是世界模型掀起新一輪熱潮后,適配“具身智能”的大模型正廣受關(guān)注。然而,在眾聲喧嘩與概念紛繁之中,什么才是通向通用機(jī)器人的切實(shí)路徑?是強(qiáng)化學(xué)習(xí)還是模仿學(xué)習(xí)?是VLA端到端還是模塊化分步式?是仿真捷徑還是真機(jī)苦功?

近期,我們對話了原力靈機(jī)聯(lián)合創(chuàng)始人周而進(jìn)。在他看來,行業(yè)的許多爭論可能偏離了本質(zhì)。原力靈機(jī)選擇了一條看似“笨拙”的道路:摒棄直接套用現(xiàn)有大模型,從零開始構(gòu)建原生機(jī)器人模型DM0;不追求參數(shù)的盲目膨脹,相信“小”模型也能在真實(shí)世界中完成復(fù)雜任務(wù);明確提出“通用”與“泛化”正交的研發(fā)框架,并以“世界模型”與“視覺-語言-動作模型”的緊密結(jié)合,作為實(shí)現(xiàn)這一目標(biāo)的技術(shù)支柱。



周而進(jìn)斷言,他們正在做的,實(shí)際上是“更簡單的事”。

這份“簡單”,并非指技術(shù)難度低,而是指拋開捷徑與妥協(xié),回歸問題本質(zhì)——讓機(jī)器人像人一樣,通過分層智能系統(tǒng)理解世界、規(guī)劃任務(wù)、并靈巧地操縱物理實(shí)體。這要求模型必須真正理解“干預(yù)世界”與“預(yù)測世界”的區(qū)別,必須能適應(yīng)不同的機(jī)器身體與傳感器組合,也必須能在不完美的現(xiàn)實(shí)場景中,從“有人兜底”逐步走向完全自主。

在本次對話過程中,作為AI圈內(nèi)的技術(shù)精英,曾經(jīng)的“天才少年”周而進(jìn)系統(tǒng)闡述了原力靈機(jī)對“通用具身智能”的完整定義與四大泛化維度,犀利點(diǎn)評了行業(yè)在技術(shù)路徑、數(shù)據(jù)策略上的常見誤區(qū),并首次詳細(xì)解讀了其“世界模型+VLA”的技術(shù)架構(gòu)為何是必然選擇。他也坦誠分享了公司從工業(yè)物流場景切入的商業(yè)化邏輯,以及面對數(shù)據(jù)稀缺、客戶信任等挑戰(zhàn)時(shí)的“兜底”哲學(xué)。

我們得以窺見一家具身智能創(chuàng)業(yè)公司的技術(shù)藍(lán)圖,也對當(dāng)前具身智能發(fā)展范式有一定反思。以下是對話實(shí)錄。

智能相對論:怎么看待當(dāng)下具身智能的發(fā)展?

周而進(jìn):具身智能這一波浪潮來自于大模型開啟了一個(gè)非常強(qiáng)大的關(guān)于泛化的能力,關(guān)于萬物互聯(lián)的可能性。

在算法上面,我們認(rèn)為構(gòu)建一個(gè)分層的智能系統(tǒng)十分必要。這是因?yàn)?,和人一樣?strong>具身智能對于世界的理解、動作的操縱反饋,一定需要一個(gè)分層系統(tǒng)來實(shí)現(xiàn),才能有很普遍的實(shí)用價(jià)值。

這個(gè)體系有三層:

首先要有一個(gè)大腦對系統(tǒng)進(jìn)行規(guī)劃;

然后有一個(gè)“小腦”做出各種low level的指令,比如拿、放、推、拉;

最后一層,我們定義為system0,意思是從抓、拿、放這些low level指令到真的去驅(qū)動電機(jī),把關(guān)節(jié)穩(wěn)定地轉(zhuǎn)起來,拿穩(wěn)、放平,動作流暢光滑,執(zhí)行效率高,然后還要結(jié)合各種傳感器的信號,包括力的反饋、觸覺的反饋等。

有了這樣一個(gè)三層的分層系統(tǒng),才能最終解決那些足夠復(fù)雜的問題。

之所以有這樣的認(rèn)識,是因?yàn)槲覀儚囊婚_始就把自己的目標(biāo)定位為“通用具身智能”,想要造出來的機(jī)器人不是為了專門擦桌子,或者說專門去做一個(gè)具體的動作(那樣的話也不用那么復(fù)雜的系統(tǒng))。未來的機(jī)器人,應(yīng)該是每天就跟保潔阿姨一樣,巡視一下工區(qū)哪有垃圾桶滿了就給換一個(gè),哪里的桌子臟了就能擦干凈,飲水機(jī)沒水了就補(bǔ)充一下。

這些能力需要的不是簡單的規(guī)則,而是一個(gè)對于場景環(huán)境的長程理解到精細(xì)操作的完美執(zhí)行,哪一環(huán)都少不了,我們的大模型算法必須構(gòu)建起分層智能系統(tǒng)。

智能相對論:“通用具身智能”對模型層面有什么要求?

周而進(jìn):第一,模型對硬件要有一定的通用性。

在真實(shí)的業(yè)務(wù)落地情況下,也結(jié)合我們的業(yè)務(wù)實(shí)踐,硬件需要用一些不同的構(gòu)型來完成不同的任務(wù),比如物流行業(yè),重載業(yè)務(wù)的機(jī)器人需要很“粗”的手臂,靈活度可以不要求那么高。但一些非常精細(xì)的操作,比如說拆袋子、拆箱子、封膠帶,就需要有一個(gè)桌面雙臂靈巧手的形態(tài),身體不需要?jiǎng)印?/p>

一個(gè)足夠通用的機(jī)器人模型,對于這些構(gòu)型都應(yīng)該能夠適配。

第二,模型要有對多傳感器的理解。

人類感官的本質(zhì)也是多種傳感信號的共同輸入,最常見的是視覺,然后聽覺、觸覺等等。多傳感器相互之間是替補(bǔ)關(guān)系,比如,我閉著眼睛去摸,一樣能夠抓起一個(gè)東西,這個(gè)時(shí)候其實(shí)就是傳感器之間的相互補(bǔ)位。

對于人類來說,我把你左手綁住,不應(yīng)該影響你的右手,或者說,我遮住你的眼睛,你的觸覺應(yīng)該依然是work的。

模型一定要去適應(yīng)就是不同的機(jī)型、不同的傳感器,只有這樣,才能夠真正理解每一個(gè)模塊、每一個(gè)傳感器實(shí)際起到的作用是什么、相互之間怎么來互補(bǔ),要能夠把這些東西放在一個(gè)大腦里面,統(tǒng)一指揮、統(tǒng)一調(diào)配起來。

具身智能模型的目標(biāo),應(yīng)是這樣:今天我給機(jī)器插上一個(gè)觸覺模組,干活就能干得更準(zhǔn)確,拔掉依然能干活,只不過準(zhǔn)確率可能會下降一點(diǎn);一個(gè)雙臂機(jī)器人把某一條臂卸掉,還是能繼續(xù)干活。

智能相對論:“通用具身智能”價(jià)值展現(xiàn)在哪里?

周而進(jìn):“通用”產(chǎn)生的價(jià)值,或者說,一個(gè)非常重要的判斷標(biāo)準(zhǔn)是泛化性,不能一種情況行另一種情況就不行。

第一是被操作對象的泛化。

比如說都是整理雜物,模型如果只能在已經(jīng)采集的數(shù)據(jù)上奏效,其實(shí)是沒有意義的。切蘋果,只有我家的蘋果能切,他家的蘋果就切不了,那就不行。

被操作對象在語義層面需要保持一致,但在個(gè)體層面可以不同。

第二是場景的泛化。

都是切水果,機(jī)器人在我家、在你家應(yīng)該都能切。

對象、場景的泛化,這是最基本的兩個(gè)標(biāo)準(zhǔn),也是今年我們核心努力的一個(gè)方向。

第三是任務(wù)的泛化。

機(jī)器人不能永遠(yuǎn)都只能做我教他的那幾個(gè)動作。

一方面,基于很多原子動作可以去做排列組合,機(jī)器人應(yīng)該能學(xué)會做成更復(fù)雜的動作,比如說收納桌子,可以拆解為拾起、折疊、擦拭這么幾個(gè)原子動作的組合。

這就需要更好的一個(gè)具身大腦把一個(gè)更長程的任務(wù)拆解成更多的原子動作,然后有一個(gè)全局的推理系統(tǒng)能夠把整個(gè)系統(tǒng)跑起來,最后完成一些更長的任務(wù),越做越長。

另一方面,很多原子動作本身也應(yīng)該有創(chuàng)新,比如說今天會打蝴蝶結(jié),明天可以學(xué)會外科醫(yī)生打的一種外科結(jié),那是一種完全不一樣的繞線方法。

對這種,就不能簡單地把原有的一些動作去排列組合做更長的任務(wù),它是一種全新的概念,需要通過更廣泛的數(shù)據(jù)學(xué)習(xí)不停地補(bǔ)充模型能力,對基本動作進(jìn)行擴(kuò)充。

第四是機(jī)型的泛化。

這其實(shí)是更難的要求,在數(shù)據(jù)量不足的情況下,能做到前邊幾個(gè)泛化,又能夠在幾個(gè)我們常用的機(jī)型上都做好,是一個(gè)非常有挑戰(zhàn)性的目標(biāo)。

我們在訓(xùn)模型的時(shí)候,會有意識去訓(xùn)練一個(gè)通用模型,讓它接受各種各樣機(jī)器人數(shù)據(jù),為未來去做機(jī)型泛化來去做準(zhǔn)備。

未來我們的機(jī)器人,完全有可能是一種可組裝式的,比如說在某些業(yè)務(wù)場景加裝不同的配合機(jī)械臂,支持客戶通過少量的數(shù)據(jù)就能夠適應(yīng)新的抓握要求。

智能相對論:“通用”和“泛化”具體要怎么推進(jìn)和實(shí)現(xiàn)?

周而進(jìn):泛化的4個(gè)維度是機(jī)器人逐步都要去解決的,在模型或算法的角度,通用加泛化是兩個(gè)正交的概念。

在具體的手段方面,我們主要圍繞VLA(Vision-Language-Action,視覺語言動作模型)+世界模型兩個(gè)具體的研發(fā)模塊。

在這個(gè)基本的架構(gòu)之上,數(shù)據(jù)策略、強(qiáng)化學(xué)習(xí)方法、模仿學(xué)習(xí)方法,都圍繞它們進(jìn)行,用來實(shí)現(xiàn)通用+泛化的目標(biāo)。

智能相對論:李飛飛等團(tuán)隊(duì)在做的世界模型,在具身智能領(lǐng)域的應(yīng)用,聽起來和通用+泛化的構(gòu)想有點(diǎn)類似,那VLA+世界模型和單純的世界模型有什么區(qū)別?

周而進(jìn):世界模型和VLA是正交的。

VLA是說接下來該做什么動作,世界模型是說當(dāng)我做了這個(gè)動作之后,這個(gè)世界發(fā)生了什么樣的變化。

我們認(rèn)為,單獨(dú)說誰是VLA派或者世界模型派這個(gè)本身是沒有意義的,技術(shù)上面要追求的不是站隊(duì)問題,而是到底怎么樣更好的全面建模機(jī)器人操作,有一個(gè)模塊來預(yù)測狀態(tài)發(fā)生什么,有一個(gè)模塊來預(yù)測接下來動作該做啥。

如果只有世界模型,那么機(jī)器人知道這個(gè)世界接下來該怎么演變,但不知道該做什么動作去影響這個(gè)世界去獲得想要的結(jié)果。比如說這兒著火了,世界模型能告訴你接下來5秒鐘火是怎么燃燒,但他不會去做動作,因?yàn)樵趺慈缁疬@件事情,世界模型告訴不了。

或者說,世界模型推動的機(jī)器人最終是落不了地的,它不知道怎么去介入世界、干預(yù)世界,解決不了問題。

智能相對論:如果只關(guān)注世界模型,不關(guān)注VLA,對具身智能會是什么結(jié)果?

周而進(jìn):現(xiàn)在大家對世界模型的定義確實(shí)是多種多樣的,如果說世界模型它本身沒有排斥說去做動作,那就相當(dāng)于已經(jīng)把世界模型和VLA放在了一起,概念融合了。

概念的事,永遠(yuǎn)可以把其他概念吸收進(jìn)來,擴(kuò)充“世界模型”內(nèi)涵,把所有事都干了。但是,它的本質(zhì),必須是我們所說的世界模型+VLA,做兩類預(yù)測,一是我要干預(yù)世界我該做什么,二是干預(yù)也好不干預(yù)也好,世界本身會怎么演變。

有些團(tuán)隊(duì)在訓(xùn)練世界模型時(shí),更多的是通過視頻這個(gè)方向去做模型訓(xùn)練,不會有太多觸覺、身體動作的數(shù)據(jù)加入進(jìn)來(至少不以其為主),這會導(dǎo)致具身智能在仿真時(shí)表現(xiàn)很好,一旦上了真機(jī)就很拉跨。這樣的世界模型,就算想要擴(kuò)充到VLA,也沒辦法真正做到VLA所達(dá)到的精度。

在狹義上,只有世界模型的具身智能,和Gemini沒有本質(zhì)區(qū)別。

今天很多大模型公司把動態(tài)模型拓展一下就說自己是具身大腦,做的評測也都是開環(huán)評測,比如給一張圖詢問下一步動作,判斷這個(gè)動作是不是正確。但具身智能真正要解的是閉環(huán)控制,做了第一步?jīng)Q策之后,“世界”變了,接下來還能不能根據(jù)這個(gè)變化再來做出第二步、第三步正確的反應(yīng),這個(gè)過程是沒辦法背答案的。

狹義的世界模型,生成漂亮的視頻是沒問題的,但用來操作機(jī)器人,可能沒什么太大意義。

智能相對論:現(xiàn)在具身智能的數(shù)據(jù)本來就很缺,用世界模型+VLA的方式來實(shí)現(xiàn)通用+泛化,對數(shù)據(jù)的需求似乎會是幾何式增長,怎么應(yīng)對這個(gè)挑戰(zhàn)?

周而進(jìn):數(shù)據(jù)問題要回到每一份數(shù)據(jù)的價(jià)值怎么呈現(xiàn)。不是說誰數(shù)據(jù)量大就厲害,也不是盲目說哪個(gè)數(shù)據(jù)好哪個(gè)壞,關(guān)鍵是怎么真正用好每一種數(shù)據(jù)。

仿真數(shù)據(jù)量大管飽,但做了那么多年,自駕直到今天所有公司都還在采真機(jī)數(shù)據(jù)。但是,只要與這個(gè)世界交互是在改變世界,這類仿真數(shù)據(jù)的可用性就仍然很強(qiáng)。

比如說導(dǎo)航,非常低速簡單的室內(nèi)場景,大規(guī)模掃描各種屋子來建模真實(shí)場景有很重要的意義,因?yàn)檫@樣的場景就是不要撞到各種物品就好。

但例如疊衣服或者裝水,隨著動作的不同變化會很大,液體一晃動,整個(gè)瓶子的質(zhì)心就是在變化,如果沒辦法準(zhǔn)確建模,仿真數(shù)據(jù)就很難足夠有價(jià)值。反之,如果已經(jīng)能準(zhǔn)確建模,那說明對世界的理解已經(jīng)很準(zhǔn)確,就不再需要“仿真”了,這是矛盾的。

因此,我們在室內(nèi)低速導(dǎo)航、剛性物體抓取等方面,會充分利用仿真數(shù)據(jù)。但在需要精細(xì)化操作的方面,主要投入力度進(jìn)行真實(shí)數(shù)據(jù)采集,解決最后一公里問題。

這方面,一方面要解決數(shù)據(jù)泛化性問題,什么情形都要有,另一方面,要解決最后的高精度操作問題。目前在大力進(jìn)行human data采集,通過各種采集設(shè)備,在各種場景把人的動作信號捕捉下來,進(jìn)行較大規(guī)模的真實(shí)遙采。

只不過,就像自動駕駛沒有人天天騎著自行車去采集數(shù)據(jù),真實(shí)數(shù)據(jù)不代表真機(jī)數(shù)據(jù)?,F(xiàn)在的采集過程只不過是機(jī)器人布置出去的量太少的情況下,不得已而為之的替代手段,以后一定要過渡到機(jī)器人的大批量真機(jī)采集上來。

還有一點(diǎn)要強(qiáng)調(diào)的是,數(shù)據(jù)收集的維度,從傳感器而言已經(jīng)有視覺、觸覺、聽覺、力控、加速度等維度,維度越多,與人的感受、體驗(yàn)越接近,越能強(qiáng)化機(jī)器人的通用+泛化能力,只不過目前還是視覺內(nèi)容占主體,未來相信其他維度的數(shù)據(jù)會慢慢變得豐富,甚至能夠有嗅覺傳感數(shù)據(jù)的加入,相信機(jī)器人的通用性會進(jìn)一步強(qiáng)化。

智能相對論:大模型APP現(xiàn)在不只是看訓(xùn)練數(shù)據(jù),也看真實(shí)使用的反哺,越用越好用,機(jī)器人是不是也類似?

周而進(jìn):是的,機(jī)器人能夠在真實(shí)世界快速被部署出去,這個(gè)游戲才會進(jìn)入到下一個(gè)階段,再循環(huán),然后就開始做真實(shí)世界強(qiáng)化學(xué)習(xí)。

自動駕駛已經(jīng)過了這個(gè)階段,成熟的飛輪滾起來了。機(jī)器人首先還需要在第一階段加碼,先用起來,不要猶豫,要先進(jìn)到場景里、滾動起來。

智能相對論:原力靈機(jī)的理想是做全場景,但現(xiàn)在商業(yè)化先在工業(yè)物流領(lǐng)域,是不是就是基于這樣的背景?

周而進(jìn):一開始要有個(gè)大目標(biāo),它決定了技術(shù)架構(gòu)和判斷。在這個(gè)大目標(biāo)之下,需要的是盡量先跑起來。

飯得一口一口吃,泛化有多個(gè)維度,在工業(yè)物流場景,除了先落地跑起來,其實(shí)能做的事也有挺多的。

場景限制但還是能改變操作對象,比如在物流皮帶上做分揀、做打包,面臨各種各樣的商品,有剛性有柔性,天天在變,第一步就對機(jī)器人有最基礎(chǔ)的能力驗(yàn)證。

然后在場景上,一些客戶他有自己的物流倉庫、門店、商超,場景會有變化、環(huán)境更復(fù)雜,如果最開始沒有想著泛化,算法可能就無法適應(yīng)。

到今天為止,具身智能整個(gè)硬件,從傳感器到構(gòu)型沒有定式,關(guān)節(jié)夾爪選哪個(gè)、傳感器怎么安置,攝像頭視角的變化該怎么來定,如果不做本體,就永遠(yuǎn)摸不清楚這里面到底要怎么弄,所以一定在最開始要軟硬一體化設(shè)計(jì),讓機(jī)器人真的進(jìn)到產(chǎn)線里面。

智能相對論:但是先讓機(jī)器人在工業(yè)物流場景跑起來,不夠成熟的情況下,怎么解決客戶認(rèn)可的問題?

周而進(jìn):這其中最重要的概念是“兜底”問題。

比如說做皮帶上的分揀,拿起一件衣服分揀掉地上怎么辦?放錯(cuò)箱子了怎么辦?夾爪卡住了怎么辦?中間突然斷電了怎么辦?機(jī)器人要處理,就牽扯一套復(fù)雜的解決方案。

很多團(tuán)隊(duì)搞了各種新的算法,準(zhǔn)確率不斷提升,從50%刷到70%。但我認(rèn)為從95%刷到97%可能都沒用,只要會出錯(cuò),就必須要有“兜底”方案。

如果沒法兜底,就很難被客戶所接受。

而“兜底”方案是一個(gè)動態(tài)的過程,可能早期,機(jī)器人還“泛化”不了的,我在生產(chǎn)線裝個(gè)兜網(wǎng)來解決掉落問題,人工+機(jī)器人配合,或者機(jī)器人+遙操。但隨著機(jī)器人進(jìn)產(chǎn)線,算法適應(yīng)更多對象、場景和任務(wù),機(jī)器人會慢慢接過來實(shí)現(xiàn)泛化升級,把解決方案的其他部分吸收掉,最終獨(dú)立工作。

這也是為什么要強(qiáng)調(diào)對場景的理解、與客戶在解決方案層面進(jìn)行系統(tǒng)合作,只有這樣,才有讓機(jī)器人獲得第一階段進(jìn)入,然后逐步滾動成熟起來的機(jī)會。

智能相對論:目前下游硬件在通用+泛化的支持方面如何,是不是會成為瓶頸?

周而進(jìn):必須要澄清一個(gè)行業(yè)認(rèn)知,當(dāng)前很多具身智能的表現(xiàn)拉跨并不是因?yàn)橛布阅懿蛔?,而基本都因?yàn)槟P湍芰]有跟上。

一個(gè)淺顯的道理是,如果一個(gè)動作能夠被遙操出來,或者能夠在固定程序上跑得很驚艷,比如春晚宇樹機(jī)器人的武術(shù)和舞蹈,那就證明硬件能力本身沒有問題。

事實(shí)上,今天機(jī)器人硬件的很多性能表現(xiàn)已經(jīng)很不錯(cuò)了,一個(gè)好的搖操方案,轉(zhuǎn)核桃、翻跟斗都是家常便飯。大家都卡在模型上,模型能夠進(jìn)場景基本就意味著本體能進(jìn)場景。

當(dāng)然,散熱、功耗這些,是供應(yīng)鏈硬件必須不斷強(qiáng)化的。

智能相對論:通用+泛化正交下,模型的參數(shù)量會有什么不同之處嗎?之前原力靈機(jī)發(fā)布了DM0大模型并進(jìn)行了開源,參數(shù)只有2.4B。

周而進(jìn):在機(jī)器人領(lǐng)域,無腦堆參數(shù)量這件事非?;恼Q。我們還是要回到實(shí)質(zhì)上,到底多大的參數(shù)量能夠做到一個(gè)什么樣的能力?

對機(jī)器人來說,8B未必比4B厲害,4B可能比2B差。我們通過大量的真機(jī)的實(shí)驗(yàn)發(fā)現(xiàn),2.4B的參數(shù)量已經(jīng)足夠完成想要的功能,也便于部署和二次開發(fā)了,一臺4090、5090的機(jī)器就能跑起來。而且做了代碼優(yōu)化之后,機(jī)器人的反應(yīng)時(shí)間能控制在60毫秒的時(shí)延。

退一步說,在現(xiàn)在的數(shù)據(jù)條件下,如果現(xiàn)在有具身智能大模型說自己的參數(shù)量有30B,那我只能懷疑它用了一堆仿真數(shù)據(jù)。

今年我們的一個(gè)大目標(biāo)還是奔著通用和泛化這兩個(gè)角度去往前做。從訓(xùn)練機(jī)制上,具身智能不應(yīng)該是下載個(gè)VLM模型然后加點(diǎn)自己的數(shù)據(jù)就搞出一個(gè)機(jī)器人模型,我們要做的、我們的DM0是一個(gè)原生機(jī)器人模型,從第一天開始就在真實(shí)世界中去理解、操作物理世界,再配合我們的訓(xùn)練技巧,實(shí)現(xiàn)跨機(jī)型多任務(wù)等等學(xué)習(xí)方式。

很多模型只針對一種機(jī)型,要拿起瓶子就只會背誦幾個(gè)關(guān)節(jié)的步驟、電機(jī)該轉(zhuǎn)幾度,而DM0和后續(xù)要發(fā)布的升級版模型DM0.5,是要解決對運(yùn)動和趨勢的理解問題。

之后,我們的DM1乃至更多版本,會沿著從對象到場景,然后到任務(wù),再到機(jī)型的路徑去執(zhí)行。到DM1.X時(shí),預(yù)計(jì)分層系統(tǒng)能夠支持小時(shí)級別的任務(wù)。

智能相對論:目標(biāo)嚴(yán)苛、前路漫漫,是不是可以理解,原力靈機(jī)在具身智能賽道上,選擇了最難的那條路?

周而進(jìn):并不對,從目標(biāo)的設(shè)計(jì)來說,原力靈機(jī)的通用+泛化正交,從最底層的結(jié)構(gòu)開始從頭走了一條完全屬于自己的道路,一步步實(shí)現(xiàn)目標(biāo),看起來是比那些拿著國內(nèi)外大語言模型過來改一下就去使用要更加麻煩,十分有挑戰(zhàn)性。

但是,反過來想,你拿了別人的東西過來,天花板就被它限制住了,模型的知識量、認(rèn)知甚至它的缺陷,都擺在那了。短期內(nèi)能夠上線一些粗淺的場景應(yīng)用,長期看,一旦想要能力精進(jìn),投入的時(shí)間和成本會更大。

就像一個(gè)小朋友小時(shí)候?qū)W英語雖然痛苦,但會比長大后再學(xué)效果好很多?,F(xiàn)在業(yè)內(nèi)許多團(tuán)隊(duì)基于開源模型(如Pi或通用VLM)能快速跑通demo,這極大地降低了行業(yè)門檻。但Pi也有著缺陷,比如沒有多傳感器的觸覺數(shù)據(jù),沒有場景的構(gòu)造、任務(wù)的構(gòu)造。如果致力于打造原生具身智能,就會在多傳感器融合、底層物理規(guī)律理解上存在天然的局限性。

至于VLM模型就更不用說了,模型可能根本都沒見過關(guān)節(jié)電機(jī)這些東西,只有互聯(lián)網(wǎng)數(shù)據(jù)喂養(yǎng)下的機(jī)械動作背誦。

大模型發(fā)展的技術(shù)路線不一定是完全可以復(fù)用到具身智能上,但大模型走過的那些坑,是能夠有意去避免的。最典型的是,當(dāng)大模型足夠強(qiáng)的時(shí)候,很多個(gè)體調(diào)優(yōu)的小模型應(yīng)用最后發(fā)現(xiàn)并沒有太大意義,被通吃了。

具身智能未來的發(fā)展,通用+泛化正交,會走到類似的階段。

基礎(chǔ)打牢了,后續(xù)廣泛的場景落地會變得更快,我們是在走一條更簡單的路,這也是行業(yè)應(yīng)該要走的更簡單的路。

*本文圖片均來源于網(wǎng)絡(luò)

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
切爾西換帥重磅!阿隆索“欽點(diǎn)”熱刺王牌,羅塞尼爾面臨“終考”

切爾西換帥重磅!阿隆索“欽點(diǎn)”熱刺王牌,羅塞尼爾面臨“終考”

奶蓋熊本熊
2026-04-23 05:03:47
5月1日執(zhí)行!酒駕處罰全面升級,再敢喝酒開車,代價(jià)太大了

5月1日執(zhí)行!酒駕處罰全面升級,再敢喝酒開車,代價(jià)太大了

大魚簡科
2026-04-23 14:35:54
湖北省紀(jì)委監(jiān)委最新通報(bào)

湖北省紀(jì)委監(jiān)委最新通報(bào)

新浪財(cái)經(jīng)
2026-04-23 19:10:11
伊朗發(fā)布扣押“違規(guī)”船只視頻:武裝人員乘快艇飛速接近,套頭蒙面持槍登船;特朗普和白宮火速否認(rèn)系美國船只

伊朗發(fā)布扣押“違規(guī)”船只視頻:武裝人員乘快艇飛速接近,套頭蒙面持槍登船;特朗普和白宮火速否認(rèn)系美國船只

揚(yáng)子晚報(bào)
2026-04-23 11:18:23
知名歌手因搶不到五一高鐵票取消演唱會!

知名歌手因搶不到五一高鐵票取消演唱會!

深圳晚報(bào)
2026-04-23 19:29:44
釋永信“開光”真相大白,過程不堪入目,易中天也被牽連

釋永信“開光”真相大白,過程不堪入目,易中天也被牽連

往史過眼云煙
2026-03-24 17:05:24
非常炸裂:以色列列出全球黑名單,明確警告各國:反以,就是反猶

非常炸裂:以色列列出全球黑名單,明確警告各國:反以,就是反猶

遠(yuǎn)方風(fēng)林
2026-04-22 11:58:01
0-2落后內(nèi)訌升級!杜蘭特怒罵申京,下一場謝潑德能否救命?

0-2落后內(nèi)訌升級!杜蘭特怒罵申京,下一場謝潑德能否救命?

生活新鮮市
2026-04-23 12:25:41
老兵被拒上廁所后續(xù),拒絕網(wǎng)友捐款,訴求仍未解決,老兵疑被威脅

老兵被拒上廁所后續(xù),拒絕網(wǎng)友捐款,訴求仍未解決,老兵疑被威脅

米果說識
2026-04-23 14:40:56
老兵借廁所被拒后續(xù)!殘疾原因曝光,老兵發(fā)聲,官方建議辭退保安

老兵借廁所被拒后續(xù)!殘疾原因曝光,老兵發(fā)聲,官方建議辭退保安

離離言幾許
2026-04-21 21:41:39
水冷漏水損毀頂級RTX 5090:廠商按購買價(jià)賠償遭拒 用戶堅(jiān)決要現(xiàn)價(jià)

水冷漏水損毀頂級RTX 5090:廠商按購買價(jià)賠償遭拒 用戶堅(jiān)決要現(xiàn)價(jià)

快科技
2026-04-21 11:35:06
佛山中心正在悄悄“搬家”?這3個(gè)新中心正在強(qiáng)勢崛起!

佛山中心正在悄悄“搬家”?這3個(gè)新中心正在強(qiáng)勢崛起!

林子說事
2026-04-23 17:18:25
字節(jié)跳動發(fā)布3D生成大模型Seed3D 2.0

字節(jié)跳動發(fā)布3D生成大模型Seed3D 2.0

界面新聞
2026-04-23 12:27:54
卡戴珊比基尼海灘擁吻漢密爾頓,171cm 男友比她歷任高富帥矮一頭

卡戴珊比基尼海灘擁吻漢密爾頓,171cm 男友比她歷任高富帥矮一頭

喜歡歷史的阿繁
2026-04-23 12:13:34
生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

蜉蝣說
2026-03-17 15:58:31
日韓股市均創(chuàng)歷史新高

日韓股市均創(chuàng)歷史新高

澎湃新聞
2026-04-23 08:40:05
貝森特:多個(gè)海灣盟友及部分亞洲國家已請求建立貨幣互換安排

貝森特:多個(gè)海灣盟友及部分亞洲國家已請求建立貨幣互換安排

財(cái)聯(lián)社
2026-04-22 22:59:08
中央5臺直播乒乓球時(shí)間表:4月23日CCTV5直播國乒!附世乒賽消息

中央5臺直播乒乓球時(shí)間表:4月23日CCTV5直播國乒!附世乒賽消息

夢憶之淺
2026-04-23 12:36:09
博格巴揭秘與穆里尼奧矛盾:其實(shí)穆帥真的很有趣 矛盾根源在媒體

博格巴揭秘與穆里尼奧矛盾:其實(shí)穆帥真的很有趣 矛盾根源在媒體

毅起踢球
2026-04-23 12:16:24
記者:申花傳奇莫雷諾今早抵達(dá)上海,數(shù)百名球迷前來接機(jī)

記者:申花傳奇莫雷諾今早抵達(dá)上海,數(shù)百名球迷前來接機(jī)

懂球帝
2026-04-23 10:10:09
2026-04-23 20:51:01
智能相對論 incentive-icons
智能相對論
智能和車,邊評邊測;未來和家,且品且鑒
2507文章數(shù) 2412關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測

頭條要聞

特朗普"狂怒"稱滅掉了伊朗軍隊(duì) 美國官員:不 并沒有

頭條要聞

特朗普"狂怒"稱滅掉了伊朗軍隊(duì) 美國官員:不 并沒有

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

關(guān)于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風(fēng)云A9可不只是樣子貨

態(tài)度原創(chuàng)

時(shí)尚
數(shù)碼
手機(jī)
房產(chǎn)
藝術(shù)

無用之書|AI時(shí)代,閱讀是否還有意義?

數(shù)碼要聞

銘凡M1 Lite-125U迷你主機(jī)發(fā)售,2119元起

手機(jī)要聞

REDMI雙旗艦新品同臺發(fā)布,讓天璣9500坐實(shí)「性能魔王」稱號

房產(chǎn)要聞

三亞安居房,突然官宣!

藝術(shù)要聞

她辭掉高管,花20年自費(fèi)100萬:這本書,救了山西“正在消失的壁畫”

無障礙瀏覽 進(jìn)入關(guān)懷版