国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)話原力靈機(jī)范浩強(qiáng):評(píng)判機(jī)器人好壞,只有一個(gè)指標(biāo)

0
分享至


具身沒有統(tǒng)一路線,在山腳分開,終會(huì)在山頂匯合。

作者丨劉 欣

編輯丨馬曉寧

范浩強(qiáng)是個(gè)很幽默的人。我們問他下一個(gè)十年,具身智能要解決的問題是什么,他說可能機(jī)器人覺醒把人類滅了,就沒有下一個(gè)十年了。

這當(dāng)然是一個(gè)玩笑,探討行業(yè)的發(fā)展,難免要做一些科幻性的想象。在他看來,AI 應(yīng)該是一生的事業(yè)。畢竟他高一就拿到了國際信息奧賽金牌,高二起就是一個(gè)真正的 AI 研究員了。

原力靈機(jī)的名字很陌生,但來頭可不小,因?yàn)檫@是從曠視出來的具身智能公司。它的創(chuàng)始人便是曠視的聯(lián)合創(chuàng)始人以及最早期的幾名員工。成立不久,兩輪融資金額就已經(jīng)近10億元了。

我們對(duì)于原力靈機(jī)的好奇主要集中在幾點(diǎn):他們是想做模型還是想做本體?他們有什么樣的商業(yè)模式?作為曠視出身的新公司,他們有什么樣的優(yōu)勢(shì)?在目前的競(jìng)爭(zhēng)中應(yīng)該如何突出重圍?

作為一個(gè)在曠視就跟無數(shù)客戶打過交道的人,范浩強(qiáng)對(duì)于具身智能的理解也帶著很強(qiáng)的“曠視”風(fēng)味。

從創(chuàng)業(yè)的第1天開始,范浩強(qiáng)就真切感受到了客戶對(duì)具身智能的強(qiáng)烈需求。但令他感到遺憾的是,很多需求是現(xiàn)在滿足不了的。機(jī)器人的能力現(xiàn)在還極其有限,而生產(chǎn)線的精度需求和效率需求又高得不可思議。

以前曠視能把人臉識(shí)別做到11個(gè)9的百分?jǐn)?shù),現(xiàn)在呢,機(jī)器人一次最簡(jiǎn)單的抓取,可能成功率還不到一半。

在整個(gè)聊天中,我們對(duì)原力靈機(jī)最大的感受就是這個(gè)公司不講資本故事,不談 AI 噱頭。范浩強(qiáng)跟我們談 DFOL(原力靈機(jī)具身原生量產(chǎn)工作流),說具身智能的第一步落地,應(yīng)該從何處著手?它的原生應(yīng)用應(yīng)該從何處發(fā)現(xiàn)?實(shí)用場(chǎng)景,怎么樣從百里挑一,進(jìn)展到百里挑十,最終走到無限泛化。


范浩強(qiáng)在原力靈機(jī)技術(shù)發(fā)布日上介紹 DFOL

通用機(jī)器人當(dāng)然是我們所要尋求的終極目標(biāo),但是怎么走到通用呢?當(dāng)技術(shù)就是達(dá)不到完美的狀態(tài),那我們應(yīng)該怎么辦呢?不夠通用的具身智能會(huì)不會(huì)因?yàn)檫_(dá)不到大家的期待,而飽受質(zhì)疑,成為明日黃花呢?

范浩強(qiáng)給了一個(gè)他們的答案:

歷史上絕大部分技術(shù)的發(fā)展規(guī)律就是剛好夠用,可能哪里看著都不太合理,但就是能用,最后就會(huì)被推廣開來。

能用,即為合理。對(duì)于 general,做過工程的人都知道,期待不要放太高才好。

這篇訪談能夠告訴你,找到真實(shí)場(chǎng)景、解決真實(shí)問題的具身智能公司是怎么做的。你能讀懂一個(gè)創(chuàng)業(yè)者的困惑和努力,更能聽到他關(guān)于模型本體應(yīng)用和商業(yè)最真實(shí)的思考。以下是不改變?cè)獾恼恚?/p>

01


要做就做到 SOTA,這是對(duì)自我的定位和自信

AI 科技評(píng)論:我第一次聽說你,是有人跟我說,他剛進(jìn)曠視的時(shí)候,旁邊坐著一個(gè)天才少年,還是個(gè)高中生,把他嚇?biāo)懒耍粏栠@個(gè)人,名字叫范浩強(qiáng)。

范浩強(qiáng):對(duì),我12年就加入曠視了,是曠視六號(hào)員工。當(dāng)時(shí)唐文斌是我的信息奧賽教練,他就問我,我這有個(gè)事兒能保送,還能發(fā)工資,我問他,那是做什么的???靠譜嗎?他跟我說,做人臉識(shí)別啊。我當(dāng)時(shí)還在讀高中,啥也不知道就進(jìn)去了。


范浩強(qiáng)在曠視時(shí)的照片

AI 科技評(píng)論:你什么時(shí)候開始想做機(jī)器人的?

范浩強(qiáng):確切地說,那應(yīng)該是16年,那時(shí)候我大四,去拜訪了一個(gè)斯坦福實(shí)驗(yàn)室兩個(gè)月。那個(gè)實(shí)驗(yàn)室里面有誰呢?有蘇昊、盧策吾、王鶴、弋力、邵林。

蘇昊是大師兄,那時(shí)候帶著我們做 3D 生成。我問蘇昊,你為什么要做 3D?蘇昊就跟我說,做了 3D 生成就可以做 3D 判別,然后就可以做機(jī)器人仿真,最后咱們就可以在十年后干機(jī)器人啦。

AI 科技評(píng)論:果然到了十年之后,你們都在干機(jī)器人啦!談?wù)勗`機(jī)是怎么成立的吧?

范浩強(qiáng):我當(dāng)時(shí)就想,把 AI 放在機(jī)器人上,就是一個(gè)最大的挑戰(zhàn)故事。

但那時(shí)候缺一味關(guān)鍵的佐料,就是 AI。雖然大模型出來了,但具體怎么和機(jī)器人結(jié)合在一起?不知道。還好24年從美國出來幾個(gè)重要的工作,比如 Action Transformer、Diffusion Policy,最后還有個(gè)集大成之作就是 Pi,就一下子把路線劃清楚了,告訴大家 Transformer 這項(xiàng)技術(shù)是怎么往矩陣上用的,勾勒出一個(gè)后面的 roadmap。當(dāng)時(shí)覺得條件都成熟了,要去組建團(tuán)隊(duì)了。

我第一個(gè)想的是得找個(gè) CEO,剛好唐文斌當(dāng)時(shí)還是個(gè)“自由人”,我就找他來干這個(gè) CEO。他看到這些技術(shù)進(jìn)展,半夜2點(diǎn)給我發(fā)了條微信消息:this is once in a lifetime 的機(jī)會(huì)去做 general robotics。我回他,你怎么比我還激動(dòng)呢?

然后我們又找到了硬件合伙人周而進(jìn)、汪天才,加上唐文斌可以做客戶場(chǎng)景,我可以做 AI,就成了一個(gè)全國少有的集三方面于一體的團(tuán)隊(duì)了。

AI 科技評(píng)論:公司正式成立那是什么時(shí)間?

范浩強(qiáng):差不多25年3月份,第一輪融資搞定,后面公司主體成立。

AI 科技評(píng)論:進(jìn)入具身智能行業(yè)這一年,你的感覺如何?

范浩強(qiáng):我感覺后面事態(tài)的發(fā)展速度完全不受控了,因?yàn)檎麄€(gè)行業(yè)發(fā)展得一日千里。我們以前寫 paper 經(jīng)常說 traditional method 是什么,現(xiàn)在具身兩個(gè)月前的就叫經(jīng)典方法了,變化得特別快。

25年,公司剛攢出來的時(shí)候,其實(shí)有點(diǎn)兩眼一抹黑,不是不知道做什么,而是想法太多了,有想搞 humanoid 的,分離式采集的概念也很火,觸覺也很火,太多的可能性和概念飄在眼前了。

我們也是經(jīng)過25年這完整的一年才看清,模型還是這里的主軸。模型的水平?jīng)Q定了哪些場(chǎng)景能用,哪些場(chǎng)景能用又決定了最終硬件該長(zhǎng)什么樣,再反過來決定這個(gè)數(shù)據(jù)該怎么做。模型的能力本身是整個(gè)事情發(fā)展的自變量。把這個(gè)事情看清楚之后,那核心是把模型做好,用最好的算法、最優(yōu)的數(shù)據(jù)、頂尖的工程來實(shí)現(xiàn)。那剩下公司該做什么?自然就一路展開了,這是我在創(chuàng)業(yè)過程中逐漸找到主軸和主線的過程。

AI 科技評(píng)論:做最好的模型,本身就非常難。

范浩強(qiáng):這個(gè)的確是,但我們團(tuán)隊(duì)里很多人都有種傲氣,當(dāng)年搞視覺的時(shí)候就沒當(dāng)過第二,大家很難想象一個(gè)事努力了一段時(shí)間,把該搞的搞清楚之后,最終測(cè)出來的分?jǐn)?shù)或者效果不是 SOTA?!我們是覺得研發(fā)有科學(xué)性在里面的,搞清楚了就該有好成績(jī),這也是一種對(duì)自我的定位和自信吧。

AI 科技評(píng)論:模型是我們現(xiàn)在手上最大的牌?

范浩強(qiáng):我們有兩個(gè)開源的東西。一個(gè)是訓(xùn)練的 codebase,叫做 Dexbotic,內(nèi)部俗稱 DB。第二個(gè)是我們搭建了一個(gè)測(cè)評(píng)框架,叫 RoboChallenge,內(nèi)部叫 RC。

這些東西在技術(shù)上都是不好做的,都很硬。并且做完之后還開源,展示每行 code,也算是展示我們整個(gè)團(tuán)隊(duì)的戰(zhàn)斗力和技術(shù)水平。不少公司都做了 Codebase 開源,但很多都是 “README 式開源”,就一個(gè) README 文件,里面是空的。

開源后就引發(fā)了一系列的熱度,RoboChallenge 現(xiàn)在有五六家都申請(qǐng)做測(cè)試了。截止到目前,我們手里有兩張牌,一張是基建能力,第二張牌是模型,這是整個(gè)團(tuán)隊(duì)的實(shí)力展示,也是跟大家同步我們想要去努力的方向。


Hugging Face 聯(lián)合創(chuàng)始人 Thomas Wolf(左 3)與 Dexmal 原力靈機(jī)聯(lián)合創(chuàng)始人范浩強(qiáng)(右 2)在 IROS 2025 現(xiàn)場(chǎng)交流 RoboChallenge

AI 科技評(píng)論:模型這方面強(qiáng)手如云,你不擔(dān)心嗎?

范浩強(qiáng):最強(qiáng)的人還在搞 LLM 呢。

02


真實(shí)場(chǎng)景的真實(shí)問題,可能是最難的挑戰(zhàn)

AI 科技評(píng)論:除了模型,我們還做本體嗎?

范浩強(qiáng):對(duì),我覺得這個(gè)還是很清晰的,機(jī)器本體我們也一定得自己做。

AI 科技評(píng)論:這跟我們的商業(yè)模式相關(guān)?

范浩強(qiáng):我們之前賣軟件都賣了十幾年了,很清楚一件事,那就是要順著市場(chǎng)對(duì)公司的期望去做,絕大部分的用戶或者客戶還是想要個(gè) total solution,在中國也不太會(huì)有一個(gè)大廠自己通過收購做垂直整合的這種商業(yè)習(xí)慣。

所以我們覺得最終還是要端到端的給客戶創(chuàng)造價(jià)值,基本上每一環(huán)自己能控制得住,那么整個(gè)東西的品質(zhì)和可服務(wù)性才是最好的。雖然可能之前很多人都沒碰過電機(jī)這些硬件的東西,那也得從頭去做,爭(zhēng)取跟上這個(gè)課題的要求吧。

AI 科技評(píng)論:又做模型又做硬件,聽起來難度更高。

范浩強(qiáng):我之前就說過我們很多人都在手搓機(jī)器人,現(xiàn)在我們公司里還躺著很多手搓機(jī)器人呢,大家都認(rèn)為讓搞算法的同學(xué)自己先搭一遍機(jī)器人,才知道這里面將來會(huì)出現(xiàn)多少問題,這樣后面做算法的時(shí)候才能在腦子里想著這些問題做。

AI 科技評(píng)論:這不是折磨算法工程師嗎?

范浩強(qiáng):干得好的話,就特別開心。

AI 科技評(píng)論:你不會(huì)也手搓了一個(gè)吧?

范浩強(qiáng):全公司應(yīng)該就我手搓的最多,最早我自己在家搓了一個(gè)在家疊被子的機(jī)器人,大概是2000塊還是3000塊的成本,全是淘寶買的零件手搓出來的。

不是機(jī)械臂,就一根棍,能提升,有個(gè)夾子,接下來都得靠你的智慧,用一個(gè)小夾子怎么就擺來擺去把被子給疊起來了?里面全是設(shè)計(jì)。

AI 科技評(píng)論:手搓機(jī)器人讓你對(duì)做算法有什么新的感悟?

范浩強(qiáng):我當(dāng)時(shí)就感覺到,硬件很多都關(guān)乎于取舍,20萬也能造,2千塊也能造,最終決定東西好不好用還是取決于里面的算法,就是動(dòng)的路線,理解到這一點(diǎn)就覺得還有機(jī)會(huì),只要把算法做好了,一切美好都能到眼前。

AI 科技評(píng)論:在設(shè)計(jì)這一整個(gè)從軟件到硬件的閉環(huán)的時(shí)候,當(dāng)時(shí)想的是要做哪些場(chǎng)景呢?

范浩強(qiáng):當(dāng)時(shí)想的還挺簡(jiǎn)單的,因?yàn)闀缫暜?dāng)年有500多個(gè)優(yōu)質(zhì)客戶,好多公司都有類似技術(shù)改造這種偏前瞻的部門,每年都會(huì)有人來問我們,新的科技你們公司有沒有?以前人臉識(shí)別就是 AI 了,后面大模型算是 AI,現(xiàn)在機(jī)器人才是 AI。

所以我們從第一天開始就感受到了客戶強(qiáng)烈的訴求,但比較遺憾的是,我們現(xiàn)在滿足不了。哪怕是最簡(jiǎn)單的分揀,一個(gè)倉庫里有幾萬個(gè) SKU,直到今天那些算法都搞不定??蛻裘磕甓紩?huì)讓我們匯報(bào)一次現(xiàn)在 AI 的進(jìn)展怎么樣啦,能不能起個(gè)項(xiàng)目把這東西上線。所以我們對(duì)應(yīng)用場(chǎng)景沒那么擔(dān)心,AI 化改造我們已經(jīng)做了很久,很清楚這個(gè)事情該怎么做。

AI 科技評(píng)論:那接下來最大的挑戰(zhàn)是什么?

范浩強(qiáng):真實(shí)場(chǎng)景的真實(shí)問題,可能是最難的挑戰(zhàn)。之前 AI 1.0 整個(gè)過程中,我們看得很清楚,所有公司在有真實(shí)收入之前,都在講自己有多好,一旦產(chǎn)品真賣出去了,就不是自己講了,而是客戶講你這個(gè)東西到底能不能用。

這是非??陀^、毫無造假可能的指標(biāo),也是讓整個(gè)行業(yè)的氣氛從浮躁慢慢沉淀下來的關(guān)鍵。

現(xiàn)在都夸自己的模型多有 insight,但說實(shí)話這是不可證偽的,測(cè)評(píng)的指標(biāo)太多了,總能挑個(gè)好的,所以真實(shí)客戶的真實(shí)使用是唯一的指標(biāo)。有一回交流的時(shí)候有人說機(jī)器人該測(cè)什么指標(biāo)?回答成功率、穩(wěn)定性一大堆,但我認(rèn)為一個(gè)指標(biāo)最關(guān)鍵,一臺(tái)機(jī)器人多久能自己把錢掙回來,就這一個(gè)指標(biāo),其它都don' t care。

AI 科技評(píng)論:那現(xiàn)在能完成這個(gè)指標(biāo)嗎?

范浩強(qiáng):我們一邊在做模型,一邊陸陸續(xù)續(xù)做一些應(yīng)用,我就發(fā)現(xiàn)了一個(gè)神奇的現(xiàn)象:最難測(cè)試的任務(wù),不是說現(xiàn)在的 table30(30個(gè)標(biāo)準(zhǔn)化桌面操作任務(wù)的數(shù)據(jù)集)里 0% 的任務(wù),而是——我們專門有個(gè)小 collection,叫做客戶場(chǎng)景里面的最簡(jiǎn)單問題集,從每個(gè)客戶那兒挑了個(gè)最簡(jiǎn)單的問題,這里面最簡(jiǎn)單的問題比我們測(cè)的最難的問題還要難。

之前計(jì)算機(jī)行業(yè)經(jīng)常有句玩笑話叫:最難的測(cè)試叫正常用戶正常使用,你做再多回歸測(cè)試,一到真實(shí)場(chǎng)景完全頂不住。機(jī)器人也是一樣的,基本上每一個(gè)有價(jià)值的任務(wù),整個(gè)環(huán)節(jié)中可能剛好有一小個(gè)環(huán)節(jié),無論是對(duì)機(jī)器人的精度還是智力,真考驗(yàn)到我們了。

所以下一步的突破一定要去挑戰(zhàn)更真實(shí)、更硬核的事情,大家都有點(diǎn)客戶和落地之后,整個(gè)行業(yè)的格局才會(huì)更清晰。

AI 科技評(píng)論:你現(xiàn)在遇到的客戶場(chǎng)景里面的最簡(jiǎn)單問題是什么樣的?

范浩強(qiáng):有幾個(gè)收集的 sample,其中有一個(gè)讓我印象很深,可以理解為機(jī)器人要把兩個(gè)扣在一起的東西翻個(gè)面。

AI 科技評(píng)論:為什么會(huì)有這種需求?

范浩強(qiáng):人家的工藝?yán)锞鸵筮@個(gè),這就叫真實(shí)問題,you don' t ask why。人家干了10年,說必須要這么翻,你得信他,OK?

AI 科技評(píng)論:OK。

范浩強(qiáng):我們就發(fā)現(xiàn)機(jī)器人做這事就爆難無比,根本夾不起來。所以最后我們拍 Demo 的時(shí)候,其實(shí)還專門設(shè)計(jì)了一整套機(jī)器人的動(dòng)作流程:先夾到這里,再從這里鏟進(jìn)去,再搬到另一個(gè)位置,然后再進(jìn)行下一步。機(jī)械上這套動(dòng)作是能實(shí)現(xiàn)的,但問題在于動(dòng)作太復(fù)雜,模型根本學(xué)不出來。

所以這就是真實(shí)問題,都是一環(huán)扣一環(huán)的,真要去落地,就會(huì)發(fā)現(xiàn)這是塊硬骨頭,你啃了它一口,發(fā)現(xiàn)里面怎么還一層?只有最后真的吃到里面的芯了,并且給它吃下去了,可能才知道原來我為了把這東西做落地,要解決這么多問題才行。在最終落地之前,你只能不斷發(fā)現(xiàn),原來這還有個(gè)問題是之前沒意識(shí)到的。

AI 科技評(píng)論:那豈不是要干上十年才能落地?

范浩強(qiáng):不是說難度高就代表它就解決不了,難就得動(dòng)腦子,不光模型是基礎(chǔ),產(chǎn)品設(shè)計(jì)、業(yè)務(wù)和客戶的配合,都得把巧思放進(jìn)去,最后這東西才能做好。

我覺得很好的是現(xiàn)在陸陸續(xù)續(xù)有同行逐漸出來真的落地項(xiàng)目了,很可能客戶給了100個(gè)需求,真能找到一個(gè)需求恰好天時(shí)地利人和,剛好所有的問題,都能有個(gè) solution 繞過去,然后把機(jī)器人布進(jìn)去用了。

這只是第一步。原本只有百里挑一的優(yōu)質(zhì)任務(wù)才能完成,未來模型能更強(qiáng),能擴(kuò)展到百里挑十,最終實(shí)現(xiàn)來一個(gè)任務(wù)就能完成一個(gè)任務(wù)的目標(biāo)。

AI 科技評(píng)論:最近還看到一些機(jī)器人被工廠趕出來的消息,你怎么看這些新聞?

范浩強(qiáng):很正常,做 POC 到上業(yè)務(wù)之間隔著一鴻溝,這一點(diǎn)我們?cè)谧龇菢?biāo)視覺智能化的時(shí)候就有非常深刻的體會(huì)了,客戶通常會(huì)歡迎我們來做 POC,但只要你這東西做錯(cuò)了,影響到了他的主線業(yè)務(wù),那他在上線之前要把你折磨死。

AI 科技評(píng)論:你們很有這種被深深折磨過的經(jīng)驗(yàn)。

范浩強(qiáng):最終都會(huì)用來驅(qū)動(dòng)定義技術(shù),比如當(dāng)年做的 face recognition,可能行外人不知道,就最終的誤識(shí)率指標(biāo),做到了11個(gè)9,就是99點(diǎn)后面再跟9個(gè)9。所以你平常用這些人臉識(shí)別,幾乎沒感覺他錯(cuò)過,這就是被逼出來的算法。

機(jī)器人如果24小時(shí)連著干一年,如果論多少幀算錯(cuò),那可多了,因?yàn)檫@是一個(gè)實(shí)時(shí)的視頻處理過程。如果在生產(chǎn)環(huán)境下一秒鐘弄錯(cuò)了,造成的災(zāi)難是無法挽回的。所以機(jī)器人算法也一定會(huì)經(jīng)歷一個(gè)過程才能真正落地。

具身就相當(dāng)于另一種自動(dòng)駕駛,自動(dòng)駕駛需要去解決的感知過程中的決策也沒什么秘密,就搞1億公里的數(shù)據(jù),然后去做最扎實(shí)的模型訓(xùn)練,最后模型就會(huì)給可靠性的回報(bào)。機(jī)器人也一樣,只不過跟車比,機(jī)器本體要小一點(diǎn),做的任務(wù)會(huì)更多一點(diǎn)。

AI 科技評(píng)論:具身的任務(wù)可能是無窮多的,比自動(dòng)駕駛難多了吧?

范浩強(qiáng):我個(gè)人的觀點(diǎn),我覺得這波具身革命也不會(huì)解決掉機(jī)器人所有的問題,因?yàn)?0年前大家吹 AI 的時(shí)候已經(jīng)把所有的好故事講過一遍了,最后具體的落地方向,其實(shí)也就那幾個(gè)。

現(xiàn)在 LLM 的落地方向也是一樣,coding 算一個(gè),聊天算一個(gè),其實(shí)也是有限集。所以我們覺得,AI 一定是個(gè)更長(zhǎng)期的 lifetime 的工作。這波浪潮里面我們可以把機(jī)器人 push 到比原來的效果好一大截,可能這就是這十年的版本答案了。

AI 科技評(píng)論:下一個(gè)十年呢?

范浩強(qiáng):也可能沒下個(gè)十年,是吧?機(jī)器人覺醒了把人類給滅了,也不用考慮了。

AI 科技評(píng)論:希望不要面臨這樣的情況。

范浩強(qiáng):我覺得最后技術(shù)一定會(huì)發(fā)展到一個(gè)雖然不完美,但剛剛好有用的狀態(tài)。歷史上絕大部分技術(shù)的發(fā)展規(guī)律就是剛好夠用,可能哪里看著都不太合理,但就是能用,最后就會(huì)被推廣開來。

03


根據(jù)機(jī)器人的屬性,去尋找合適的應(yīng)用場(chǎng)景

AI 科技評(píng)論:我看到原力靈機(jī)最近在做的DFOL,是世界上首個(gè)具身智能應(yīng)用量產(chǎn)工作流。能解釋一下具身智能應(yīng)用是什么意思嗎?

范浩強(qiáng):比如像工業(yè)六軸它也是個(gè)應(yīng)用,但你肯定不想叫它具身,對(duì)吧?

AI 科技評(píng)論:只是一種自動(dòng)化硬件設(shè)備。

范浩強(qiáng):對(duì),我覺得具身智能應(yīng)用其實(shí)是一整套的體系,比如現(xiàn)在大家做的具身硬件,一般都會(huì)做成個(gè)準(zhǔn)人形的樣子,它有一定的通用性。同時(shí),你會(huì)期望它的動(dòng)作會(huì)是比較靈巧的、比較復(fù)雜的,而不是像 XYZ 一樣,定點(diǎn)拿、定點(diǎn)放。

具身硬件,搭配比較好的傳感器,搭配一個(gè)比較大的模型,就形成了一個(gè)跟原來的工業(yè)自動(dòng)化很不一樣的一個(gè)體系。大家建立這個(gè)體系的初衷是覺得這東西最終能完全通用,但現(xiàn)在走在通了一半的路上,還沒到最完美的狀態(tài)的情況下,它擅長(zhǎng)去干什么?

這個(gè)時(shí)候我覺得就要找出具身原生應(yīng)用,比如說為什么 LLM 去寫 code的?

AI 科技評(píng)論:因?yàn)?/strong>LLM還挺適合訓(xùn)練它的coding能力的。

范浩強(qiáng):所以你可以理解為 code 是個(gè) LLM 原生應(yīng)用。具身機(jī)器人也是一樣的,不是隨便丟個(gè)什么問題它都能解決,或者它都能擅長(zhǎng),也得根據(jù)的屬性去找,什么樣的應(yīng)用場(chǎng)景里是適合干的。

AI 科技評(píng)論:那會(huì)不會(huì)每一個(gè)模型的原生應(yīng)用不一樣?

范浩強(qiáng):有可能,現(xiàn)在大模型也在講,這家適合做 agent,那家適合 code 的,大家存在口碑上的差距。但現(xiàn)在具身模型還沒分化到這么細(xì),所以我們就是有更多的 contrast,比如原來我做的視覺引導(dǎo)的機(jī)械臂,現(xiàn)在我想隨著 VLA 這個(gè)具身體系去做(升級(jí))。那首先就得講清楚,VLA 比之前的方法好在哪,憑什么用新方法。

好就好在柔性輸入上。原來做的一個(gè)零件分解的工件,就必須嚴(yán)格長(zhǎng)成這樣,只要變一點(diǎn)點(diǎn),一切就推倒重新做一遍。現(xiàn)在 VLA 有泛化性,哪怕分解的東西從可口可樂換成百事可樂了,模型泛化了,就不需要再重新布置一次了,這就是客戶想要的特性。

另外,工廠原來搭一套快速換線的非標(biāo)機(jī)臺(tái),可能從開始接單到最后上線需要5個(gè)月。現(xiàn)在的客戶都想能不能5天之后開始生產(chǎn)交付?肯定是不可能的呀。這些任務(wù)就是給具身準(zhǔn)備的,換成其它方案都會(huì)遇到很多致命問題。

具身雖然也會(huì)帶來很多問題,比如使用具身工業(yè)臂的時(shí)候外面都得圍兩米的圍欄不許人員進(jìn)入,但只要具身智能解決了以前完全沒有思路的問題,行業(yè)還是會(huì)去解決具身帶來的問題。所以具身原生應(yīng)用就是把具身的價(jià)值給發(fā)揮出來的應(yīng)用。

AI 科技評(píng)論:我們現(xiàn)在是處于正在找的原生應(yīng)用的這個(gè)階段,還是說已經(jīng)找到了?

范浩強(qiáng):我們現(xiàn)在的確有些客戶 case 了,但是這些 case 我們不想到處講,怕講完之后友商來了。因?yàn)檫@個(gè)東西是真掙錢的家伙,就不開源了(笑)。

AI 科技評(píng)論:你尋找DFOL的這個(gè)過程中,最困難的是什么呀?

范浩強(qiáng):我覺得第一大難點(diǎn)真的是找場(chǎng)景、找客戶

AI 科技評(píng)論:你自己去跑的客戶嗎?

范浩強(qiáng):我和文斌一起的,我們倆之前就一起跑過很多客戶,前段時(shí)間也密集地去跑了各種工廠,跑完之后回來想,到底這個(gè)機(jī)會(huì)在哪里。

另外,我覺得得真去理解這些模型它擅長(zhǎng)什么有些你以為非常難的動(dòng)作,其實(shí)模型一下就學(xué)會(huì)了。有些你覺得非常簡(jiǎn)單的動(dòng)作,訓(xùn)半天就是搞不出來,到最后其實(shí)是人學(xué)會(huì)了,所以模型的動(dòng)作設(shè)計(jì)非常重要

AI 科技評(píng)論:講講你們的動(dòng)作設(shè)計(jì)的case。

范浩強(qiáng):比如讓機(jī)器人去疊衣服,衣服從上面捏就不如從側(cè)邊捏成功率高。要把這些東西都給搞明白,我覺得需要一批專業(yè)人才,那些很有天賦的采集員,他們可能都是未來的種子。

AI 科技評(píng)論:他們就是把人類動(dòng)作翻譯成機(jī)器人動(dòng)作的翻譯官。

范浩強(qiáng):是的,他要把自己帶入到機(jī)器人視角去想什么樣的動(dòng)作是好做好學(xué)的,他不能把自己再當(dāng)成人了,他得把自己當(dāng)成機(jī)器人去思考和理解這個(gè)問題。最終還是得有一批人專注在 DFOL 領(lǐng)域。

好多行業(yè)里有個(gè)概念叫 FAE,field application engineering 現(xiàn)場(chǎng)應(yīng)用工程。說實(shí)話大多數(shù)的定制版軟件全是靠 FAE 撐起來的。

在具身初級(jí)階段的時(shí)候,DFOL 是非常重要的一環(huán),整個(gè)系統(tǒng)就得為它設(shè)計(jì)。所以去畫框圖的時(shí)候,不是說像別人一樣,畫個(gè)簡(jiǎn)單的大腦指揮,小腦指揮,機(jī)器人就干了,而是要畫成帶反饋的環(huán)路。最后任務(wù)執(zhí)行沒成功的時(shí)候,去服務(wù)的機(jī)器人的反饋數(shù)據(jù)也得傳回來,這樣機(jī)器人才能達(dá)到客戶最終的要求。

AI 科技評(píng)論:所以你這個(gè)數(shù)據(jù)是他們當(dāng)場(chǎng)就是 action 之后,然后反饋回來,形成一個(gè)閉環(huán)。

范浩強(qiáng):這也是 Pi 0.6 工作里面提到的一個(gè)核心算法,叫 RECAP,現(xiàn)在還有很多別的叫法,比如叫 DAG,像上海智元又叫 SOP。

其實(shí)原理都是一樣的,比如機(jī)器人快做錯(cuò)了,人趕緊給矯正一下,然后把矯正的信號(hào)給記錄下來,讓網(wǎng)絡(luò)再去學(xué)習(xí)它,它很聰明的,基本上掰它幾回,就不往那去了,就是我說的神經(jīng)網(wǎng)絡(luò)令人感動(dòng)的地方,它還挺聽話的。

AI 科技評(píng)論:那就是這種數(shù)據(jù)回來之后,我們還要重新去 post train 一下這個(gè)模型。

范浩強(qiáng):當(dāng)然了,相當(dāng)于在產(chǎn)能爬坡的這個(gè)階段里,其實(shí)是兩個(gè)并行的,這邊一直在采,那邊也一直在訓(xùn)。直到我監(jiān)測(cè)的時(shí)候發(fā)現(xiàn),平均無干預(yù)時(shí)間已經(jīng)到達(dá)一個(gè)指標(biāo)了。那我就把更新斷掉,后面它就變成被動(dòng)收集模式了,模型就不動(dòng)了。但是如果它今天出 badcase,數(shù)據(jù)依然還會(huì)再傳回來,給以后的模型去做參考。

AI 科技評(píng)論:那就是現(xiàn)在我們有出貨一些本體機(jī)器了?

范浩強(qiáng):我們公司25年3月份成立,有些項(xiàng)目款的產(chǎn)品,現(xiàn)在那些客戶的試點(diǎn)里面就有在用,最終說的主線硬件,時(shí)間上趕一趕,26年能推出一個(gè)給客戶用的、比較統(tǒng)一的硬件產(chǎn)品。

AI 科技評(píng)論:既然我們要針對(duì)服務(wù)具體的工廠客戶了,還有必要去做一個(gè)統(tǒng)一的硬件產(chǎn)品嗎?

范浩強(qiáng):像夾板或者是末端的東西,可能這個(gè)客戶需要硬的,那個(gè)客戶需要軟的。但是機(jī)器人整體的 platform 還是得盡快穩(wěn)定下來為好,便于數(shù)據(jù)積累和模型學(xué)習(xí)。所以我們公司戰(zhàn)略上肯定還是期望,能盡快收斂到我們的主力機(jī)型上。

AI 科技評(píng)論:那以后會(huì)不會(huì)去做一些面向更C端的機(jī)器人?或者說更通用化的?

范浩強(qiáng):我們?cè)妇袄锸窍胱龅?,只不過感覺這事兒更得等一等了。

AI 科技評(píng)論:那會(huì)單去給某些本體公司提供大腦這樣的事情嗎?

范浩強(qiáng):目前暫時(shí)不會(huì),那個(gè)生態(tài)鏈上已經(jīng)很擁擠了,這也不是我們擅長(zhǎng)的東西。

AI 科技評(píng)論:那從你的角度上來看,原力靈機(jī)在整個(gè)行業(yè)中的生態(tài)位是什么呀?

范浩強(qiáng):我希望它是技術(shù)的引領(lǐng)者、應(yīng)用的先行者。

04


在山腳分開,在山頂匯合

AI 科技評(píng)論:模型和硬件之間的關(guān)系是什么樣的?

范浩強(qiáng):硬件其實(shí)本來也是個(gè)科學(xué),里面也沒有魔法。比如可靠性、結(jié)構(gòu)、鋼度這些問題,大家其實(shí)都有對(duì)應(yīng)的方法論。只要設(shè)計(jì)的時(shí)候把這些問題都考慮好,都驗(yàn)證透了,那最后的產(chǎn)品一定也是好的。

現(xiàn)在的硬件難點(diǎn),我覺得和模型一樣,locomotion 大家基本上都有解決方法了,但是機(jī)器人運(yùn)動(dòng)中,manipulation 在硬件上的卡點(diǎn)十分突出。

我可以舉個(gè)很細(xì)節(jié)的例子,比如手腕,人的手腕其實(shí)伸進(jìn)桌斗里很容易,機(jī)器人伸不進(jìn)去。有很多客戶讓我們做這個(gè) case,發(fā)現(xiàn)死在了第一環(huán),根本就伸不進(jìn)去,你都沒有資格去講這個(gè)問題,后面還能說什么?

所以我們覺得在硬件方面,也都得從應(yīng)用出發(fā),才能到落地的狀態(tài)。

我們有一個(gè) slogan 叫模型決定場(chǎng)景,場(chǎng)景定義硬件。這代模型科技范圍內(nèi),能做的事情清楚了,那后面各種實(shí)現(xiàn)的方法,也就綱舉目張的出來了。

AI 科技評(píng)論:你們基模訓(xùn)練得算是快的嗎?

范浩強(qiáng):真的拿顯卡去跑,可能就幾周的時(shí)間,但是要先把跑什么、怎么跑這些事情全部搞清楚,做好前期驗(yàn)證和數(shù)據(jù)準(zhǔn)備,這就要花費(fèi)大量的時(shí)間去迭代和建設(shè)。

AI 科技評(píng)論:要跑什么?怎么去跑?

范浩強(qiáng):要跑比如 base model 的訓(xùn)練參數(shù)、數(shù)據(jù)分布,這些怎么做才能合理?這些才是真正決定了這個(gè)模型的最終能力。我們往里面加了幾千小時(shí)自采數(shù)據(jù),這些數(shù)據(jù)都是一小時(shí)前采出來的,或者叫一分鐘、一分鐘采上來的。

AI 科技評(píng)論:你們的數(shù)據(jù)采集做得很扎實(shí)。

范浩強(qiáng):這倒是,不過還好,搞人臉的時(shí)候我們已經(jīng)采了10年數(shù)據(jù)了,有些采集員他們就非常有技術(shù)信仰。最激進(jìn)的采集員還會(huì)主動(dòng)過來問,我采的數(shù)據(jù)用到模型上效果咋樣?他自己還會(huì)琢磨下一批數(shù)據(jù)該怎么采集更好。


聯(lián)合開發(fā)的首款數(shù)據(jù)采集機(jī)器人 DOS-W1 量產(chǎn)出貨合影,范浩強(qiáng)在現(xiàn)場(chǎng)。

AI 科技評(píng)論:他都已經(jīng)從職業(yè)變成專業(yè)了是吧?

范浩強(qiáng):是的,非常神奇,我覺得也算是這個(gè)工作中的樂子吧。我們公司有個(gè)參觀景點(diǎn),里面有塊大看板,上面有個(gè)功勛榜,列著誰為我們的整個(gè)數(shù)據(jù)集里貢獻(xiàn)了最多時(shí)長(zhǎng)的數(shù)據(jù),后世一定要銘記這些當(dāng)年的功臣。

AI 科技評(píng)論:那他們是硅基生命的大功臣。

范浩強(qiáng):采集員也要做到人機(jī)合一啊。因?yàn)槲覀兡莻€(gè)任務(wù)很難,零點(diǎn)幾毫米的對(duì)準(zhǔn)精度,要苦練兩天才能練出來。

AI 科技評(píng)論:那下一代的具身模型會(huì)跟這一代有什么區(qū)別?會(huì)朝哪些方向發(fā)展?

范浩強(qiáng):我覺得首先模型一般來說有四大指標(biāo),泛化性、智能性、靈巧性,還有效率。這一代我們更多關(guān)注它的靈巧性和一定的泛化性,下一代這些指標(biāo)我覺得得數(shù)量級(jí)的增長(zhǎng)才行。

現(xiàn)在很多任務(wù)可能也就做個(gè)百分之八九十成功率,但是未來少不得進(jìn)入客戶場(chǎng)景,所以下一代簡(jiǎn)單任務(wù)必須沖著99、 99.9的成功率去了。另外在動(dòng)作的長(zhǎng)度上,現(xiàn)在大部分自己測(cè)的任務(wù),可能10秒內(nèi)干完一拿一放的任務(wù),后面要做分鐘級(jí)甚至小時(shí)級(jí)的長(zhǎng)程任務(wù)。

AI 科技評(píng)論:現(xiàn)在具身模型訓(xùn)練路徑也很多,有搞仿真的,有搞VLA的,有搞世界模型的,這是一個(gè)好事嗎?

范浩強(qiáng):每個(gè)人堅(jiān)持自己的路挺好的,大家技術(shù)路線上太同質(zhì)化,那就浪費(fèi)這個(gè)試錯(cuò)的機(jī)會(huì)了。我們大概率還是一個(gè)預(yù)訓(xùn)練加真機(jī)的技術(shù)組合。大家最好路子不太一樣,這樣也能相互看看對(duì)方到底干得咋樣,能有個(gè)參考。如果大家都一模一樣,那最后比啥呢?

AI 科技評(píng)論:最終不會(huì)都收斂到一個(gè)路線嗎?

范浩強(qiáng):應(yīng)該不會(huì),應(yīng)該是在山腳分開,在山頂匯合。比如做仿真的人天天在搞 3D 資產(chǎn),做真機(jī)數(shù)采的人天天在研究怎么增廣,其實(shí)最后發(fā)現(xiàn)它是一樣的。做實(shí)的人天天想怎么往虛了搞,做虛的人天天想怎么加實(shí)的東西,因?yàn)榧夹g(shù)問題是一樣的,無論你的出發(fā)點(diǎn)是什么,手段是什么,其實(shí)最終在大的格局上一定能找到對(duì)應(yīng)物的。

所以我真心覺得這些技術(shù)路線的分歧本身不本質(zhì),區(qū)別完全取決于你在實(shí)現(xiàn)過程中解沒解決那些問題,你解決了的話,那就一定能做好。這種我們叫還原論思想,其實(shí)挺曠視風(fēng)格的,比如當(dāng)時(shí)張祥雨有幾篇很重要的文章,有一篇是 ConvNeXt,他就想說別看其他人天天用 Transfomer 刷 Vision,我用卷積照樣能刷。

AI 科技評(píng)論:后來大家不還是被統(tǒng)一到Transformer?

范浩強(qiáng):現(xiàn)在 Transformer 已經(jīng)被改的面目全非了,大家說的 Dswin(滑動(dòng)注意力窗口)結(jié)構(gòu),你說那東西和卷積有區(qū)別嗎?我覺得沒區(qū)別。搞 Transformer 的人最后搞回來了卷積,搞卷積的人最后搞了個(gè) Transformer,其實(shí)殊途同歸。

不喜歡做這種概念性上的戰(zhàn)隊(duì)或者對(duì)立,我們相信這世間的真相只有一個(gè),但方法有很多。


未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陳永貴副手郭鳳蓮的現(xiàn)狀:兒子都是億萬富翁,大兒子掏3000萬修廟

陳永貴副手郭鳳蓮的現(xiàn)狀:兒子都是億萬富翁,大兒子掏3000萬修廟

兵鑒史
2026-03-07 02:19:39
一堆人不知道!iPhone內(nèi)置防暈車神器:網(wǎng)友實(shí)測(cè)超強(qiáng)大

一堆人不知道!iPhone內(nèi)置防暈車神器:網(wǎng)友實(shí)測(cè)超強(qiáng)大

快科技
2026-03-08 18:15:04
中國游泳隊(duì)重制榮譽(yù)墻:五朵金花上榜惹爭(zhēng)議,多位世界冠軍被撤下

中國游泳隊(duì)重制榮譽(yù)墻:五朵金花上榜惹爭(zhēng)議,多位世界冠軍被撤下

籃球看比賽
2026-03-11 11:39:16
“中國警告全球航運(yùn)巨頭,表達(dá)嚴(yán)重關(guān)切”

“中國警告全球航運(yùn)巨頭,表達(dá)嚴(yán)重關(guān)切”

觀察者網(wǎng)
2026-03-11 13:39:04
自曝患產(chǎn)后焦慮3月后,何穗再談當(dāng)媽媽的心酸,擔(dān)心的事恐要發(fā)生

自曝患產(chǎn)后焦慮3月后,何穗再談當(dāng)媽媽的心酸,擔(dān)心的事恐要發(fā)生

一娛三分地
2026-03-11 13:08:46
油價(jià)剛漲超5.6毛/升后,新周期又漲近0.9元/升,下次3月23日調(diào)整

油價(jià)剛漲超5.6毛/升后,新周期又漲近0.9元/升,下次3月23日調(diào)整

豬友巴巴
2026-03-11 14:40:04
1億黃金運(yùn)到美國,委內(nèi)瑞拉高層開始吃香喝辣,沒人管馬杜羅死活

1億黃金運(yùn)到美國,委內(nèi)瑞拉高層開始吃香喝辣,沒人管馬杜羅死活

老羴學(xué)科普
2026-03-11 13:50:31
梁山上唯一沒有朋友的好漢:無人與他玩,就算生病到死都沒人問津

梁山上唯一沒有朋友的好漢:無人與他玩,就算生病到死都沒人問津

銘記歷史呀
2026-03-08 14:05:52
小楊生煎北京首店將開業(yè),網(wǎng)友曬圍擋照片!就在合生匯…

小楊生煎北京首店將開業(yè),網(wǎng)友曬圍擋照片!就在合生匯…

北京商報(bào)
2026-03-10 14:15:26
她是體壇冠軍中的“敗類”,為撈錢共侍二夫,坑了44億逃到美國

她是體壇冠軍中的“敗類”,為撈錢共侍二夫,坑了44億逃到美國

削桐作琴
2026-03-02 15:10:50
拒逆轉(zhuǎn)!文班39+11平紀(jì)錄,塔圖姆24+5??怂贡l(fā),布朗暴怒驅(qū)逐

拒逆轉(zhuǎn)!文班39+11平紀(jì)錄,塔圖姆24+5??怂贡l(fā),布朗暴怒驅(qū)逐

魚崖大話籃球
2026-03-11 10:50:22
劉強(qiáng)東老婆章澤天在米蘭看秀,扎辮子戴金耳飾,在老外堆里好出眾

劉強(qiáng)東老婆章澤天在米蘭看秀,扎辮子戴金耳飾,在老外堆里好出眾

大鐵貓娛樂
2026-03-09 14:40:03
特朗普突然“想談判”背后:反導(dǎo)系統(tǒng)轉(zhuǎn)往中東,說法一變?cè)僮?>
    </a>
        <h3>
      <a href=南方都市報(bào)
2026-03-11 12:11:09
僅買10天的哈弗大狗新車高速上突發(fā)變速箱故障,4S店與廠家檢測(cè)結(jié)果卻不一致,車主:萬一被追尾,后果真的不敢想

僅買10天的哈弗大狗新車高速上突發(fā)變速箱故障,4S店與廠家檢測(cè)結(jié)果卻不一致,車主:萬一被追尾,后果真的不敢想

大風(fēng)新聞
2026-03-10 15:10:11
新鮮出爐!2026金球獎(jiǎng)排名更新,大英雙星進(jìn)前五,18歲帝星排第一

新鮮出爐!2026金球獎(jiǎng)排名更新,大英雙星進(jìn)前五,18歲帝星排第一

籃球圈里的那些事
2026-03-10 20:23:10
臺(tái)灣黃征輝:臺(tái)灣可以和平回歸,但大陸要答應(yīng)2個(gè)條件!

臺(tái)灣黃征輝:臺(tái)灣可以和平回歸,但大陸要答應(yīng)2個(gè)條件!

混沌錄
2026-03-10 21:18:10
未來10年,真正的“鐵飯碗”來了!這8個(gè)行業(yè),只漲不跌!

未來10年,真正的“鐵飯碗”來了!這8個(gè)行業(yè),只漲不跌!

老特有話說
2026-03-08 15:31:39
訪華行程大幅縮水,僅到中國一個(gè)城市,特朗普清楚他對(duì)華沒牌可打

訪華行程大幅縮水,僅到中國一個(gè)城市,特朗普清楚他對(duì)華沒牌可打

藍(lán)色海邊
2026-03-11 08:53:18
立陶宛豁出去了,為了向中國展現(xiàn)誠意,一下子跳到美國的火車前!

立陶宛豁出去了,為了向中國展現(xiàn)誠意,一下子跳到美國的火車前!

詩酒趁的年華
2026-02-14 10:24:06
馬斯克驚嘆,首個(gè)賽博果蠅活了!多行為大腦完整上傳,自主驅(qū)動(dòng)數(shù)字軀殼

馬斯克驚嘆,首個(gè)賽博果蠅活了!多行為大腦完整上傳,自主驅(qū)動(dòng)數(shù)字軀殼

新智元
2026-03-09 13:18:27
2026-03-11 16:55:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

騰訊急了急了,微信絕密AI智能體首度曝光

頭條要聞

博納影業(yè)于冬被澳門永利追討473萬港元 起訴書披露

頭條要聞

博納影業(yè)于冬被澳門永利追討473萬港元 起訴書披露

體育要聞

郭艾倫重傷,CBA下半賽季還能期待些什么

娛樂要聞

楊冪連續(xù)五年為劉詩詩慶生,劉詩詩回應(yīng)

財(cái)經(jīng)要聞

油價(jià)大轉(zhuǎn)頭?一天,從末日到曙光!

汽車要聞

蓮花糾偏, 馮擎峰的“收”與“守”

態(tài)度原創(chuàng)

親子
游戲
藝術(shù)
本地
公開課

親子要聞

家長(zhǎng)要多關(guān)注孩子大腦!

男有彥祖女有亦菲?曝《三角洲》將聯(lián)動(dòng)劉亦菲

藝術(shù)要聞

這組剪紙?zhí)懒耍?/h3>

本地新聞

這檔韓國玄學(xué)綜藝,讓多少人看得頭皮發(fā)麻

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版