国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話鹿明CTO丁琰:數(shù)據(jù)會反向決定模型,甚至影響硬件形態(tài) | GAIR 2025

0
分享至



深入做UMI之后,我見識到了管理之難。

作者丨高景輝

編輯丨馬曉寧


數(shù)據(jù)采集,向來是具身智能行業(yè)的一大難題。成本、精度、泛化能力,似乎構(gòu)成一個不可能三角,能找到一個可以落地的平衡點已十分不易。

在此背景下,2025 年 11 月中旬 Sunday Robotics 橫空出世,向全世界的具身智能公司證明了 UMI 方案的可行性。一時之間,UMI 的行業(yè)關(guān)注度空前高漲。

而在國內(nèi),丁琰博士的數(shù)采方案「FastUMI」同樣驚艷四座,憑借低成本、高數(shù)據(jù)質(zhì)量、快速部署等特點深受行業(yè)青睞,被視為具身智能數(shù)據(jù)采集的新范式。

實際上,丁琰博士是國內(nèi)最早將 UMI 落地實踐的從業(yè)者。從上海 AI Lab 到一星機(jī)器人,再到如今的鹿明機(jī)器人,他始終專注于 UMI 的研究與推動,即便在早期這一方向并不被大部分人看好,他也依然堅持投入。時至今日,終于迎來“守得云開見月明”的時刻。

對于 UMI,丁琰博士有著獨特的理解。他將 UMI 視為一套完整體系,而非單純的數(shù)采工具;他的目標(biāo)清晰,希望把 UMI 打造成像 AK47 一樣“簡單、可靠、低成本、好用”的工業(yè)級基礎(chǔ)設(shè)施;同時,他深知數(shù)采背后真正的難點,除技術(shù)之外,更考驗流程組織、人員管理與執(zhí)行體系的復(fù)雜性。

今年由 GAIR 研究院與雷峰網(wǎng)聯(lián)合主辦的「第八屆 GAIR 全球人工智能與機(jī)器人大會」上,我們有幸邀請到了丁琰博士參與圓桌會談,分享他關(guān)于數(shù)據(jù)與 UMI 的深刻洞見。

在大會之前,我們與丁琰博士展開了一場深入對話,以便與會者探討交流。

01

UMI不只是一種數(shù)采方式,

而是一整套體系

AI科技評論:你之前說在一星有“沒做完的事情”,這個事情是指什么?FastUMI 算是其中之一嗎?

丁琰:可以說,我是中國大陸最早投入 UMI 的人,從 2024 年 3 月開始,我就堅定地押注這條路線,在當(dāng)時,UMI在國內(nèi)還是極其小眾的方向,整個中國具身智能圈幾乎沒有人公開選擇 UMI 這條路線。

大家對 UMI 理解往往偏于表面,會把它看成一種數(shù)據(jù)采集方式,但在我看來,UMI 是一整套完整的方法論和體系。數(shù)據(jù)會反過來決定模型、系統(tǒng)架構(gòu)、采集流程、算法設(shè)計,甚至影響硬件形態(tài)——整個鏈條都會因此發(fā)生變化。正因如此,我始終堅信 UMI 的前景,也非常希望把這件事真正做成。但當(dāng)一件自己傾注心力的事業(yè)突然中斷時,打擊是難免的。沒來得及做完的事太多:我們規(guī)劃的產(chǎn)品路線、硬件怎么走、數(shù)據(jù)怎么建體系、模型怎么迭代、場景如何落地、生態(tài)如何構(gòu)建、又如何與全球頂尖公司競爭……這些都還在路上,都屬于“未竟之業(yè)”。

另一層“沒做完的事”,是關(guān)于我個人的。我決定離開學(xué)術(shù)界進(jìn)入工業(yè)界,是下了很大決心的。我希望能在工業(yè)界扎下根,做出一些真正的成績,也讓自己學(xué)到新的東西。相比學(xué)術(shù)圈,工業(yè)界的環(huán)境要復(fù)雜得多,人是最重要也是最難的部分——你需要與各種角色打交道:技術(shù)、采購、銷售、財務(wù)、供應(yīng)商、投資人……溝通和協(xié)作的成本遠(yuǎn)超想象。這些雖然與技術(shù)本身無關(guān),卻是我必須面對的一種成長與考驗。而對我來說,這些考驗似乎才剛剛開始,卻被迫按下了暫停鍵。所以,我希望能在鹿明繼續(xù)把這件事情做下去,把它真正做完。

AI科技評論:從一星到鹿明的過程是怎樣的?

丁琰:一星這事在業(yè)內(nèi)比較少見。很多人是在今年 6 月份加入一星,而我從 4 月份就開始組建一星的技術(shù)團(tuán)隊,到 10 月份公司關(guān)閉,總共經(jīng)歷了 6 個月。這半年里,整個技術(shù)團(tuán)隊都是由我從零搭建的,技術(shù)路線也是我在確定;數(shù)據(jù)體系、模型方案、產(chǎn)品規(guī)劃等核心內(nèi)容也都由我主導(dǎo)。整個技術(shù)版圖其實非常宏大,按正常節(jié)奏至少需要兩年才能完整落地,我們已經(jīng)規(guī)劃了多條產(chǎn)品線與技術(shù)路線。但一切都在沒有預(yù)兆的情況下戛然而止。

9 月 30 日凌晨,我還在韓國參加展會,突然接到通知說一星即將被注銷。我馬上從韓國趕回蘇州,落地之后公司就啟動了注銷流程,根本來不及反應(yīng)。到 10 月 13 日,全員都已經(jīng)簽完了離職協(xié)議。那段時間,各種公司和投資人幾乎每天都在聯(lián)系我,每一家都有自己的吸引點和優(yōu)勢,也讓我必須盡快做出判斷。

AI科技評論:鹿明有哪些吸引你的地方?

丁琰:鹿明是很有特色的一個公司,CEO 本身是技術(shù)背景,清華本碩出身,對 UMI 方向始終抱有強(qiáng)烈的愿景與堅持。我是 11 月 2 號加入的鹿明,當(dāng)時 UMI 在行業(yè)內(nèi)還沒有真正火起來——直到11月中旬,Generalist 和 Sunday Robotics 展示了他們基于 UMI 的成果,才讓整個具身智能領(lǐng)域為之震撼。也正因為如此,在10月底的時候,國內(nèi)幾乎沒有人愿意在 UMI 上 all in。

但鹿明與眾不同,創(chuàng)始團(tuán)隊從一開始就堅定地要在 UMI 上重注發(fā)力,這種判斷力與決心正是吸引我加入的關(guān)鍵原因。

AI科技評論:同為鹿明CTO,你和曹俊亮博士的分工合作是怎樣的?

丁琰:我們之間的交流非常密切。我本身并非做硬件出身,因此在產(chǎn)品設(shè)計上非常依賴曹博的支持。比如我們計劃推出力控版本、平動版本、非平動版本以及便攜版本等多條產(chǎn)品線,曹博憑借豐富的量產(chǎn)經(jīng)驗,能幫助我補(bǔ)齊在硬件方面的短板。同時,曹博在做產(chǎn)品時也需要算法團(tuán)隊的支撐。例如,他希望小型人形機(jī)器人能夠執(zhí)行某些操作,就會來咨詢我,讓我們從算法需求的角度參與定義硬件,而不是僅憑物理結(jié)構(gòu)去做設(shè)計。我們就是通過這樣軟硬件的深度協(xié)同,才能共同打磨出真正極致的產(chǎn)品。

02

優(yōu)秀的數(shù)采方案,

應(yīng)該像「AK47」一樣

AI科技評論:你從什么時候開始做UMI的?

丁琰:我在 2024 年 3 月正式啟動了與 UMI 類似的新項目,4 月回國后便在上海 AI Lab 全力投入相關(guān)研究,一直持續(xù)到 2025 年 6 月底離職。在這一年多的時間里,我?guī)缀醢讶烤Χ挤旁谶@件事上,期間發(fā)表的三四篇論文也都圍繞 FastUMI 展開。因為有足夠長時間的技術(shù)積累,我們在實驗室階段把所有關(guān)鍵路線、可行性和核心機(jī)制都驗證完了,看到了真正的曙光,我才敢把這項技術(shù)帶到一星繼續(xù)推進(jìn)??梢哉f,F(xiàn)astUMI 最初誕生于學(xué)術(shù)界,而我后來在工業(yè)界做的,就是把它從一個實驗室原型,真正打磨成一個可以規(guī)?;⒖闪慨a(chǎn)的工業(yè)級產(chǎn)品。

AI科技評論:相較于UMI,傳統(tǒng)的遙操作方案有哪些不足?

丁琰:我最初在 AI Lab 時,其實是以數(shù)據(jù)采集顧問的身份為一家行業(yè)獨角獸提供支持。當(dāng)時我們做的是一套完全傳統(tǒng)、依賴遙操作的數(shù)據(jù)采集體系。彼時 UMI 還沒有形成如今這樣明確的技術(shù)流派,行業(yè)更多是覺得“好像有點意思”,但幾乎沒有人愿意真正投入。那時的市場格局非常明顯:至少九成的人都在做遙操作。然而,遙操作從一開始就存在非常突出的結(jié)構(gòu)性問題。

第一,遙操作的數(shù)采效率比較低。一天能采集 100 條數(shù)據(jù)就已經(jīng)算是非常優(yōu)秀的效率了。我在做顧問期間發(fā)現(xiàn),采集員常常會產(chǎn)出各種奇怪的軌跡,數(shù)據(jù)分布不可控,數(shù)據(jù)質(zhì)量更是參差不齊。整個過程對人依賴極高,幾乎無法實現(xiàn)一致性和規(guī)?;?。

第二,遙操作的成本很高。由于必須依賴機(jī)器人本體進(jìn)行采集,而一臺本體的價格往往在 40 萬元以上。如果你要采購五六十臺來支撐規(guī)?;瘮?shù)據(jù)采集,前期投入就是兩三千萬元。在業(yè)務(wù)還沒看到產(chǎn)出之前,這種成本對于任何公司都是沉重的壓力。

第三,遙操作的數(shù)據(jù)質(zhì)量也有問題。操作員戴著 VR 去操縱機(jī)械臂,缺乏真實的力覺反饋,中間存在大量動作不連續(xù)、體感不自然的 gap。這造成的數(shù)據(jù)往往是抖動的、不穩(wěn)定的、缺乏一致性的。比如一個簡單的抓取動作,如果不是熟練工,可能要重復(fù)多次才能完成,生成的軌跡非常噪聲化,而這種數(shù)據(jù)對于模型訓(xùn)練來說是非常糟糕的。

第四,遙操作有數(shù)據(jù)孤島的問題。遙操作采集的數(shù)據(jù)通常高度依賴特定品牌、特定形態(tài)、特定參數(shù)的機(jī)器人本體,因此數(shù)據(jù)只能在本公司、自家機(jī)器人體系內(nèi)使用。一旦換了不同的機(jī)器人、控制器或執(zhí)行器,這些數(shù)據(jù)的可遷移性就非常差,訓(xùn)練效果往往會大幅下降。換句話說,遙操作天然會形成數(shù)據(jù)孤島,而無法構(gòu)建行業(yè)級的通用數(shù)據(jù)資產(chǎn)。

AI科技評論:那純視頻呢?

丁琰:純視頻方案上,學(xué)術(shù)界和工業(yè)界其實存在一個非常明顯的思維差異。在學(xué)術(shù)圈,只要一個方向足夠 novel、有趣、能寫論文,它就可以被視為一項很優(yōu)秀的工作——至于能不能真正落地,并不是最核心的評價指標(biāo)。但工業(yè)界完全不同。工業(yè)界追求的是那種簡單粗暴、可靠可擴(kuò)展的方案。我經(jīng)常半開玩笑地說,我們要做的是“像 AK47 一樣”的技術(shù):簡單、便宜、好用、有效。而從目前來看,純視頻方案距離這種工業(yè)級標(biāo)準(zhǔn)還有明顯差距。純視頻當(dāng)然能學(xué)到一些東西,但機(jī)器人面對的是真實的物理世界,而物理世界有大量必須被感知的信號:觸覺、力控、摩擦、接觸反饋,甚至聲音。純視頻無法直接獲取這些關(guān)鍵的物理信息,而這些恰恰是機(jī)器人學(xué)習(xí)和決策中非常重要的一環(huán)。因此,純視頻的數(shù)據(jù)價值不能否認(rèn),但它如何更好地在具身智能中被利用、以及能否成為主要的數(shù)據(jù)形態(tài),還需要進(jìn)一步探索。

AI科技評論:所以你選擇了UMI。

丁琰:對,UMI 的核心優(yōu)勢就在于它能夠直接從物理世界采集數(shù)據(jù),而且完全不依賴機(jī)器人本體。我們只需要把 UMI 設(shè)備戴在手腕上,用一個夾爪去模擬機(jī)器人的操作過程。畫面中呈現(xiàn)的只有夾爪本身——這意味著,只要未來機(jī)器人的夾爪形態(tài)與它一致,這份數(shù)據(jù)就可以無縫遷移、直接使用,是真正的“通用型物理數(shù)據(jù)”。同時,UMI 采到的是非常精準(zhǔn)的物理世界數(shù)據(jù),包括動作軌跡、接觸模式、力的變化等。在這種方式下,人的體感與機(jī)器動作之間的 gap 非常小,大概只有 10%–20%,采集過程流暢自然,“看到就能抓、抓了就能做”。而相比之下,遙操作的體感 gap 往往高達(dá) 80%–90%。操作員戴著 VR 遠(yuǎn)程操控機(jī)械臂,動作延遲大、反饋不連續(xù)、缺乏真實觸感,這些都會導(dǎo)致軌跡抖動、動作不自然,數(shù)據(jù)質(zhì)量也因此大幅下降。

AI科技評論:那種手套方案怎么樣?

丁琰:他們更多采的是五指數(shù)據(jù),而 FastUMI 用的是二指數(shù)據(jù),這本質(zhì)上是兩個完全不同的技術(shù)賽道。手套類設(shè)備也可以算是 UMI 的一種擴(kuò)展形式,但目前五指路線整體還不夠成熟。二指 UMI 的核心能力在于獲取空間中的高精度軌跡,并準(zhǔn)確記錄夾爪的開合信息。由于二指夾爪的機(jī)械結(jié)構(gòu)穩(wěn)定、自由度少,因此可以直接、精準(zhǔn)地推算出每個夾爪末端在空間中的位置,數(shù)據(jù)質(zhì)量非常穩(wěn)定。而五指方案的目標(biāo)是獲取每一個關(guān)節(jié)在空間中的位置,自由度暴漲、解算難度成倍提升。人手有 22 個關(guān)節(jié),要讓每個關(guān)節(jié)都保持毫米級誤差幾乎不現(xiàn)實。即使使用手套傳感器,單關(guān)節(jié)誤差往往仍然在厘米級,這會直接影響 replay(動作復(fù)現(xiàn))效果。

AI科技評論:什么是好數(shù)據(jù)?

丁琰:本質(zhì)上必須能 replay 成功 才算。當(dāng)機(jī)器人按照數(shù)據(jù)執(zhí)行動作時,如果不能精準(zhǔn)還原人類的軌跡,那這份數(shù)據(jù)是無法用于訓(xùn)練的。因此,五指方案雖然也是一種 UMI 思路,但如果沒有激光動捕等高成本環(huán)境輔助,其數(shù)據(jù)精度很難滿足工業(yè)級需求。而二指 UMI 的優(yōu)勢就在于結(jié)構(gòu)簡單、可控性強(qiáng)、誤差小、可 replay,真正符合可落地、可規(guī)?;囊?。

AI科技評論:目前在學(xué)術(shù)界其實也有一些UMI的方案,這些方案有哪些不足之處?

丁琰:我們應(yīng)該算是全球第二家系統(tǒng)性開展 UMI 工作的團(tuán)隊,我對首家開展UMI 團(tuán)隊的工作非常尊敬,他們算是為 UMI 打開了整個技術(shù)方向的先河。那套系統(tǒng)整體對操作技能要求非常高,也更偏科研屬性。

第一,他們的采集設(shè)備本身非常復(fù)雜。以軌跡讀取為例,我們現(xiàn)在的 FastUMI 軌跡是直接從設(shè)備中讀取的,插上電腦 1~2 分鐘就能自動生成結(jié)果。而他們要讀取軌跡,首先要對 GoPro 做標(biāo)定,這一步至少需要 20 分鐘;如果不是特別熟練的操作員,整個流程甚至可能需要一小時以上。

第二,他們的軌跡生成鏈路也非常長。采集時需要按照特定速度錄制視頻,錄完后要取出 SD 卡,用讀卡器插電腦,再通過 GoPro 的專用軟件導(dǎo)出原始數(shù)據(jù),然后再跑一套比較復(fù)雜的代碼。光是環(huán)境配置和依賴安裝就可能需要二三十分鐘,最終才算能輸出軌跡。

但這個軌跡還不一定成功,因為他們使用的是單目相機(jī),而單目視覺里程計本身就極其容易失敗。我們第一次嘗試他們的方案時,大概 50%~60% 的軌跡都無法正確生成。后來才發(fā)現(xiàn)必須嚴(yán)格控制采集速度,而且場景里必須非常豐富的視覺特征點,否則視覺定位就會崩。

AI科技評論:FastUMI做了哪些改進(jìn)?

丁琰:在硬件層面,他們的 UMI 系統(tǒng)只能運行在特定的幾套設(shè)備上,例如 Franka 或 UR5e,夾爪必須使用 WSG-50,換成其他機(jī)器人或末端執(zhí)行器基本就無法開箱即用。而這些設(shè)備動輒二三十萬元,對大多數(shù)團(tuán)隊來說成本極高。為了讓 UMI 能真正做到通用普適,我們投入了大量工作去做解耦,讓任何機(jī)器人、任何夾爪都可以使用 FastUMI 這一體系,這是我們非常重要的技術(shù)突破。

在軟件層面,我們用成熟穩(wěn)定的TR65完全替代了原本復(fù)雜且易失敗的軌跡計算方案?,F(xiàn)在只需要 1~2 分鐘就能穩(wěn)定算出高質(zhì)量軌跡,大幅提升了數(shù)據(jù)處理效率。

在算法層面,對方的體系主要只有一個 DP 算法。我們則針對 UMI 數(shù)據(jù)的特點開發(fā)和適配了四五種不同的算法,并在數(shù)據(jù)預(yù)處理、軌跡對齊、開合建模、觸覺/力控特征提取等方面做了大量優(yōu)化,使整個 UMI 算法鏈路更加完整、魯棒。

綜上,我們從硬件、軟件到算法三個維度構(gòu)建了一個扎實、完整并且可規(guī)?;?UMI 體系。之后我們還自主采集了大約1萬小時的UMI數(shù)據(jù) ,積累了大量一線采集經(jīng)驗,為體系的穩(wěn)定性和可重復(fù)性進(jìn)一步打下基礎(chǔ)。

03

整個具身智能圈子2/3的人,

都在用FastUMI Pro

AI科技評論:你們的新產(chǎn)品FastUMI Pro據(jù)說成本只有傳統(tǒng)方案的 1/5,可以具體透露一下它這個每條數(shù)據(jù)的成本是多少嗎?

丁琰:數(shù)據(jù)的成本包括前期的高額研發(fā)投入,場地、采集人工電費以及設(shè)備折舊等等,我們新產(chǎn)品 FastUMI Pro 的成本能僅有傳統(tǒng)方案的 1/5。我們現(xiàn)在的數(shù)據(jù)定價本質(zhì)上是以“通用型數(shù)據(jù)”的模式定價。所謂通用型數(shù)據(jù),就是一份數(shù)據(jù)可以重復(fù)售賣,并能夠在不同機(jī)器人、不同算法體系中復(fù)用。因此,如果同一條數(shù)據(jù)能多次賣出,效益就會比較理想。

AI科技評論:FastUMI Pro很輕,但輕巧就意味著精簡,有些功能會舍棄,那么在結(jié)構(gòu)設(shè)計上如何平衡重量和功能?

丁琰:首先,如果希望采集員一天能夠穩(wěn)定采 500~1000 條數(shù)據(jù),設(shè)備的重量必須控制在合理范圍內(nèi),否則長時間操作會非常疲勞。因此我們把重量上限定在600g。但這項工作當(dāng)時是在一星的大工業(yè)場景下推進(jìn)的,涉及的物品都很重,比如汽車零部件,部分甚至達(dá)到1.5kg左右。所以我們設(shè)定了一個硬性指標(biāo):設(shè)備必須能承載 2kg 的物體,而且同時保持足夠輕巧。

這在當(dāng)時是非常有挑戰(zhàn)的,因為學(xué)術(shù)界還沒有哪個研究型設(shè)備能做到既支持 2kg 負(fù)載,又具備工業(yè)級耐用性。早期在 AI Lab,我們使用的還是 3D 打印結(jié)構(gòu)件,非常容易損壞。那段時間最痛苦的就是——基本每天都在換零件。也正因如此,到了一星之后我們下定決心重新設(shè)計一款真正工業(yè)級的 UMI 設(shè)備,于是就有了FastUMI Pro。

在硬件結(jié)構(gòu)上,我們做了大量工程化優(yōu)化,同時邀請專業(yè)人士對整體結(jié)構(gòu)進(jìn)行了系統(tǒng)的受力分析,明確哪些部位是主要受力點、最容易損壞。所有高應(yīng)力區(qū)域,我們都采用了強(qiáng)度更高的特殊材料進(jìn)行加固;而在螺絲孔、開合機(jī)構(gòu)等容易變形的位置,我們也全面更換為更高規(guī)格的材料與結(jié)構(gòu)。

至于非關(guān)鍵受力區(qū)域,我們的目標(biāo)就是——能輕則輕。為此,我們嘗試了二三十種不同厚度的結(jié)構(gòu)版本,每一個版本都實際打印出來測試。在最終定型中,我們把部分結(jié)構(gòu)的厚度壓到1.5 mm,而最薄的區(qū)域甚至做到0.5 mm——因為這些區(qū)域幾乎不受力??梢哉f,我們是把每一個細(xì)節(jié)都打磨到了極致,才達(dá)成了“輕量化與高強(qiáng)度同時兼顧”的目標(biāo)。

AI科技評論:同時它的定位精度又很高,這是如何實現(xiàn)的?

丁琰:這一切的實現(xiàn),其實歸功于我們在軟硬件和算法上的全鏈路投入。當(dāng)時我們下了一個非常重要的決心:在產(chǎn)品成型之前不計成本地打磨品質(zhì),因為只要規(guī)?;?,成本最終都可以攤薄。

因此,在最初的設(shè)計階段,我們就選擇了最好的傳感器、組建了最強(qiáng)的算法團(tuán)隊。在跑完整個 pipeline 后,我們發(fā)現(xiàn)定位精度會直接影響算法效果,尤其是軌跡擬合、動作復(fù)現(xiàn)和多模態(tài)信號解算,因此我們決定必須把定位精度做到極致,并逐個解決可能出現(xiàn)的 corner case。

為此,我們不僅搭建了專門的算法團(tuán)隊長期攻堅,還投入了數(shù)百萬元持續(xù)打磨這個產(chǎn)品。在硬件、軟件、算法三端不斷迭代的過程中,F(xiàn)astUMI Pro 才最終具備了今天的工業(yè)級穩(wěn)定性和精度。

AI科技評論:從結(jié)果來看,這個投入是完全值得的。

丁琰:對,我加入鹿明還不到一個月,F(xiàn)astUMI Pro 就已經(jīng)銷售給了幾十家企業(yè)。整個具身智能圈里大約有三分之二的團(tuán)隊都在咨詢、測試或直接使用這款產(chǎn)品,國內(nèi)國外都有。很多團(tuán)隊甚至是一口氣采購多套設(shè)備回去評估。FastUMI Pro 基本已經(jīng)成為行業(yè)內(nèi)驗證 UMI 能力的“標(biāo)配裝備”。

AI科技評論:您說過魚眼鏡頭的FOV必須足夠大,否則會出現(xiàn)物體超出視野的情況,那么FastUMI Pro采用了什么方案避免這一問題?

丁琰:就像我一開始強(qiáng)調(diào)的那樣,UMI 從來不是一個簡單的數(shù)采方案,而是一整套系統(tǒng)工程。數(shù)據(jù)的形態(tài)會直接影響算法,而數(shù)據(jù)與算法又會反過來決定硬件的結(jié)構(gòu)設(shè)計。早期的 UMI 基本都把相機(jī)放在腕部,視野非常受限,背景信息嚴(yán)重缺失,有些物體甚至只能看到局部,這對于算法推理來說是極不友好的,因為模型必須依賴足夠豐富、穩(wěn)定的信息量才能可靠推斷。然而,很多人做 UMI 只停留在“造出一個硬件”這個層面,沒有真正完整走過從數(shù)據(jù)采集、算法訓(xùn)練再到回到硬件調(diào)整的全流程,這其實是非常不對的。真正的 UMI 必須經(jīng)歷一個反復(fù)迭代的閉環(huán):先采數(shù)據(jù),再訓(xùn)練算法,再根據(jù)算法結(jié)果不斷修改硬件,只有這樣整個體系才能成熟。在我們的實際訓(xùn)練中,我們發(fā)現(xiàn)像素必須足夠大、白平衡必須足夠穩(wěn)定、抗抖性能必須足夠強(qiáng),否則模型就無法復(fù)現(xiàn)軌跡或推斷正確動作。也正是根據(jù)算法反饋,我們最終選用了大魚眼作為當(dāng)前的最優(yōu)解。

為了確定攝像頭方案,我們幾乎把所有能找到的魚眼相機(jī)都買了一遍,前后大概二三十款。測試下來發(fā)現(xiàn),很多魚眼的實際視角根本達(dá)不到宣傳的 180 度,要么畫面灰暗、動態(tài)范圍差,要么在快速運動時出現(xiàn)明顯抖動,還有不少白平衡極不穩(wěn)定。所謂白平衡,就是當(dāng)你用手遮住攝像頭再移開時,圖像需要瞬間恢復(fù)正常顏色;如果要兩三秒才能恢復(fù),那么這一段數(shù)據(jù)軌跡就基本報廢了。正因為我們完整經(jīng)歷了“硬件—數(shù)據(jù)—算法—再回到硬件”的閉環(huán)迭代,并用大量試錯驗證各種可能性,才最終確定了現(xiàn)在這個大魚眼方案。它不是隨便選出來的,而是從幾十種失敗選項里打磨出來的最優(yōu)解。


04

深入做UMI后,

我見識了采集員的管理之難

AI科技評論:FastUMI Pro為什么采用實時前處理?

丁琰:只有真正深入做 UMI,才會意識到實時前處理的重要性。我個人并不太傾向于 Generalist 或 Sunday Robotics 那類更偏后處理的方案。在實際采集中我們發(fā)現(xiàn),后處理模式幾乎是災(zāi)難性的:你可能錄了八個小時的視頻,最終為了得到真正可用的軌跡,不但要按任務(wù)把視頻切成一段一段,還要逐條排查臟數(shù)據(jù)、刪除錯誤片段、剔除低質(zhì)量樣本,整個流程極其繁瑣,成本和人力消耗巨大。相比之下,實時前處理模式能夠當(dāng)場發(fā)現(xiàn)問題、當(dāng)場修正,從源頭保證數(shù)據(jù)質(zhì)量。

選擇前處理還有另一個很現(xiàn)實的原因——人性。數(shù)據(jù)采集員是非常難管理的。如果采用后處理方式,你把設(shè)備交給一個采集員,他干了一個星期,最后發(fā)現(xiàn)數(shù)據(jù)全部不能用,那么這一個星期的工錢到底付還是不付?而且問題并不總是硬件出錯,更多時候是操作不規(guī)范造成的。我們在上海 AI Lab 建采集場的時候就遇到過大量類似情況:你規(guī)定某個任務(wù)必須 10 秒完成,但采集員可能 5 秒就做完了,動作不完整、節(jié)奏不符,導(dǎo)致整段數(shù)據(jù)完全沒法用,而他們往往不會在意這些細(xì)節(jié)。因此,如果不在前端進(jìn)行實時校驗與約束,不僅數(shù)據(jù)質(zhì)量無法保證,整個采集體系也難以長久維持。

AI科技評論:這些人是從哪找的?

丁琰:這些采集員大多是按小時計費的兼職人員,工作本身也沒有太強(qiáng)的技術(shù)含量,他們往往無法真正保證采集結(jié)果的質(zhì)量。即便你給出明確規(guī)范,他們也不一定會嚴(yán)格執(zhí)行,這就進(jìn)一步放大了后處理方案的不確定性和風(fēng)險。

AI科技評論:不能去高校找一些大學(xué)生嗎?大學(xué)生也挺便宜的吧。

丁琰:我們在 AI Lab 找的數(shù)據(jù)采集員其實都是大學(xué)生,但各種操作不規(guī)范的問題仍然很難避免,這讓我真正見識到了管理的復(fù)雜性。那時候外包團(tuán)隊只有 11 個人,管理都已經(jīng)很吃力了,如果建一個一百人的數(shù)據(jù)采集工廠,恐怕會直接崩潰。所以我們后來強(qiáng)調(diào)“不能做后處理”,理由并不是技術(shù),而是管理。后處理意味著采集員一整個星期都在積累潛在錯誤,等數(shù)據(jù)全都無效時已經(jīng)無法挽回,也無法實時指導(dǎo)他們?nèi)绾胃恼?。相比之下,前處理能夠?qū)崟r給工人反饋,告訴他動作哪里不達(dá)標(biāo)、哪些步驟需要重做。我們第一周的合格率只有 50%-60%,但經(jīng)過一兩周的實時反饋訓(xùn)練之后,整體合格率顯著提升,到了最后幾周甚至有人能做到 100% 合格。后處理完全做不到這一點,因為采集和修正之間是割裂的,錯誤無法在第一時間被發(fā)現(xiàn)并糾正,而這一點恰恰決定了數(shù)據(jù)采集體系能否真正跑通。

AI科技評論:所以前處理沒有技術(shù)上的難點嗎?

丁琰:當(dāng)然,還有一個原因來自硬件本身。硬件在最初階段可能出現(xiàn)的問題太多了,往往需要經(jīng)過至少半年的迭代才能逐步穩(wěn)定下來。只有當(dāng)硬件足夠可靠、采集員也完全熟練之后,才有可能轉(zhuǎn)向后處理模式。也就是說,前處理和后處理并不是絕對對立的關(guān)系,更像是一種循序漸進(jìn)、水到渠成的過程。當(dāng)系統(tǒng)還不成熟時必須依賴前處理來保證質(zhì)量;等整個鏈路穩(wěn)定之后,后處理自然就能夠接上。

AI科技評論:你曾說在研發(fā)過程中踩過了很多坑,可以講一下有踩過哪些坑嗎?

丁琰:以魚眼鏡頭為例,我們最初基于控制成本的考慮,采用了一些低性能鏡頭湊合,但在實際訓(xùn)練和驗證中發(fā)現(xiàn),算法根本無法在這種低性能鏡頭上發(fā)揮作用,所以最終選用了將近大幾百一顆的高品質(zhì)魚眼。類似地,也有人問過我們的 UMI 設(shè)備和 3D 打印出來的版本有何區(qū)別——乍一看外觀可能差不多,但真正用起來完全不是一個層級。3D 打印件本身就不穩(wěn)定,采集過程中各種結(jié)構(gòu)性問題會頻繁出現(xiàn),導(dǎo)致效率極低,完全達(dá)不到工業(yè)化生產(chǎn)所需的可靠性,也根本無法作為一個可以拿去售賣的產(chǎn)品。真正的工業(yè)產(chǎn)品必須在強(qiáng)度、穩(wěn)定性、耐久度、精度等方面都經(jīng)得起驗證,這些都是 3D 打印無法承擔(dān)的。

AI科技評論:技術(shù)上還有其他瓶頸嗎?

丁琰:技術(shù)上的瓶頸其實更多來自算法層面。我們團(tuán)隊在這一條線上不斷迭代了一年四個月,幾乎把能踩的坑都踩過一遍,深刻體會到 UMI 最難的地方根本不是硬件。如果用 100 分來衡量整體難度,硬件大概只占三四十分,而數(shù)據(jù)處理的難度卻在六七十分以上。很多人以為 UMI 看起來很簡單,好像隨便誰都能做,但他們并不知道真正的挑戰(zhàn)不在于把一個設(shè)備做出來,而在于如何把數(shù)據(jù)處理好,因為整個 pipeline 異常漫長、異常復(fù)雜。UMI 的“壞的一面”就在這里——它的數(shù)據(jù)極其難處理。如果用做菜來比喻,這就像遇到了一種食材,本身又便宜又美味,但處理過程極其繁瑣,需要大量技巧和耐心,否則根本做不出好菜。UMI 的數(shù)據(jù)也是一樣,只有把這道最難處理的食材處理好了,整個體系才能真正發(fā)揮價值。

AI科技評論:所以算法才是你們的技術(shù)壁壘?

丁琰:可以這么形容,我們的數(shù)據(jù)處理全鏈路,別人可能需要一年才能真正跑通,而我們已經(jīng)積累了超過 1萬小時的實戰(zhàn)采集經(jīng)驗,這本身就是非常強(qiáng)的壁壘。很多人看到的只是 UMI 的硬件外觀,但那只是冰山一角,真正的難點和價值都藏在水面之下的部分——也就是數(shù)據(jù)處理、算法鏈路、異常場景處理、質(zhì)量控制體系、采集規(guī)范化、以及迭代出來的經(jīng)驗。這些看不見的部分才決定了整個系統(tǒng)的可靠性與可擴(kuò)展性。硬件只是入口,而真正的深水區(qū),全在背后那條漫長而復(fù)雜的數(shù)據(jù) pipeline。

AI科技評論:FastUMI Pro在鹿明的產(chǎn)品生態(tài)中扮演什么樣的角色?

丁琰:鹿明的人形機(jī)器人在運動能力方面本來就非常突出,但在操縱能力上的優(yōu)勢還不夠明顯,而 FastUMI 團(tuán)隊的加入讓鹿明在 manipulation(操控能力)這一關(guān)鍵維度上獲得了顯著提升。

AI科技評論:會有資源不夠分的問題嗎?

丁琰:不會,CEO喻超是一個非常有戰(zhàn)略定力的人,一旦認(rèn)定方向,就會堅定地 All in 下去。未來鹿明的主要布局將圍繞兩條主線:一條是人形機(jī)器人本身,另一條就是 FastUMI 體系。在 UMI 方向上我們擁有非常明確的先發(fā)優(yōu)勢,而且團(tuán)隊對技術(shù)路線和產(chǎn)品節(jié)奏都非常有信心,相信能夠持續(xù)保持行業(yè)領(lǐng)先。

AI科技評論:鹿明未來在技術(shù)研發(fā)上有哪些重點方向?

丁琰:我更多能談的是軟件側(cè)的內(nèi)容,尤其是數(shù)據(jù)。在具身智能領(lǐng)域,數(shù)據(jù)是高度多模態(tài)的,其復(fù)雜度遠(yuǎn)超自動駕駛。自動駕駛幾乎不需要觸覺、力控甚至聲音數(shù)據(jù),但這些恰恰是具身智能的基礎(chǔ)維度。未來還會疊加更多模態(tài),使理解與探索的難度進(jìn)一步提升?,F(xiàn)在整個行業(yè)在“具身智能該如何獲取、理解和使用數(shù)據(jù)”這件事上的認(rèn)知仍然非常不足,因此數(shù)據(jù)一定會是鹿明未來最核心的戰(zhàn)略重點。

另一方面是我們自研的模型架構(gòu),其實也有大量講究。并不是所有數(shù)據(jù)都能簡單混在一起做訓(xùn)練,每一種數(shù)據(jù)都有其天然結(jié)構(gòu)和語義特征,如何根據(jù)這些特征去構(gòu)建屬于自己的 VLA 架構(gòu),才是最關(guān)鍵的。我們會圍繞數(shù)據(jù)特點對模型進(jìn)行針對性的結(jié)構(gòu)改進(jìn),充分釋放不同模態(tài)的價值,這也是鹿明未來研發(fā)的另一條核心主線。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
韓媒:徐正源原本已自動激活續(xù)約條件,但最終其主動放棄續(xù)約

韓媒:徐正源原本已自動激活續(xù)約條件,但最終其主動放棄續(xù)約

懂球帝
2025-12-19 11:25:47
力壓梅西!孫興慜獲美職聯(lián)賽季最佳!

力壓梅西!孫興慜獲美職聯(lián)賽季最佳!

足球王國
2025-12-18 16:17:57
內(nèi)娛瞧不上的,又被韓國拍成了網(wǎng)飛第一

內(nèi)娛瞧不上的,又被韓國拍成了網(wǎng)飛第一

獨立魚
2025-12-18 22:17:46
澳門這晚,陳偉霆的斗篷,吳尊的緊身褲,全敗給兩個70歲“老頭”

澳門這晚,陳偉霆的斗篷,吳尊的緊身褲,全敗給兩個70歲“老頭”

大鐵貓娛樂
2025-12-15 14:47:15
小鵬汽車法務(wù)部:已報案

小鵬汽車法務(wù)部:已報案

每日經(jīng)濟(jì)新聞
2025-12-18 14:52:26
南京博物院《江南春》名畫被6800元出售,曾有兩任館長離奇自殺

南京博物院《江南春》名畫被6800元出售,曾有兩任館長離奇自殺

Mr王的飯后茶
2025-12-19 09:29:15
CBA最新消息!沈梓捷第一階段報銷,曾凡博正式回歸北京首鋼

CBA最新消息!沈梓捷第一階段報銷,曾凡博正式回歸北京首鋼

體壇瞎白話
2025-12-19 08:11:27
吃他汀,一顆花生不能碰?再次提醒:這5種食物也要小心

吃他汀,一顆花生不能碰?再次提醒:這5種食物也要小心

華醫(yī)網(wǎng)
2025-12-19 05:41:20
別讓“不爽”毀了你的婚姻:夫妻生活和諧的5個信號,你中了嗎?

別讓“不爽”毀了你的婚姻:夫妻生活和諧的5個信號,你中了嗎?

精彩分享快樂
2025-12-19 11:30:19
新加坡估計怎么也想不通一覺醒來,家門口的海南釜底抽薪

新加坡估計怎么也想不通一覺醒來,家門口的海南釜底抽薪

忠于法紀(jì)
2025-12-12 09:14:49
三上悠亞、水卜櫻、淺野心、小澤菜穗、川越仁子 日美女明星動態(tài)

三上悠亞、水卜櫻、淺野心、小澤菜穗、川越仁子 日美女明星動態(tài)

鹿鹿156
2025-12-19 10:36:13
這樣清爽的打扮才適合我們普通模仿

這樣清爽的打扮才適合我們普通模仿

牛彈琴123456
2025-12-19 10:31:53
21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

阿天愛旅行
2025-12-17 00:16:32
超過劉國梁,又升級,擔(dān)任乒羽中心副主任,王勵勤級別年薪如何?

超過劉國梁,又升級,擔(dān)任乒羽中心副主任,王勵勤級別年薪如何?

籃球看比賽
2025-12-19 11:35:54
膨大劑是什么東西,打過膨大劑的紅薯花生,究竟有沒有毒?

膨大劑是什么東西,打過膨大劑的紅薯花生,究竟有沒有毒?

半解智士
2025-12-17 18:36:39
這下好了!連權(quán)威黨刊半月談都下場證實,孫穎莎的人品火到國外

這下好了!連權(quán)威黨刊半月談都下場證實,孫穎莎的人品火到國外

番茄娛樂加
2025-12-19 10:44:20
突發(fā)!2.4萬億資金,突然“消失”!黑天鵝來襲?

突發(fā)!2.4萬億資金,突然“消失”!黑天鵝來襲?

證券時報
2025-12-19 08:17:05
王志文:不要對水平太低的人太好,認(rèn)知水平越低,越不懂你的好

王志文:不要對水平太低的人太好,認(rèn)知水平越低,越不懂你的好

杏花煙雨江南的碧園
2025-12-03 13:10:03
鹿晗、關(guān)曉彤“靜默式”分手藏著多少秘密

鹿晗、關(guān)曉彤“靜默式”分手藏著多少秘密

阿訊說天下
2025-12-19 11:50:04
日本突然加息!全球股市震蕩,我們會如何?

日本突然加息!全球股市震蕩,我們會如何?

說財貓
2025-12-19 11:37:26
2025-12-19 12:44:49
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7012文章數(shù) 20715關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

頭條要聞

媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

態(tài)度原創(chuàng)

房產(chǎn)
親子
教育
健康
公開課

房產(chǎn)要聞

萬科·三亞嘉瀾地,萬科高端旅居系1號作品全球發(fā)布

親子要聞

很多家長問支具鋁板是什么,名字叫指鋁板,網(wǎng)上都能搜到

教育要聞

“考考考老師的法寶”應(yīng)該休矣

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版