国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

刷屏的機器人,還困在「數據流水線」里

0
分享至

文 | 張冰冰

編輯 | 阿至

后空翻、跳舞、拳擊、一腳踢碎西瓜……過去一年,這些充滿視覺沖擊力的機器人動作片段不斷刷屏。行業(yè)為之振奮,資本加速涌入,公眾的期待值也升至高點:成熟的機器人產品,似乎已從實驗室快步走向現實。

而在被稱為機器人“學校”的數據訓練中心里,場面卻安靜得多:數據采集員手持操作設備,引導身邊的機器人完成一些看似簡單的任務,比如抓起桌上的零件,放入工具箱,再合上蓋子,動作緩慢,偶爾停頓。


北京人形機器人數據訓練中心

這只是“學習”的第一步。機器人每完成一組動作,就會生成一條結構化的數據。將這些數據投喂給大模型進行訓練,且數據量要足夠大,才有可能讓機器人擁有“大腦”,從而脫離被動的編程控制,邁向主動的理解與決策。用業(yè)內人士的話來說,這將是“猴子和人的區(qū)別”。

這套“數據+算力+算法”的邏輯我們并不陌生,以ChatGPT、deepseek為代表,席卷全球的大語言模型已經驗證了其可行性,并建設了相對成熟的算力資源和算法體系。但機器人面對的挑戰(zhàn)在于,這次的智能從數字世界來到了物理世界,數據成為了最高的壁壘。

大語言模型所使用的語言、圖像等數據,本質上存在于二維數字世界,易獲取、可復制;而機器人面對的三維物理世界,是一個高維、連續(xù)、多模態(tài)的時空流,包括視覺、聲音、力、扭矩、本體姿態(tài)等多種傳感器信號,處理難度指數級增長。

如果說,互聯(lián)網多年積累的數據為大語言模型發(fā)展提供了充足的彈藥,那物理世界的數據采集和積累,幾乎需要從零開始。

其中,“真機數據”完整采集了機器人在真實物理環(huán)境中的原始運行數據,其稀缺和可貴成為行業(yè)共識。過去一年,機器人數據采集中心以“基礎設施”的定位遍地開花,文章開頭那樣枯燥卻關鍵的數據采集場景正在全國上演。

然而,真機訓練意味著巨量的時間與資本投入,數據中心建設“開弓沒有回頭箭”,在熱潮之下更需要冷思考:什么樣的數據才算“高質量”?訓練得到的數據如何高效流轉與復用?在填平數據鴻溝之前,行業(yè)如何務實推進?

在機器人時代的“新基建”全面啟動之前,對這些問題的探索與解答,將決定“具身智能”是一場扎實的產業(yè)升級,還是又一個被過度透支的概念。

一、數據采集,精工出細活

在北京人形機器人數據訓練中心的集中訓練區(qū),隔著透明玻璃,參觀者可以直觀地看到機器人是如何“學習”的。數據采集員將手套在采集設備上,手部的動作會傳導給一旁的機器人,讓機器人拿起桌上的鉗子、放進工具箱,再把鉗子拿出來、放進去,循環(huán)往復。

抓、拿、取、放等簡單任務,都會在這樣的桌面環(huán)境下進行小場景訓練。再往遠處看,視線則會被白色屏風遮擋。為了防止數據污染,每個操作區(qū)都做了單獨隔間,從物理上隔絕干擾,保證數據干凈程度。

另一邊的場景訓練區(qū),畫面就變得復雜起來。無人超市里擺滿商品、客廳里散落著圖書、臥室和衛(wèi)生間里堆放著衣服毛巾,高度還原的場景里人可以自由走動,機器人則需要在這樣復雜但更接近真實的環(huán)境中,完成物品擺放、衣物折疊等操作。


北京人形機器人數據訓練中心場景訓練區(qū)

從單調的初級動作訓練,到復雜的真實場景還原,目標只有一個——批量采集高質量的機器人真機數據。

這也是所有數據中心的核心目標。

但當前,機器人行業(yè)尚未形成統(tǒng)一的數據標準,不同數據采集中心往往有自己的數據表述方式和格式要求,達成目標的路徑,甚至從數據中心建設之初就開始分化。

北京人形機器人數據訓練中心的運營方是睿爾曼智能科技(北京)有限公司,作為一家聚焦機械臂研發(fā)的機器人企業(yè),睿爾曼對數據評估的各個維度中,對硬件的要求尤為突出。

睿爾曼相關負責人介紹,硬件本體上,數據中心要求每個硬件本體做高精度標定,包括絕對運動精度,以及相機相關的參數等。所有機器人都裝備了高精度傳感器,可以采集多達57個維度的狀態(tài)數據。

另一大硬件挑戰(zhàn)來自時空對齊。具體來說,數據采集使用的攝像頭其采樣頻率是通常是30Hz,即每秒拍攝30張圖像,拍攝每幀圖像之間的時間間隔約33毫秒,如果時間不對齊,這33毫秒的差異就會導致關節(jié)編碼器、相機、力傳感器捕捉到“不同時刻”的世界碎片。

而模型訓練依賴嚴格的因果關聯(lián),毫秒級的不同步就可能產生嚴重的錯位,失之毫厘謬以千里。據介紹,睿爾曼在數據采集過程中,采用硬件同步對齊策略,在硬件層面保證傳感器數據、攝像頭數據采集過程中全部按照真正的物理時刻采集,做到1毫秒以內的誤差。

在硬件高精度標定和超時空對齊基礎上,再通過多樣性矩陣系統(tǒng),實現場景物品的多樣性和機器人位置姿態(tài)的泛化性,保證不會出現數據擬合而導致模型變差的情況。再經過嚴格的數據可信度驗證,一條高質量的真機數據才算采集完成。

睿爾曼相關負責人表示,真正能走入家庭的機器人,其真實的物理關節(jié)要足夠穩(wěn)定可靠,同時要易用,并能以最小的體積發(fā)揮出最大的負載能力。在AI層面,數據維度至關重要?!拔覀冋J為真機數據是機器人走進家庭的最后一個門檻,所以我們堅定地從終局出發(fā),提供這樣的數據資產?!?/p>

目前,北京人形機器人數據訓練中心已實現規(guī)?;a出,每天可生成約6萬條數據,覆蓋工業(yè)智造、智慧家庭、康養(yǎng)服務及5G融合四大領域的16個細分場景。

二、數據缺口與數據異構的鴻溝

技術市場研究機構Interact Analysis數據顯示,截至 2025 年年底,中國已經有50個以上國家或省市區(qū)級人形機器人數據采集與訓練中心處于使用或規(guī)劃建設狀態(tài),其中,50% 以上的數采中心已經在2025 年正式投入使用。

以北京人形機器人數據訓練中心為參照,其真機數據的年產能已達千萬條級別。以此粗略計算,假設目前所有數據中心全部投入運行,機器人數據年采集量可以達到數十億條。

這看似龐大的數據供給,在機器人所需要的“智能”面前,仍顯得杯水車薪。

據機器人數據服務商冪特科技保守測算,在具身智能大模型足夠好且數據質量足夠高的前提下,訓練機器人學會一個動作,大概需要1000-5000條數據;訓練機器人學會一個由多個動作組成的任務,大概需要1萬-2萬條數據;訓練機器人完成某個垂直行業(yè)80%的人類工作,至少需要1億條數據;如果要把具身智能要放大到通用,也就是千行百業(yè),那所需的數據量至少是千億條的量級,數據缺口是4-5個數量級。

更大的鴻溝在于數據異構。因為不同廠商、不同形態(tài)的機器人在硬件設計、傳感器配置和軟件協(xié)議上各不相同,采集到的動作、力覺與視覺數據也就“語言不通”,基于一種機器人的數據成果,換到另一臺機器人上就可能失靈。

這意味著,各個數據中心訓練的數據成果,甚至很難實現1+1=2的疊加效果。

在行業(yè)通用的統(tǒng)一標準出現之前,數據中心也在探索各種不同的解決思路。

一種是“屏蔽差異”,采用市占率較高的機械臂或機器人型號進行數據訓練,從硬件根源上規(guī)避了兼容性問題,以追求數據的更廣泛應用,比如上文提到的北京人形機器人數據訓練中心。

另一種思路是“擁抱差異”,主動進行異構訓練。在上海張江,國家地方共建人形機器人創(chuàng)新中心(以下簡稱“國地中心”)具身智能訓練場,首創(chuàng)異構人形機器人具身智能數據集構建方法,其目標是要打造最大規(guī)模的異構人形機器人具身智能數據集。

在這里,來自不同廠家的機器人被置于同一物理空間內協(xié)同運行。國地中心首席科學家江磊在接受媒體采訪時曾表示,“把不同廠家的異構機器人放在同一空間運行,就能讓AI意識到,它活在一個多元多樣的物理世界中,從而建立起客觀認知,發(fā)育出明辨是非的能力?!?/p>

第三條技術路徑,是直接“繞過差異”,尋找更廣泛和通用的數據。與關節(jié)傳感器等硬件采集的數據不同,人類視頻數據對機器人來說是相對通用的,可以提取視頻數據中人體的位姿并映射為機器人的運動軌跡,繞開本體壁壘訓練大模型。


北京人形機器人數據訓練中心視覺動作捕捉項目

更激進的方案是直接拋開本體,進入仿真世界。在虛擬的數字化環(huán)境中,通過物理引擎和程序模擬,可以低成本地生成海量數據,再應用到真機上,實現Sim2Real。然而,物理世界的極端復雜性,從根本上決定了,仿真數據在精準性與泛化性上,難以達到理想水平。

“我們希望能在真實與仿真之間找到一種平衡,兼具兩者的好處?!眱缣乜萍糃EO介紹了其Real2Sim2Real的數據采集模式:在虛擬環(huán)境前面增加“Human Doing Video”作為機器人學習的標本和范式,“我們將來自真實世界的人類操作的2D視頻數據做3D重建,通過仿真還原人體的3D位姿,并將3D位姿retargeting到機器人,所以我們叫Real2Sim2Real?!?/p>

據介紹,使用這一方式,冪特科技的目標是把單條數據的成本從現在真機數據的幾十元降到幾分錢,并快速將廉價的采集設備分發(fā)到千行百業(yè),獲得海量數據。

三、邊“干活”邊優(yōu)化

盡管虛實結合等多種技術路徑仍在探索,但一個確定的事實是:真機數據無論占比多少,都是機器人與物理世界對齊的“最后一公里”。因此,數據訓練中心面臨的核心命題不只是追求數據規(guī)模,更在于精準生產出匹配當下產業(yè)應用剛需的高質量數據。

在無錫,這一邏輯正在被具象化。

由天奇自動化工程股份有限公司牽頭建設的“江蘇省具身智能機器人工業(yè)數據采集與實訓中心”,一改“樣板間”模式,高度還原了汽車整車工業(yè)場景、新能源產線應用場景及工業(yè)物流搬運場景等7大實訓場景。

“汽車整裝是我們天奇股份的傳統(tǒng)的業(yè)務,我們有龐大的客戶群體以及對汽車產線場景的深刻行業(yè)理解?!碧炱婀煞荨紫惴茖W家童隨兵介紹,其中汽車噴涂環(huán)節(jié),就存在大量的機器人替代人工的需求。


江蘇省具身智能機器人工業(yè)數據采集與實訓中心

在汽車制造中,整車涂裝是核心工藝之一。車體在完成電泳底漆后,需進行面漆噴涂,而漆面的均勻度與完整性直接影響整車品質。傳統(tǒng)上,這道工序的質檢高度依賴人眼,但噴涂車間充滿揮發(fā)性化學物質,長期作業(yè)對工人健康構成一定風險。讓機器人替代人工,在此類環(huán)境中進行自動化巡檢與瑕疵識別,不僅能將工人從有害暴露中解放出來,也為實現更穩(wěn)定、可追溯的質量檢測提供了可能。

童隨兵認為,對于具身智能的機器人而言,更合理的落地方式,不是設計一個通用機器人供所有行業(yè)、所有工種使用,而是針對個性化需求設計機器人。

基于此,江蘇省具身智能機器人工業(yè)數據采集與實訓中心構建了一個“場景-數據-模型-應用” 的閉環(huán)系統(tǒng),概括說來,就是聚焦既有的業(yè)務場景,精準采集該場景機器人數據,再利用所采集的數據訓練自研的具身智能大模型,并將訓練好的模型部署回對應的實際生產環(huán)境中。最終,在真實場景中驗證并迭代。

真實場景不僅是數據和大模型效果的“試金石”,也有望成為高質量數據的來源。

2026 CES上,睿爾曼完成了從“北京—拉斯維加斯”的跨洋實時作業(yè)演示。通過構建遠程勞動力網絡,北京的具身訓練師可遠程控制遠在CES展臺的RealBOT輪式折疊機器人,執(zhí)行“遞送物品”“傳遞水果”等真實場景作業(yè)。

這不僅是解決特定場景用工需求的方案,更關鍵的是,讓機器人在真實的作業(yè)流中直接積累數據。每一次遠程操作,都在同步生成包含環(huán)境交互、人力決策和任務結果數據,實現了“工作即采集”。這意味著,未來的數據工廠可能無需完全復刻場景,而是可以直接接入全球的生產線和服務終端,讓數據在真實的運轉中自然沉淀。

四、一場更復雜的耐力賽

同樣是“基礎設施”的定位,人形機器人數據訓練中心,遠比單純的智算中心復雜。不能靠簡單的“堆砌”,而是一個以數據驅動、軟硬一體、場景閉環(huán)的新型基礎設施。

在業(yè)內專家張曉宇博士看來,評價一個數據中心的未來潛力,核心在于其“異構數據閉環(huán)能力” 。這可以拆解為三個關鍵問題:

第一,能否將工廠、倉庫、實驗室等真實物理場景,通過標準化接口便捷地接入數據中心,形成持續(xù)的“數據脈動”?

第二,能否建立一套從多模態(tài)數據采集、云端標注訓練、到模型部署回機器人的完整技術管線,并讓數據在不同機器人本體間像軟件一樣復用?

第三,是否擁有一個強大的仿真平臺,能基于有限的真實數據,生成海量合成數據進行安全、低成本的“百萬次測試”,加速迭代?

以上都是未來各地方區(qū)域在數據中心建設中可以探討的技術方向。

技術之外,張曉宇認為,數據中心還依賴于它所根植的產業(yè)土壤,需要明確的主導產業(yè)作為需求引擎,催生有價值的數據,“高質量數據集對于模型訓練的重要性不言而喻,但從數采場本身的經濟性出發(fā),為每一個機器人品牌都單獨建一個數采場是不合理的,最合理的方式應該是在一個工業(yè)類或高校比較集中的城市只建一個數采場,采集標注并清洗后的高質量數據集可以提供給多個機器人廠家使用,從而實現’一次投入,反復使用’的杠桿效應?!?/p>

機器人數據中心的落地堪比大規(guī)模的生態(tài)建設,政策支持、法規(guī)環(huán)境、人才培養(yǎng)缺一不可,數據訓練之外,還希望實現吸引企業(yè)聚集,促進行業(yè)模型迭代,加速機器人企業(yè)共同發(fā)展。

最終,這一切基礎設施的意義在于,讓高質量的機器人數據,能像電流一樣順暢地輸送到每一個需要它的算法與機器人公司手中。

為此,行業(yè)已經開始探索多元化數據交易和應用模式:2025年8月,帕西尼具身智能超級數據工廠產品“OmniSharing DB 帕西尼全模態(tài)具身智能數據集”,在北京國際大數據交易所正式上架;10月,帕西尼攜手騰訊云達成戰(zhàn)略合作,將共同打造具身智能 “數據云商城” ;天奇股份也將基于“江蘇省具身智能機器人工業(yè)數據采集與實訓中心”構建數據平臺,讓機器人數據如同今天的云資源一樣,成為服務于整體行業(yè)的基礎資源。


江蘇省具身智能機器人工業(yè)數據采集與實訓中心

在理解機器人數據采集與產業(yè)落地的溝通中,一個案例被反復提及,作為參照的坐標,那就是智能駕駛。行業(yè)內部形成了一種清醒的共識:智能駕駛的賽道相對清晰——遵循既定的公路網絡,依賴已高度成熟的汽車和傳感器硬件,其核心任務簡化為在結構化環(huán)境中進行可靠的感知與決策,核心是“避免碰撞”。

即便如此,這項技術歷經十余年攀登,商業(yè)化落地也僅是近期才觸及L3級輔助駕駛的門檻,開始進行有限測試。

相比之下,具身智能機器人的落地難度指數級增加。

數據中心的快速建設,解決的更多是“訓練資料”的規(guī)?;a問題,但這本“教材”的完備程度、以及機器人的“大腦”與“身體”能否高效學習并應用,仍是懸而未決的命題。智能駕駛的故事已經表明,一項復雜技術從實驗室演示到穩(wěn)定、可靠、經濟的商業(yè)產品,其間需要穿越的“死亡谷”遠比想象中漫長。

對于機器人而言,這場穿越周期的耐力賽,考驗才剛剛開始。

36氪未來產業(yè)

「36氪未來產業(yè)」持續(xù)關注城市發(fā)展、產業(yè)轉型和創(chuàng)新創(chuàng)業(yè)項目落地。尋求報道可郵箱聯(lián)系wangfengzhi@36kr.com或掃碼聯(lián)系。

此外,今年36氪正式推出《36氪企業(yè)投資指南內參》,依托在經濟圈產業(yè)群、區(qū)域重點推進規(guī)劃與招商領域的深厚積累,36氪通過提供深入詳細、更為及時、獨家專有的全面信息服務,為政府部門提供高效、精準的產業(yè)項目內參;助力項目方匹配產業(yè)資金、鏈接關鍵人脈、快速融入新的產業(yè)生態(tài)。


本文來自微信公眾號“36氪未來產業(yè)”,作者:張冰冰,阿至,36氪經授權發(fā)布。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
連霍高速交警硬核喊話:速度提不起來就給我去慢車道!

連霍高速交警硬核喊話:速度提不起來就給我去慢車道!

閃電新聞
2026-02-24 15:52:12
金價,徹底沸了!

金價,徹底沸了!

天津人
2026-02-25 12:00:10
窮人唯一的武器,正在被 AI 繳械

窮人唯一的武器,正在被 AI 繳械

風向觀察
2026-02-24 17:25:51
歐冠獎金曝光 小組賽踢完拜仁就拿1億歐 倒數第一也超2000萬歐

歐冠獎金曝光 小組賽踢完拜仁就拿1億歐 倒數第一也超2000萬歐

智道足球
2026-02-25 20:05:49
宋彬彬晚年回國道歉仍不被原諒,其父宋任窮也不愿提起她,為何

宋彬彬晚年回國道歉仍不被原諒,其父宋任窮也不愿提起她,為何

春秋硯
2026-02-24 12:25:08
楊紫真的已經瘦到天賦上限了,這也太牛了…

楊紫真的已經瘦到天賦上限了,這也太牛了…

手工制作阿殲
2026-02-22 13:25:34
你火鍋里的肥牛,可能根本就沒見過牛

你火鍋里的肥牛,可能根本就沒見過牛

富貴說
2026-02-23 17:59:39
國家能源集團平莊煤業(yè)黨委書記杜善周接受審查調查

國家能源集團平莊煤業(yè)黨委書記杜善周接受審查調查

界面新聞
2026-02-25 15:33:15
門喬被殺只是開始!毒販向墨西哥政府宣戰(zhàn):這屆世界杯,別想看!

門喬被殺只是開始!毒販向墨西哥政府宣戰(zhàn):這屆世界杯,別想看!

瓜哥的動物日記
2026-02-25 15:33:17
荷蘭沒回頭路了!中國子公司宣布:正式換國內供應商,不再合作!

荷蘭沒回頭路了!中國子公司宣布:正式換國內供應商,不再合作!

生活新鮮市
2026-02-25 18:47:22
貝加爾湖事故中溺亡的7名國人,很大可能連賠償都拿不到

貝加爾湖事故中溺亡的7名國人,很大可能連賠償都拿不到

律法刑道
2026-02-25 12:16:48
特魯姆普:奧沙利文現在很容易被擊敗,我建議他沒準備好就別參賽

特魯姆普:奧沙利文現在很容易被擊敗,我建議他沒準備好就別參賽

世界體壇觀察家
2026-02-25 17:19:03
寶馬車頂載21只雞鴨鵝開800公里返程 一路被網友拍下 當事人:都是爺爺奶奶特意準備的

寶馬車頂載21只雞鴨鵝開800公里返程 一路被網友拍下 當事人:都是爺爺奶奶特意準備的

閃電新聞
2026-02-25 17:21:14
大年初三失聯(lián)的四川26歲男子已離世,被發(fā)現地方距家并不遠

大年初三失聯(lián)的四川26歲男子已離世,被發(fā)現地方距家并不遠

大象新聞
2026-02-25 16:21:04
河南省委巡視組原正廳級巡視專員高建慧被開除黨籍

河南省委巡視組原正廳級巡視專員高建慧被開除黨籍

界面新聞
2026-02-25 10:01:58
打伊朗前,美國找到中國,特朗普知道:他錯一步,中國就不戰(zhàn)而勝

打伊朗前,美國找到中國,特朗普知道:他錯一步,中國就不戰(zhàn)而勝

頭條爆料007
2026-02-24 14:44:25
馬斯克發(fā)帖暗示“辛鮑姆與販毒集團存在關聯(lián)”,墨西哥總統(tǒng):正考慮采取法律行動

馬斯克發(fā)帖暗示“辛鮑姆與販毒集團存在關聯(lián)”,墨西哥總統(tǒng):正考慮采取法律行動

環(huán)球網資訊
2026-02-25 08:58:09
“茶幾”正在退出中國家庭,學廣東人這樣做,實用性讓人大開眼界

“茶幾”正在退出中國家庭,學廣東人這樣做,實用性讓人大開眼界

室內設計師有料兒
2026-02-19 11:17:18
徹底癱瘓!兩年了為何許家印遲遲不判刑?真相比你想象的更復雜

徹底癱瘓!兩年了為何許家印遲遲不判刑?真相比你想象的更復雜

歷史偉人錄
2026-02-24 18:19:45
愛潑斯坦文件曝小李子曾食用超過70磅的“兒童肉”,這地怎么洗?

愛潑斯坦文件曝小李子曾食用超過70磅的“兒童肉”,這地怎么洗?

我心縱橫天地間
2026-02-24 22:07:27
2026-02-25 22:43:00
36氪 incentive-icons
36氪
讓一部分人先看到未來
150709文章數 2848141關注度
往期回顧 全部

科技要聞

“機器人只跳舞,沒什么用”

頭條要聞

美官員稱6個月內三國政府或被親美政權取代 中方回應

頭條要聞

美官員稱6個月內三國政府或被親美政權取代 中方回應

體育要聞

曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經要聞

上海樓市放大招,地產預期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

游戲
教育
家居
時尚
軍事航空

玩家拿首份工資預購《生化9》!功勛制作人親自回復

教育要聞

中考數學化簡題,思路邏輯很重要

家居要聞

藝居辦公 溫度與效率

“復古甜心”穿搭突然大火!春天穿時髦又減齡

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進入關懷版