具身原生時代來臨？原力靈機發(fā)布三款產(chǎn)品，大咖論道2026新機遇

2026-02-10 16:53:40　來源: 數(shù)智前線

甘肅舉報

分享至

2 月 10 日，原力靈機在北京中關村展示中心舉辦發(fā)布會，以“具身原生”為主題，一舉發(fā)布了三大核心產(chǎn)品：全球首個具身原生大模型 DM0、具身原生開發(fā)框架 Dexbotic 2.0、以及具身原生應用量產(chǎn)工作流 DFOL。

“2026 年不是具身智能的元年，而是具身原生的元年?！痹`機CEO唐文斌在現(xiàn)場表示：“過去大家在爭論用哪個大模型來改，我們直接跳出這個問題——為什么要改？為什么不從第一行代碼就為機器人而寫？”

會上，來自產(chǎn)學研領域的多位專家，其中包括清華大學電子工程系長聘教授汪玉、北京智源人工智能研究院院長王仲遠、階躍星辰創(chuàng)始人兼CEO姜大昕、星海圖創(chuàng)始人兼CEO高繼揚、原力靈機聯(lián)合創(chuàng)始人兼CEO唐文斌，還圍繞具身智能展開了一場深入的圓桌對話。

全球首個具身原生大模型 DM0發(fā)布

“今天，我們要的不僅僅是一個能在機器人上運行的大模型，而是一個從智能本質和形成機制上都根植于物理交互的新AI范式。”唐文斌表示，基于此，原力靈機在業(yè)內首次提出“具身原生”概念：具身智能從誕生之初就需立足真實世界，聚焦“復雜環(huán)境中精準完成人類任務”，并發(fā)布全球首個具身大模型 DM0。

DM0 具有兩大優(yōu)勢：一是從0開始訓練的具身原生大模型，聯(lián)合階躍星辰聯(lián)合訓練，除了深度融合多模態(tài)互聯(lián)網(wǎng)信息外，還涵蓋駕駛行為數(shù)據(jù)、機器人操作、導航等具身場景特有的多傳感數(shù)據(jù)。二是 DM0 沒有把模型限制在單一硬件或特定場景，而是在預訓練階段系統(tǒng)混合抓取、導航、全身控制三類核心任務，并覆蓋 UR、Franka、ARX、UMI、Aloha、R1-Lite、Realman、DOS-W1 等8種差異顯著的機型，獲得強跨機型的泛化與遷移能力。

據(jù)介紹，DM0 僅 2.4B 參數(shù)量，卻實現(xiàn)了業(yè)內最高的智能密度，尤其在精細操作場景中表現(xiàn)突出。不同于市面上多數(shù) VLA 模型僅有 224-384 像素的輸入分辨率，DM0 專屬 768×768 高分辨率設計，實時推理延遲僅 60ms，在工業(yè)級精細作業(yè)中表現(xiàn)優(yōu)異。DM0還首創(chuàng)廣義動作解鎖復雜任務，并構建空間推理思維鏈,把環(huán)境感知、任務理解、運動規(guī)劃與精細執(zhí)行串成閉環(huán)，使模型能夠在復雜真實場景中穩(wěn)定完成高精度操作,實現(xiàn)機器人的動作不局限在手上，拍照和發(fā)送指令一樣行。

在 RoboChallage 真機評測中，DM0 獲得單任務與多任務雙項第一，目前位居榜單全球第一。為推動產(chǎn)業(yè)協(xié)同，原力靈機宣布DM0全面開源，開發(fā)者可在消費級顯卡上便捷微調、二次開發(fā)，助力科研工作者搭建專屬應用、訓練自有模型及產(chǎn)品。

DM0之外，原力靈機還在當天發(fā)布了全球首個具身原生開發(fā)框架Dexbotic 2.0。原力靈機合伙人汪天才表示，"PyTorch讓每個研究者都能快速驗證想法，Dexbotic 2.0要做的是同樣的事——讓每個開發(fā)者都能用樂高式的方式搭建自己的具身應用。"

相比去年發(fā)布的1.0版本，Dexbotic2.0實現(xiàn)了具身原生的全面升級，具備五大核心優(yōu)勢：模塊化架構，將具身智能系統(tǒng)拆成三塊可自由組合的“樂高模塊”，V（Vision encoder）、L（LLM）、A(Action Expert)?？梢元毩⑸墶⑻鎿Q和混搭，便于快速試驗新模型，并適配不同硬件和任務場景。

同時全面支持多源數(shù)據(jù)混合訓練，用同一套訓練過程，讓模型同步學會“看懂世界”和“動手操作”；此外，Dexbotic 2.0還實現(xiàn)統(tǒng)一具身操作與導航、統(tǒng)一模仿學習與強化學習、標準化具身開發(fā)全流程，從“數(shù)據(jù)—訓練—評測—硬件”四個環(huán)節(jié)形成閉環(huán)。

目前，Dexbotic 2.0已經(jīng)服務數(shù)十家機構，包括清華、北大、普林斯頓、帝國理工等知名企業(yè)，以及騰訊、北京具身智能機器人創(chuàng)新中心等知名企業(yè)，覆蓋超千位研發(fā)者。原力靈機還宣布聯(lián)合清華大學、無問芯穹，共同宣布打造具身智能的 PyTorch，Dexbotic 2.0與強化學習框架 RLinf 達成戰(zhàn)略合作，旨在降低開發(fā)門檻，讓研究者與開發(fā)者專注于算法創(chuàng)新與場景突破。

在夯實具身原生技術底座、打造基礎設施降低開發(fā)門檻的基礎上，原力靈機進一步推動機器人走進工廠，實現(xiàn)具身規(guī)?；瘓鼍奥涞兀`機發(fā)布具身應用量產(chǎn)工作流 DFOL（Distributed Field Online Learning），核心是通過“硬件通用+模型智能”的模式，使機器人既能保持較高效率與確定性，又擁有接近人類的靈活性和適應性。

DFOL 關鍵創(chuàng)新在于數(shù)據(jù)回流機制：現(xiàn)場產(chǎn)生的訓練片段（episode）與負樣本塊（negative chunk）實時回傳云端，形成“云端訓練-現(xiàn)場執(zhí)行-數(shù)據(jù)回流-模型更新”的持續(xù)進化閉環(huán)，使系統(tǒng)能夠在真實工作環(huán)境中不斷自我改進，實現(xiàn)柔性生產(chǎn)力的持續(xù)優(yōu)化。這不僅是一次技術升級，更是創(chuàng)造真實商業(yè)價值的關鍵一躍，有利于打破非標自動化與人工的邊界，推動物理智能真正走向規(guī)模化和普惠化。

圓桌直擊：具身智能的ChatGPT 時刻還有多遠？

會上，來自產(chǎn)學研領域的多位專家圍繞具身智能展開了一場深入的圓桌對話，以下為對話實錄：

主持人：量子位聯(lián)合創(chuàng)始人兼總編輯李根

圓桌嘉賓：

清華大學電子工程系長聘教授汪玉

北京智源人工智能研究院院長王仲遠

階躍星辰創(chuàng)始人&CEO 姜大昕

星海圖創(chuàng)始人&CEO 高繼揚

原力靈機聯(lián)合創(chuàng)始人&CEO 唐文斌

李根：今天我們圓桌的設置非常有講究，我們有學、研、產(chǎn)、模型大腦、行動的身體，作為最開篇的，我還是想要請汪玉教授和仲遠院長，從寬泛的范圍，全球的范圍看看我們現(xiàn)在具身智能的模型主要有哪些主流的技術路線，現(xiàn)在處在一個什么樣的階段，我們先請汪教授來說。

王仲遠：其實現(xiàn)在整個具身智能就像剛才李老師講的，特別的火熱，但是在火熱的背后，我看到蠻多隱憂。一方面我們講硬件確實進步很快，從前年能走路，到去年能跑起來，到現(xiàn)在能跑的比較穩(wěn)。包括剛才在現(xiàn)場看到我們現(xiàn)在連干活也開始又快又穩(wěn)了，這是硬件本身的進步。但是實際上包括它連續(xù)穩(wěn)定性的工作、安全性、電池等等還有一系列的問題要解決。在模型上，雖然模型過去這一年，包括智源研究院也發(fā)布了一系列的像RoboBrain、RoboBrain-X0這樣一系列的具身模型，但我們覺得還遠沒有到具身的ChatGPT時刻，尤其當具身智能的模型和硬件真機部署之后，我們發(fā)現(xiàn)離真正我們希望的大規(guī)模應用還是有比較大的gap，模型的技術路線整體處于發(fā)展的路線，比如說大家經(jīng)常討論的有分模塊式的，比如說我們叫VLM加上控制VLA，或者純端到端的VLA，包括現(xiàn)在在研究上非?；馃岬氖澜缒Ｐ停覀円捕荚谶M行一些探索。但這些我認為都還遠沒有到我們可以非常自豪的說具身已經(jīng)得到徹底突破的階段，所以這里面很有可能我們接下來會看到的情況是在一個一個真實的場景，通過剛才原力靈機講的VLA+強化學習把一個一個場景解決好，先干起活，再真機中積累更多的數(shù)據(jù)，形成數(shù)據(jù)的閉環(huán)，最后再來解決泛化性的問題，這是對技術路線我個人的一點理解。

李根：謝謝王院長，汪玉教授有什么補充嗎？

汪玉：我做硬件的東西多一點，做算力、框架、邊緣、基礎設施，所以從我的角度來看，現(xiàn)在的機器人應用，包括剛才的視頻，雖然已經(jīng)有很大進步，但還是局限在一個工作臺上?；旧险娴陌汛笮∧X配合起來完成一個再稍微長一點的任務，稍微跨多個模態(tài)，真的跨多個模態(tài)之后，在樓里面走一走邊走邊干活，每次我們組里討論到底具身得干到什么程度，說能幫我收拾個屋子，這件事情不只是疊一個衣服了，你要去看整個屋子的狀態(tài)，琢磨應該收拾成什么樣，然后開始一點點去干，干到最后這個屋子收拾干凈了，這是一個很難的問題。當然模型肯定需要有突破，但是我也在琢磨如果完成這么復雜的任務情況下，比如說這個屋子本身會不會也要發(fā)生變化，因為我們做硬件的，有時候想在建這個屋子的時候這個樓是不是應該要適配到這個機器人未來在這個里面的生活，因為原來只適配人的生活，所以從基礎設施的層面我覺得還有很多事情可以幫助、協(xié)助機器人的大腦，能夠持續(xù)進步。

所以一方面在訓練的維度，剛才說強化學習的角度，能有更多的進步。另外一個維度，從整個這樣一個物理環(huán)境和機器交互的過程中，你怎么樣讓物理環(huán)境讓這個機器更容易感知，去解決問題。現(xiàn)在我們很多時候假設這個物理世界對機器需要跟人完全一樣，用人100%的能力感知世界完成任務，但機器并不需要干這些事情。我們也有很多幫助的設施，就跟車路協(xié)同一樣，是不是可以從這個角度再去促進機器的發(fā)展。這是從我們做硬件角度的思考。

李根：汪老師講的太有意思了，我們下一代住宅標準也要把機器人維度加進去，汪老師其實我也很好奇，因為具身智能之所以這么受關注，是因為它是相對是AI下一個前沿，對于這個前沿而言，大家都在討論說我們這一代的中國的創(chuàng)業(yè)者，可能會有一些新的機會，您剛才也談到了基礎設施層面，基建層面的，您怎么看現(xiàn)在在具身的維度里，現(xiàn)在國內和硅谷，中國和美國的優(yōu)劣勢？

汪玉：你說到我的痛處了，我好久沒有去美國了，但是看到也有很多朋友在美國跟我們講。其實美國我覺得還是在模型的這些事情上，包括數(shù)據(jù)的層面，他們更早地開始做了一些事情，然后有一些應用上的投入和突破。但是真的到落地這個層面，我還是堅信中國可以很快地跟上，特別是現(xiàn)在中國在具身這個維度已經(jīng)有比美國更強的投入了，有很多人說這是泡沫，我個人覺得好不容易有一個方向，中國投入的強度比美國大，所以這個事情是不是好事？我覺得可能是好事，因為在中國整個產(chǎn)業(yè)鏈、供應鏈完整的，能夠把應用開放的再多一點，如果在模型和應用層面的投入再加大，是有可能能夠比美國在具身這個層面有更快的突破。這是我個人從宏觀的角度來看的一個問題。

第二，中國現(xiàn)在我覺得學術界和產(chǎn)業(yè)界的聯(lián)動慢慢變多了，包括我自己坐在這里，其實是產(chǎn)業(yè)界碰到的問題最后回頭會跟仲遠研究院，包括拓撲研究院跟北大、清華以及一批老師們能夠形成聯(lián)動，而不是老師們坐在屋子里面看paper去做事情，所以這樣一條聯(lián)動線，我個人覺得和美國慢慢一致了，就是產(chǎn)學研真的在一起去推動具身這個方向。

李根：您講到投入和關注度確實有直接的展現(xiàn)，前兩天美國的超級碗被譽為美國的春晚，它上面全是LLM，但是我們國家馬上到春晚基本都是機器人，仲遠院長對這個話題有沒有想要表達的？因為我們智源是一個國際的視野。

王仲遠：我分享兩個小故事吧，也是聽到的小故事。美國那邊一方面做具身智能，其實他們的創(chuàng)業(yè)團隊經(jīng)常投資人會看這個團隊里面有沒有華人，所以有華人的話才能確保他們搞的具身智能有可能成功，所以這是一個投資人告訴我的小故事。

另外一個小故事，我們自己在做模型，包括具身智能迭代的時候，一個很痛苦的點是硬件也經(jīng)常損壞，損壞了之后，我們經(jīng)常一修就得兩個禮拜，一來一回，但是我們聽說美國那邊他們的機器人硬件一壞得有三個月，瞬間我們的心態(tài)就平衡很多。所以一方面可以看到中國確實在制造業(yè)上的優(yōu)勢，這是我們做具身智能方面的一個優(yōu)勢。另外一塊證明了整個行業(yè)依然處在早期，大家都處在快速發(fā)展和迭代的階段，所以遠沒有到誰優(yōu)誰劣、誰領先、誰落后，本質上大家還在不斷推動整個行業(yè)和產(chǎn)業(yè)的發(fā)展。

李根：您剛才講的AI要看“含華量”，更進一步做模型或者做具身還得看“含華量。很重要的里程碑和很重要檢驗的時刻叫ChatGPT時刻，它帶來了我們LLM，當時大家因為看見而相信的這么一個瞬間。

我接下來的問題特別想探討我們具身智能的ChatGPT時刻是一個什么樣的時刻，它什么時候到來，我們請階躍星辰的姜大昕總，對于ChatGPT時刻，您應該有更深的感悟和體悟？

姜大昕：對，ChatGPT時刻確實影響很深刻，怎么把它定義成一個ChatGPT時刻？我覺得一個標志性的東西就是零樣本，零樣本地去做泛化，給它任何一條指令，即使以前沒有見過，它可以回答出問題，這是和原來的自然語言處理是完全不一樣的，這是為什么ChatGPT時刻大家覺得非常興奮。

如果對比自然語言和具身，我覺得具身智能的ChatGPT時刻會更加困難一些，我覺得從兩個角度來看，第一從問題的定義本身，具身的泛化我覺得可以從不同維度去定義，一個是場景的泛化，它是封閉場景、半封閉場景還是全開放場景。

第二個維度是從任務，導航任務、抓取任務還是做一個家務這樣不同的任務泛化。

第三個是目標的泛化，即使是一個簡單的抓取動作，你抓取的對象是鋼鐵、柔性還是別的，所以這個泛化的維度不一樣，導致我們究竟在哪個維度上定義ChatGPT時刻，這件事情不同的人會有不同的看法，所以這是我覺得第一次還沒有形成共識的地方。

第二個，我覺得具身智能從它的技術角度來看，牽扯到計算機視覺，我原來是做自然語言處理的，自然語言處理開始深度學習剛起來的時候是一直被視覺打壓的，因為像深度學習的網(wǎng)絡都是從視覺開始，所以我們搞NLP的人是很憋屈的。直到到了17年出了Transformer以后，我們終于翻身了，Transformer是來自NLP，現(xiàn)在一統(tǒng)江湖，所有的模態(tài)用的都是Transformer這樣一個架構。

但是你會看到Transformer出來以后，NLP一路狂奔，解決了一個自監(jiān)督的問題，所以能夠海量做預訓練，所以它能夠把互聯(lián)網(wǎng)的知識做一個壓縮，形成一個自己內部的視覺，然后進一步又經(jīng)過RL的范式，現(xiàn)在可以做推理，甚至做非常復雜任務，編碼的任務、真實用戶環(huán)境當中做一些任務Agent的任務，所以它已經(jīng)走過了很長的路。

返過頭我們再看視覺，覺得一些非常根本性的問題，大家沒有形成一個共識，比如這個視覺究竟怎么編碼，怎么做自監(jiān)督的預訓練，比如說在3D空間里面怎么做推理，我覺得這些事情可能未來還是需要一些Breakroom（音）然后才能夠到ChatGPT時刻。

李根：您提了一個非常關鍵的問題，對于具身的ChatGPT時刻定義是很關鍵的，很重要的，我想問一下做具體具身智能的兩位嘉賓，先問高繼揚，怎么定義具身智能的ChatGPT時刻，咱們不說比文斌他們先到，比美國的同行先到，你是怎么想的？

高繼揚：我覺得這個問題特別值得討論，首先我覺得我們可能有一個更底層的問題，就是具身智能和語言模型這兩個產(chǎn)業(yè)，從產(chǎn)業(yè)層面的區(qū)別是什么。我覺得這兩個還挺不一樣的，但是底層都是因為AI技術的創(chuàng)新突破，使得這個產(chǎn)業(yè)從無到有。但是具體而言到這個產(chǎn)業(yè)里面去看，我們發(fā)現(xiàn)具身智能從技術的產(chǎn)生到產(chǎn)品的規(guī)劃，再到商業(yè)落地，它鏈條更長，涉及到上下游的零部件供應鏈，涉及到數(shù)據(jù)，這個數(shù)據(jù)之前也沒有，然后才是算法，算法完了之后發(fā)現(xiàn)渠道和終端跟大語言模型不一樣，大語言模型的終端是手機、電腦，渠道是社交媒體的傳播。

所以你會發(fā)現(xiàn)在整個產(chǎn)業(yè)鏈條里面，大語言模型最稀缺的哪一環(huán)，也是唯一缺的這一環(huán)就是模型產(chǎn)品，所以模型即產(chǎn)品，模型好了，整個商業(yè)化、產(chǎn)業(yè)化的鏈條馬上都具備了。

回頭我們看具身智能，在剛才說的這幾環(huán)里面，供應鏈、零部件其實很不成熟，在這波浪潮來之前，參與到這個行業(yè)里面的很多供應商都是規(guī)模很小的狀態(tài)，自身的產(chǎn)品可靠性、一致性問題都很多。當然我覺得這不是他們的問題，是整個產(chǎn)業(yè)的問題。然后沒有整機就沒有好的數(shù)據(jù)，剛才范浩強和天才反復談到真機數(shù)據(jù)這件事。

當然又涉及到渠道，渠道是線下的問題，終端就是機器人本身，你會發(fā)現(xiàn)在這幾個最終對于產(chǎn)業(yè)能夠成功的要素里面，算法很重要，但是算法似乎是傳播周期更短的，因為整機供應鏈傳播周期是12到18個月，你要建立客戶渠道的周期大概6到12個月，做數(shù)據(jù)的周期更長，你得有了整機之后才做。

你會發(fā)現(xiàn)算法我們有很好的開源社區(qū)，整個CV界包括NLP、語言模型，有特別好的分享精神，包括原力靈機和我們在內，做了很多開源的工作。會發(fā)現(xiàn)在整個產(chǎn)業(yè)鏈條里面，算法這一環(huán)的傳播周期是較短的，第一梯隊的公司是2到3個月。

回到剛才的問題，對于具身智能的ChatGPT時刻，剛才姜大昕總提到ChatGPT時刻定義為零樣本泛化，如果從業(yè)務產(chǎn)線的角度來說，ChatGPT時刻是我們真的看到了它在某些限定范圍內具備商業(yè)價值的這么一個時刻，我們發(fā)現(xiàn)它要具備的要素更多。

但是所有這些要素我們看到，我特別同意范浩強剛才PPT里一點，2026年我覺得會是發(fā)生變化的一年，因為整機和供應鏈經(jīng)過過去兩年的準備，發(fā)生了很多變化。數(shù)據(jù)我們也有很多，在模型、算法層面、后訓練上的強化學習，預訓練上的VLA以及最近的World Model引入，都給我們整個預訓練的泛化性和后訓練的成功率提了很多新的變化。

所以我覺得今年是應用要閉環(huán)的一年，去年25年上半年，我們明顯看到智能是一個起步，25年下半年智能明顯加速，關鍵指標我們看開源社區(qū)里的開源模型數(shù)量。26年是智能爆發(fā)，爆發(fā)的結果一定在某些應用領域形成應用的外溢，而且同時配合了供應鏈和整機。尤其是中國，顯著比美國強得多，周期剛才提到了快5到10倍，成本低5到10倍，所以我覺得今年會是發(fā)生變化的一年。

李根：文斌怎么看具身的ChatGPT這個問題？

唐文斌：我覺得姜大昕講的ChatGPT時刻要求蠻高的，這已經(jīng)是AGI時刻了。今天我們想想ChatGPT給我們帶來最大的震撼是什么，我們曾經(jīng)把它當成一個玩具，但是在那一刻，我們認為它是一個工具，它變成一個可用的東西。所以我心中ChatGPT時刻的定義，是它變得有用、可信賴，還是回到我們公司的使命想去做的事情。

我們對有用的定義非常簡單，它可以在限定場景，但它要真正閉環(huán)解決所有的問題，要能夠在ROI上面算明白，算明白才能使得它能夠被批量化應用，滿足這樣一個有用的定義情況下，我們真正把一個玩具，把RoboChallenge的項目變成了一個工具，這個時候我認為就是這個ChatGPT的時刻。而且我覺得包括現(xiàn)在模型的能力進展確實非常大，所以我覺得這并不是很遠。

當然ChatGPT時刻，還有DeepSeek時刻，還有一點是說它什么時候能夠出圈，今天在倉庫、工廠里打螺絲，可能打的我們閉環(huán)了之后，但我覺得老百姓并不能感知到，也許DeepSeek時刻可能是說全民都有感覺，這個產(chǎn)品來到我們的身邊，今天如何能夠從工業(yè)物流走向商用、走向TOC，這個時刻還要再晚一些，今天我們對它的錯誤容忍度體驗要求更多，我覺得也不會才遠。

李根：你們自己經(jīng)歷了1.0的洗禮，在追逐具身的過程當中，你們第一槍不是放出的一個模型，剛才大家講到模型、算法很重要，你們一開始先把RoboChallenge這么一個事放出來了，我不知道你是怎么想的，或者你們怎么思考這個問題的？

唐文斌：模型是一個產(chǎn)物，是一個結果，模型、算法、架構、數(shù)據(jù)都在變化我們很重要的一點，我們真的需要變成一種組織能力，能夠快速形成我們的模型，所以我們今天整個的技術架構是非常缺失的，不管是數(shù)據(jù)，包括仲遠院長講到一個好用的硬件，我們今天從訓練推理、整個鏈條上缺的東西非常多，評測也缺。

比如今天整個具身智能行業(yè)，我們所有做算法的人都知道，如果你不知道怎么評測它，你肯定沒有辦法讓它進步。我們今天整個行業(yè)里面的評測標準是什么呢？似乎沒有一個好的標準，今天可能有LIBERO、SimplerEnv、RoboTwin規(guī)模很小，很多Benchmark都已經(jīng)被差不多刷爆了，99點幾分是代表當前真實的能力嗎？顯然不是，所以我們覺得非常需要來自物理世界、基于物理世界真實的、大規(guī)模的、真機的評測，才能夠引導我們能夠更好向前。我們內部花了很多力氣Dexbotic上整個基礎設施的建設，我們希望把一些東西放出來對行業(yè)做一些貢獻，也希望行業(yè)里的更多人跟我們合作。今天像RoboChallenge不是我們一家在做，所以我們作為一個發(fā)起方，仲遠院長、高繼揚這邊，包括清華王老師這邊，我們都一起在打造，希望能夠有一個Benchmark能夠指引大家如何向前。

李根：因為我們具身的ChatGPT時刻不知道，我們更多的AI之所以被看到的Physical AI Next時刻，就是要依賴RoboChallenge這樣一個評測的標準，我們今天在座的嘉賓也是我們RoboChallenge的合作方，你們是第一批加入的，捐贈了硬件，我不知道你的思考是什么？

高繼揚：我特別同意文斌師兄剛才談到的，整個行業(yè)，我覺得之前做具身智能這件事的，做機器人AI Robot的，學術界為主，學術界看這個問題的視角，我覺得是受了很多限制，資源上各方面都受了很多限制，所以用LIBERO各種各樣仿真的東西去做一些評測，但是真正面向應用的、落地的，一定是需要真機的。

我覺得今天我們去看GTP或者語言模型整個發(fā)展，我覺得完全是商業(yè)需求拉動的，三大垂類 Agentic、Coding、ChatBot，我覺得這三個垂類有巨量的需求在拉動。

我們回頭看具身智能，未來也會形成垂類的概念，垂類來自真實需求一定是來自真實需求，這些真實需求需要落到真機的評測里面，才能夠給我們做研發(fā)的企業(yè)，還有包括未來有需求方，大家有一個比較公允迭代的環(huán)境。很多時候AI還是實驗科學，它有一定的原理、數(shù)學做支撐，但最終很多事還是要試出來，試這個東西就要有反饋，反饋就要有評測。

我們看決定一個公司，一個組織，包括AI和其他的，很重要的一個指標就是它的迭代效率，所以我們想盡一切辦法提高這個迭代效率，反饋的質量，這是為什么當時師兄提到說想做一個RoboChallenge，我是特別認可、特別支持。因為我們在公司內部有自己的一套Benchmark，大家可能10個場景不斷去迭代，我覺得我們也應該能夠有一套整個行業(yè)，整個業(yè)界，都能夠普視，甚至可以讓學界參與進來，能夠更好把產(chǎn)業(yè)界和學術界聯(lián)動起來的這么一個Benchmark。

李根：確實RoboChallenge我想以后一定會被載入具身中國或者全球的發(fā)展史冊，但是一開始出現(xiàn)的形式稍微有點怪，兩個特別好的學生，出了一道測試題，自己去考試這樣。我們也請汪老師評價一下學生的這種行為，您是怎么看的？

汪玉：在深層次一點，我覺得未來學習的模式可能會變，不一定是老師教的，可能學生就是自己學的，這也是我們最近跟學校里面的同事在討論，未來大學的發(fā)展可能真的不是老師教課，老師可能就是來考個試，但是考題的靈感可以來自于學生們，這個沒有任何問題。

回過頭說，其實現(xiàn)在北京做了一個很好的事情，就是做亦莊的機器人比賽，我們有兩會一賽，有馬拉松、機器人大會和運動會。但是原來做的更多偏本體能力，現(xiàn)在慢慢再加一些跟智能相關的事情。所以如果是這種大規(guī)模的比賽一定能檢驗，而且我們可以在里面加一些賽道去評測，包括仲遠這邊也在往這個方向去努力。

但是這樣的方式往往是低頻的，每年可能就那么一次、兩次，但是能不能做一個平時可以隨時做的，隨時去測，背后有一波人幫你，把相對公允的這樣一套環(huán)境，把一些試驗場景在一個地方用真機的形態(tài)，這個我還是非常喜歡的一種方式。然后把這種高頻的、線上的，或者說不管在什么地方都可以做這件事情，成為現(xiàn)實，我覺得這個能力還是非常值得繼續(xù)推進的。

從形態(tài)上來說，我希望未來，我跟文斌也在商量，未來這個事情應該還是屬于（科賓飛）會更好一點，因為公司嘛，每一個公司都有自己商業(yè)上的追求，但是我相信現(xiàn)在這兩位“學生”，或者已經(jīng)不止兩位了，有十幾位大家一起去共建這樣一個RoboChallenge的平臺，這個平臺每個人內心都是公益的邏輯，在這樣一個環(huán)境里面去競賽。

什么時候能夠以一個更加公益的形態(tài)呈現(xiàn)，可能也是我們可以繼續(xù)商議的。最開始公益組織的建設就需要很多時間，大家發(fā)起，發(fā)起以后要把這個東西落到某個事情上面，我覺得可能是未來做的一件事情。但是從發(fā)起到高頻次真實世界的評測，到大家一起貢獻所有不同的場景，包括產(chǎn)業(yè)界、做機器人的、學術界一起定義這些場景，再往后怎么做一個全開源的生態(tài)，從底層的，今天發(fā)布了底層的開源框架，有開源硬件，我們也有開源的數(shù)據(jù)，再有開源的應用和評測，這一套起來以后對于整個行業(yè)是一個巨大的推動，所以我覺得這事還是非常值得去繼續(xù)努力的。

李根：這也是推動我們自己更快抵達具身ChatGPT時刻一個很重要的基礎工作。

唐文斌：我想插個話，確實我們在探討這樣一個事情，因為我們在這次DM0模型發(fā)布的時候，我們自己內部有一個小糾結，就說RoboChallenge是我們和hugginface一起發(fā)布的，雖然有很多同行的參與，但畢竟我們還是發(fā)起方，我們自己到底發(fā)的模型應不應該提交，到底應不應該放這個成績，我們內部糾結了一陣子，展開了很激烈的討論，有不同的意見。

汪玉：OpenAI自己也有，它自己也發(fā)，這個我覺得不矛盾。

唐文斌：因為OpenAI也是這么干的，我們自己心里也淡然了。這次我們對團隊提的要求開源一定要做的非常徹底，我們要保證大家下載了我們的code、DM0、Dexbotic，直接去RoboChallenge提交就能拿到現(xiàn)在的分，這是我們在這個事情上這是一個很公開的事情，大家大大方方做就好了。

李根：最后，面向26年，在具身智能這個領域，您最想期待看到的一個非常具體的事情，它解決的任務，您期待是什么？

汪玉：還是從電子系角度來說，我真的希望能形成一套云邊端配合的體系，能夠改變這個樓的裝修，以及以后所有建筑和基礎設施的能力，去構建面向機器和人共生環(huán)境的基礎設施，這套方案我覺得今年可能有一個雛形出來，大家再一塊去討論。

李根：仲遠院長。

王仲遠：這個問題非常好，因為強調的是最期待的，雖然我對硬件、模型都有很多的期待，但可能我對26年最期待的反而是在標準上，因為我覺得現(xiàn)在不管是硬件的標準、數(shù)據(jù)的標準，包括模型輸出的標準，整個生態(tài)非常碎片化，所以我蠻期待26年在標準上能夠有一些突破，它有可能極大促進整個產(chǎn)業(yè)的發(fā)展。

李根：有沒有具體實現(xiàn)的目標？

王仲遠：因為我們智源一起參與了RoboChallenge，我印象很深，當時和文斌交流的時候也說到數(shù)據(jù)大家各采各的數(shù)據(jù)，連格式、代碼很多都是不一致的，所以這就直接導致了很多時候模型也很難被重復驗證，坦白說我們嘗試下載和驗證近期國內外發(fā)的很多的模型，最后我們部署起來都很挺費勁的，所以我很期待我們的DM0很快下載，也試一試，這里面有很多東西就是因為大家的標準沒有統(tǒng)一。

在26年的時候，智源因為也在人形和具身的標委會里，很大概率我們會牽頭做具身智能的標準，當然整個人形機器人標委會會有其他的一些事情，但我們想具身智能這塊集合大家的共識，一起定義具身智能模型上輸出的標準，希望能夠為整個產(chǎn)業(yè)做點貢獻。

李根：有沒有期待？

姜大昕：剛才聽了文斌的分享很受啟發(fā)，如果真的在任何場景、任何任務、任何目標上能夠實現(xiàn)零樣本的泛化，那就是AGI時刻的。26年我最期待原力靈機和階躍星辰能夠合作，實現(xiàn)文斌所說的ChatGPT時刻，能用、可靠的完成任務。文斌如果覺得這個任務沒有足夠的挑戰(zhàn)，上半年實現(xiàn)ChatGPT時刻，下半年實現(xiàn)DeepSeek時刻。

李根：您那個OKR定的非常具體，高繼揚有沒有期待具體的事情？

高繼揚：我覺得還是期待26年真的能夠在生產(chǎn)力端看到一條明確的增長路徑，然后在兩年之內能夠有單一場景，比如說上萬臺這樣的出貨，我覺得這是整個行業(yè)都迫切需要的。

李根：也定了一個非常具體的目標。

唐文斌：我的目標比高繼揚小一點，我覺得一個場景，一臺千持續(xù)運行，這里面我想說一下持續(xù)運行是最關鍵的事情，而且不要場景很多，不是靠加法做起來的，一個場景里面一千臺持續(xù)運行，某種程度上就是我們今天已經(jīng)走通了一個場景的規(guī)模化的閉環(huán)，我覺得26年有機會。

李根：謝謝文斌。今天時間的關系，我們可能還有很多的問題沒有辦法繼續(xù)討論。我覺得可以達成一個小的總結，首先在具身的發(fā)展過程中雖然還處在初期，但是我們跟美國的差距并不大，美國的腦子可能稍微好一些，現(xiàn)在中國的身體稍微強壯一些，像文斌說的，我們以前體育的底子好一些，供應鏈各方面會多一些。另外一個方面，我們在場景的豐富性上，以及量產(chǎn)、速度上會更有優(yōu)勢一點，所以我們也是有機會能夠更快率先抵達具身智能的ChatGPT時刻，或者我們等到具身智能實現(xiàn)這個時刻的時候，或者我們用星海圖時刻、原力靈機時刻，如果沒有來的以后，我們再加進去，期待這個時刻來自我們中國公司。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.