網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

具身智能的戰(zhàn)國(guó)時(shí)代，螞蟻怎么破局？

2026-02-02 12:11:23　來(lái)源: 光錐智能

北京舉報(bào)

分享至

文｜白鴿

編｜王一粟

繼通用大模型之后，螞蟻又將“觸手”延伸到世界模型的賽道。

1月30日，螞蟻集團(tuán)旗下靈波科技發(fā)布并開(kāi)源了全球首個(gè)基于自回歸范式的“視頻-動(dòng)作”世界模型（Video-Action World Model）LingBot-VA。

而在此之前，螞蟻靈波科技已經(jīng)連續(xù)3天發(fā)布3款開(kāi)源大模型，包括高精度空間感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World。

可以看到，基于這四款大模型，螞蟻靈波科技的技術(shù)已經(jīng)覆蓋了具身智能所需要的空間感知、通用操作、世界建模與閉環(huán)控制四大能力。

顯然，這并非是簡(jiǎn)單的一次技術(shù)發(fā)布，而是一次系統(tǒng)性、戰(zhàn)略性的技術(shù)布局亮相。

事實(shí)上，此前螞蟻在具身智能賽道的布局，更多是以投資為主。但自2025年8月螞蟻靈波科技正式成立以來(lái)，短短數(shù)月時(shí)間，就發(fā)布了這一套完整的技術(shù)體系，螞蟻在具身智能賽道的動(dòng)作如此之迅速，已經(jīng)完全超出了行業(yè)對(duì)其預(yù)期。

毫無(wú)疑問(wèn)，具身智能是當(dāng)前AI市場(chǎng)中最火熱的場(chǎng)景之一。今年CES之后，物理AI更成為行業(yè)主流趨勢(shì)，無(wú)數(shù)玩家爭(zhēng)相布局。

但是，盡管行業(yè)火熱，現(xiàn)如今卻仍處于早期階段，行業(yè)技術(shù)路徑尚未收斂，并未形成統(tǒng)一的技術(shù)范式，VLA/世界模型、仿真/真實(shí)數(shù)據(jù)之爭(zhēng)仍然不絕于耳。

與此同時(shí)，國(guó)內(nèi)具身智能產(chǎn)業(yè)鏈中，更多企業(yè)是聚焦在本體制造或垂直場(chǎng)景落地，軟件棧更多依賴外部AI公司，極少有企業(yè)系統(tǒng)性投入底層通用模型研發(fā)。

“螞蟻靈波科技，是一個(gè)做具身智能底座的公司，所以我們更希望能夠看到基座模型能力的提升?！蔽浵侅`波CEO朱興如此說(shuō)道。

在沒(méi)有競(jìng)爭(zhēng)的地方競(jìng)爭(zhēng)，是后來(lái)者能夠進(jìn)行突圍的關(guān)鍵因素之一。

避開(kāi)宇樹(shù)、銀河通用等明星企業(yè)的優(yōu)勢(shì)賽道，螞蟻靈波科技這種更專注于做底層基礎(chǔ)模型能力的打法，在全球具身智能尚未形成統(tǒng)一技術(shù)范式的當(dāng)下，或許正是那個(gè)“定義基座”的關(guān)鍵時(shí)刻。

那么，螞蟻靈波科技這套技術(shù)體系到底能夠達(dá)到業(yè)內(nèi)什么水準(zhǔn)？以及在仍處于“戰(zhàn)國(guó)時(shí)代”的具身智能賽道中，螞蟻靈波科技又能夠怎么實(shí)現(xiàn)差異化突圍？

機(jī)器人聰明的第一步：眼、手、腦要協(xié)同

具身智能的本質(zhì)，是讓機(jī)器像人類一樣進(jìn)行“感知-決策-行動(dòng)”這一套完成閉環(huán)的動(dòng)作能力。

這其中，實(shí)現(xiàn)這一切的起點(diǎn)，是“看見(jiàn)”的能力。

然而，在家庭、工廠、倉(cāng)儲(chǔ)等真實(shí)復(fù)雜場(chǎng)景中，透明物體、高反光表面、強(qiáng)逆光環(huán)境等始終是機(jī)器人視覺(jué)系統(tǒng)的“噩夢(mèng)”。

原因在于，傳統(tǒng)雙目或結(jié)構(gòu)光深度相機(jī)在這些場(chǎng)景下往往失效，導(dǎo)致深度圖缺失、噪聲嚴(yán)重，進(jìn)而直接影響抓取、避障等下游任務(wù)的可靠性。

此次螞蟻靈波科技首發(fā)高精度空間感知模型 LingBot-Depth ，就是為了解決機(jī)器人 “ 看見(jiàn) ” 的問(wèn)題。

那它是怎么解決這個(gè)問(wèn)題的？

核心在于“掩碼深度建?！保∕asked Depth Modeling，MDM）技術(shù)。

具身智能的“看”，是建立在基于傳感器設(shè)備收集外部環(huán)境信息，所構(gòu)建的三維深度圖。

而三維深度圖的本質(zhì)，是給現(xiàn)實(shí)世界每個(gè)像素標(biāo)注距離的“全視角距離地圖”。

但實(shí)際采集時(shí)，反光物體（如玻璃、鏡子）測(cè)不出深度、遮擋角落數(shù)據(jù)空白、暗光環(huán)境數(shù)值出錯(cuò)等問(wèn)題，會(huì)形成被稱為“掩碼區(qū)”的缺失或錯(cuò)誤區(qū)域，就像一張好好的畫被摳了好幾個(gè)洞。

螞蟻靈波科技的這套技術(shù)，充當(dāng)?shù)木褪恰癆I工匠”的角色。

其通過(guò)分析同一視角普通彩色（RGB）圖的視覺(jué)線索與場(chǎng)景常識(shí)，如圖像中的紋理、輪廓及環(huán)境上下文信息等，對(duì)這些“破洞”進(jìn)行像素級(jí)精準(zhǔn)補(bǔ)全和修正，從而輸出完整、致密、邊緣更清晰的三維深度圖。

基于此，可以讓機(jī)器人從基礎(chǔ)的看得見(jiàn)，能夠向看得更清、更準(zhǔn)突破。

目前，該模型的性能已通過(guò)權(quán)威驗(yàn)證：

在NYUv2、ETH3D等基準(zhǔn)測(cè)試中，相對(duì)誤差（REL）較PromptDA、PriorDA等主流方法降低超70%，稀疏SfM任務(wù)中RMSE誤差下降約47%，樹(shù)立了新的精度標(biāo)桿。

更關(guān)鍵的是，它并非單純算法創(chuàng)新，而是與硬件深度協(xié)同的成果，是基于奧比中光Gemini 330系列雙目3D相機(jī)的芯片級(jí)原始數(shù)據(jù)訓(xùn)練驗(yàn)證。

實(shí)測(cè)中，不更換硬件的前提下，該相機(jī)在透明玻璃、強(qiáng)逆光等極端場(chǎng)景下輸出的深度圖，完整性與邊緣銳利度均優(yōu)于Stereolabs ZED等國(guó)際領(lǐng)先產(chǎn)品。

而這一突破的意義，遠(yuǎn)超“看得更清”。

畢竟，當(dāng)前行業(yè)多數(shù)方案仍依賴昂貴的激光雷達(dá)或定制結(jié)構(gòu)光模組，成本動(dòng)輒數(shù)千美元。

而LingBot-Depth讓百美元級(jí)雙目相機(jī)具備工業(yè)級(jí)魯棒性，直接打通了服務(wù)機(jī)器人、物流分揀、家庭助理等大規(guī)模商用場(chǎng)景的成本瓶頸。

如果說(shuō)LingBot-Depth解決了“眼睛”的問(wèn)題，那么LingBot-VLA和LingBot-World則分別構(gòu)建了機(jī)器人的“手腦”與“內(nèi)心世界”。

LingBot-VLA是一款面向真機(jī)通用操作的具身智能基座模型，核心優(yōu)勢(shì)在于極強(qiáng)的泛化能力。

業(yè)界皆知，長(zhǎng)期以來(lái)，由于本體差異、任務(wù)差異、環(huán)境差異等，具身智能模型落地面臨嚴(yán)重的泛化性挑戰(zhàn)。開(kāi)發(fā)者往往需要針對(duì)不同硬件和不同任務(wù)重復(fù)采集大量數(shù)據(jù)進(jìn)行后訓(xùn)練，直接抬高了落地成本，也使行業(yè)難以形成可規(guī)?；瘡?fù)制的交付路徑。

那么，LingBot-VLA解決這一問(wèn)題，最關(guān)鍵的一點(diǎn)，就在于全部采用真實(shí)世界的機(jī)器人操作數(shù)據(jù)，而不是使用仿真數(shù)據(jù)。

其數(shù)據(jù)規(guī)模從最初的3000小時(shí)，一路擴(kuò)展到20000小時(shí)，全部源自真實(shí)物理世界。

更重要的一點(diǎn)，這些數(shù)據(jù)不僅僅是來(lái)源于單一形態(tài)的硬件機(jī)器人，而是使用了9種不同品牌和構(gòu)型的雙臂機(jī)器人，包括AgileX、Agibot G1、Galaxea R1Pro/R1Lite、Realman Rs-02、Leju Kuavo 4 Pro、青龍機(jī)器人、ARX Lift2以及Bimanual Franka。

據(jù)公開(kāi)資料顯示，螞蟻靈波科技的團(tuán)隊(duì)自2023年開(kāi)始，就與星海圖、松靈機(jī)器人等展開(kāi)合作，在真實(shí)實(shí)驗(yàn)室里，通過(guò)遙控操作的方式，讓機(jī)器人完成成千上萬(wàn)次抓取、放置、組裝等動(dòng)作。

這就使其具備了很強(qiáng)的泛化性，能夠讓同一個(gè)“大腦”可以無(wú)縫遷移至不同構(gòu)型的機(jī)器人，并在任務(wù)變化、環(huán)境變化時(shí)保持可用的成功率與魯棒性。

在上海交通大學(xué)開(kāi)源的具身評(píng)測(cè)基準(zhǔn)GM-100（包含100項(xiàng)真實(shí)操作任務(wù)）測(cè)試中，LingBot-VLA在3個(gè)不同的真實(shí)機(jī)器人平臺(tái)上，跨本體泛化平均成功率相較于Pi0.5的13.0%提升至15.7%（w/o Depth）。

另外，在引入深度信息（w/Depth）后，隨著空間感知能力的增強(qiáng)，其平均成功率進(jìn)一步攀升至17.3%，刷新了真機(jī)評(píng)測(cè)的成功率紀(jì)錄，驗(yàn)證了其在真實(shí)場(chǎng)景中的性能優(yōu)勢(shì)。

在RoboTwin 2.0仿真基準(zhǔn)（包含50項(xiàng)任務(wù)）評(píng)測(cè)中，面對(duì)高強(qiáng)度的環(huán)境隨機(jī)化干擾（如光照、雜物、高度擾動(dòng)），LingBot-VLA憑借可學(xué)習(xí)查詢對(duì)齊機(jī)制，高度融合深度信息，操作成功率比Pi0.5提升了9.92%，實(shí)現(xiàn)了從虛擬仿真到真實(shí)落地的全方位性能領(lǐng)跑。

值得一提的是，與高精度空間感知模型LingBot-Depth相互配合，LingBot-VLA還能獲得更高質(zhì)量的深度信息表征，通過(guò)“視力”的升級(jí)，真正做到“看得更清楚、做的更明白”。

但想要具身智能擁有更高階的能力，就需要“預(yù)測(cè)未來(lái)”。

LingBot-World是一個(gè)開(kāi)源的、支持長(zhǎng)時(shí)序物理一致推演的世界模型，也是一個(gè)專為交互式世界模型設(shè)計(jì)的開(kāi)源框架。

其主要有三個(gè)核心優(yōu)勢(shì)：

能穩(wěn)定生成近10分鐘的連續(xù)畫面，就算鏡頭移開(kāi)再回來(lái)，里面的物體也不會(huì)變形或消失；

每秒能生成16幀畫面，操作后1秒內(nèi)就能看到反饋，還能響應(yīng)鍵盤鼠標(biāo)操作和文字指令（比如調(diào)天氣、改畫風(fēng)）；

通過(guò)混合多種數(shù)據(jù)訓(xùn)練，不用額外訓(xùn)練就能適配新場(chǎng)景，比如上傳一張街景照就能生成可交互的視頻。

這三個(gè)核心優(yōu)勢(shì)，也對(duì)應(yīng)了世界模型所必須具備的核心能力，長(zhǎng)時(shí)記憶能力、風(fēng)格泛化性以及動(dòng)作代理能力，目前全球只有谷歌DeepMind的Genie3具備類似能力。

值得一提的是，繼螞蟻靈波開(kāi)源了Lingbot-world世界模型后，谷歌也宣布開(kāi)放了體驗(yàn)平臺(tái)，世界模型的開(kāi)源開(kāi)放的窗口被打開(kāi)了！

可以看到，Genie3開(kāi)放體驗(yàn)，讓全球?qū)κ澜缒Ｐ偷年P(guān)注進(jìn)一步加速，但相比較來(lái)說(shuō)，螞蟻靈波已經(jīng)把世界模型用到具身智能上能直接操作機(jī)器人了。

畢竟，螞蟻靈波科技不僅開(kāi)源世界模型，還將其與VLA深度打通：“VLA負(fù)責(zé)輸出動(dòng)作，世界模型則在執(zhí)行前進(jìn)行成千上萬(wàn)次推演，評(píng)估不同方案的物理后果，最終選出最優(yōu)路徑?！?/p>

這種“先思考、再行動(dòng)”的架構(gòu)，正是人類智能的核心特征之一。

它解決了當(dāng)前具身智能普遍存在的“短視操作”問(wèn)題，即只能完成幾步簡(jiǎn)單動(dòng)作，而無(wú)法規(guī)劃復(fù)雜流程（如廚房做飯、工廠裝配）。

綜合來(lái)看，螞蟻靈波科技這三款大模型產(chǎn)品都并不是獨(dú)立存在的產(chǎn)品，而是能夠相互結(jié)合補(bǔ)充，成為一套體系化的具身智能技術(shù)底座。

同時(shí)，盡管螞蟻靈波科技只做具身智能的大腦，但他們的這個(gè)大腦并不是空中樓閣，而是基于軟硬件一體化，以及真實(shí)場(chǎng)景數(shù)據(jù)所打磨出來(lái)的，能夠真正解決具身智能的泛化能力弱等問(wèn)題。

更為重要的一點(diǎn)，是性價(jià)比，成本低，效果好，這使其能夠真正應(yīng)用到具體場(chǎng)景當(dāng)中。

具身智能終極進(jìn)化，讓機(jī)器人學(xué)會(huì)“自主想象”

在一些簡(jiǎn)單的場(chǎng)景中，通過(guò)眼、手、腦的協(xié)同，機(jī)器人能夠做的任務(wù)有很多了。但在復(fù)雜任務(wù)中，機(jī)器人做任務(wù)的成功率卻并不高。

舉個(gè)例子，煎牛排并不是只需要做把牛排放進(jìn)去煎的動(dòng)作，更要能夠自主判斷這個(gè)牛排是三分熟、五分熟還是全熟，這對(duì)于現(xiàn)階段的具身智能模型來(lái)說(shuō)，是一個(gè)極大的挑戰(zhàn)。

而判斷牛排的熟度，所需要考慮就不僅是怎么做，更多還是要具有邏輯思考和判斷因果關(guān)系能力。

那么，怎么才能讓具身智能懂因果關(guān)系？

這就是此次螞蟻靈波科技四連發(fā)的最后一款重磅模型所要解決的問(wèn)題。

LingBot-VA，是基于自回歸范式的“視頻-動(dòng)作”世界模型（Video-Action World Model），它不僅能生成視頻，還能在生成未來(lái)畫面的同時(shí)推演并輸出動(dòng)作序列，實(shí)現(xiàn)了“先想象，后行動(dòng)”，直接驅(qū)動(dòng)機(jī)器人在物理世界中完成復(fù)雜操作。

其核心在于提出了“因果自回歸世界建模”的新思路。

一般來(lái)說(shuō)，傳統(tǒng)的世界模型是將“看”“想”“做”拆分為獨(dú)立模塊；而Video-Action自回歸模型在一個(gè)端到端框架內(nèi)完成全部任務(wù)：

看：編碼當(dāng)前視頻；

想：在潛在空間中模擬未來(lái)多步演化；

做：通過(guò)反向梯度或規(guī)劃器優(yōu)化動(dòng)作序列以達(dá)成目標(biāo)。

其關(guān)鍵突破在于，具身智能的動(dòng)作不再是“外部輸入”，而是模型內(nèi)部可優(yōu)化的變量。

而LingBot-VA實(shí)現(xiàn)這一能力的背后，主要有三個(gè)技術(shù)亮點(diǎn)：

其一，MoT架構(gòu)，采用Mix-of-Transformer架構(gòu)，將高維視頻Token與低維動(dòng)作Token映射到統(tǒng)一潛空間。

理解這個(gè)架構(gòu)前，我們先搞懂2個(gè)關(guān)鍵詞：

視頻Token是機(jī)器人攝像頭拍的畫面，被拆解成的關(guān)鍵信息塊（比如桌子、杯子的位置、形狀特征），畫面信息多、細(xì)節(jié)雜，所以叫“高維”；

動(dòng)作Token是機(jī)器人要做的動(dòng)作，拆解成的簡(jiǎn)單指令（比如機(jī)械臂抬30厘米、夾爪張2厘米），信息簡(jiǎn)潔，所以叫“低維”。

而MoT架構(gòu)就是給這兩種完全不同的信息，設(shè)計(jì)了統(tǒng)一的處理框架，同時(shí)還能根據(jù)“畫面”和“動(dòng)作”的不同特點(diǎn)分開(kāi)優(yōu)化處理（不用兩套系統(tǒng)各干各的）。

說(shuō)白了，就是讓機(jī)器人能把“看到的環(huán)境”和“要做的動(dòng)作”精準(zhǔn)對(duì)應(yīng)，如看到杯子在左邊，立刻匹配“機(jī)械臂左移”的動(dòng)作，既不會(huì)讓畫面和動(dòng)作脫節(jié)，又能節(jié)省計(jì)算資源，機(jī)器人反應(yīng)更快。

其二，閉環(huán)推演，讓模型在每一步生成時(shí)都會(huì)納入真實(shí)世界的實(shí)時(shí)反饋，確保持續(xù)生成的畫面與動(dòng)作不偏離物理現(xiàn)實(shí)，有效解決幻覺(jué)問(wèn)題。

語(yǔ)言大模型的“幻覺(jué)”是瞎白話，而機(jī)器人的“幻覺(jué)”則是瞎猜動(dòng)作，比如沒(méi)看到杯子還伸手去抓，或者抓了東西沒(méi)確認(rèn)，就腦補(bǔ)“抓到了”繼續(xù)下一步，最后全錯(cuò)。

閉環(huán)推演就是給機(jī)器人加了“實(shí)時(shí)核對(duì)”的機(jī)制，即做一個(gè)動(dòng)作（比如伸手抓杯子），立刻用攝像頭看真實(shí)環(huán)境的變化（到底抓到?jīng)]、杯子位置變沒(méi)變），把這個(gè)真實(shí)反饋和自己預(yù)想的結(jié)果對(duì)比，不對(duì)就馬上調(diào)整下一步。全程不腦補(bǔ)、不瞎猜，確保每一步動(dòng)作都和當(dāng)下的真實(shí)環(huán)境匹配，從根上避免了因“想當(dāng)然”而出錯(cuò)。

其三，異步推理能力，是機(jī)器人一邊執(zhí)行當(dāng)前動(dòng)作（比如正在拿杯子），一邊規(guī)劃下一個(gè)動(dòng)作（比如下一步倒水），不用等當(dāng)前動(dòng)作做完再想，效率翻倍。

不過(guò)，在LingBot-VA中，“異步推理”并非簡(jiǎn)單的“邊做邊想”，而是一套結(jié)合實(shí)時(shí)反饋修正、緩存管理、并行計(jì)算調(diào)度的完整技術(shù)方案。

其核心是解決“同步推理時(shí)計(jì)算與執(zhí)行相互等待”的latency瓶頸，同時(shí)避免“盲目并行導(dǎo)致的軌跡漂移”。

基于此，LingBot-VA不僅考題通過(guò)率拉滿，還解決了機(jī)器人容易“越做越歪”的老毛病。

真機(jī)評(píng)測(cè)中，LingBot-VA在多項(xiàng)高難操作任務(wù)上性能超越業(yè)界標(biāo)桿 Pi0.5

在機(jī)器人行業(yè)公認(rèn)的LIBERO、RoboTwin兩大測(cè)試基準(zhǔn)中，這套架構(gòu)讓復(fù)雜任務(wù)的成功率分別達(dá)到98.5%和92%+，相當(dāng)于在標(biāo)準(zhǔn)考題里幾乎都能做對(duì)，成績(jī)遠(yuǎn)超之前的技術(shù)。

更關(guān)鍵的是，其解決了長(zhǎng)時(shí)漂移的問(wèn)題。

傳統(tǒng)機(jī)器人做多步驟復(fù)雜任務(wù)（比如開(kāi)冰箱→拿牛奶→關(guān)門），可能第一步開(kāi)冰箱有點(diǎn)小誤差，后面沒(méi)校準(zhǔn)，誤差越積越大，最后拿不到牛奶還撞冰箱。

而LingBot-VA因?yàn)槊恳徊蕉加虚]環(huán)反饋校準(zhǔn)，小誤差會(huì)被及時(shí)修正，不會(huì)累積，不管任務(wù)有多少步驟，機(jī)器人的動(dòng)作都能保持準(zhǔn)確，不會(huì)越做越歪。

值得一提的是，該大模型還具備快速適配能力，得益于大規(guī)模多源數(shù)據(jù)預(yù)訓(xùn)練，面對(duì)全新的機(jī)器人平臺(tái)或任務(wù)（無(wú)論是單臂、雙臂還是長(zhǎng)時(shí)序操作），僅需5到10條演示數(shù)據(jù)即可完成適配。

通俗理解，傳統(tǒng)機(jī)器人學(xué)新任務(wù)、適配新機(jī)型，得喂成百上千的教學(xué)視頻，花大量時(shí)間訓(xùn)練。

LingBot-VA在面對(duì)新機(jī)器人（比如換個(gè)新機(jī)械臂）或新任務(wù)（比如教機(jī)器人拿快遞）時(shí)，只需要30~50條數(shù)據(jù)進(jìn)行后訓(xùn)練，它就能快速學(xué)會(huì)并適配，不用重新大規(guī)模訓(xùn)練，學(xué)新東西的速度和成本都大幅降低。

從行業(yè)視角看，LingBot-VA的出現(xiàn)，標(biāo)志著具身智能正從“模仿學(xué)習(xí)”向“生成式推理”躍遷。過(guò)去，機(jī)器人依賴大量人類演示；未來(lái)，它們將具備自主想象、評(píng)估、選擇的能力。

如DeepMind在Genie論文中所言：“我們不是在教機(jī)器人如何行動(dòng)，而是在教它如何想象世界?！?/p>

從基模到應(yīng)用，螞蟻的AGI“野心”

盡管螞蟻只做具身智能的大腦，但其從一開(kāi)始就沒(méi)打算單打獨(dú)斗。

LingBot-Depth是與奧比中光聯(lián)合研發(fā)；數(shù)據(jù)采集階段用到了星海圖、松靈的硬件平臺(tái)；預(yù)訓(xùn)練階段有樂(lè)聚、庫(kù)帕思等多家企業(yè)提供高質(zhì)量數(shù)據(jù)支持。

而得益于其此前的資本布局，螞蟻在具身智能底座成型后，更容易實(shí)現(xiàn)其商業(yè)化落地。

此前，螞蟻已經(jīng)投資了宇樹(shù)科技、星塵智能等從上游靈巧手到下游場(chǎng)景應(yīng)用的全鏈條企業(yè)，還通過(guò)合資公司等形式與智元機(jī)器人保持緊密合作。

由此來(lái)看，隨著自研團(tuán)隊(duì)（螞蟻靈波科技）與被投企業(yè)（星塵、首形、靈心巧手等）協(xié)同發(fā)展，螞蟻有望在2026–2028年推動(dòng)人形機(jī)器人在零售、文旅、金融網(wǎng)點(diǎn)等場(chǎng)景實(shí)現(xiàn)規(guī)?；逃?。

當(dāng)然，這種“自研基座+生態(tài)協(xié)同”的模式，也剛好契合了行業(yè)發(fā)展的關(guān)鍵節(jié)點(diǎn)。

2024-2025年上半年，具身智能行業(yè)還處在“Demo比拼期”，但從2025年下半年開(kāi)始，市場(chǎng)將進(jìn)入大量的“訂單驗(yàn)證期”，商業(yè)交付能力，成為了衡量具身智能企業(yè)的關(guān)鍵因素之一。

因此，邁入2026年，具身智能賽道玩家必須要拿到實(shí)際的訂單，甚至開(kāi)始有實(shí)際交付，才能證明公司具備從產(chǎn)品設(shè)計(jì)、供應(yīng)鏈穩(wěn)定到市場(chǎng)需求的全鏈條閉環(huán)產(chǎn)品落地能力。

螞蟻靈波科技“專注基座”的選擇，也恰好踩中了行業(yè)痛點(diǎn)：

很多機(jī)器人企業(yè)有本體制造能力，卻缺乏底層通用模型，螞蟻靈波科技的開(kāi)源戰(zhàn)略，則讓這些企業(yè)能低成本接入頂尖技術(shù)。

隨著“螞蟻靈波科技”系列連續(xù)發(fā)布四款具身領(lǐng)域大模型，螞蟻的AGI戰(zhàn)略，已經(jīng)實(shí)現(xiàn)了從數(shù)字世界到物理感知的關(guān)鍵延伸。

這也標(biāo)志著，螞蟻“基礎(chǔ)模型-通用應(yīng)用-實(shí)體交互”的全棧路徑已然清晰。

而螞蟻集團(tuán)AI戰(zhàn)略的核心，可以理解為“雙輪驅(qū)動(dòng)”：一邊用AI深耕應(yīng)用場(chǎng)景（生活、金融、醫(yī)療三大賽道），一邊不放棄基礎(chǔ)大模型研發(fā)，探索智能上限。

通用語(yǔ)言大模型上，螞蟻百靈大模型已經(jīng)躋身萬(wàn)億參數(shù)模型陣營(yíng)；AI應(yīng)用領(lǐng)域，螞蟻旗下的AI健康應(yīng)用阿福，成為國(guó)內(nèi)首個(gè)月活超千萬(wàn)的AI健康應(yīng)用；11月則發(fā)布了全模態(tài)通用AI助手“靈光”。

而此次深度布局具身智能賽道，則是其將AI從虛擬世界帶入物理世界的關(guān)鍵探索。

在全球具身智能尚處“戰(zhàn)國(guó)時(shí)代”的今天，群雄逐鹿之下，螞蟻的選擇清晰而堅(jiān)定：不做封閉的“黑盒”，而做開(kāi)放的“地基”。

顯然，在行業(yè)從“講故事”轉(zhuǎn)向“看落地”的2026年，筑基者比造車者更稀缺，也更關(guān)鍵。

這場(chǎng)物理世界AI從“看清”到“想象”的進(jìn)化，才剛剛開(kāi)始。而螞蟻，顯然已經(jīng)站在了地基之上。

此外，除了自身技術(shù)產(chǎn)品體系外，在探索AGI這條路上，螞蟻也一直做開(kāi)源生態(tài)的布局。

據(jù)螞蟻靈波科技CEO朱興介紹，螞蟻集團(tuán)堅(jiān)定以開(kāi)源開(kāi)放模式探索 AGI，為此打造 InclusionAI，構(gòu)建了涵蓋基礎(chǔ)模型、多模態(tài)、推理、新型架構(gòu)及具身智能的完整技術(shù)體系與開(kāi)源生態(tài)。

這一開(kāi)源開(kāi)放的核心策略，不僅能加速螞蟻 AGI 版圖的擴(kuò)張，更能匯聚海量生態(tài)伙伴，成為推動(dòng) AI 應(yīng)用從移動(dòng)互聯(lián)網(wǎng)向物理世界邁進(jìn)的關(guān)鍵動(dòng)力。

縱觀其在AI賽道上的諸多動(dòng)作，可以看到螞蟻已完成了從通用基礎(chǔ)大模型，到AI應(yīng)用，再到物理AI世界的體系化技術(shù)能力和產(chǎn)業(yè)應(yīng)用的生態(tài)布局。

顯然，在這場(chǎng)邁向AGI的道路上，螞蟻已正式上站上AI競(jìng)爭(zhēng)的牌桌，開(kāi)始跟全球玩家掰手腕。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.