国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

十二個問題解剖VLA,深度對話小米陳龍、上交穆堯

0
分享至



2025 年末,首批 L3 級自動駕駛車型獲得準(zhǔn)入,標(biāo)志著中國智能駕駛產(chǎn)業(yè)邁入新紀(jì)元。與此同時,具身智能機(jī)器人領(lǐng)域也在過去一年間經(jīng)歷了“天翻地覆”的變化,從 2024 年初“抓蘋果都費(fèi)勁”,到如今疊衣服已成為行業(yè)的入門任務(wù),穿鞋帶這樣曾被認(rèn)為遙不可及的精細(xì)操作也已被攻克。

在這場技術(shù)躍遷的背后,一項(xiàng)被稱為 VLA(Vision-Language-Action,視覺語言動作大模型)的技術(shù)正成為連接自動駕駛與具身智能的關(guān)鍵樞紐。不同于傳統(tǒng)端到端模型從視覺直接映射到動作的“條件反射”式?jīng)Q策,VLA 將語言理解與推理能力引入物理世界的決策鏈路,賦予機(jī)器“看了就懂、懂了就做”的認(rèn)知能力。

然而,VLA 的興起也伴隨著爭議。在 2025 年世界機(jī)器人大會上,宇樹科技創(chuàng)始人王興興公開質(zhì)疑這一技術(shù)路線,引發(fā)行業(yè)熱議。這場爭論的背后,是軟件與硬件、泛化性與可靠性、學(xué)術(shù)探索與商業(yè)落地之間的深層張力。

為深入探討這一前沿技術(shù)的本質(zhì)、挑戰(zhàn)與前景,我們邀請到兩位走在 VLA 研究最前沿的嘉賓:小米汽車智能駕駛 VLA 技術(shù)負(fù)責(zé)人陳龍,以及上海交通大學(xué)計(jì)算機(jī)學(xué)院助理教授、ScaleLab 負(fù)責(zé)人穆堯。他們分別從自動駕駛和具身智能機(jī)器人的視角,為我們拆解 VLA 的技術(shù)內(nèi)核,剖析數(shù)據(jù)困境與安全挑戰(zhàn),并回應(yīng)來自產(chǎn)業(yè)界的質(zhì)疑。

以下是本次對話的完整內(nèi)容。

一、什么是 VLA ?

DeepTech:先請兩位解釋一下什么是 VLA 技術(shù)。

陳龍:VLA 是最近幾年比較火的一個話題。它本質(zhì)上是利用大語言模型的泛化能力,包括從互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練得到的通識知識,再輔以語言模態(tài)的推理能力,來解決現(xiàn)實(shí)世界中行為決策的問題。

現(xiàn)在不管是自動駕駛還是機(jī)器人, VLA 都非?;稹R?yàn)樽詣玉{駛面臨很多長尾問題,當(dāng)你在路上開車時,大部分時間遇到的是見過的東西,但有時候會遇到?jīng)]見過的場景,這時候就需要思考能力,在這些場景下做出更好的決策。

機(jī)器人也在利用 VLA 的能力,主要是因?yàn)闄C(jī)器人的任務(wù)比較復(fù)雜,有很多長程任務(wù)。它需要利用語言能力來理解人類給它的任務(wù),包括對整體任務(wù)的拆解,把它分解成 sub task (子任務(wù)) 來執(zhí)行。所以總體來說, VLA 是未來物理世界人工智能發(fā)展的趨勢,是大模型能力走向物理世界的必要網(wǎng)絡(luò)架構(gòu)。

穆堯:VLA 給機(jī)器人帶來了非常大的機(jī)會。具身智能和傳統(tǒng)機(jī)器人研究的一個很大不同點(diǎn)在于,具身智能更關(guān)注泛化性,包括對場景的泛化性、視覺和物理上的泛化性,也包括我們希望交互的物體的不同形狀、顏色等更細(xì)致的泛化性。

在 VLA 技術(shù)下,實(shí)際上賦予了機(jī)器人幾方面的能力:第一,使機(jī)器人能夠用語言溝通,聽懂人類指令;第二,由于 VL (視覺語言模型) 在大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)上進(jìn)行了很好的預(yù)訓(xùn)練,可以有非常好的場景和視覺上的泛化性,逐漸邁向開放世界;第三是 A (Action ,動作) 這一塊,怎么把 VL 對接到 A 上,在機(jī)器人領(lǐng)域目前還處于研究探索階段。當(dāng)然已經(jīng)有一些比較好的模型出來,比如 π0 、 π0.6 ,展現(xiàn)了一些精細(xì)操作的能力。

VLA 帶給機(jī)器人的核心機(jī)會在于賦予了機(jī)器人一個柔性的能力。之前機(jī)器人可能要寫死一些機(jī)械定位,差一點(diǎn)都不行;現(xiàn)在可以根據(jù)情況隨機(jī)應(yīng)變。當(dāng)然這部分泛化性目前還沒有達(dá)到工業(yè)上真正四個九的要求,所以不管是學(xué)界還是工業(yè)界,都在逐漸發(fā)力。

DeepTech:過去訓(xùn)練機(jī)器人或者機(jī)器人的工作方式是什么?

穆堯:傳統(tǒng)機(jī)器人大部分面向特定場景、特定任務(wù),在這個任務(wù)上達(dá)到 SOTA (當(dāng)前最佳水平) 。傳統(tǒng)的方法基于規(guī)劃加柔順力控,或者基于強(qiáng)化學(xué)習(xí),解決的核心問題都是單一場景、單一任務(wù)的。當(dāng)具身智能要求走向多任務(wù)、開放世界、開放場景時,VLA 就成為非常重要的實(shí)現(xiàn)路徑。

DeepTech:舉個例子,現(xiàn)在的機(jī)器人更多在工業(yè)上應(yīng)用,未來走入生活場景,是不是就用到了 VLA 的核心技術(shù)?因?yàn)樯钪械膱鼍昂椭噶疃际欠菢?biāo)準(zhǔn)化的。

穆堯:是的,家庭場景最符合具身智能的要求,當(dāng)然也是最難的。但工業(yè)場景的泛化性要求也很高。到現(xiàn)在能通過自動化產(chǎn)線完成的都已經(jīng)大規(guī)模在做了,比如小米汽車的生產(chǎn)線,除了最后的總裝車間,其他車間都是 95% 以上自動化。剩下需要人類操作的部分,往往是因?yàn)閱为?dú)搭建產(chǎn)線非常昂貴,而且可能今天來的是這批零件,明天來的是另一批零件,有柔性生產(chǎn)制造的需求。這種需求本質(zhì)上還是對泛化性的需求,所以工業(yè)場景上也有很大的應(yīng)用空間。

二、 VLA 與端到端自動駕駛的區(qū)別

DeepTech:VLA 技術(shù)在自動駕駛上,和現(xiàn)在的端到端自動駕駛有什么區(qū)別?

陳龍:自動駕駛研究了幾十年,是比較有歷史的方向。早期類似穆堯講的機(jī)器人方法,是模塊化的方式來實(shí)現(xiàn)—— 區(qū)分感知模塊、預(yù)測模塊和規(guī)控模塊。感知通過計(jì)算機(jī)視覺模型檢測物體,預(yù)測會預(yù)測每個車的運(yùn)動軌跡,規(guī)劃則利用路徑規(guī)劃算法,在知道周圍物體和它們未來運(yùn)動的條件下,規(guī)劃出自車的運(yùn)動軌跡。這是自動駕駛的第一階段,通過規(guī)則算法來實(shí)現(xiàn)。

端到端是最近幾年才興起的。我之前在 Wayve,我們從 2018 年就開始做端到端自動駕駛,當(dāng)時還是比較激進(jìn)的方式。端到端本質(zhì)上非常簡單,就是使用一個大模型,利用很多收集起來的自動駕駛數(shù)據(jù),訓(xùn)練一個端到端的模型,直接把傳感器輸入映射到駕駛信號上面。

端到端解決了傳統(tǒng)算法的很多問題,因?yàn)閭鹘y(tǒng)算法需要手動設(shè)置很多規(guī)則,比如紅燈情況下怎么樣、遇到別的車應(yīng)該怎么做。端到端不用手動設(shè)計(jì)這些規(guī)則,而是通過數(shù)據(jù)驅(qū)動的方式,利用大量人類駕駛行為,讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這些行為并進(jìn)行擬合。

但它也有很多缺點(diǎn):首先是黑盒模型,你不知道它的決策是怎么做的,不是特別可控;第二是對長尾問題的泛化性不夠好,因?yàn)楝F(xiàn)實(shí)生活中有很多場景是收集數(shù)據(jù)收集不到的,遇到這種場景可能就會做出錯誤行為。

VLA 本質(zhì)上就是為了解決這些問題。首先是可解釋性, VLA 通過語言可以做出解釋,包括決策的原因,你可以通過這些原因了解它是怎么做決策的,透明度會加深。其次, VLA 可以提供比較好的推理能力,特別是 VLM (視覺語言模型)可能經(jīng)過互聯(lián)網(wǎng)知識的預(yù)訓(xùn)練,對世界的通識知識、人類的價(jià)值觀都有一定了解,再輔以推理能力,可以在長尾情況下通過推理做出更正確的決策,使自動駕駛更加安全、泛化性更好。這也是為什么 VLA 在最近幾年慢慢興起,成為主流方向。

三、什么是長尾問題和泛化問題?

DeepTech:兩位反復(fù)提到長尾和泛化。能不能舉一些特殊的例子,幫助我們了解機(jī)器人或自動駕駛在某些場景下失效的情況?

穆堯:在機(jī)器人上,泛化的圈子會畫得比較大??梢约?xì)分為:首先是背景,就是操作臺以外的所有背景,涵蓋各種光照信息、復(fù)雜的 layout (布局) 分布;再往上是前景,就是當(dāng)前機(jī)器人的操作臺和 target (目標(biāo)) 物體;同時桌子上還有各種雜物——我們每個人家庭的桌子不是一塵不染的,有各種東西,所以操作臺上有任務(wù)相關(guān)和任務(wù)無關(guān)的物體。

最細(xì)的層級是任務(wù)相關(guān)物體本身。比如任務(wù)是收拾桌子上的瓶子,瓶子的種類很多——可樂、雪碧是圓柱形的,東方樹葉是四棱柱的,形狀都不一樣。這就是從最粗到最細(xì)粒度的泛化。

什么是長尾呢?長尾是一些在預(yù)收集數(shù)據(jù)中很難出現(xiàn)的狀況。比如機(jī)器人在夾東西時掉下來了,或者夾東西時碰到了某個東西,或者嘗試抓取時東西被碰倒了。人類一次嘗試沒成功,東西倒了之后我們知道怎么抓,但機(jī)器人可能完全沒見過這個倒下的狀態(tài),很難 recover (恢復(fù)) 。還有更具有挑戰(zhàn)性的長尾,比如場景中有第三個可移動的物體——人。一個人直接把你本來瞄準(zhǔn)好的物體位置變了,或者把立著的瓶子弄倒了,把茶杯弄翻了,這就是長尾。

專家數(shù)據(jù)集也會包含泛化部分,包括場景泛化、操作臺泛化、任務(wù)無關(guān)物體泛化、任務(wù)相關(guān)物體泛化,這些都會有。但有些突發(fā)情況是專家數(shù)據(jù)集很難收集到的,一般要通過真機(jī)強(qiáng)化學(xué)習(xí)這樣的方式才能收集到。

DeepTech:在自動駕駛方面呢?

陳龍:自動駕駛方面定義也類似。你的專家數(shù)據(jù)集不可能把所有場景都收集完,因?yàn)榈缆飞嫌泻芏嗖豢深A(yù)知的事情。比如我們在新的地方開車時,會碰到不一樣的交通標(biāo)識牌或不一樣的場景。人在新環(huán)境下也會遇到很多長尾問題,有時候也會開慢點(diǎn)或停下來想一想具體應(yīng)該怎么開。

DeepTech:就是說有的路口只有本地人才能走對?

陳龍:對,類似這種。 VLA 比較適合解決這些長尾問題。具體例子比如施工場景會有一些標(biāo)識牌,每個標(biāo)識牌都不統(tǒng)一,有的畫了車輛和箭頭示意你應(yīng)該往哪個方向走,有的是文字形式,有的是其他方式指示你應(yīng)該怎么走。在這種非結(jié)構(gòu)化信號下,需要 VLA 對整個場景的理解,包括利用互聯(lián)網(wǎng)預(yù)訓(xùn)練知識進(jìn)行理解和推理,得出在這個長尾問題下應(yīng)該具體做什么決策。

VLA 還解決了比較長序列的問題。比如開車時拐進(jìn)了一個死胡同,應(yīng)該倒車退回去換一個路口。但如果沒有 VLA ,你可能開到死胡同里,即使知道退回來,也可能再開到這個死胡同里,因?yàn)槟悴恢绖偛乓呀?jīng)開到這里了。 VLA 可以在需要長時記憶的情況下,用語言這個比較抽象的模態(tài)來做長期路徑規(guī)劃。

四、 VLA 不只是加了一層語言

DeepTech:傳統(tǒng)或現(xiàn)在用的是從視覺直接映射到動作,VLA 是從視覺映射到語言再映射到動作。是不是只是在中間加了一層語言?還是 VLA 中間加入語言能解決一些其他核心問題?

陳龍:肯定不是只加了一層語言。這本質(zhì)上是一個范式轉(zhuǎn)變。 VLA 利用大模型的范式來訓(xùn)練自動駕駛或機(jī)器人算法。 VA(視覺動作)是直接把圖像映射到最終的 action(動作)上,不管是自動駕駛的端到端算法還是機(jī)器人比較經(jīng)典的 ACT (動作分塊) 算法,本質(zhì)上沒有利用模型的思考能力。 VLA 本質(zhì)上轉(zhuǎn)換到了認(rèn)知驅(qū)動的范式,通過大模型的能力,利用大模型的知識和推理能力來解決路徑規(guī)劃或抓取導(dǎo)航這些問題。

現(xiàn)在自動駕駛領(lǐng)域?qū)?VLA 的理解都不盡一樣。我個人理解,本質(zhì)上 L 這個模態(tài)是對圖像的補(bǔ)充。 VA 只有圖像和傳感器信息來做一次決策,而 L 可以通過語言模態(tài)不斷 sample (采樣) 下一個 token。通過這個 sampling 的方式, sample token 的過程其實(shí)是信息量增加的過程,熵也是一個減少的過程。

所以通過首先有圖像,然后不斷 sample 語言 token 帶來信息量增加的過程,最終做決策時是通過圖像信息輔以語言 sample 之后的信息,共同做出決策。理論上比只用圖像做決策會更好。 VLA 是利用了語言的預(yù)訓(xùn)練能力和推理能力,進(jìn)一步增強(qiáng)了決策過程。

DeepTech:我看到過一些自動駕駛 demo ,會把思考邏輯打在車機(jī)屏幕上。在我們看來,它相當(dāng)于是一個相對滯后的決策邏輯。在語言生成推理邏輯時已經(jīng)拐過去了,推理邏輯才到屏幕上。這個過程能夠被打斷嗎?或者執(zhí)行過程中能夠溝通嗎?

陳龍:這是個很好的問題。現(xiàn)在 VLA 的框架還沒有發(fā)展到特別成熟、特別擬人的階段?,F(xiàn)在市面上有些產(chǎn)品可能會顯示思考過程,但顯示這個過程可能已經(jīng)是幾秒前的,做決策時確實(shí)利用到了,不管是做 CoT (思維鏈) 還是描述場景來做決策。但這些顯示的信息可能更多是為了展示智能化,對整個自駕體驗(yàn)沒有特別大影響。

我覺得最終的 VLA ,思考過程可能并不需要用這么口語化的文字來描述場景和做推理,因?yàn)檫@些口語化的詞是很冗余的。最終的 VLA 可能更類似人腦的思考方式,我可能不需要說出來也可以去思考,甚至可以利用更簡短的token ,甚至是一些隱式的 token 來做思考。這樣會更高效,不需要輸出很長的思維鏈,只需要輸出一些精簡的 token 就可以最終做決策。而且自駕是一個實(shí)時要求比較高的系統(tǒng),不可能接受你sample 這么多 token 最終做出決策。

DeepTech:所以也很難中途打斷,比如像現(xiàn)在告訴司機(jī)一樣說“前面右拐”?

陳龍:對,現(xiàn)在 VLA 范式是沒有這個打斷功能的,只能是你說出指令之后再重新執(zhí)行理解指令語義的過程。

五、機(jī)器人對語言的要求更高

DeepTech:在機(jī)器人上呢?

穆堯:機(jī)器人的 VLA 非常難。大部分機(jī)器人 VLA 的訓(xùn)練都是以一個 well pre-trained (預(yù)訓(xùn)練好的)的 VL model ,然后后面接 expert(專家模型) 。以目前最著名的 Physical Intelligence提出的 π 系列為例,前面是 Google 提出來的 PaLM (一種大語言模型) ,是一個 well pre-trained 的視覺語言模型,后面接了一個以 flow matching(流匹配)為原理的 action expert(動作專家)網(wǎng)絡(luò)。

本質(zhì)上機(jī)器人對 language 的要求非常高。首先,機(jī)器人要做任務(wù)拆解。自動駕駛可能就是按照固定的期望路線安全行走、不發(fā)生碰撞、到達(dá)目的地就可以了。但機(jī)器人比如聽到人類的指令“請你幫我做一杯咖啡” ,要具體到動作原語 —— 拿出什么東西、放下什么東西、打開什么東西、把什么東西從左邊挪到右邊。機(jī)器人需要把人類非常抽象的指令分解成動作原語級別,然后每個原語作為一個 language condition (語言條件)去輸出對應(yīng)的 action 。從這個角度來說, language 對機(jī)器人意義非常大。

VLA 大部分是 3B 左右的,比較大的會有 7B、 8B 的,但目前還沒有看到13B 的。所以我覺得它算是一個比較大的“小腦”,可能還沒到“大腦”的 level 。但關(guān)于機(jī)器人大腦的研究也非常多,以視覺語言為主的大腦研究,大家會做更長程任務(wù)的推理。大家對機(jī)器人的期待是人類都不用說話,機(jī)器人通過視覺觀察能做邏輯推理——你當(dāng)前是什么狀態(tài),是不是疲憊了、是不是渴了,疲憊困了我給你端來一杯咖啡。所以在機(jī)器人這端, language 起到非常重要的作用。

DeepTech:我們聊機(jī)器人時往往會聊“大腦”和“本體”。像宇樹做本體,很多實(shí)驗(yàn)室或公司專注做大腦,只要采購到強(qiáng)的本體就可以了。你剛才提到研究大腦用到的模型參數(shù)量都更大, VLA 是不是把大腦和本體都統(tǒng)一到一個模型里面了?

穆堯:VLA 實(shí)際上兼顧了一些大腦的能力,比較簡單的邏輯推理是可以做的,比如 pick and place(拾取和放置) 這些簡單任務(wù)。更大更復(fù)雜的推理可能還需要更大的大腦。目前一個比較主流的范式是端云協(xié)同,大腦跑在云端,一個稍微小一點(diǎn)的模型跑在端側(cè)或邊端,最底層比如人形機(jī)器人的運(yùn)動控制屬于純小腦,也跑在端側(cè)。

DeepTech:相當(dāng)于 VLA 模型部署在本體上,還有一個更大模型的大腦在云端?

穆堯:對,目前這一塊業(yè)界解決方案沒有特別好。能在端側(cè)芯片部署 VLA 模型的板子也不是很多,大家可能更多是以比如 4090 的服務(wù)器來做,屬于邊端。

DeepTech:所以在機(jī)器人的控制中,目前還是大腦和本體分離的狀態(tài)。

穆堯:13B 以上的大腦一般都是跑在云端的。

六、自動駕駛與機(jī)器人能共用一套底座模型嗎?

DeepTech:我們看到很多報(bào)道說機(jī)器人和自動駕駛能共用一套底座模型。小米也剛開源了打通自動駕駛和具身的基礎(chǔ)模型。這兩者之間有哪些挑戰(zhàn)?技術(shù)上有哪些解決思路?

陳龍:肯定有很多挑戰(zhàn)。本質(zhì)上我們想要解決一個跨本體的問題。人類不管是在家做家務(wù)、操作物體,還是在室外開車,是用一個大腦做這些不同行為的。我們認(rèn)為最終不管是具身、自駕還是其他任務(wù),都要共用一個大腦模型。這樣我們的大腦模型才具有很強(qiáng)的對世界的認(rèn)知能力,而且統(tǒng)一的模型可能使任務(wù)的連續(xù)性更好。

我們前段時間發(fā)布了一些探索性工作,叫 MiMo Embodied ,和小米集團(tuán)的 MiMo 模型團(tuán)隊(duì)一起做了一些具身大腦的探索。本質(zhì)上是使用自駕數(shù)據(jù)和機(jī)器人數(shù)據(jù),進(jìn)行融合,通過分階段訓(xùn)練:第一階段加入很多空間智能數(shù)據(jù),讓它學(xué)習(xí)空間感知和空間推理能力;第二階段放入自駕和具身的專有數(shù)據(jù);第三階段通過 CoT 微調(diào);第四階段使用強(qiáng)化學(xué)習(xí)微調(diào)。

通過這四階段訓(xùn)練,我們發(fā)現(xiàn)自駕和機(jī)器人的數(shù)據(jù)是可以融合的。它們共有的能力,也就是空間感知和空間推理能力,是可以互相加強(qiáng)的。一個是室內(nèi)數(shù)據(jù)(具身操作) ,一個是室外數(shù)據(jù)(自駕場景) ,如果訓(xùn)練得好是可以互相增強(qiáng)的。這也是我們前期具身基座模型的探索。

這是比較大的模型,大概 7B 。 7B 的模型尺寸在端側(cè)也不能完全部署,而且需要使用很長的思維鏈方式進(jìn)行推理,最終可能是一個云端模型。

七、數(shù)據(jù)問題:自動駕駛 vs 機(jī)器人

DeepTech:陳龍聊到數(shù)據(jù)問題。我感覺自動駕駛數(shù)據(jù)可能更好獲取,機(jī)器人數(shù)據(jù)更難獲取,是這樣嗎?

穆堯:是的,這也是具身智能行業(yè)和自動駕駛產(chǎn)業(yè)一個根本性的區(qū)別。自動駕駛產(chǎn)業(yè)所有跑在路上的車都可以回流作為專家數(shù)據(jù),當(dāng)然要經(jīng)過大量清洗,但每天可以回流上億條數(shù)據(jù)。而具身智能把所有開源的閉源的加在一起,可能也沒有 1 億條數(shù)據(jù),數(shù)據(jù)體量差距很大。

所以具身智能學(xué)術(shù)界和工業(yè)界想了各種辦法,包括仿真合成數(shù)據(jù),包括用人類更便攜的方案比如 UMI 這樣的手持式設(shè)備采集,本質(zhì)上都是希望以廉價(jià)成本 scale up (擴(kuò)展) 數(shù)據(jù)。但核心困境還是需要人主動去收集,沒有一個自動的飛輪。我們很期待在某一個產(chǎn)線、某一個商業(yè)場景下的機(jī)器人真正能 24 小時轉(zhuǎn)起來,這樣就可以產(chǎn)生源源不斷的數(shù)據(jù)飛輪。自動駕駛天然就有這樣的優(yōu)勢。但我覺得大概兩年之內(nèi),具身也會有一個初步的數(shù)據(jù)飛輪出來。

DeepTech:數(shù)據(jù)方面前期調(diào)研時,我看到穆堯有“人 - 數(shù)字人 - 機(jī)器人”一體的架構(gòu),也是為了解決數(shù)據(jù)問題嗎?

穆堯:對,核心就是解決數(shù)據(jù)問題。人類數(shù)據(jù)是最本質(zhì)的,所有機(jī)器人都應(yīng)該向人學(xué)習(xí),而且人的數(shù)據(jù)最廉價(jià)、最容易收集——戴個 AI 眼鏡,或者頭頂上綁個相機(jī)就可以采集。但人和機(jī)器人確實(shí) gap(鴻溝)比較大,所以我們提出 “人 - 數(shù)字人 - 機(jī)器人” 的三位一體管線,希望搭建好從人的行為到機(jī)器人行為的調(diào)節(jié),把人的數(shù)據(jù)利用效率大大提升,并且為仿真合成數(shù)據(jù)注入人類豐富的行為信息,使行為多樣性有顯著提高。

DeepTech:機(jī)器人和自動駕駛數(shù)據(jù)的 gap ,陳龍?jiān)趺唇鉀Q?

陳龍:穆堯說得非常好。自駕因?yàn)槠嚤旧硎呛芎玫漠a(chǎn)品,用戶會去開車,所以采集數(shù)據(jù)更方便,每天會有很多數(shù)據(jù)傳上來。而且數(shù)據(jù)多樣性非常好,全國不同省份都有人在開小米汽車。

具身的問題是現(xiàn)在沒有成熟的產(chǎn)品在用戶側(cè)使用,沒有數(shù)據(jù)飛輪效應(yīng)。現(xiàn)在大家都是自己建采集場或小規(guī)模采集數(shù)據(jù),不管數(shù)量還是多樣性都非常有限?,F(xiàn)在有很多人用合成數(shù)據(jù)來增強(qiáng)真實(shí)數(shù)據(jù)的不足,但本質(zhì)上量和多樣性都跟自駕差得很遠(yuǎn)。所以為什么 VLA 這么火,其實(shí)也是利用了 VLA 的泛化性來解決數(shù)據(jù)缺少的問題。

當(dāng)你有了一個很強(qiáng)的 VLA 模型,可能真正需要的數(shù)據(jù)就不需要那么多了。打個比方,如果你教人一個新任務(wù),不需要很多數(shù)據(jù),可能只需要幾條 demonstration (演示) ,人就可以學(xué)習(xí)出這個任務(wù)具體應(yīng)該怎么做。所以當(dāng)VLA 模型做得非常好,它的泛化能力和三種模態(tài)的 grounding (接地) 做得非常好時,可能并不需要特別多的數(shù)據(jù),只需要幾條演示數(shù)據(jù)就可以把任務(wù)做得非常好。數(shù)據(jù)少的時候,模型側(cè)可以做更多優(yōu)化來彌補(bǔ)。

DeepTech:這兩部分?jǐn)?shù)據(jù)的融合,穆堯怎么看?

穆堯:這兩部分?jǐn)?shù)據(jù)有 gap 。機(jī)器人的數(shù)據(jù)聚焦點(diǎn)主要在操作臺上面, focus 一些非常小的物體。自動駕駛可能關(guān)注的更多是路況、行人、紅綠燈這樣的信息。

但兩者的交匯點(diǎn)是 World Model (世界模型) ,這是一個非常好的交匯面。一個通用的對未來數(shù)據(jù)的推演,自動駕駛的能力能夠?yàn)闄C(jī)器人賦能。因?yàn)闄C(jī)器人也需要導(dǎo)航,也需要 mobile manipulation (移動操作) 或 locomotion (運(yùn)動) 。自動駕駛的數(shù)據(jù)能為機(jī)器人提供的服務(wù)是空間理解和推理——知道這個車往前走一段,視野會變成什么樣,近大遠(yuǎn)小這些 common sense(常識)是可以獲取到的,這種基礎(chǔ)知識對機(jī)器人學(xué)習(xí)有很大幫助。

當(dāng)然二者的 attention 和 focus 各有側(cè)重。自動駕駛會跟車道線、紅綠燈、行人、車輛的 feature(特征)更相關(guān);具身可能 focus 在一些具體的起草物體的交互。所以在設(shè)計(jì)網(wǎng)絡(luò)時,要能讓它們共有的知識得到促進(jìn)作用,并且有效分離開。對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)也是比較需要的。

八、安全性問題:如何保證 VLA 不出錯?

DeepTech:不管自動駕駛還是機(jī)器人和人的交互,都有一個繞不開的話題 —— 安全性。我們都知道語言模型有幻覺問題。在電腦上和大模型交互時,錯了我們?nèi)藶楦恼托辛?。但在自動駕駛和機(jī)器人的交互過程中,穆堯也提到工業(yè)上還做不到四個九。在這個安全性極高的場景里, VLA 是如何保證它既有泛化能力,又能解決長尾問題,同時又不會出錯的?

穆堯:我能想到的路徑主要是強(qiáng)化學(xué)習(xí)。安全分兩塊:一塊是意識層面的安全,不能做出傷害人類的行為、危險(xiǎn)的行為;另一塊是行為動作上的安全,也就是 safety (安全性) 。

在意識層面上,大模型包括 LLM (大語言模型) 的安全對齊主要通過強(qiáng)化學(xué)習(xí)來做。對于操作的精準(zhǔn)度、不能發(fā)生碰撞等安全性問題,強(qiáng)化學(xué)習(xí)也是非常好的手段。我們有一篇 paper 叫 Simple VL-RL ,首次在一些標(biāo)準(zhǔn) benchmark 上達(dá)到了兩個 99% 的精度。離工業(yè)四個九還稍微遠(yuǎn)一點(diǎn),但已經(jīng)看到很大的曙光,強(qiáng)化學(xué)習(xí)確實(shí)在這一塊能帶來比較好的性能提升。

DeepTech:陳龍有什么看法?

陳龍:自駕還是不太一樣的。具身你是可以試錯的,不僅能在虛擬環(huán)境中做強(qiáng)化,在真實(shí)世界中也可以做強(qiáng)化學(xué)習(xí)。自駕畢竟安全性是第一位的,更多的是從系統(tǒng)層面上做安全性冗余。大模型可能會有幻覺問題,純模型可能都會有不可預(yù)測的問題。在自駕安全性要求這么高的環(huán)境下,肯定需要很多不同的網(wǎng)絡(luò)做兜底。

比如在運(yùn)行 VLA 的時候,我們可能還有另一套網(wǎng)絡(luò),比如傳統(tǒng)的感知和規(guī)控網(wǎng)絡(luò)不斷做 safety check(安全檢查) ,做一些簡單的安全性檢測,比如未來幾秒會不會碰撞、會不會有風(fēng)險(xiǎn)。這類傳統(tǒng)算法穩(wěn)定性都非常好,當(dāng)我們檢測到有風(fēng)險(xiǎn)時,可能會用其他模型來做安全操作。

DeepTech:相當(dāng)于有一個校驗(yàn)過程或安全兜底的過程?

陳龍:是的,在自駕安全性要求這么高的情況下,肯定需要安全兜底。

九、實(shí)時性問題: VLA 的延遲怎么解決?

DeepTech:另一個我比較關(guān)心的點(diǎn)是,如果加入語言的決策邏輯,我們都知道像 DeepSeek 在思考過程中是非常慢的。模型在調(diào)用過程中還是有時間響應(yīng)上的問題。這個問題在自動駕駛和機(jī)器人上怎么解決?現(xiàn)在能做到多少毫秒的響應(yīng)?

陳龍:自動駕駛不僅要求安全性高,對實(shí)時的要求也非常高。最少要到 10 赫茲的級別,每秒要做十次決策才能做一些比較快的響應(yīng),比如緊急情況下的響應(yīng)。所以我認(rèn)為 VLA 模型在自駕上可能還需要一些范式上的轉(zhuǎn)變。

現(xiàn)在有所謂的 “雙系統(tǒng)” , VLA 作為一個慢通路,還有另一個快系統(tǒng),可能是端到端模型或其他模型。大語言模型和端到端模型可以運(yùn)行在不同頻率上 —— 大模型可能每秒做一次決策,做比較深度的思考;端到端模型可能運(yùn)行在十赫茲,做快速響應(yīng)。但這類方式有個通?。捍竽P偷臎Q策和端到端怎么結(jié)合,是比較困難的問題。

另一端是 VLA 本身,往往我可能每一幀都要做一個 CoT 的思考,或者比較高級的是知道什么時候要做 CoT 思考,但這還是有問題。因?yàn)楫?dāng)你需要 CoT 思考時,可能是比較緊急的情況,但這時候做很多 CoT 思考,最終做決策的時間就會很長,可能導(dǎo)致安全性問題。

所以不管是雙系統(tǒng)還是一端式 VLA 都是兩個極端,要不然思考時間過長,要不然雙系統(tǒng)區(qū)分得太明顯??隙ㄖ髸斜容^中間的方案。因?yàn)槿祟愰_車時也是在不斷思考,邊開車邊思考,有時候思考的東西可能跟開車沒關(guān)系,你可能會走神,但這時候有時候你也可以安全地開車。

最終需要另一種范式轉(zhuǎn)變,更靈活、更緊密、更解耦的雙系統(tǒng)結(jié)合方式,需要在網(wǎng)絡(luò)上面做一些探索。

DeepTech:你提到這個我也有感觸。平時開車時如果車比較少,很容易走神,不需要調(diào)動特別高的思考能力;但堵車或想超車時,肯定要全神貫注,可能調(diào)用了更多的思考能力。

陳龍:對,或者在緊急情況下,你可能來不及思考,可以通過直覺系統(tǒng)來做出決策。

DeepTech:語言響應(yīng)延時的問題,穆堯怎么解決或有什么看法?

穆堯:對具身來說,更重要的是 action 的延遲。對于語言,你問它一句話,等一會兒也沒什么太大問題,而且完全可以變成并行或異步的部分,當(dāng)對身體沒有明顯指令時,完全可以云端處理。

對于需要 VLA 都做推理的任務(wù),實(shí)時要求還是比較重要的。像陳龍說的十赫茲,機(jī)器人也需要十赫茲以上的推理頻率。一個比較好的方案是異步推理,像 Dexterous AI 提出的執(zhí)行和推理是異步的,沒推完的接著推,但該執(zhí)行的去執(zhí)行,構(gòu)建一個異步的 system (系統(tǒng)) 來做。

包括推理也可以并行化,特別是如果有云端加持,完全可以做并行化,根據(jù)任務(wù)是否有依賴性來完成是否并行的處理。

DeepTech:你剛才提到本體的實(shí)時,是目前機(jī)器人更大的問題嗎?

穆堯:不是本體的實(shí)時,而是 VLA 從輸入圖像到輸出action 開始執(zhí)行這段時間,是推理時間。因?yàn)槟P捅容^大,會比較慢。3B 的模型差不多將將滿足十幾赫茲的要求。

DeepTech:執(zhí)行效率會比傳統(tǒng)方式要慢一些嗎?

穆堯:也有很絲滑的,不能一概而論。正常一個 3B 模型4090 上部署,響應(yīng)頻率差不多 15 赫茲左右。但有很多方法,比如模型輕量化、工程優(yōu)化,可以使它變得更絲滑。包括插值,可以使真正的本體執(zhí)行頻率很高,甚至可以達(dá)到 200 赫茲。像 Figure AI 就號稱執(zhí)行頻率是 200 赫茲,但實(shí)際上是插值之后的,插值之前其實(shí)和大家差不多。

所以有很多工程手段去解決。但更關(guān)鍵的是影響動作最終做出來絲不絲滑、哆嗦不哆嗦、成功率高不高的本質(zhì)上的控制頻率,還是由VLA 看到圖像然后出 action 這段時間來決定的。

十、思考與執(zhí)行可以并行

DeepTech:我綜合兩位的觀點(diǎn),能感覺到它的思考鏈?zhǔn)且粭l鏈路,而執(zhí)行的過程不一定等思考全部完成了之后再執(zhí)行。思考鏈可能會非常長或非常連續(xù),而執(zhí)行過程在某一個階段就可以開始執(zhí)行了。這樣在我們體感上,延遲就不會像現(xiàn)在用大語言模型看它思考那么長時間才能給出結(jié)果。

這就會面臨另一個問題:執(zhí)行過程中,比如自動駕駛一直在開車,思考一直在進(jìn)行,一直有 token 產(chǎn)出;機(jī)器人執(zhí)行過程中也是這樣。 Transformer 都會面臨遺忘的問題,過去不管多長的文本模型都會有遺忘。遺忘的問題對自動駕駛和機(jī)器人會是問題嗎,包括訓(xùn)練時遺忘與執(zhí)行時遺忘。

陳龍:訓(xùn)練時更多的是通用能力有一些災(zāi)難性遺忘的行為。現(xiàn)在 VLA 如果在實(shí)驗(yàn)室做小規(guī)模 finetune(微調(diào)) ,可能并沒有很大規(guī)模的預(yù)訓(xùn)練能力,做完 VLA 訓(xùn)練后通用能力就會有一定缺失,遺忘了很多通用知識,模型就變成一個專有的自駕或具身模型了,通用能力幾乎就沒有了。

舉個簡單例子,如果你做很小規(guī)模的微調(diào),問它一些通用知識比如“一加一等于幾”,它會回答一些無關(guān)的東西,比如“前面有一輛車”。所以訓(xùn)練時要解決遺忘問題,更多的是要把很多數(shù)據(jù)加入預(yù)訓(xùn)練階段。預(yù)訓(xùn)練時不僅學(xué)習(xí)通用知識,也學(xué)習(xí)到自動駕駛或機(jī)器人的知識。

推理時更多的是 context window(上下文窗口) 的問題。當(dāng)延時要求非常高時, context(上下文) 不能堆得特別長,肯定要做一些選擇。但現(xiàn)在有很多大模型技巧,比如 linear attention(線性注意力機(jī)制) ,可以把 context window 做得非常長,但延時也不會變得特別高。還有可以做 context 的壓縮和總結(jié)。

你不需要把之前所有信息都加入 context ,只需要把關(guān)鍵信息加入。比如在路口選擇了往哪邊走,這些關(guān)鍵信息可以加入歷史 context ;而一些無關(guān)緊要的信息比如現(xiàn)在執(zhí)行開了多少米,這些信息其實(shí)不是特別關(guān)鍵,可以忽略掉。所以最終 VLA 的形態(tài)肯定類似人,更加智能,可以記憶比較關(guān)鍵的信息,無關(guān)緊要的信息不需要做歷史記憶。

DeepTech:在機(jī)器人領(lǐng)域呢?

穆堯:在機(jī)器人領(lǐng)域一般有兩大類方法。一類是用 neural (神經(jīng)) 的方式,就是剛才陳龍講的壓縮方式, embed (嵌入) 出來一些關(guān)于 memory (記憶) 的 token ,然后當(dāng)前的觀測視覺和語言的 token 去 query (查詢) 這個 memory bank (記憶庫) 里面的 memory token (記憶令牌) , query 出來一些 historical token (歷史令牌) 作為 VLA 的 prompt (提示詞) 。

另一類是顯性的總結(jié),有一個額外的 agent system。舉個例子,機(jī)器人里很簡單的一個任務(wù)但非常需要 memory ,就是“click the bell(按鈴)”,在桌子上需要按響一個鈴。當(dāng)我的機(jī)械臂懸空到這個鈴之間的位置時,我只靠單幀的圖像根本不知道我是已經(jīng)按完這個鈴了,還是還沒有按它要去按它,還是已經(jīng)按完要回退。所以這里面就需要 memory 。

一種方式是 embedding(嵌入)的方式;另一種是顯式summary(總結(jié)) ,用 VL 的 language 去 summary 一下,比如“我當(dāng)前已經(jīng)按過它了,現(xiàn)在是回退狀態(tài)”。相當(dāng)于做了一個 CoT ,隨著CoT 把一些重要的信息以文字形式總結(jié)下來,作為后面的輸入。一種是隱式的,一種是顯式的,都是 prompt 的形式。

DeepTech:如果是更多的記憶,機(jī)器人在執(zhí)行過程中也不需要記憶非常多的信息。

穆堯:其實(shí)執(zhí)行只跟當(dāng)前有關(guān)系,當(dāng)前任務(wù)幾個工具。它做過的其他任務(wù),知識是藏在權(quán)重里面的,那是學(xué)習(xí)訓(xùn)練的時候。

DeepTech:也就是說執(zhí)行當(dāng)前任務(wù)時,并不需要關(guān)注之前做了什么任務(wù)。

十一、世界模型與空間智能:爭論還是融合?

DeepTech:我們聊了很多技術(shù)上的問題。我在做前期調(diào)研時也看到很多開放性的探討,比如最近比較火的世界模型、空間智能和大語言模型的爭論,好幾個大佬都在聊空間智能的問題。兩位怎么看?

穆堯:我覺得空間智能和語言好像沒有什么太多可爭論的,它們兩個都非常重要。對機(jī)器人來說,因?yàn)榫呱碇悄鼙旧砭褪怯?jì)算機(jī)視覺、自然語言處理、 機(jī)器人本體、控制理論幾大交叉學(xué)科于一體的方向。對于具身智能機(jī)器人,空間認(rèn)知感知能力和語言模型的推理能力都是非常重要的兩個部分。

對于空間來講, World Model 就像剛剛提到的,是非常好的方式來做具身智能的預(yù)訓(xùn)練。為什么呢?因?yàn)橐曨l或圖像是最豐富的一種形式,人類世界當(dāng)中有無數(shù)人做各種任務(wù)的視頻,包括自動駕駛的任務(wù) —— 往前走、往后退,形成對世界的三維空間認(rèn)知,知道走近之后的視野會變成什么樣、走遠(yuǎn)之后的視野會變成什么樣。

而且 World Model 天然可以把機(jī)器人和自動駕駛的 world model 放在一塊訓(xùn),完全沒有問題。數(shù)據(jù)格式是統(tǒng)一的,不像 VLA 的話,機(jī)器人的 pose(姿態(tài))、action 信息和汽車的方向盤轉(zhuǎn)角、油門開度是完全不一樣的。

所以 World Model 是一種更通用的對于空間推理的手段。特別是預(yù)測未來幀也好、預(yù)測未來的隱藏狀態(tài)也好,它都是一種通用的、面向全模態(tài)所有本體的空間推理預(yù)訓(xùn)練的非常有效范式,真正能把所有數(shù)據(jù)源有效調(diào)動起來去訓(xùn)練一個 foundation (基座)的手段。這一塊我相信目前學(xué)術(shù)界和工業(yè)界給予了非常大關(guān)注,在大家努力下也會有很多 promising (有前景的)的成果出來。

DeepTech:所以空間智能其實(shí)也拋棄不了語言的環(huán)節(jié)。

穆堯:對,語言也很重要。自動駕駛里向左轉(zhuǎn)、向右轉(zhuǎn)是完全不一樣的。

陳龍:我覺得 World Model 和 VLA 解決的是不同的問題。像穆堯講的, World Model 是通過對下一幀圖像或下一個狀態(tài)的預(yù)測,學(xué)習(xí)到這個世界上的一些本質(zhì),比如這個車未來應(yīng)該如何運(yùn)動,通過學(xué)習(xí)預(yù)測的能力學(xué)習(xí)到一些世界本質(zhì)上的物理規(guī)律。

VLA 更多的是學(xué)習(xí)到一些 high level (高層級) 的人類規(guī)則,通過互聯(lián)網(wǎng)上的文字訓(xùn)練學(xué)習(xí)到人類對這個世界的定義,包括人類的價(jià)值觀,以及很強(qiáng)的通過文字的推理能力。

World Model 這個 low level(低層級)的預(yù)測能力和 VLA 這個 high level 文字推理的能力,本質(zhì)不沖突,是可以互相結(jié)合的?,F(xiàn)在也有很多研究在把這兩個不同的能力給它結(jié)合起來,形成一個更好的模型,既能預(yù)測未來的圖像,也有視覺語言的能力用語言做推理。我覺得最終肯定要把這兩種能力融合。

DeepTech:目前討論比較熱烈,我感覺更多是語言模型因?yàn)橹痪劢褂谡Z言,很難把世界模型加入進(jìn)來。加入實(shí)踐模型之后,這兩個模型最終會路線收斂,有相互交叉、相互補(bǔ)齊。

十二、如何看待對 VLA 技術(shù)的質(zhì)疑?

DeepTech:另外還有一個相對尖銳的問題。前段時間在世界機(jī)器人大會上,王興興比較質(zhì)疑 VLA 技術(shù)。你們怎么看這個問題?

穆堯:我覺得觀點(diǎn)的不同主要是因?yàn)閺牟煌慕嵌取奈覀冏鲅芯康慕嵌龋?VLA看到了很大的機(jī)會,所以需要投入。但我相信所有 VLA 的研究者都會坦誠承認(rèn),目前達(dá)不到工業(yè)上四個九的要求。但它是不是promising 的?我覺得是 promising 的。

王總的觀點(diǎn)可能是因?yàn)樗麄冏霰倔w,要求非常嚴(yán)格的安全性、準(zhǔn)確率、效率。宇樹的機(jī)器人踹多少腳都不倒,可以做非常復(fù)雜的運(yùn)動。我覺得本身技術(shù)就是我們在不同路線上去做,會有一個交匯點(diǎn)。 VLA 很多能力也是受限于本體,比如有些機(jī)械臂和靈巧手它就很笨拙,效率跟人是沒辦法比的。

我覺得也很好,大家努力的方向有從不斷完善本體的易用度、可靠性、成本的,我們這邊做 VLA 對大多數(shù)公司來說屬于一個預(yù)研的項(xiàng)目。當(dāng)兩方技術(shù)逐漸交疊,整個具身智能是一個軟硬件協(xié)同發(fā)展的系統(tǒng)。當(dāng)軟硬件真正發(fā)生碰撞在一起的時候,大家的看法都會改變,也都會有新的共識。

像現(xiàn)在來看有一些比較好的 demo,像字節(jié)發(fā)出來的 VLA 能夠去穿鞋帶。這個在我當(dāng)時讀博士的時候,實(shí)驗(yàn)室還討論過這個任務(wù),當(dāng)時我們認(rèn)為誰要是能做一個這個,可以說是一個很驚動的話題。但現(xiàn)在已經(jīng)被實(shí)現(xiàn)了,技術(shù)發(fā)展確實(shí)很快。

2024 年的時候,基本上人形機(jī)器人都是跌跌撞撞的,上個樓都費(fèi)勁。現(xiàn)在其實(shí)已經(jīng)起飛了,你看它做很多復(fù)雜的動作都可以做。 VLA 這一塊,像疊衣服現(xiàn)在甚至都說是具身公司的一個“MNIST(手寫數(shù)字?jǐn)?shù)據(jù)集)” ,就相當(dāng)于圖像識別里面最簡單的數(shù)字,哪家都能疊衣服了。但 2024 年是不可想象的,那時候抓蘋果都費(fèi)勁。整整只過了一年,就是天翻地覆的變化。我覺得很快隨著軟硬件的交匯,我們會有一些更新的共識出來。

陳龍:當(dāng)一個技術(shù)剛興起的時候,會有一個類似于新興技術(shù)的曲線。剛開始大家把熱度炒得特別高,會有很多demo出現(xiàn)。后來發(fā)現(xiàn)可能對它期待太高,沒有實(shí)現(xiàn)人類的期待,這個技術(shù)又會跌到谷底。慢慢經(jīng)過幾年發(fā)展,才最終達(dá)到很好用的狀態(tài)。

我是一個比較長期主義的人?,F(xiàn)在 VLA 可能確實(shí)有很多問題,不管是效率還是幻覺問題,雖然它泛化性很好,但最終的成功率可能并沒有達(dá)到人類的期待。但我覺得不應(yīng)該因?yàn)樗F(xiàn)在的問題來全盤否定這個技術(shù),更多的是看到這個技術(shù)的潛力,包括它未來的發(fā)展方向。

我覺得 VLA 是現(xiàn)階段最能實(shí)現(xiàn)物理世界 AGI 的一個框架。語言也是人類這么多年智慧結(jié)晶的體現(xiàn),互聯(lián)網(wǎng)上這么多數(shù)據(jù)融合了人類的很多智慧。最終語言肯定是智能的一個很大的模態(tài),是必不可少的。 VLA 這個架構(gòu)可能也是最終通往 AGI 必不可少的一個框架。雖然它的網(wǎng)絡(luò)結(jié)構(gòu)比如 transformer 可能并不是最終理想的架構(gòu),但語言這個模態(tài)我覺得肯定是一個終局。

不管是物理世界的 AGI 還是 AGI ,我覺得都需要語言這個能力。所以不能因?yàn)?VLA 現(xiàn)在有很多問題來否定這項(xiàng)技術(shù)。而且 VLA 還有世界模型可能太容易理解了,現(xiàn)在有很多人利用自己對它的理解來做一些推演,來否定這項(xiàng)技術(shù)。還是應(yīng)該真正務(wù)實(shí)一點(diǎn),把 VLA 以及世界模型這些技術(shù)的底層技術(shù)做好,最終才能共同促進(jìn)這些行業(yè)的發(fā)展。

DeepTech:因?yàn)檫@個技術(shù)原理在大眾看來相對簡單,但技術(shù)實(shí)現(xiàn)上是非常難的?;蛘哒f transformer 的架構(gòu)只要研究一段時間都能理解,但具體實(shí)現(xiàn)就很難。VLA 也是一樣的,技術(shù)原理和邏輯相對簡單,但每個人對這個技術(shù)的理解不一樣,在發(fā)展過程中面臨的問題的解決方案不一樣,跨越某項(xiàng)技術(shù)鴻溝的難度和時間也不一樣。隨著技術(shù)發(fā)展,這些問題都能一步一步慢慢解決。

排版:olivia

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
震撼!牢A大專被扒后塌房?漂亮女生被野生雪豹撕咬血流滿面

震撼!牢A大專被扒后塌房?漂亮女生被野生雪豹撕咬血流滿面

魔都囡
2026-01-24 11:59:14
中國人好欺負(fù)是吧!網(wǎng)友拍到柬埔寨中國大使館門口疑發(fā)生沖突

中國人好欺負(fù)是吧!網(wǎng)友拍到柬埔寨中國大使館門口疑發(fā)生沖突

映射生活的身影
2026-01-24 11:27:05
特朗普通告全球,將對法國加稅200%,不到24小時,馬克龍喊話中國

特朗普通告全球,將對法國加稅200%,不到24小時,馬克龍喊話中國

滄海旅行家
2026-01-24 16:15:05
多省份公布去年結(jié)婚登記數(shù)據(jù)

多省份公布去年結(jié)婚登記數(shù)據(jù)

第一財(cái)經(jīng)資訊
2026-01-24 16:02:10
日本半導(dǎo)體專家:7nm不是中國的終點(diǎn),而是他們的極限,離開我們的供應(yīng),就會立即崩盤

日本半導(dǎo)體專家:7nm不是中國的終點(diǎn),而是他們的極限,離開我們的供應(yīng),就會立即崩盤

芯火相承
2026-01-24 16:48:43
回南天要來?廣州天氣回應(yīng)

回南天要來?廣州天氣回應(yīng)

魯中晨報(bào)
2026-01-24 17:31:03
U23國足決賽首發(fā)出爐!安帥連換4人,王鈺棟領(lǐng)銜,拜合拉木替補(bǔ)

U23國足決賽首發(fā)出爐!安帥連換4人,王鈺棟領(lǐng)銜,拜合拉木替補(bǔ)

奧拜爾
2026-01-24 21:35:20
越南少將大實(shí)話:當(dāng)年中國撤軍為啥不追?不是不想,是一份絕密命令讓人不得不服

越南少將大實(shí)話:當(dāng)年中國撤軍為啥不追?不是不想,是一份絕密命令讓人不得不服

老杉說歷史
2026-01-14 20:31:37
體壇名將放棄中國國籍,轉(zhuǎn)為美國國籍,14歲時在亞運(yùn)會創(chuàng)造歷史

體壇名將放棄中國國籍,轉(zhuǎn)為美國國籍,14歲時在亞運(yùn)會創(chuàng)造歷史

米修體育
2026-01-24 12:47:31
朝鮮大量進(jìn)口我國二手設(shè)備,如今發(fā)展成啥樣了?

朝鮮大量進(jìn)口我國二手設(shè)備,如今發(fā)展成啥樣了?

牛牛叨史
2026-01-24 14:16:44
恭喜米蘭!撿漏英超1億前鋒!當(dāng)打之年,醞釀逆襲,阿萊格里出面

恭喜米蘭!撿漏英超1億前鋒!當(dāng)打之年,醞釀逆襲,阿萊格里出面

阿泰希特
2026-01-24 13:00:01
諾維茨基調(diào)侃:科比曾開局就肘我肋骨,而兩周前我倆還相談甚歡

諾維茨基調(diào)侃:科比曾開局就肘我肋骨,而兩周前我倆還相談甚歡

懂球帝
2026-01-24 15:06:36
A股:剛剛,大消息傳來,釋放一個信號,下周一將迎來更大的行情

A股:剛剛,大消息傳來,釋放一個信號,下周一將迎來更大的行情

另子維愛讀史
2026-01-24 20:40:50
這才是賭王四位夫人的真實(shí)容貌,別再被電視劇騙了,個個風(fēng)華絕代

這才是賭王四位夫人的真實(shí)容貌,別再被電視劇騙了,個個風(fēng)華絕代

TVB的四小花
2026-01-24 01:11:25
回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

就一點(diǎn)
2025-10-09 12:19:42
不到24小時3猛料!孫濤落淚,移交公安,黃景瑜要上天,個個炸裂

不到24小時3猛料!孫濤落淚,移交公安,黃景瑜要上天,個個炸裂

小娛樂悠悠
2026-01-24 08:02:48
貝克漢姆長子抨擊父母,小兒子發(fā)文暗諷哥哥忘本:你以為你是誰?

貝克漢姆長子抨擊父母,小兒子發(fā)文暗諷哥哥忘本:你以為你是誰?

鄉(xiāng)野小珥
2026-01-23 16:14:15
近期浙江出現(xiàn)好幾例!開了地暖就咳嗽不止,罪魁“禍?zhǔn)住辈卦诩抑薪锹?>
    </a>
        <h3>
      <a href=環(huán)球網(wǎng)資訊
2026-01-24 11:38:19
隨著廣東107-97贏山西,北京爆冷輸球,CBA最新積分榜:前2名同分

隨著廣東107-97贏山西,北京爆冷輸球,CBA最新積分榜:前2名同分

小火箭愛體育
2026-01-24 22:15:09
南部戰(zhàn)區(qū)新聞發(fā)言人發(fā)表談話

南部戰(zhàn)區(qū)新聞發(fā)言人發(fā)表談話

界面新聞
2026-01-20 22:21:05
2026-01-24 23:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16172文章數(shù) 514536關(guān)注度
往期回顧 全部

科技要聞

特斯拉Cybercrab即將落地 每公里不到1塊錢

頭條要聞

被雪豹咬傷女子從急診轉(zhuǎn)出 目擊者:她沒有去摸豹子

頭條要聞

被雪豹咬傷女子從急診轉(zhuǎn)出 目擊者:她沒有去摸豹子

體育要聞

當(dāng)家球星打替補(bǔ),他們在故意擺爛?

娛樂要聞

回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

財(cái)經(jīng)要聞

“百年老字號”張小泉遭60億債務(wù)壓頂

汽車要聞

有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

態(tài)度原創(chuàng)

游戲
健康
房產(chǎn)
數(shù)碼
軍事航空

大錘要做武術(shù)題材《使命召喚》?又是工作經(jīng)歷暴露!

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

房產(chǎn)要聞

正式官宣!三亞又一所名校要來了!

數(shù)碼要聞

酷態(tài)科6號Ultra充電器曝光:雙Type-C接口均支持100W快充

軍事要聞

俄美烏首次三方會談在阿聯(lián)酋舉行

無障礙瀏覽 進(jìn)入關(guān)懷版