国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話諾因李銀川:華為出身的天才科學(xué)家想用合成數(shù)據(jù)造家務(wù)機(jī)器人

0
分享至



一個極度樂觀主義者心目中具身智能的模樣。

文丨申遠(yuǎn)

編輯丨宋瑋

見過李銀川的人都說他是一個天才。學(xué)生時代他直接保送北理工校長的博士,在讀期間就參與了大賣的雷達(dá)產(chǎn)品研發(fā)。留學(xué)美國期間,李銀川做了一個量化交易的軟件,賣給了華爾街?!皩W(xué)生來說是很大一筆錢?!?/p>

在華為諾亞實(shí)驗(yàn)室待了五年,李銀川 “拿遍了公司主流大獎”,即使以華為的標(biāo)準(zhǔn)看,他也是一個全力以赴的卷王。

但李銀川真正想做的是創(chuàng)業(yè),他給自己設(shè)定了一個時間節(jié)點(diǎn): 30 歲,方向也很早就清晰,To c 硬件產(chǎn)品。疊加他的 AI 技術(shù)背景,這一切自然指向了機(jī)器人。

2025 年,30 歲的李銀川從華為離職創(chuàng)辦了諾因智能。一個主打家用智能機(jī)器人的具身智能品牌,選擇的技術(shù)路線也略顯小眾,合成數(shù)據(jù)。

諾因成立半年就完成了 3 輪融資,估值超過 20 億人民幣。許多人沖著他堅實(shí)的學(xué)術(shù)背景而來。

坦率地說,已經(jīng)十分擁擠的具身智能賽道并不缺少天才,也不缺少技術(shù)路線,缺的是落地能力,至少是落地的可能性。

李銀川需要以一種和學(xué)術(shù)完全不同的方式證明自己是對的,但他非但不焦慮,反倒信心爆棚,用他的原話說,被 200 個人質(zhì)疑拒絕,他也不會感到受挫。

下面呈現(xiàn)的,是一個極度樂觀主義者心中具身智能的模樣。

諾因版 L1 - L5 家庭機(jī)器人能力等級

這是李銀川第一次接受媒體訪問,為此他專程從深圳飛到北京。深冬的北京和深圳的溫差達(dá)到 20 多度,誘發(fā)了他的鼻炎,這讓他慢條斯理的說話言語中帶著一些鼻音。李銀川是安徽人,盡管之前曾在北京求學(xué)和工作過數(shù)年,但顯然,溫暖潮濕更適合他。采訪前一天他六點(diǎn)才睡,這似乎也是天才的一個普遍特征:晚睡晚起,作息并不規(guī)律。

晚點(diǎn):網(wǎng)上關(guān)于你的個人資料很少,但論文超級多,乍看上去涉及很多主題,你怎么總結(jié)你這種復(fù)雜的學(xué)術(shù)背景?它們都和 AI 或具身智能相關(guān)嗎?

李銀川:論文也沒有超級多啦,其實(shí)我的研究都可以歸類為決策推理。從最早的信號處理開始,然后到強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí),再到流模型、生成式方法,包括生成流網(wǎng)絡(luò),它們都是決策推理大方向上的不同分支,本質(zhì)都是在研究如何學(xué)習(xí)高維概率分布,在約束下高效采樣、組合 / 優(yōu)化出新的可行解,在具身領(lǐng)域就是把生成與推理能力落到動作策略上。

2017 年 Transformer 出來那會兒我還在研究強(qiáng)化學(xué)習(xí),當(dāng)時它和 NLP 大模型幾乎是兩條平行線。2020 年做聯(lián)邦學(xué)習(xí)和分布式訓(xùn)練研究的時候,我開始嘗試訓(xùn)練一些大模型。

晚點(diǎn):轉(zhuǎn)向訓(xùn)練大模型的過程困難嗎?或者說,這對你來說是一種研究主題的轉(zhuǎn)變嗎?

李銀川:我覺得更像是工具和范式升級,其實(shí)從早期做信號處理的時候就開始用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)了,所以你能看到早期很多做 AI 的人都是信號處理轉(zhuǎn)過去的,它們之間的理論是相通的。

Transformer 的出現(xiàn)改進(jìn)了傳統(tǒng)深度學(xué)習(xí)架構(gòu)的缺點(diǎn),讓基于文本和圖像訓(xùn)練非常大的模型變得可能,但決策推理領(lǐng)域在 2020 年的時候并沒有這樣一種架構(gòu)范式。

晚點(diǎn):在決策推理領(lǐng)域,事情朝著什么方向發(fā)展了?

李銀川:當(dāng)時決策推理有一個重要技術(shù)流派是強(qiáng)化學(xué)習(xí),但人們逐漸從理論和應(yīng)用上都發(fā)現(xiàn)它有一些局限性,在求解非常大規(guī)模問題的時候,它的探索復(fù)雜度太高了。

除了強(qiáng)化學(xué)習(xí),別的流派還包括模仿學(xué)習(xí)以及流網(wǎng)絡(luò),但逐漸地有個趨勢變得越來越明顯,大家的研究目標(biāo)不約而同開始朝著構(gòu)建一個生成式?jīng)Q策大模型發(fā)展,一個好的決策模型應(yīng)該把策略知識都學(xué)進(jìn)去,就像語言模型能夠生成新的內(nèi)容那樣,決策模型生成新的動作。

晚點(diǎn):聽上去就是 VLA 了。

李銀川:可以這么理解,但我更愿意叫它 “生成式?jīng)Q策大模型”,它的概念范圍比 VLA 更廣。

當(dāng)時構(gòu)建這種模型有很多思路,其中一種是把流網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)相結(jié)合,也就是生成流網(wǎng)絡(luò)。它不像傳統(tǒng)強(qiáng)化學(xué)習(xí)那樣只追求一個最優(yōu)動作,而是通過學(xué)習(xí)完整策略分布,采樣出多種可行的方案,探索效率能夠提升很多倍。

還有一種是模仿學(xué)習(xí)結(jié)合擴(kuò)散策略(diffusion policy),這部分技術(shù)一定程度上促進(jìn)了早期具身 VLA 架構(gòu)的誕生。

晚點(diǎn):當(dāng)時這種架構(gòu)最大的缺點(diǎn)是什么?

李銀川:很多早期 VLA 模型實(shí)際上還是依賴擴(kuò)散策略的模仿學(xué)習(xí)能力,本質(zhì)上是把人的操作軌跡給背會。數(shù)據(jù)覆蓋足夠的時候會表現(xiàn)很好,但數(shù)據(jù)不足的時候就容易變得不穩(wěn)定,一旦遇到訓(xùn)練分布之外的組合、長鏈條任務(wù)里的意外分支它就比較吃力,它更擅長 “復(fù)現(xiàn)做過的動作”,因此泛化到復(fù)雜場景比較吃力,不是一個能涌現(xiàn)能力的架構(gòu)。

我們一直在做的,就是把更多生成式?jīng)Q策思想引入 VLA 架構(gòu),讓模型不僅學(xué)會模仿,還要學(xué)會在約束獎勵下建模和采樣動作分布,把動作片段做可組合的表征,再通過后訓(xùn)練把多種能力進(jìn)行對齊,逐步逼近具身決策大模型應(yīng)有的能力形態(tài),也就是在復(fù)雜場景下執(zhí)行長鏈條任務(wù)的泛化能力。

晚點(diǎn):我看到了一個你們內(nèi)部的材料,劃分了具身智能 L1 到 L5 能力范疇,這是你寫的嗎?

李銀川:是我自己做的,因?yàn)楝F(xiàn)在行業(yè)內(nèi)還沒有一個對具身智能標(biāo)準(zhǔn)的公認(rèn)的劃分方法。不過這個也算不上是原創(chuàng),主要對標(biāo)了自動駕駛領(lǐng)域的劃分方法。

具體來說:

L1 (輔助操作):以遙控操作為主,能在遙操作機(jī)器人時提供基礎(chǔ)輔助,這也是當(dāng)前行業(yè)內(nèi)用動捕、手柄等技術(shù)遙操作機(jī)器人的主流形態(tài);

L2 (簡單能力、隨時接管):這個階段的機(jī)器人可以模仿人類完成特定動作,能實(shí)現(xiàn)一些看似酷炫的功能,但需要人一直守著;

L3 (長鏈條執(zhí)行、待命接管):最具商業(yè)價值,此階段人只是待命接管,而不是隨時接管的狀態(tài),機(jī)器人可以自主、長鏈條的去完成一些任務(wù);

L4 (系統(tǒng)運(yùn)行、無需接管):機(jī)器人可以完成限定場景內(nèi)的各種各樣的復(fù)雜任務(wù),是無需接管的;

L5 (完全智能):是無需任何干預(yù),機(jī)器人可完成任意場景下的各類任務(wù),真的和真人一樣。

晚點(diǎn):諾因的技術(shù)現(xiàn)在處于哪個階段?L3 嗎?

李銀川:按照我們的技術(shù)路線,可以到 L3,現(xiàn)在是從 L2 到 L3 跨越的關(guān)鍵階段?,F(xiàn)階段機(jī)器人已經(jīng)可以在特定場景和任務(wù)下,實(shí)現(xiàn)閉環(huán)執(zhí)行,人只需要待命接管。

晚點(diǎn):這意味著模型一定要有泛化能力。

李銀川:在我們的定義下肯定是這樣。沒有泛化能力,根本無法實(shí)現(xiàn)長鏈條任務(wù)的自主閉環(huán)和執(zhí)行嘛。

晚點(diǎn):這條技術(shù)路線,長遠(yuǎn)看會通向 L5 嗎?

李銀川:我覺得這更像一個偽命題。L5 會不會出現(xiàn),不僅要看技術(shù)能力,還要看它的商業(yè)價值,如果沒有商業(yè)價值了,盡管技術(shù)上能實(shí)現(xiàn),它也永遠(yuǎn)不會真正走向市場。比如 L5 的自動駕駛真的會出現(xiàn)嗎?不一定吧。

晚點(diǎn):為什么不一定?

李銀川:越往后遇到的是越極端的長尾場景,投入會越來越大,但帶來的用戶價值增量未必成比例,當(dāng)消費(fèi)者不會為它買單的時候,它就不會到來了,比如停在 L4 階段,或者后面的進(jìn)步非常緩慢。

晚點(diǎn):你是說邊際效率遞減對么?

李銀川:對,當(dāng)然在具身上這個問題并不是絕對的,我只是說 L5 也有可能不會到來。至少目前來看,沒有哪家公司會把研發(fā) L5 級別的具身智能作為目標(biāo),這就有點(diǎn)不著邊際了。

晚點(diǎn):在具身領(lǐng)域,大家對什么是端到端莫衷一是,說什么的都有,你怎么看這個問題?

李銀川:因?yàn)槿狈?biāo)準(zhǔn)定義。端到端這三個字,你可以指訓(xùn)練端到端,也可以說模型架構(gòu)端到端,但在模型架構(gòu)上,除非你只用一個 Transformer 結(jié)構(gòu)解決所有問題,不然你很難說任何 VLA 模型是純粹的端到端。

晚點(diǎn):總結(jié)起來,諾因機(jī)器人上應(yīng)用的會是一個端到端的具有泛化能力的生成式?jīng)Q策大模型,而不是分層模型,對么?

李銀川:非要這么劃分的話,是的我們會偏端到端。因?yàn)槠鋵?shí)現(xiàn)在很難說還有純粹分層的架構(gòu)了,打個比方,即使是分層的架構(gòu),在工業(yè)落地的時候大家還是會做一系列后訓(xùn)練,那么它就還是一個端到端訓(xùn)練的模型。

“你沒法證明你的直覺是對的?!?/strong>

晚點(diǎn):什么時候下定決心出來創(chuàng)業(yè)?

李銀川:GPT-4o 發(fā)布。

晚點(diǎn):當(dāng)時你還在華為。

李銀川:對,創(chuàng)業(yè)想法我其實(shí)很早就有了,但博士畢業(yè)后我還是想在 AI 領(lǐng)域積累更多經(jīng)驗(yàn),在當(dāng)時諾亞研究院是國內(nèi)公認(rèn)的最好的 AI 研究院之一,我就加入了諾亞,一直工作了 5 年。

晚點(diǎn):在華為的時候你主要負(fù)責(zé)什么?

李銀川:我加入的是決策推理實(shí)驗(yàn)室,規(guī)模相當(dāng)大,這和其他公司不太一樣,因?yàn)槿A為有很多業(yè)務(wù)都和決策推理、強(qiáng)化學(xué)習(xí)等技術(shù)高度相關(guān)。

晚點(diǎn):聽說你在華為內(nèi)部拿遍了員工能得的主流獎項(xiàng)。

李銀川:我做事追求全力以赴,在華為績效一直都挺好,確實(shí)也拿了很多獎。 ChatGPT 大火那一年,公司讓我成立了新項(xiàng)目組,開始專注做生成模型相關(guān)研究,所以也可以算是吃到大模型爆火的一波紅利吧。

晚點(diǎn):你的項(xiàng)目組主要做什么?

李銀川:這個項(xiàng)目組叫生成模型理論項(xiàng)目組,方向之一是 AIGA,最后一個 A 就是 action,所以我們重點(diǎn)關(guān)注如何基于生成式學(xué)習(xí)來生成動作,它的應(yīng)用范圍很廣,包括自動駕駛、具身智能等多個領(lǐng)域。

其實(shí)在 23 年早期我就提出過類似后來 OpenAI o1 推理架構(gòu)的想法,因?yàn)楫?dāng)時我在尋找 AIGA 在大模型訓(xùn)練上的應(yīng)用方向。

晚點(diǎn):但這個方向最后沒有推進(jìn)下去。

李銀川:有很多原因吧,具體就不展開了。歸根結(jié)底很多時候你沒法證明你的直覺是對的,對吧?

晚點(diǎn):你認(rèn)為你有一種準(zhǔn)確地技術(shù)直覺。

李銀川:對,因?yàn)槲乙恢痹谶@個方向上做研究,對行業(yè)的技術(shù)發(fā)展趨勢有自己的判斷和積累。其實(shí)最拼的那段時間就是 23 年,當(dāng)時經(jīng)常處于一種特別興奮的狀態(tài),很長一段時間每天只能睡 3 個小時,看各種論文,有點(diǎn)像追漫畫,論文一更新,我就拿來讀,讀得多了之后,一篇新論文只需要幾分鐘我就能抓到重點(diǎn)了。

晚點(diǎn):說回來,為什么 GPT-4o 讓你覺得可以出來創(chuàng)業(yè)了?

李銀川:因?yàn)樗鉀Q了一直困擾我的問題,那就是具身的數(shù)據(jù)來源。很多人覺得合成數(shù)據(jù)就是生成逼真的畫面,但機(jī)器人需要的不是好看的圖片,而是能學(xué)到動作的數(shù)據(jù)。

GPT-4o 模型已經(jīng)能夠理解和生成具有物理結(jié)構(gòu)的內(nèi)容,指令遵從性也非常高,只要在具身場景下做進(jìn)一步提升,從中提取動作相關(guān)的信息是可行的,這讓我覺得用合成數(shù)據(jù)做具身這條路可以走通了。

當(dāng)時 GPT-4o 的吉卜力風(fēng)格特別出圈,說實(shí)話我還挺驚訝的。

晚點(diǎn):連你也沒預(yù)料到進(jìn)步會這么快?

李銀川:對,當(dāng)時確實(shí)沒有料到。我們當(dāng)時還聚焦在研究大語言模型上,突然發(fā)現(xiàn)多模態(tài)能力都已經(jīng)開始快速涌現(xiàn)了。

晚點(diǎn):你沒有想探究一下它能力提升的原因嗎?

李銀川:原理我是大概知道的。GPT-4o 能做到這么出色,不是因?yàn)槟骋黄撐奶岢隽艘粋€劃時代的技術(shù),而是依靠背后龐大工程團(tuán)隊的技術(shù)整合能力和工程落地能力,把各類前沿技術(shù)進(jìn)行了高效融合和落地。

晚點(diǎn):總結(jié)起來邏輯就是多模態(tài)模型可以生成高質(zhì)量合成數(shù)據(jù),它們能被用來訓(xùn)練具身模型。

李銀川:對,要用模型生成具身數(shù)據(jù),而不是人采集具身數(shù)據(jù)。這是我們基于這代多模態(tài)大模型摸索出的全新技術(shù)和數(shù)據(jù)路線,目前行業(yè)內(nèi)還沒有形成廣泛共識。和大部分具身公司基于自動駕駛的技術(shù)體系不一樣,而我們是完全圍繞多模態(tài)大模型和家庭具身場景,打造的專屬體系。

晚點(diǎn):為什么人采集具身數(shù)據(jù)不行?

李銀川:這和我們的創(chuàng)業(yè)方向有關(guān),諾因是一家專注 To C 的具身智能公司,機(jī)器人會進(jìn)入家庭。你很難想象讓機(jī)器人走進(jìn) 1 萬個家庭采集遙控操作的數(shù)據(jù)吧?仿真數(shù)據(jù)也是,它需要很精細(xì)的物理建模,還要投入大量的人力去標(biāo)定仿真數(shù)據(jù),這在復(fù)雜的家庭環(huán)境下實(shí)現(xiàn)成本太高了。

晚點(diǎn):成本高不意味著不可行,如果模型最終出現(xiàn)了很好的泛化能力,成本高一點(diǎn)也是可以接受的?

李銀川:首先,我們做的是 To C 產(chǎn)品,這些成本最終都會疊加到產(chǎn)品的售價上。其次,模型的泛化能力并不是憑空出現(xiàn)的,一定是數(shù)據(jù)足夠多,質(zhì)量足夠高才可以。

好的數(shù)據(jù)就像好的模型架構(gòu)一樣,必須簡單、可擴(kuò)展,合成數(shù)據(jù)恰好有這樣的特點(diǎn),同時成本更低。這會讓其它的數(shù)據(jù)采集路線雖然理論上可行,但最終會失去商業(yè)價值。

晚點(diǎn):訓(xùn)練數(shù)據(jù)都采用生成方式,不會容易出現(xiàn)過擬合的問題么,出來的數(shù)據(jù)都太類似。

李銀川:為什么你覺得真人采集的數(shù)據(jù)就不會過擬合呢?其實(shí)在實(shí)踐中你會發(fā)現(xiàn),你很難教會一個人什么叫采集 “非同質(zhì)化” 數(shù)據(jù),比如倒水這個動作,真人采集 1000 條數(shù)據(jù),最終 90% 對模型來說可能都是類似的,因?yàn)樗茈y每次都做出非常不一樣的動作、產(chǎn)生很大不同的變化。

但合成數(shù)據(jù)可以做到,只要工程能力足夠強(qiáng)、生成質(zhì)量足夠高,就能把數(shù)據(jù)差異化做得很大。另外這里還有一個對模型能力的理解問題,不是隨便變就叫多樣性,有些維度上的變化對模型泛化幫助很大,但大部分的變化都是有害的,我們花了不少時間去找到這條邊界。

晚點(diǎn):諾因生成數(shù)據(jù)的模型是怎么做的?

李銀川:現(xiàn)在沒有一個拿來就能生成高質(zhì)量家務(wù)操作的模型,所以我們在針對具身任務(wù)微調(diào)開源模型。

晚點(diǎn):這個東西聽上去沒有很難。

李銀川:聽起來就是正常訓(xùn)練大模型的那些技巧,對我們做過的人來說可能不難。當(dāng)然我們現(xiàn)在敢出來講,肯定這里面還是有非常非常多 know-how 的,核心難點(diǎn)不在于訓(xùn)練模型,而在于定義什么是好的合成數(shù)據(jù)。

模型生成的是像素,但機(jī)器人從中學(xué)的是動作策略,這兩者之間的橋怎么搭,目前沒有現(xiàn)成答案。我們的合成數(shù)據(jù)針對的是我們自研的具身決策大模型架構(gòu),它們結(jié)合起來門檻就非常高了,我們走了非常多彎路。

晚點(diǎn):你們不是才成立了半年多時間嗎?

李銀川:大模型時代每個月都能算是一個技術(shù)新周期了。你會不會覺得 GPT-5 已經(jīng)到來很長一段時間了?其實(shí)也才半年多。

晚點(diǎn):你提到了好幾次技術(shù)和成本效率之間的關(guān)系,你是不是很早就想好了要創(chuàng)業(yè)?

李銀川:我 20 歲就開始準(zhǔn)備創(chuàng)業(yè)了,而且明確定的就是 30 歲下場。

晚點(diǎn):那要是 30 歲等不到風(fēng)口怎么辦?

李銀川:其實(shí)風(fēng)口來的更早啊,如果是做大模型的話 23 年就是很好的時機(jī)了。當(dāng)時沒做,一來是因?yàn)榇竽P筒⒉皇俏易钌瞄L的方向,二來我覺得做大模型很難跟大廠競爭。

晚點(diǎn):大模型很難跟大廠競爭,機(jī)器人呢?

李銀川:To C 機(jī)器人完全可以呀,它屬于消費(fèi)電子賽道,商業(yè)模式和大模型完全不一樣。消費(fèi)電子是做出一個好產(chǎn)品賣出去就能賺錢,這個賽道不存在壟斷。不管是初創(chuàng)公司還是大廠,消費(fèi)電子想做好還是要聚焦產(chǎn)品,所以從第一性原理上來講我們并沒有什么劣勢。

晚點(diǎn):你從什么時候起想要做機(jī)器人的?

李銀川:我從小就對機(jī)器人比較感興趣,本科讀的就是電子工程,對硬件和算法都有一定的了解和積累。整個 AI 學(xué)科,如果非要我選一個最擅長的領(lǐng)域,那確實(shí)就是具身。我以前挺喜歡搗鼓電路板這些東西的,讀博時我還參與過一個雷達(dá)產(chǎn)品的研發(fā)。

不過讀博參與項(xiàng)目對我沖擊更大的還是周圍的同學(xué),當(dāng)你親眼看到一幫通過自己努力成功創(chuàng)業(yè)的人之后,你會意識到成立一家公司并不是遙不可及的。

晚點(diǎn):但是據(jù)我所知你在美國曾有一次創(chuàng)業(yè)經(jīng)歷,和機(jī)器人沒什么關(guān)系。

李銀川:一個基于強(qiáng)化學(xué)習(xí)的量化軟件,最后賣給了一家投資公司。

晚點(diǎn):為什么沒有延續(xù)這個創(chuàng)業(yè)路線?

李銀川:純粹做技術(shù)研發(fā),如果要給更多人提供價值,那賣掉是正確的選擇。第一次創(chuàng)業(yè)我就發(fā)現(xiàn)了這一點(diǎn),做個技術(shù)把它賣掉,確實(shí)能賺一些錢,但似乎對這個世界沒什么改變?我還是想做一個真正能改變世界的偉大公司,這需要足夠大的市場規(guī)模,也就是 To C 市場。

晚點(diǎn):大家都在說機(jī)器人進(jìn)工廠,基本做的都是 To B 生意。

李銀川:我認(rèn)可工業(yè)場景先落地,這點(diǎn)沒有問題。但真的很少有公司能同時把 B 端和 C 端業(yè)務(wù)都做好,華為是很少數(shù)的個例。我還是更愿意做規(guī)模更大的市場。

晚點(diǎn):后面的事就是在等風(fēng)口了。

李銀川:對,我之前一直沒有想清楚 To C 到底要怎么做,比如訓(xùn)練數(shù)據(jù)怎么收集?就像前面說的,雇很多人走進(jìn)家庭去采集數(shù)據(jù)我覺得肯定不行。等到 GPT-4o 出來,數(shù)據(jù)的事情比較清晰之后,創(chuàng)業(yè)的決心就比較堅定了。

不像人的家務(wù)機(jī)器人



諾因機(jī)器人原型機(jī),來源:諾因。

晚點(diǎn):考慮到你的背景,To C 市場你之前的經(jīng)驗(yàn)并不多,對吧?

李銀川:人要追求進(jìn)步,要學(xué)習(xí)嘛。

晚點(diǎn):就你個人來說,你覺得最需要進(jìn)步的是什么?

李銀川:需要去學(xué)習(xí)很多 To C 產(chǎn)品定義相關(guān)的事,不然很多時候會想當(dāng)然。比如,你覺得機(jī)器人價格多少是合理的?如果一個家務(wù)機(jī)器人賣 10 萬塊,你愿意買嗎?

晚點(diǎn):當(dāng)然不買啊。

李銀川:所以你看,真的不能想當(dāng)然,不同人的想法真的差異挺大的。

晚點(diǎn):你難道覺得 10 萬塊這個價格合理?

李銀川:沒有到十萬,但最開始我確實(shí)覺得大家愿意花更多的錢買一個家務(wù)機(jī)器人。汽車十幾萬、幾十萬的都有人買,那如果一個足夠強(qiáng)的家務(wù)機(jī)器人,能給你做好多個領(lǐng)域的家務(wù),每天都能用到,對標(biāo)保姆的話,貴一點(diǎn)應(yīng)該也是有人買的。

晚點(diǎn):什么讓你改變了這個想法?

李銀川:這就是產(chǎn)品定義我需要補(bǔ)課的一部分。消費(fèi)電子產(chǎn)品定價不能簡單根據(jù)已有功能的強(qiáng)弱定價。

晚點(diǎn):那應(yīng)該怎么定價?

李銀川:跟成本掛鉤。如果售價比成本高出太多,那一定會出現(xiàn)一家公司賣的比你便宜,然后你就失敗了,盡管對方功能可能并沒有你好,但它足夠便宜。

晚點(diǎn):怎么定義 To C 家庭機(jī)器人的功能好?

李銀川:至少有一個功能,讓用戶每天,或者至少每周能用個幾次,而不是放在那里吃灰,這就是好。

家庭是機(jī)器人最大和最難的場景。我比較擅長算法,肯定要做最難的事才能發(fā)揮自己的優(yōu)勢。諾因正在關(guān)注的家庭高頻場景大部分是清潔相關(guān),比如案面清潔、洗衣服等,此外還有像老人孩子的照顧,寵物照顧清潔這些同樣比較高頻的需求。

晚點(diǎn):洗衣服包含大家喜聞樂見、最愛展示的折疊衣物環(huán)節(jié)對嗎?

李銀川:我們想的是從拿衣服開始,到把它放到洗衣機(jī)里,洗完然后晾曬,一個完整流程。

晚點(diǎn):上面你提到的這些需求,每一個聽上去都很難。

李銀川:是的,實(shí)際做起來也不容易。

晚點(diǎn):你答應(yīng)的蠻干脆的,這些 L3 級別的任務(wù)諾因目前完成到什么程度了呢?

李銀川:我們認(rèn)為技術(shù)路線是收斂的,也就是說這些事情是可以做到的,只是還需要一些時間把它做好。

晚點(diǎn):這個技術(shù)路線收斂的判斷是你做的嗎?

李銀川:我做的判斷,然后大家也會有共識。其實(shí)去年注冊公司的時候我就做了這個判斷了,大概在 7-8 月份,這半年技術(shù)上的進(jìn)展和我們的預(yù)期是相符的。

采訪時李銀川給我們展示了兩段視頻。一段是機(jī)器人在一個橫向放置宛如桌子的電視屏幕上疊衣服,電視同時在播放著五光十色的視頻片段,而機(jī)器人旁邊還有包括迪斯科燈球在內(nèi)的各種復(fù)雜光源。機(jī)器人依舊可以順利折疊任意形態(tài)的衣服。另一段視頻里,機(jī)器人在調(diào)節(jié)洗衣機(jī)的旋鈕,李銀川說,諾因的機(jī)器人已經(jīng)可以做到精準(zhǔn)控制洗衣機(jī)操作旋鈕的角度。任意形態(tài)、任意背景、任意光照條件下的泛化,這種能力,根據(jù)李銀川的說法,完全來自使用足夠多的合成數(shù)據(jù)。

晚點(diǎn):聊了這么久,還沒說你們的產(chǎn)品形態(tài)。第一款產(chǎn)品是什么樣子的?大概多久會上市?

李銀川:第一款是基于輪式底盤,沒有上靈巧手,預(yù)計明年開始發(fā)布,然后用大概半年時間量產(chǎn)交貨。Sunday Robotics 之前的視頻挺火的,給大家?guī)砹艘恍┫胂?,我們已?jīng)有一些類似但不一樣的設(shè)計概念了。

晚點(diǎn):一個老生常談但又不得不問的問題,為什么是輪式?

李銀川:家庭一定是輪式的,雙足太容易摔倒了,而且續(xù)航、噪音也是問題,輪式可以放更大的電池,也更安靜。

晚點(diǎn):除了產(chǎn)品價格,還有什么產(chǎn)品定義上和你之前想得不一樣的地方嗎?

李銀川:有一個思路上的不同,就是應(yīng)該用做加法的方式做產(chǎn)品,也就是說當(dāng)你為了達(dá)到某種能力必須加?xùn)|西的時候再給你的產(chǎn)品加,除此之外,你應(yīng)該努力還原家庭機(jī)器人最極簡形態(tài),這也方便我們?nèi)珬W匝?,整合硬件與供應(yīng)鏈系統(tǒng)。

晚點(diǎn):舉個例子?

李銀川:比如在操作感知上我們是純視覺方案,沒有結(jié)構(gòu)光或激光雷達(dá)。不是說它們完全沒用,而是價格確實(shí)很貴,我們在算法上做了很多額外工作試圖彌補(bǔ)沒有結(jié)構(gòu)光和激光雷達(dá)造成的問題,最后發(fā)現(xiàn)這條路是可行的。

當(dāng)然,這和我們的技術(shù)路線也有關(guān)系,我們本來用的就是純視覺的合成數(shù)據(jù),從第一性原理來講視覺信息就是足夠的。

晚點(diǎn):我知道你們有一位聯(lián)創(chuàng)來自大疆,這種做加法的理論算是大疆的方法論嗎?

李銀川:這確實(shí)是他給我講的,我想應(yīng)該算是吧(笑)。第一款機(jī)器人不上靈巧手也是這個原因,現(xiàn)階段夾爪就能把家務(wù)做得很好,所以暫時不需要靈巧手。

晚點(diǎn):大疆方法論還有什么讓你印象深刻的地方?

李銀川:我是和他們聊才知道,產(chǎn)品的外觀設(shè)計是一套可以在白板上寫公式的方法論,我第一次看的時候特別震撼。哪些設(shè)計必須有,哪些是附帶的,加上之后會對整個外觀的函數(shù)造成什么影響,這是可以算出來的。產(chǎn)品設(shè)計最終是需要找到一種平衡,而不是拍腦袋覺得某個東西好看或者不好看。

晚點(diǎn):那有什么功能或者產(chǎn)品設(shè)計讓你印象比較深刻?

李銀川:現(xiàn)在還在比較早期階段,我可以貢獻(xiàn)一個已經(jīng)被否了的產(chǎn)品設(shè)計。我聽音樂的時候比較在意音質(zhì),所以一開始我想這個機(jī)器人是不是可以放個高品質(zhì)音響在里面,我看電影的時候在旁邊放音樂。

晚點(diǎn):因?yàn)椴环霞臃ǚ椒ㄕ摱环窳?,是么?/strong>

李銀川:在家里看電影用專門的外置音箱可能還是一個小眾需求。

晚點(diǎn):創(chuàng)業(yè)之后你有沒有發(fā)現(xiàn)自己的產(chǎn)品 sense 相比技術(shù)直覺差很多嗎?

李銀川:我在進(jìn)步(笑)。我確實(shí)之前沒做過 To C 產(chǎn)品,但從我這半年的進(jìn)步來看,我覺得我學(xué)習(xí)能力還是可以的,而且我的產(chǎn)品團(tuán)隊非常強(qiáng)。

晚點(diǎn):明年機(jī)器人發(fā)布,會解決剛才我們提到的那些任務(wù),主要圍繞清潔相關(guān)家務(wù)展開,當(dāng)然也包括洗衣服對么?

李銀川:我們在往這個方向努力,目前看應(yīng)該可以。

晚點(diǎn):換句話說,明年就是你們預(yù)計技術(shù)上可以攻克,產(chǎn)品上完全準(zhǔn)備好的時間節(jié)點(diǎn)。

李銀川:對,我們預(yù)計是一年多的時間。

晚點(diǎn):最終,諾因的機(jī)器人在家庭中會是一個什么樣的存在?

李銀川:第一款產(chǎn)品我不希望大家把它當(dāng)做一個家庭成員看待。如果是家庭成員的話,那意味著存在感很強(qiáng),也不匹配現(xiàn)階段具身的能力,現(xiàn)階段它只是一個做家務(wù)的機(jī)器人,不是保姆。所以我們希望它存在感盡量低一點(diǎn),該工作的時候工作,大部分時間休息。它升起來大概一米六左右,降下去一米二三的樣子,尺寸也比較適合中國家庭,因?yàn)榇蠹业姆孔悠毡檫€沒有那么大。

晚點(diǎn):你更希望大家把它看做一個工具產(chǎn)品,而不是機(jī)器人?

李銀川:我希望大家把它當(dāng)做一個聰明的,能為你做事的產(chǎn)品,主打家務(wù)功能,附贈情緒價值。

被 200 個人拒絕的極度樂觀主義者

晚點(diǎn):你們?nèi)谫Y速度非常快,成立第一個月就融資了,第二輪估值就翻倍,但即使現(xiàn)在,合成數(shù)據(jù)都不能說是個主流的方向,你怎么去說服投資人?

李銀川:最早的時候大家可能覺得我在吹牛,但我們進(jìn)展真的非???,非常迅速,大家一看演示就知道,很多人被我們的速度震驚到,所以我們?nèi)谫Y上確實(shí)沒怎么費(fèi)力,反而因?yàn)楣乐禎q的比較快還被抱怨過。

晚點(diǎn):這算是凡爾賽吧 … 成立時間這么晚,你怎么跟投資人解釋諾因和其他公司不一樣的地方?

李銀川:我們極度聚焦在技術(shù)和產(chǎn)品本身,從最開始十幾個人到現(xiàn)在 100 人的規(guī)模,我們都很像蘋果早期 Mac 開發(fā)團(tuán)隊,組織架構(gòu)圍繞著產(chǎn)品在快速迭代,非常扁平。

晚點(diǎn):你個人覺得有什么短板需要補(bǔ)嗎?

李銀川:最大的問題可能是時間不夠用,除此之外,我覺得只要一直保持學(xué)習(xí),所謂短板都是可以補(bǔ)上的。

晚點(diǎn):感覺你創(chuàng)業(yè)之后好像更快樂了?

李銀川:因?yàn)槊刻於加姓答?,很多時候都興奮地睡不著覺。我從小就不太喜歡按部就班死記硬背,所以我偏科很厲害,學(xué)生時代最快樂時間段是讀博之后,因?yàn)橛泻芏嘧晕姨剿鞯臅r間,再有就是現(xiàn)在創(chuàng)業(yè)。

晚點(diǎn):除了快樂,感覺你也不焦慮,盡管具身智能是一個競爭這么激烈的賽道。

李銀川:因?yàn)槲以谧稣_的事情,這方面我極度樂觀。舉個例子,如果你去創(chuàng)業(yè)的話,聊 100 個人,99 個人都在質(zhì)疑你,你會受挫嗎?

晚點(diǎn):正常人都會吧。

李銀川:我完全不會。我們早期招人的時候,很多人都不認(rèn)可我的技術(shù)路線,會遇到非常果斷的拒絕,但這完全不影響我第二天依舊能量滿滿的繼續(xù)和人聊。最后,聊多了你就發(fā)現(xiàn),這個行業(yè)里真正頂級的,技術(shù)非常強(qiáng)的人我們是會聊得來的,會認(rèn)可我的。

晚點(diǎn):但還是拒絕了你。

李銀川:哈哈哈哈對,各種各樣原因拒絕的都有,我早期可能聊了 200 個人都被拒絕了。

晚點(diǎn):你就沒有一個心理調(diào)適的過程?這是自信還是你非常確定你就是對的?

李銀川:因?yàn)橹雷约菏菍Φ模员痪芙^或不認(rèn)可真的不困擾我。這實(shí)際上還形成了一個雙向篩選,真正有技術(shù)判斷力、最頂級的人最后反倒是被我們的愿景和技術(shù)路線打動加入我們了,因?yàn)榇蠹覍夹g(shù)的理解真能聊到一起去,所以諾因現(xiàn)在團(tuán)隊的人才密度和技術(shù)水平說實(shí)話超出了我最初預(yù)期。

晚點(diǎn):基于你非常自信的這個視角,你怎么看 2026 年具身智能的競爭格局?

李銀川:我覺得 2026 年不聚焦落地或者沒有落地能力的公司就不太會被關(guān)注了。合成數(shù)據(jù)這個方向會有更多的玩家出現(xiàn)。

我算比較早出來融資講具身智能 To C 可以做以及怎么落地的人,所以可以說諾因確實(shí)在 To C 上有先發(fā)優(yōu)勢。

晚點(diǎn):這個先發(fā)優(yōu)勢能維持多久?

李銀川:就像之前說的,首先,這里面積累了很多 know-how,就算競爭對手完全知道了技術(shù)路線的細(xì)節(jié),那也要花半年到一年的時間才能追上來。其次,前面也說過,合成數(shù)據(jù)并不適配所有技術(shù)路線,這是和我們生成式?jīng)Q策的架構(gòu)高度綁定的,這方面的門檻很高。

晚點(diǎn):你該不會要給我說,其實(shí)你心目中諾因的競爭對手只有自己吧?

李銀川:我們真的不跟外界比,因?yàn)檎娴暮芫劢巩a(chǎn)品本身,它是一個世界上還沒有的產(chǎn)品,所以你也沒法從別人身上學(xué)到現(xiàn)成的答案?,F(xiàn)在最大的問題是如何讓團(tuán)隊里來自不同背景的人充分協(xié)調(diào)配合,發(fā)揮最大創(chuàng)造力,只要你做到最好了,其實(shí)也就不用太關(guān)心外界了對不對?外界最多也就是和你持平。

晚點(diǎn):諾因現(xiàn)在規(guī)劃中的機(jī)器人產(chǎn)品是從 L2 到 L3 的過渡,那再往前一步的技術(shù)會是什么樣的?需要新的范式轉(zhuǎn)變嗎?

李銀川:我其實(shí)已經(jīng)想好技術(shù)的轉(zhuǎn)變會在什么時候發(fā)生了,我面試許多候選人的時候也會深入聊這些細(xì)節(jié)。但是大模型技術(shù)進(jìn)步太快了,現(xiàn)在我們預(yù)料兩年后該做什么,那它大概率不會發(fā)生,或者到時候已經(jīng)不是最優(yōu)解了。

晚點(diǎn):還是可以大概說一下吧,讀者也會好奇的。

李銀川:這就純猜了哈,比如我們最終產(chǎn)品賣出很多臺后,收集了大量真實(shí)數(shù)據(jù),屆時我們會有一種更涌現(xiàn)的架構(gòu),把所有的家務(wù)技能重組編排,然后訓(xùn)到基座模型里面。

晚點(diǎn):它和現(xiàn)在的技術(shù)路線區(qū)別在于一個是合成數(shù)據(jù)一個是真實(shí)數(shù)據(jù)?

李銀川:在于泛化能力不同,現(xiàn)在的模型已經(jīng)可以精確操控洗衣機(jī)了,但如果你讓它炒個菜它還是不行的。最終具身大模型會從生成新動作轉(zhuǎn)向涌現(xiàn)新技能,因?yàn)槿耸强梢杂|類旁通生成新技能的。

晚點(diǎn):現(xiàn)在的模型依舊圍繞在特定場景執(zhí)行特定任務(wù)。

李銀川:圍繞特定難度的任務(wù)。像炒菜這種非常復(fù)雜、對安全性要求很高的任務(wù)我覺得目前還是泛化不了,現(xiàn)在能夠?qū)崿F(xiàn)一定泛化的任務(wù)難度還是可控的。

晚點(diǎn):因?yàn)楹铣蓴?shù)據(jù)的原因,你們對模型架構(gòu)做了一些調(diào)整,但未來總的來說還是以 Transformer 架構(gòu)為主導(dǎo)。

李銀川:是這樣的,其實(shí)現(xiàn)在大家也都在這樣做。

晚點(diǎn):具身智能領(lǐng)域同樣也會遵循 Scaling Law (縮放定律)對么,會突然涌現(xiàn)么?

李銀川:我們內(nèi)部的 Scaling Law 曲線已經(jīng)繪制半年了,每月都會更新進(jìn)展,但它和涌現(xiàn)不太一樣。這條曲線讓我們可以預(yù)判,再投入多少數(shù)據(jù)、在什么任務(wù)上能獲得多少能力提升,這也是我們敢說技術(shù)路線收斂的依據(jù)。Scaling Law 是說數(shù)據(jù)量和模型能力以及準(zhǔn)確度之間的關(guān)系,涌現(xiàn)是說模型出現(xiàn)了意料之外的泛化,比如模型本來是做清潔任務(wù),突然就會做菜了,這種現(xiàn)在的技術(shù)還看不太到。

題圖來源:諾因智能

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
749局退休人員口述:外星人真實(shí)存在,我在秦嶺深處親眼見過一次

749局退休人員口述:外星人真實(shí)存在,我在秦嶺深處親眼見過一次

千秋文化
2026-04-09 15:56:25
30國幫手已到,日艦艇進(jìn)臺海,不到24小時,中方一句話滅高市威風(fēng)

30國幫手已到,日艦艇進(jìn)臺海,不到24小時,中方一句話滅高市威風(fēng)

溫讀史
2026-04-19 01:07:58
湖人棄將19+6斷登全美熱搜!多次生斷庫里致湖媒后悔 年薪僅234萬

湖人棄將19+6斷登全美熱搜!多次生斷庫里致湖媒后悔 年薪僅234萬

顏小白的籃球夢
2026-04-18 13:23:57
“見過最廉價的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

“見過最廉價的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

妍妍教育日記
2026-04-15 09:30:09
1936年,孫科為討新歡藍(lán)妮開心,狠心拋棄懷孕的秘書嚴(yán)藹娟

1936年,孫科為討新歡藍(lán)妮開心,狠心拋棄懷孕的秘書嚴(yán)藹娟

古書記史
2026-01-27 00:38:02
鎮(zhèn)店之寶不再保密!莫氏雞煲創(chuàng)始人累到想休息,公開全部配方

鎮(zhèn)店之寶不再保密!莫氏雞煲創(chuàng)始人累到想休息,公開全部配方

大魚簡科
2026-04-15 19:49:23
廣東人請客吃飯,為什么從不當(dāng)眾說“我買單”?

廣東人請客吃飯,為什么從不當(dāng)眾說“我買單”?

西莫的藝術(shù)宮殿
2026-04-18 09:44:38
封鎖霍爾木茲海峽后,美釋放雙重信號

封鎖霍爾木茲海峽后,美釋放雙重信號

環(huán)球網(wǎng)資訊
2026-04-16 07:14:52
我干了50年風(fēng)水師,我發(fā)現(xiàn)真正能改變命運(yùn)的,只有三個字

我干了50年風(fēng)水師,我發(fā)現(xiàn)真正能改變命運(yùn)的,只有三個字

千秋文化
2026-04-04 21:29:57
花了1萬5和梅根合照,結(jié)果梅根卻對著粉絲大倒苦水:我生活真難??!

花了1萬5和梅根合照,結(jié)果梅根卻對著粉絲大倒苦水:我生活真難??!

英國那些事兒
2026-04-18 23:20:17
澳大利亞前總理:美國扮演國際秩序的“破壞者”是有意為之

澳大利亞前總理:美國扮演國際秩序的“破壞者”是有意為之

北青網(wǎng)-北京青年報
2026-04-18 17:04:03
局面嚴(yán)峻,高市接到中方消息,自衛(wèi)隊剛闖入臺海,解放軍依法處置

局面嚴(yán)峻,高市接到中方消息,自衛(wèi)隊剛闖入臺海,解放軍依法處置

荷蘭豆愛健康
2026-04-19 00:46:58
“臺球皇帝”亨德利鄭重表態(tài):趙心童世錦賽衛(wèi)冕無需被克魯斯堡魔咒束縛

“臺球皇帝”亨德利鄭重表態(tài):趙心童世錦賽衛(wèi)冕無需被克魯斯堡魔咒束縛

海闊山遙YAO
2026-04-19 00:38:33
尷尬!湖北一美女稱隔壁男子塞紙條索要微信,結(jié)果她直接掛網(wǎng)上了

尷尬!湖北一美女稱隔壁男子塞紙條索要微信,結(jié)果她直接掛網(wǎng)上了

火山詩話
2026-04-18 14:42:35
遼寧下賽季難有調(diào)整!老將變老,小將無成長,幾乎沒調(diào)整空間!

遼寧下賽季難有調(diào)整!老將變老,小將無成長,幾乎沒調(diào)整空間!

籃球資訊達(dá)人
2026-04-19 01:00:36
季后賽開拓者對陣馬刺,楊瀚森能獲得出場機(jī)會嗎?答案或許很傷人

季后賽開拓者對陣馬刺,楊瀚森能獲得出場機(jī)會嗎?答案或許很傷人

愛體育
2026-04-18 23:15:01
Sora負(fù)責(zé)人離職

Sora負(fù)責(zé)人離職

財聯(lián)社
2026-04-18 07:24:06
慘!某運(yùn)營商21省政企收入未達(dá)標(biāo),開局就崩?

慘!某運(yùn)營商21省政企收入未達(dá)標(biāo),開局就崩?

林子說事
2026-04-18 21:07:21
洪秀柱和鄭麗文完全不是一路人!

洪秀柱和鄭麗文完全不是一路人!

果媽聊娛樂
2026-04-15 08:52:10
“谷雨不補(bǔ),入夏受苦”,周一谷雨,記得多吃“三寶”,養(yǎng)肝祛濕

“谷雨不補(bǔ),入夏受苦”,周一谷雨,記得多吃“三寶”,養(yǎng)肝祛濕

江江食研社
2026-04-18 17:55:03
2026-04-19 04:51:00
晚點(diǎn)LatePost
晚點(diǎn)LatePost
晚一點(diǎn),好一點(diǎn)。商業(yè)的真相總是在晚點(diǎn)?!锻睃c(diǎn)LatePost》官方賬號
3165文章數(shù) 21918關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

時尚
家居
本地
旅游
軍事航空

選對發(fā)型,真的能少走很多變美彎路

家居要聞

法式線條 時光靜淌

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

旅游要聞

申城周末開啟“繁花”模式:前灘800米歐式花街變身莊園 全城百個櫥窗聯(lián)動“擁抱”春天

軍事要聞

解放軍護(hù)衛(wèi)艦與外艦纏斗20小時 細(xì)節(jié)披露

無障礙瀏覽 進(jìn)入關(guān)懷版