国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

智能眼鏡大爆發(fā),我們和雷鳥創(chuàng)新AI負責人聊了下為什么

0
分享至

2025 年,是 AI 智能眼鏡大爆發(fā)的一年。

從 Meta 的 Ray-Ban 智能眼鏡在全球銷量突破百萬副開始,一場“百鏡大戰(zhàn)”正在全球范圍內(nèi)上演。在中國市場,阿里發(fā)布夸克 AI 眼鏡、百度推出小度 AI 眼鏡、小米計劃第二季度推出新品、理想汽車甚至跨界發(fā)布了 Livis 眼鏡。從互聯(lián)網(wǎng)大廠到手機廠商,從 AR 創(chuàng)業(yè)公司到汽車制造商,所有人都在押注:眼鏡將成為繼手機之后,下一代人機交互的關(guān)鍵入口。

據(jù) IDC 預(yù)測,2025 年全球智能眼鏡出貨量將達 1451.8 萬臺,中國市場將占據(jù) 290.7 萬臺。然而,在這場狂熱的競賽中,真正的“殺手級應(yīng)用”是什么?第一人稱視角的數(shù)據(jù)采集意味著什么?眼鏡真的能取代手機嗎?

帶著這些問題,我們與雷鳥創(chuàng)新 AI 方向負責人程思婕進行了一次深度對話。作為清華計算機系博士,從 2019 年本科時期就開始研究語言模型,從 BERT 到 GPT,再到具身智能,她的研究軌跡恰好折射出 AI 領(lǐng)域這幾年最重要的變革。而她從機器人賽道轉(zhuǎn)向智能眼鏡的選擇,或許能為我們理解這個行業(yè)提供一個獨特的視角。

智能眼鏡大爆發(fā),我們和雷鳥創(chuàng)新AI負責人聊了下為什么,DeepTech深科技,1小時1分鐘

時間線

00:00 - 02:37|開場+嘉賓自我介紹、研究方向概覽

02:37 - 04:24|學(xué)術(shù)/實習(xí)路徑與“更偏真實世界”的選擇

04:24 - 09:35|為什么從機器人轉(zhuǎn)向智能眼鏡:短期瓶頸與數(shù)據(jù)邏輯

09:35 - 13:46|眼鏡的“中間態(tài)”定位;剛需屬性與國內(nèi)外差異

13:46 - 20:28|第一人稱視角:價值、眼動/噪聲、數(shù)據(jù)挑戰(zhàn)與多視角融合

20:28 - 39:09|用戶需求與產(chǎn)品落地:穩(wěn)定性/核心場景;硬件 trade-off;團隊協(xié)作與迭代節(jié)奏

39:09 - 47:07|硬件公司 vs 軟件公司做 AI:訂閱服務(wù)趨勢;眼鏡與手機/AR vs VR 的未來想象

47:07 - 54:07|眼鏡智能體該做什么;隱私安全;意圖識別與腦機接口設(shè)想

54:07 - 01:01:15|睡眠/助手設(shè)想;AI for Good(視障/聽障)與結(jié)語

DeepTech:歡迎思婕,先和大家做個自我介紹吧。

程思婕:我叫程思婕,目前在雷鳥創(chuàng)新負責 AI 方向,同時也是清華計算機系的博士。我從 2019 年本科大四的時候開始接觸語言模型,那時候還是以 BERT 為主。從那之后我一直在做 NLP(自然語言處理),從 BERT 做到 GPT。

讀博的時候 GPT 已經(jīng)非;鹆耍易约罕容^喜歡物理真實世界。在我看來,預(yù)訓(xùn)練語言模型更多還是應(yīng)用在數(shù)字世界里面,所以我就想怎么能和物理世界做更多融合。從 2022 年到 2023 年,我開始慢慢關(guān)注具身智能——那時候具身智能還沒有像現(xiàn)在這么火。

我先后在不同的大廠實習(xí)過:從美團開始,到上海人工智能實驗室,后來想做具身智能就去了騰訊 Robotics X 做機器人,最后來到雷鳥做智能眼鏡。

DeepTech:所以是從 NLP 到 Transformer,再到現(xiàn)在的具身智能。

程思婕:是的。我比較幸運的是,從我開始做研究的時候,就已經(jīng)是基于 Transformer 架構(gòu)做 BERT 這些了,沒有經(jīng)歷傳統(tǒng) NLP 比較落寞的時期。我入局的時候就已經(jīng)是往上走的方向了。

DeepTech:你在美團和騰訊的實習(xí)是在選擇物理世界和虛擬世界方向的時候?

程思婕:對。我是一個更喜歡真實世界的人。我很少用內(nèi)容性平臺,沒有什么社交媒體,也不怎么刷抖音、小紅書。我更喜歡擁抱真實世界,比較喜歡戶外這樣的事情。所以我也希望把大模型真正應(yīng)用在看得見摸得著的東西上,這也是后來我開始做智能硬件的主要原因。

為什么選擇眼鏡而不是機器人

DeepTech:你從機器人轉(zhuǎn)到雷鳥,為什么?你可能只是嘗試了騰訊這一個部分。

程思婕:我覺得有幾點原因。首先說機器人本身,我現(xiàn)在其實也是長期看好機器人的。機器人是大家都非常期待的事情,隨著技術(shù)迭代和資源投入,大家一定能走到最后,這是個非常大的賽道,家家戶戶都可以有很多個機器人,盤子更大。

但為什么我沒有繼續(xù)做機器人呢?在我的判斷里,大模型這波熱潮,包括智能眼鏡這波熱潮,其實都是因為 AI、因為大模型。但理性來說,我覺得大模型在短期之內(nèi)很難顛覆機器人本身的瓶頸。

比如說文本模型現(xiàn)在做規(guī)劃已經(jīng)做得很好了,但規(guī)劃這件事能完全顛覆機器人在底層操作上面臨的難題嗎?我覺得做不到。那些難題更多在硬件上、在控制上。現(xiàn)在也有很多做物理 AI 的,我覺得這是很好的方向,但短期內(nèi)我判斷它可能還得再經(jīng)歷一輪起起伏伏。

換句話說,如果做的是垂類機器人,可能一兩年內(nèi)會有不錯的企業(yè)做得挺好。但如果要做通用機器人,真正能適用所有通用場景的機器人,那時間就不會那么短了。我是一個比較有野心的人,會覺得機器人的生命,如果想做得特別大,時機還沒到。

DeepTech:那智能眼鏡呢?

程思婕:智能眼鏡我的考慮不一樣。我自己是做大模型背景出身的,特別在意數(shù)據(jù)。智能眼鏡在短期來看,我也不會覺得它是一個馬上就能落地 AR 的設(shè)備——比如你說顯示、虛實融合做得有多好,我覺得當下產(chǎn)品還做不到特別好。

但智能眼鏡對我來說,作為一個數(shù)據(jù)采集設(shè)備,沒有比眼鏡更好的了。它戴在頭上,在你不同感官最密集的地方,能夠持續(xù)采集數(shù)據(jù)——你每天看到的所有東西、聽到的所有聲音,這些都是智能眼鏡能采集的。

另外,眼鏡這個事情其實不是現(xiàn)在才火的。Meta 幾年前把名字改成“元宇宙”的時候,他們就在大力推眼鏡。眼鏡本身已經(jīng)經(jīng)歷了起起伏伏。

我的另一個判斷是:眼鏡可能是比手機更適合 AI 的載體。因為它不需要我從口袋里拿出手機,可以作為一個非常好的個性化助理。有了那么多數(shù)據(jù)的反哺之后,它可以做得更智能。這一系列特性讓我覺得,在目前市面上的智能硬件里面,眼鏡可能是最有機會跑出來、作為最適合 AI 載體的。

DeepTech:所以你會覺得眼鏡是在機器人之前的一個中間態(tài)?

程思婕:相當于這樣。而且眼鏡轉(zhuǎn)起來之后還有一個邏輯——自動駕駛。自動駕駛能轉(zhuǎn)起來的一個主要原因是什么?因為它的載體是車,車本身就是人類的剛需。我不需要自動駕駛,也可能得去買車。所以車能夠跑在城市的角角落落做數(shù)據(jù)采集,其他設(shè)備很難做這件事。

眼鏡可以。眼鏡在過去幾百年里被驗證了,對近視人群來說它是剛需。作為本身就是剛需的產(chǎn)品,戴在人頭上,人不會有太大的“我要去買一個新設(shè)備”這樣的心理負擔。它就可以跑在城市的角角落落做數(shù)據(jù)采集,為未來的機器人、多模態(tài)大模型做服務(wù)。

另外,眼鏡能夠極好地解決我剛才提到的機器人的瓶頸——因為它沒有 action,不需要做底層的執(zhí)行操作,更多的是輔助人做一系列的決策。這就可以避開為什么我覺得大模型短期內(nèi)顛覆不了機器人,但我覺得大模型短期內(nèi)可以改變眼鏡。

第一人稱視角的價值

DeepTech:你剛才提到第一人稱視角,能用比較通俗的方式描述一下嗎?

程思婕:在我的觀念里,第一人稱視角和過去傳統(tǒng)的多模態(tài)數(shù)據(jù)之間會有一些 gap。比如我們過去采集數(shù)據(jù)更多用手機,手機會以某個物體為中心,變焦之后 focus 在某個物體上。

第一人稱視角的好處,我覺得最重要的是凸顯“具身”的概念。最通俗的解釋就是:和我們?nèi)艘粯,隨著我們的姿態(tài)、動作改變,你觀察到的東西也會改變。隨著你頭的擺動,觀察的東西和你的視角是一致的。

過去機器人里很多第三人稱視角,就是把攝像頭擺在房間角落,它和你的身體之間沒有具體的連接性。第一人稱視角代表的不僅僅是視角上的轉(zhuǎn)變,更多是它和你身體之間的一致性。

比如我們桌面上現(xiàn)在一瓶水一個蛋糕,蛋糕被水擋住了,那你的人會思考:我想看到這個蛋糕,就得把頭往右扭。扭完之后視角就會發(fā)生相應(yīng)改變。更重要的是整個行為鏈路上帶來的不同影響。

DeepTech:人有時候會走神,注意力集中一段時間后就散神了,這對第一人稱視角會造成影響嗎?

程思婕:我們現(xiàn)在也特別關(guān)注眼動這件事。眼鏡的拍攝視野范圍會更大一些,我們希望它和人的視野盡可能覆蓋度一致,但這樣場景就會變得更復(fù)雜。如果沒有眼動的情況下,我都不知道用戶在關(guān)注什么。

但眼動又會帶來噪聲。人是會飄忽不定的,有時候太習(xí)慣了,甚至都不需要看著這個物體就去做事情。這確實會帶來一些技術(shù)上的困擾。但總體來說,眼動能讓我們?nèi)ダ斫庥脩簟⒅烙脩絷P(guān)注什么,有一個指向性對眼鏡來說是好事。

DeepTech:第一人稱視角的數(shù)據(jù)采集有什么要求?

程思婕:其實現(xiàn)在也有一個困境。雖然我希望智能眼鏡采集的數(shù)據(jù)未來可以用到機器人或多模態(tài)上,但第一人稱視角的數(shù)據(jù)它過于泛化了。比如人在看環(huán)境的時候會經(jīng)常擺動頭部,導(dǎo)致數(shù)據(jù)不夠干凈。機器人他們現(xiàn)在會傾向于采集非常干凈的數(shù)據(jù)來做微調(diào)。

有一些公司在做 VLA 模型預(yù)訓(xùn)練的時候,會用到第一人稱視角數(shù)據(jù),很多里面都會加上 EGO4D 這樣的數(shù)據(jù)集。但總體來說,我覺得一方面數(shù)據(jù)量需要再 scaling up,另一方面直接拿它去做機器人微調(diào)還是有一定挑戰(zhàn)的。

DeepTech:第一人稱視角、AI 和硬件,這三者是怎么串起來的?

程思婕:硬件的形態(tài)會決定它是不是第一人稱視角的設(shè)定。這就是為什么我從一開始就特別看好智能眼鏡和機器人——它們本身的形態(tài)設(shè)定就是天然的第一人稱視角,和人一樣的。

從眼鏡的角度來說,有了第一人稱視角之后可以更懂用戶。從機器人的角度來說,第一人稱視角會讓它變得更加具身,整個思維鏈路到行為之間能串起來。

但我想澄清一下:我覺得第一人稱視角是當下值得關(guān)注的 topic,但人應(yīng)該更有想象力。第三人稱視角其實是上帝視角,我覺得未來一定是多視角融合的狀態(tài)。

甚至在眼鏡上,當下可能因為續(xù)航等原因只有一兩個攝像頭,但未來說不定眼鏡上一圈攝像頭,像車一樣,可以更加 smart。機器人我也不覺得只有兩個攝像頭,現(xiàn)在也有手上的攝像頭、各種各樣的攝像頭。

用戶需要什么樣的智能眼鏡

DeepTech:你們對智能眼鏡用戶的期望是怎么設(shè)想的?你們覺得他們需要滿足哪些功能?

程思婕:眼鏡是一個新的品類,和現(xiàn)在做手機的邏輯肯定不一樣。作為新品類,我覺得第一件事是把行業(yè)上已經(jīng)達成共識的事情做到極致。

為什么我覺得 Meta 做得好?因為它在系統(tǒng)穩(wěn)定性上,比如 Ray-Ban 產(chǎn)品的穩(wěn)定性,做得非常好。我經(jīng)常重度體驗不同的友商產(chǎn)品。我有一款 Meta 的 Oakley,最大的感受就是我可以從早到晚戴著它聽歌,藍牙穩(wěn)定性特別好,不會有任何被打斷的感受。這種事情,國內(nèi)廠商都需要把它完善到極致。

包括一些軟件應(yīng)用,比如翻譯、會議紀要、導(dǎo)航這些場景,這是行業(yè)里達成共識的,每家廠商都會做。那怎么在這些行業(yè)共識的場景里,首先讓用戶達到預(yù)期?用戶戴上眼鏡去做導(dǎo)航,是有一個最基本底線的,你怎么能達到用戶的底線,把這個產(chǎn)品打磨好,而且打磨得有差異化?

另外,只做到這些也是不夠的。眼鏡作為新品類,你對它的期待不只是說能做個導(dǎo)航、做個翻譯。我拿個翻譯筆、錄音筆也能干這些事兒。**怎么挖掘出那些在部分場景上體驗?zāi)苓_到 90 分以上的功能?**這是眼鏡廠商應(yīng)該去做的事情。

DeepTech:所以我可以理解成,現(xiàn)在一些比較低的要求,很多產(chǎn)品還沒有達到?比如穩(wěn)定性不夠強,翻譯做得不好,導(dǎo)航可能會出錯?

程思婕:我是一個比較苛刻的人,我會覺得當下沒有達到那么好的狀態(tài),還是有非常大的進步空間。

DeepTech:你剛才說那個 TQA 和 VQA 是什么?

程思婕:不好意思,這是文本問答、圖像問答這些。比如去戶外場景里做視覺問答,像現(xiàn)在豆包其實做得很好了,還可以做視頻問答。

但這和硬件也有關(guān)系。手機上拍照的硬件設(shè)備已經(jīng)非常成熟了,大家都開始卷各種參數(shù)。但對眼鏡而言,你要在這么小的、又希望它能輕的產(chǎn)品里做到特別好,還是有一定挑戰(zhàn)的。

DeepTech:那相對于目前的硬件條件,有哪些比較難以達到的?除了攝像頭,還有其他的嗎?

程思婕:續(xù)航是非常重要的事情。大家目前有個共識:眼鏡如果希望大家能戴得住,肯定還是要輕。輕、舒適度好的情況下,你就得權(quán)衡很多硬件上的東西。加任何一個東西,比如加個攝像頭,就會帶來非常大的各種 cost——成本上的、重量上的、續(xù)航上的。

所以硬件上面更多就是重量、續(xù)航、算力,還有各種傳輸速度,這些都是挺大的問題。

DeepTech:在眼鏡上想實現(xiàn)算力,是直接在端側(cè)就有芯片,還是需要上傳到云端再計算?

程思婕:得看不同的產(chǎn)品線。有些產(chǎn)品為了追求特別輕,芯片就會相對弱一些。比如我們的 V 系列產(chǎn)品可能就是用高通的 AR1,可以支持一些小的模型在上面跑。但用 AR1 的話,續(xù)航可能又會下降。

所以要考慮怎么做權(quán)衡,以及你到底在什么場景下需要把什么樣的模型放在端側(cè)。這也是做智能硬件的魅力所在,你總是要在各種各樣的 trade-off 下去設(shè)計很多東西。

DeepTech:目前市場上智能眼鏡的續(xù)航能達到多少?

程思婕:也看品類。如果希望它持續(xù)做 video recording,那續(xù)航可能就相對短一些,可能就幾十分鐘。但如果只是聽音樂,從早戴到晚,正常聽的話其實一天也能扛得住。如果只是希望它做錄音,比如 microphone always on,其實也能做到 24 小時持續(xù)錄音,但你可能就沒辦法有攝像頭了。看你走什么樣的產(chǎn)品路線。

多模型、多智能體的協(xié)作

DeepTech:你們的產(chǎn)品里面是固定的一個模型嗎?還是在不同的產(chǎn)品線上用不同的模型?

程思婕:我們產(chǎn)品上會有很多不同的模型,不是一個模型就能干完所有事兒。我們會做一些定制化開發(fā),針對不同的眼鏡、不同的功能去做進一步微調(diào)。但整體大的框架上,我們還是盡可能希望復(fù)用,底層邏輯是一樣的。

DeepTech:你說的不同模型,是指一號產(chǎn)品對應(yīng)一號模型,二號產(chǎn)品對應(yīng)二號模型嗎?

程思婕:還不完全是。因為涉及到工程落地,我們可能會有很多不同的智能體,面向 C 端不同用戶的需求。每個智能體里面可能就會有一個模型,前面做意圖分發(fā)可能也得適應(yīng)不同的模型,再往前做語音轉(zhuǎn)文本也需要不同的模型。整個鏈路首先就會有不同的模型構(gòu)成,然后在不同產(chǎn)品線上可能又需要針對不同產(chǎn)品做相關(guān)的定制化。

DeepTech:這些不同智能體的調(diào)用是怎么展示在眼鏡上的?

程思婕:我們會有不同的入口,可以直接通過語音交互去喚醒。手機上也會有相關(guān)智能體應(yīng)用的呈現(xiàn)。如果是帶顯示的眼鏡,像我們的 X 系列,它里面會有自己的系統(tǒng),系統(tǒng)里就會有相關(guān)的呈現(xiàn)。

DeepTech:在這個系統(tǒng)里選擇 agent 是怎么選?

程思婕:可以通過鏡腿操作,也可以通過語音交互,也可以通過比如手勢各種各樣的交互。

DeepTech:你們的大模型是自己的嗎?

程思婕:我們和阿里通義現(xiàn)在是獨家戰(zhàn)略合作的狀態(tài),所以我們會有阿里這邊的支持。另外在有些智能體上面我們會選擇做一些自研,會做模型的微調(diào)。

DeepTech:微調(diào)都是基于千問?

程思婕:對。

語音交互的重要性

DeepTech:眼鏡涉及到很多維度,除了視頻,還有聲音等等,你們是怎么處理這些多維信息的?

程思婕:第一人稱視角更多還是在視覺輸入上會有差異。聲音維度的話,因為眼鏡最大的優(yōu)勢就是能采集不同維度的信息,我們也會針對聲音做一些相關(guān)處理。而且我的判斷是,語音這件事未來會變得越來越重要。

一方面原因是語音是我們眼鏡最重要的交互入口。在交互過程中,很多時候都是通過語音和眼鏡做對話,去做相關(guān)智能體的調(diào)用。我覺得在未來智能硬件里面,語音是非常重要的入口。

第二個原因是我覺得文本大模型本身是具有一定局限性的,尤其是在對情感的理解上。對沒有顯示的眼鏡來說,語音交互是非常重要的東西。一方面需要它效率高,另一方面希望它盡可能像人一樣,能提供一些情緒價值。如果希望它提供情緒價值,就得學(xué)會怎么和語音融合在一起。

現(xiàn)在其實已經(jīng)有這樣的形式了,大家開始做全模態(tài)的模型,把語音加進去。語音里面的感情能夠被大模型識別到,然后做相應(yīng)的 TTS 輸出。我們其實也在做一些相關(guān)的研究和推進。

DeepTech:你們現(xiàn)在有遇到什么困難嗎?比如在很嘈雜的環(huán)境,會對眼鏡造成困擾?

程思婕:這就涉及到另外一塊了。我最近也有學(xué)習(xí)很多前端聲學(xué)相關(guān)的東西。眼鏡或者語音的輸入,我們現(xiàn)在更多還是用傳統(tǒng)路徑:聲學(xué)變成語音輸入后轉(zhuǎn)成文本,文本給到大模型做處理。所以語音轉(zhuǎn)文本這部分如果錯誤累積非常嚴重,對大模型效果影響非常大。

我們也在考慮怎么打造前半段的鏈路,讓效果變得更好,F(xiàn)在在聲學(xué)里面會涉及到降噪,做一些語音分離,還有遠場近場的拾取,整個這塊我們都有在做相關(guān)研究和推進。

主要困難對我而言,更多還是因為我過去純做大模型,現(xiàn)在涉及到得考慮硬件的東西,還得考慮聲學(xué)方向的東西。整體的話我們團隊會大家一塊配合解決這些問題。

硬件公司與軟件公司的 AI 之爭

DeepTech:你們是怎么實現(xiàn)內(nèi)部協(xié)作的?因為你可能開發(fā)了一個模型效果非常好,但它跑在硬件上會對硬件造成很大壓力。

程思婕:首先我覺得,我前段時間在和一個產(chǎn)品經(jīng)理聊的時候,他之前有非常多和硬件合作智能硬件相關(guān)的經(jīng)驗,他教會了我一個詞叫“敬畏硬件”。

這個詞給我感觸非常深。因為我覺得過去我總是會覺得大家迭代速度非常快,尤其在大模型這個行業(yè)里,一個月就發(fā)生了天翻地覆的變化。但硬件不是這樣的,它不是說我今天就要攻克這個難題,今天就把攝像頭提到多少分辨率、NTF 做到多好。

所以我們會選擇和硬件團隊溝通。比如如果我希望我的 AI 未來能夠達到什么樣的能力,我會希望有什么樣的硬件能夠上去,或者希望硬件在選型上面能夠變得更好,或者希望加什么硬件。這些可能會在一開始確定一個產(chǎn)品的時候就聊好。

產(chǎn)品那邊也會有他們的一些 trade-off:我的 key point 到底是什么?當前這個產(chǎn)品是不是以 AI 作為主打的功能定位?我們會先做溝通,溝通完之后,如果硬件選型已經(jīng)確定,那可能就不是硬件給我們妥協(xié),我們得去考慮在當前這個 constraint(限制)下我們可以做什么,把什么東西做到極致,什么樣的場景是我們能達到用戶體驗閉環(huán)的。

DeepTech:你們在規(guī)劃下一個產(chǎn)品的時候,會設(shè)想多遠?比如像摩爾定律每 18 個月晶體管數(shù)量會怎么變,你們會在這個基礎(chǔ)上考慮嗎?

程思婕:像 AI 這塊,我自己 prefer 的風格是以終為始。我可能會有一個我覺得特別長期的判斷:這個眼鏡加 AI,AI 眼鏡上的硬件該怎么選,能夠把 AI 的潛力發(fā)揮到極致。這是我可能會考慮的一個戰(zhàn)略上的東西。

但在真正每代產(chǎn)品的決策上,我們可能還得考慮比如市場的變化,在當下這個產(chǎn)品到底大家會為什么東西買單,我們還得面對當前的競爭。所以整體的話,一個是未來的理想,一個是當下的現(xiàn)實,我們都會做綜合考量。

DeepTech:現(xiàn)在雷鳥的頻率大概是每年推幾個產(chǎn)品?

程思婕:我們其實還是走的多產(chǎn)品線。一方面是眼鏡這個形態(tài),我覺得還沒有被最終確定。包括現(xiàn)在 Meta 確實做得很好,但我也不會覺得它就是終局形態(tài)的眼鏡了。眼鏡值得被顛覆的東西還有很多。

大家沒有一個人可以指出來說“我就看清了未來眼鏡終局長什么樣子”。所以當下我們更多走的是多產(chǎn)品線的路線,覆蓋的品類會更多一些,整體迭代速度也會更快一些。

我覺得雷鳥做得非常好的一個點是,比如我們的 V 系列眼鏡,是當時整個市面上創(chuàng)業(yè)公司里最早實現(xiàn)量產(chǎn)上市的眼鏡。我們內(nèi)部執(zhí)行力各方面還是非常強的。

DeepTech:你覺得一個硬件公司做 AI 和一個軟件公司做硬件,比如 OpenAI 現(xiàn)在也在接觸一些公司,可能要做一些硬件的東西,你怎么看?

程思婕:首先,我就不舉軟件公司做硬件沒做成的例子了。我覺得這個事情難度還是比較大的,不同公司有不同的基因,就像我總是說我做不了抖音之類的產(chǎn)品,因為我自己就不喜歡內(nèi)容沉浸的東西。

對于軟件公司來說,尤其是體量已經(jīng)非常大的公司去做硬件,他們的基因里面可能就不一定帶著硬件。OpenAI 可能還好一些,因為它總體體量沒有那么大。

說到硬件公司做軟件,我覺得這是另外一套邏輯。現(xiàn)在越來越多的硬件公司,雖然是硬件公司,但實際上最終讓用戶付費的是它的訂閱式服務(wù),是軟件的服務(wù)。

我覺得未來硬件本身,跑到最后是不會有太大差異的,可能會有很多家都在做這樣的產(chǎn)品。最終可能很多硬件之所以火起來,背后的邏輯還是因為 AI 賦能了它們。比如現(xiàn)在 Cloud 是個非;鸬闹悄苡布鋵嵦峁┑木褪菚h紀要這種做得非常細的 AI 服務(wù)。

未來的智能硬件,不管是錄音筆、智能眼鏡、機器人,甚至玩偶這些,長期來看會變成硬件服務(wù) AI 這么一個局面。

眼鏡能取代手機嗎?

DeepTech:在你的想象里,以后當機器人也達到很厲害的狀態(tài)時,我們周圍的這些 AI 硬件應(yīng)該是怎樣的?

程思婕:眼鏡和機器人在我眼里是兩套不同的邏輯。眼鏡會更像手機一些,可能最后大家都會以它作為硬件載體。但機器人,我之前和別人溝通時改變了認知,它會更像車一些。

機器人會有很多垂類的產(chǎn)品,我不需要每一個機器人都像人。比如現(xiàn)在的洗碗機我也覺得可能就是一個機器人,掃地機也可能是個機器人,它不一定長得像人。

所以會既有垂類的很多不同機器人去干具體的事情,這是我覺得未來一兩年內(nèi)有些機器人廠商的機會所在。另外,未來也會有很多人形的,或者超越人形的機器人,以各種各樣的身份存在。

DeepTech:會起到陪伴的作用?

程思婕:對,陪伴,或者去——雖然我不想這么說——但肯定會取代掉很多崗位,做一些更加……我覺得這不一定是壞事,只要我們能夠考慮得更長遠。

DeepTech:我們之前也聊過一些公司,他們覺得人可能不應(yīng)該去做那些體力勞動的事兒,人應(yīng)該更多去做德智體美的部分。

程思婕:對,這也是個很有意思的問題。前段時間我也在思考 AI for good,就是 AI 向善這件事。對國內(nèi)來說,大家可能確實比較關(guān)心技術(shù)的突破,導(dǎo)致在人文上面可能會有一些忽視。但我相信過去一代代的技術(shù)革命都不斷往前突破了,所以我整體是樂觀的。關(guān)鍵在于我們怎么利用這些技術(shù),以及在前進過程中怎么更多關(guān)心人文上的東西。

DeepTech:你剛才提到一個點,你覺得眼鏡以后有可能會取代手機。為什么會有這樣的想法?

程思婕:我堅信它會取代手機,它應(yīng)該成為下一代的計算平臺。因為眼鏡上也有 display、也有顯示,也會有完整的一套操作系統(tǒng)。它可以不用拿出來。

但理性來說,我會覺得它也會相對更遠。短期之內(nèi)我可能更多還是覺得眼鏡會取代掉一些需要解放雙手的場景,比如有時候我實在不想掏出手機了。目前我覺得眼鏡更多定位是去做數(shù)據(jù)采集,以及作為眼鏡加手機的輔助角色。但長期來說,我希望眼鏡能取代手機。對我而言,我希望出門能帶的東西越少越好。

DeepTech:如果眼鏡取代手機以后,你覺得會不會對人的思維造成一些影響?從按鍵手機到屏幕手機其實對人產(chǎn)生了一定影響。

程思婕:這也是很有意思的問題。我在考慮做眼鏡的時候,一開始就講到我更喜歡真實世界。所以我對眼鏡的定位一定是真實世界大于數(shù)字世界。我希望讓大家走出手機來擁抱真實物理世界。

所以我非常希望做 AR,就是增強現(xiàn)實,它是一個增強的東西,幫助你在真實世界里更好地做一些有意思的事情。比如讓我去做 VR 我就可能不會考慮,因為它完全沉浸在虛擬世界里去創(chuàng)造元宇宙這么一個概念。

肯定會有人喜歡物理世界,也會有人喜歡虛擬世界。但我自己的偏好是,我希望讓大家離真實世界更近一點,可以放下手機。比如我看到前面一個風景,過去我可能需要掏出手機在小紅書查一下是什么,但未來我可能只要 enjoy、享受我看到的事情就夠了,不需要沉浸在虛擬世界里。AI 只要給我不停的信息提示,告訴我、幫我增強我對現(xiàn)實世界的理解。

DeepTech:所以你會覺得眼鏡這件事不會讓人沉浸?

程思婕:或者說這是我自己的價值觀導(dǎo)致的。也不一定,比如總會有人當眼鏡變成熟了之后,拿著抖音的思想放在眼鏡里面,讓大家短平快地接受各種各樣的信息。一定會有這樣的產(chǎn)品。但從我的初心出發(fā),我希望大家更多地擁抱真實世界。

智能體需要完成哪些目標

DeepTech:在你的哲學(xué)里,你覺得以后在眼鏡上的智能體需要完成哪些目標?

程思婕:這對我來說是個比較難的事情,大家都沒有想得特別清楚。眼鏡上的智能體,我覺得更多是輔助我的生活。

比如現(xiàn)在我最直接想到的就是解放雙手的場景。像做飯,眼鏡能主動告訴我這個菜該怎么做、每步該怎么弄,像一個專業(yè)廚師一樣指導(dǎo)我。像打球,之前有個同學(xué)跟我分享,他喜歡打網(wǎng)球,最好能類似一個教練一樣幫他預(yù)測網(wǎng)球的落點落在哪兒,他能馬上跑過去接住。我覺得這些東西在我眼里是更有意思的。

DeepTech:你會不會覺得這種幫助人去思考的功能會降低人們思考的能力?

程思婕:我覺得不會。因為懶惰這件事就是人的天性,很多很聰明的人都是為了自己能夠更懶一些。解放大家的時間,短期來看可能會有一些人文上的顧慮,但我覺得長期來看,大家可以真正有更多時間去思考自己想要什么東西、想做什么樣的事情?傮w是更好的。

隱私問題怎么解決

DeepTech:在很多帶有攝像頭的設(shè)備上都會存在安全隱私的問題,你們是怎么思考的?

程思婕:剛剛我說到 AI 向善的事情,我最近也在思考隱私問題。我自己之前還做過一些聯(lián)邦學(xué)習(xí),就是在模型上怎么保護隱私。最近我也在拜訪很多做隱私的老師,也在考慮怎么能夠保護隱私。

因為眼鏡代替人第一人稱視角拍照這件事,確實是具有一定侵略性的。對很多人來說,尤其是現(xiàn)在還沒有普及,當普及的時候早晚會成為一個社會問題。

我們考慮了幾個層面。第一,現(xiàn)在很多眼鏡都會有提示燈。第二,我們希望在拍照的輸入層面就做處理——比如我拍張照片,但外面的人不希望我拍,那我的眼鏡廠商可以先對他做一層打碼之類的。第三,我可以在模型層面做一些處理,在端上做相關(guān)處理,確保數(shù)據(jù)不會被攻擊、不能被復(fù)原出來,上傳時不會有任何問題。

甚至未來如果端側(cè)能力更好了,我可能就把一些模型放在端上。最后在云端上,其實現(xiàn)在大家對云端的接受度總體來說是越來越高的,因為大模型廠商其實都是放在云端上的,但也還會有那么多人去使用。云端上也會有一些相關(guān)的保護機制,比如我們會要求環(huán)境完全被隔離,上傳之后可能會做加密。

整個鏈路上我們非常希望能夠關(guān)注用戶的隱私,讓眼鏡這個產(chǎn)品不會被大眾所抵觸。

DeepTech:我之前也看到有人拿眼鏡來拍照,可能會對有一些人造成困擾。

程思婕:對,我們也在想一些技術(shù)層面的方案,比如在什么樣的場景就不允許拍照了。這些東西我們都在考慮整個鏈路上到底怎么做,能夠確保用戶的隱私最大程度上得到保護。這是我們非常關(guān)注的問題。

DeepTech:這讓我想到另一個層面,如果假設(shè)每個人都戴著智能硬件,我就可以跟我的智能硬件說“我不希望被別人拍進去”,一旦形成聯(lián)網(wǎng)的情況,這種問題就比較容易解決。

程思婕:是的,昨天下午我在和一個清華老師討論的時候就說這個事情——大家都會有一個自己的 profile,就是我的隱私 profile,我的設(shè)定是我希望我自己不被別人拍下來或者怎么樣,那其他的眼鏡就能收到這個東西,互相之間聯(lián)網(wǎng)。

理解用戶意圖

DeepTech:你們對于人的意圖識別是怎么做到的?是需要主動呼叫嗎?

程思婕:這也是非常有意思的問題,可能我還不能談?wù)撎啵覀兇_實非常關(guān)注這一塊。

眼鏡非常好的點在于它能拿到和人一致的這些信息。但讓人永遠都主動去提個問題,這對人來說成本比較高,尤其是在有些場合。比如我現(xiàn)在和你在開會的時候,或者開一些正式會議的時候,我總不能總是呼喚“小雷幫我……”,我突然想不起一個東西,我希望有人能提示我一下過去談過的事情到底是什么樣的結(jié)果,但我想不起來了。我也不方便喚醒說“小雷幫我查一下”。眼鏡就應(yīng)該能夠敏銳地感受到我這時候需要幫助。

我們現(xiàn)在也在推進這方面的東西,希望眼鏡能夠更懂用戶一些。

DeepTech:那你覺得腦機接口會對眼鏡造成一定的顛覆嗎?

程思婕:我對終局的判斷是,我非常希望或相信腦機接口能夠讓眼鏡或其他硬件都更懂用戶。但理性來說,我會覺得它會有點遠。在我的認知內(nèi)稍微還遠了一些。

目前腦機接口我也和不同的腦機廠商聊過,感覺目前可能更多還是有一些粗粒度上的識別。如果你希望它非常精準地告訴你“我當前這個意圖就是什么”,那可能還有一定距離。但我還是希望能演變成腦機接口直接讀取的狀態(tài)。

DeepTech:比如我們戴眼鏡睡覺的時候就摘掉了,你覺得我們在睡覺時還需要這樣一個 AI 助手嗎?比如它可能有幫我們睡覺的功能?

程思婕:我之前也和一個朋友討論過。比如現(xiàn)在也會有那種睡前讓你戴一個什么東西,通過一些技術(shù)能讓你加快睡眠的速度。

在睡前你可以戴著眼鏡。假設(shè)我知道你的日常行為,知道你每天大概什么時候睡,那我可能在判斷了你今天大概這個點睡的時候,提前 20 分鐘幫你打開助眠的那一系列 sensor——可能除了音樂之外還有別的。然后當你摘下眼鏡之前,我就停止、關(guān)機。但你其實已經(jīng)接受了這些服務(wù)。

有一些東西可能在戴著的時候就可以做,沒有必要在睡的時候直接戴著。睡眠監(jiān)控的功能,真正有這方面需求的人可能用手表或其他方式就替代了。

國內(nèi)外市場的差異化

DeepTech:你最開始也提到 Meta 的一些聯(lián)名,針對比如運動或者喜歡新奇特的人群。你們覺得對于國外這種喜歡新奇特的,和中國產(chǎn)品可能更應(yīng)該做本土化的,這兩個方向怎么看?你們會走哪個方向還是兩者兼顧?

程思婕:我們的產(chǎn)品本身國內(nèi)和海外都會賣,所以總體上會兼顧這兩個不同的人群。我非常認可說海外和國內(nèi)之間人群是有差異化的。

但目前對我們來說,最主要的目標是希望把產(chǎn)品做到極致。功能性這件事,一方面眼鏡本身是個眼鏡,我們也會考慮怎么讓它更像或者本身就是一副眼鏡,把眼鏡的特性維持到最好。另一方面,我們覺得功能性上如果一個電子產(chǎn)品把功能性拉到最好,對大家來說,我們也希望能夠破圈、變得更加普及。

我們現(xiàn)在更多還是一些科技發(fā)燒友在做購買的策略,但我們希望它能夠變得更加普及,把各種各樣的體驗拉上去,有更多的功能之后,破圈的概率也會更大一些。

DeepTech:你們覺得什么樣的人物畫像會是買 AI 智能眼鏡的?

程思婕:當下在國內(nèi)肯定主要是一些科技發(fā)燒友。其他的得看不同公司對自己產(chǎn)品和目標人群的定位。比如有些公司主要看重運動人群,因為最自然想到的就是眼鏡比手機更大的好處是解放雙手。有些公司特別看重拍攝人群,發(fā) vlog 的那些人,因為眼鏡上有第一人稱視角拍攝,可以做一些相關(guān)內(nèi)容。更多還是看產(chǎn)品自己本身的定位。

AI for Good:讓眼鏡幫助更多人

DeepTech:我最近有一個非常剛需的事情,但目前還沒有看到做得特別好的。我外公他有白內(nèi)障非常嚴重,嚴重到他往外面溜達的時候,如果很近他看不見,會撞在上面。我就在想有沒有一種眼鏡可以告訴這種視障人士……因為老人有另外一個心理,就是他不愿意做手術(shù)。

程思婕:這個事情我非常有共鳴。為什么我做眼鏡,潛意識里面可能還有一個原因是我的外婆她眼睛非常不好,很多東西在家里面都得放在固定的位置,來確保自己能夠找到。這可能也是我做眼鏡的一方面原因。

我們內(nèi)部,一方面可能我來了之后很多東西要從 0 到 1 做,所以更多落地的事情會花更大精力。另一方面,前段時間我就已經(jīng)在組織小伙伴們,我們會用一些 20% 的時間考慮一下。

您提到視障人群,其實聽障人群我自己也讓小伙伴們多去了解用戶。我們會經(jīng)常做用戶訪談,雖然我們是個算法團隊,但我們了解到用戶里面有一部分聽障人群,他們對眼鏡產(chǎn)品也是非常需要的。尤其像我們的 X 系列會有顯示,對聽障人群來說也會有比較好的幫助。

所以我們會花一些 20% 的時間來做一些希望能夠?qū)ι俨糠秩巳河袔椭氖虑椤N覀兒茉缰熬秃?CEO 討論過這個事情。其實最大的顧慮是我們會擔心技術(shù)沒有成熟到它能百分之百安全。

比如一個視障人群,尤其是在過馬路的時候,我因為時延的問題跟你說“那是綠燈”,結(jié)果馬上就跳紅燈了,那我還是有一定擔心的。所以這件事我很希望去做,但確實有一定顧慮。

不過我們現(xiàn)在在激烈討論這個事情,還是希望能夠至少有一些推進。比如避障的場景,我們其實一定程度上是可以做的,很早就想干這件事了,但一直因為顧慮也沒有往下推。

前段時間有挺多聽障人群聯(lián)系到我們,他們想體驗眼鏡,看看能不能提供幫助。我們更加認識到,這個產(chǎn)品對于少部分人群來說真的會有很大幫助,或者說它至少有潛力提供很大幫助。所以我上周專門拉了一個群,問大家有多少人對這件事感興趣,我們要用 part-time 去努力解決這個事情,希望能夠多往前再走一走。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
廣東一男子騎自行車撞傷飛行員,致其手腕受傷停飛兩個多月,收入少了十幾萬元

廣東一男子騎自行車撞傷飛行員,致其手腕受傷停飛兩個多月,收入少了十幾萬元

環(huán)球網(wǎng)資訊
2025-12-19 15:08:06
臺最新民調(diào)出爐,賴清德大勢已去,侯友宜發(fā)聲力挺民進黨是何意?

臺最新民調(diào)出爐,賴清德大勢已去,侯友宜發(fā)聲力挺民進黨是何意?

科普100克克
2025-12-18 11:48:02
新加坡估計怎么也想不通一覺醒來,家門口的海南釜底抽薪

新加坡估計怎么也想不通一覺醒來,家門口的海南釜底抽薪

忠于法紀
2025-12-12 09:14:49
樂山一小區(qū)網(wǎng)捕流浪貓致幼貓死亡引爭議 記者走訪:多只流浪貓被緊急收養(yǎng),公安已介入調(diào)查

樂山一小區(qū)網(wǎng)捕流浪貓致幼貓死亡引爭議 記者走訪:多只流浪貓被緊急收養(yǎng),公安已介入調(diào)查

封面新聞
2025-12-19 12:05:46
越扒瓜越大!女教師跳樓再添猛料,原來不止被父母逼婚這么簡單

越扒瓜越大!女教師跳樓再添猛料,原來不止被父母逼婚這么簡單

小怪吃美食
2025-12-19 10:17:39
海南封關(guān),iPhone 17 全系猛降價!

海南封關(guān),iPhone 17 全系猛降價!

花果科技
2025-12-19 12:42:01
印度首富300斤兒子款待梅西,邀球星去動物園,漂亮妻胯是真寬

印度首富300斤兒子款待梅西,邀球星去動物園,漂亮妻胯是真寬

觀察鑒娛
2025-12-18 09:33:39
韓國海警舉旗沖鋒蘇巖礁!強拆中方設(shè)施反被圍,中方貼臉開大了

韓國海警舉旗沖鋒蘇巖礁!強拆中方設(shè)施反被圍,中方貼臉開大了

觀察者小海風
2025-12-18 19:48:04
美記:看到克萊獨自一人回擊對手的挑釁,庫里心里十分難受

美記:看到克萊獨自一人回擊對手的挑釁,庫里心里十分難受

移動擋拆
2025-12-19 07:17:01
多國首腦即將趕到東京!高市早苗癟著嘴笑,全球已收到中國的通知

多國首腦即將趕到東京!高市早苗癟著嘴笑,全球已收到中國的通知

離離言幾許
2025-12-18 12:08:38
蘋果新iPhone 20曝光,致敬喬布斯!

蘋果新iPhone 20曝光,致敬喬布斯!

科技堡壘
2025-12-16 17:35:48
小區(qū)發(fā)生持刀傷人案致3死1傷,警方通報

小區(qū)發(fā)生持刀傷人案致3死1傷,警方通報

澎湃新聞
2025-12-19 12:04:07
央企“最牛女副處長”落馬:兩年與上司開房410次,細節(jié)曝光

央企“最牛女副處長”落馬:兩年與上司開房410次,細節(jié)曝光

西門老爹
2025-12-16 15:35:31
江蘇一男子意外抽中“白鹿足金黃金海報”,熔出近10g金豆,卻被告知血虧

江蘇一男子意外抽中“白鹿足金黃金海報”,熔出近10g金豆,卻被告知血虧

瀟湘晨報
2025-12-19 10:57:11
陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

陳慧琳演唱會穿三角褲衩,五十多了合適嗎?人老心不老

蕾爸退休日記
2025-12-16 22:37:37
CBA最差教練!球隊開賽3連敗,有好球員不用,球迷:快下課

CBA最差教練!球隊開賽3連敗,有好球員不用,球迷:快下課

籃球?qū)^(qū)
2025-12-18 23:19:32
香港為何偉豪舉行最高榮譽喪禮,靈柩蓋上區(qū)旗、集體列隊致敬…

香港為何偉豪舉行最高榮譽喪禮,靈柩蓋上區(qū)旗、集體列隊致敬…

新浪財經(jīng)
2025-12-19 11:53:02
大鵬自曝被張朝陽“踢出局”!3000萬分紅泡湯,手機仍存離職信

大鵬自曝被張朝陽“踢出局”!3000萬分紅泡湯,手機仍存離職信

孟一宜
2025-12-19 10:20:28
38歲病重爸爸最后一次給孩子剪指甲,10天后在家去世

38歲病重爸爸最后一次給孩子剪指甲,10天后在家去世

九方魚論
2025-12-19 14:43:14
曼城王朝接近落幕,瓜迪奧拉離別倒計時開啟?

曼城王朝接近落幕,瓜迪奧拉離別倒計時開啟?

體壇周報
2025-12-19 02:15:15
2025-12-19 15:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16014文章數(shù) 514410關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

中戲院長郝戎被查 劉燁、章子怡、靳東等為其學(xué)生

頭條要聞

中戲院長郝戎被查 劉燁、章子怡、靳東等為其學(xué)生

體育要聞

沒有塔圖姆,還有塔禿姆

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬

態(tài)度原創(chuàng)

家居
藝術(shù)
本地
健康
軍事航空

家居要聞

高端私宅 理想隱居圣地

藝術(shù)要聞

諸樂三的寫意花鳥

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風骨

這些新療法,讓化療不再那么痛苦

軍事要聞

媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

無障礙瀏覽 進入關(guān)懷版