国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

京東要造“人”

0
分享至

淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試用各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。

京東要造“人”

文|史中

(零)在意義空間里“調味”的師傅

“何老師,錄像準備開始了,記得不要做意義太明確的手勢哦!”

何曉冬點點頭,深吸一口氣,面向兩臺攝像機開始發(fā)表演說。

氣氛整這么緊張,不是搞就職典禮,而是在搞“數(shù)字分身”。

話說,那是 2022 年冬天,京東云的言犀團隊整了個大活兒,準備正式推出“數(shù)字人主播”,就是讓 AI 復刻真人的表情、動作、語言來直播帶貨。甚至他們還琢磨著把東哥也搞成數(shù)字人,“親自”下場直播練攤兒。

作為數(shù)字人項目起心動念的推動者,這“螃蟹”何曉冬說啥也得自己先吃一只試試毒。

克隆效果咋樣呢?

這是真人何曉冬↓↓↓

這是數(shù)字人何曉冬↓↓↓

這里提個小問題:為啥當時團隊同學要提醒何曉冬別做意義太明確的手勢嘞?

因為被錄制的人,所有的動作都會成為呈堂證供,啊不,學習資料,交給 AI 去參悟。

最后做出的數(shù)字人,在直播時會根據(jù)說話的內容判斷,從這些動作里生成 Ta 認為最合適的給貼上去。

“貼”的有沒有那味兒,取決于 AI 對手勢的意義”理解有多深刻。

在這之前,團隊已經(jīng)做了幾個月實驗,復刻了不少主播。

他們發(fā)現(xiàn),如果主播做太多一二三之類有明確意義的手勢,AI 容易學岔劈,帶貨時不合時宜地比劃“一二三”。。。

那不如就先瞞著數(shù)字人,不讓它知道有這樣的手勢。

這是個小事兒,但我卻想讓你站在這道“楚門世界的裂縫”前,看看隱約透出的真相:

AI 本質上就是一臺“意義調味機”——如果像大廚那樣,從各種意義調料里一抓就準,就能把語言、動作運用得越得當,它就越!像!人!

攤開歷史的卷軸,這場烹飪游戲已曠日持久,數(shù)字人不是第一關,也不是最后一關。

(一)一抔 AI 往事

話說,這次我和何曉冬博士見面,是因為他剛得到了一個“既奇怪又不奇怪”的大獎。

這就是頂級學術會議 CIKM(信息檢索和數(shù)據(jù)挖掘國際會議)頒發(fā)的“最佳時間檢驗獎”(Test of Time Award)。

說“奇怪”,是因為這個獎居然頒給他 11 年前的一篇上古論文。

說“不奇怪”,是因為 2024 年很多重量級大獎都不約而同頒給了這種上古貢獻,仿佛是學術界的一波大型“追認潮”。

比如今年剛拿諾獎的辛頓老爺子。他的”深度神經(jīng)網(wǎng)絡”結構可是在 80 年代提出來的,整整等待了四十多年,直到 ChatGPT 和大模型百分百驗證了這條道路的兇狠之后,才終于獲得追認。(虧了老爺子身體硬朗。。。)

可貴的是,何曉冬博士這些年拼殺的方向,一直圍繞著這個戰(zhàn)場,也就是剛才提到的:

通過神經(jīng)網(wǎng)絡技術,不斷讓“意義調味機”變得更精準。

我愿稱之為“AI 的正確道路”。

回到這篇論文出生的 2013 年, 那時候沒有抖音,沒有拼多多,沒有滴滴,也沒有中關村掃碼一條街,買一臺指紋開鎖的 iPhone5s 夠吹半年。

更離譜的是,如今教父一般的互聯(lián)網(wǎng)巨頭們,當時竟都沒能很好地解決一個基礎問題:

如何給用戶的“查詢”匹配精準的“內容”?

打個比方。

比如我搜“狗”,最簡單的方法當然是“字詞匹配”:在全網(wǎng)的文章里,找到含有“狗”這個詞最多的文章,給我展示出來。

但這有大問題,很多寫狗的文章不一定有這么多“狗”字。

有可能寫的是“犬”,有可能寫的是“金毛”“雪納瑞”。 搜索引擎篩選的時候,不會覺得這些文章是我需要的,統(tǒng)統(tǒng) Pass。

你說它傻不傻?

關鍵詞匹配只能找到字面對應關系。

那咋辦?還是那句話,要搞懂“意義”。

當時有技術可以理解字詞的“深層意義”嗎?有啊,要說辛頓老爺子的論文早就寫了:可以把每個詞都轉化為一組多維空間的向量。

多維呀,向量呀,太難懂,就舉個通俗的例子吧:

假設咱們手里有 10000 種“意義配料”,每種配料都用一種顏色表示↓↓↓

“狗”和“金毛”是兩個詞,各自用到的意義配料必然不同。 但是,它倆肯定有幾味主要的配料很相似。

也就是說,在語義的空里間,“狗”和“金毛”的位置會比較近!

“金毛”和“狗”字面上看起來完全無關,但通過對比它們的“意義配料”,咱就知道金毛和狗存在深層語義空間存在一定的關系。

要是能寫一個 AI 程序,精確提取出各種詞匯的“意義配料”,到時候不就能用于精準匹配“查詢”和“內容”了嗎?

就像醬↓↓↓

何曉冬 眼前漸漸浮現(xiàn)出“兩座塔” :

一篇內容也許有幾百個詞,把這幾百個詞剁碎,一股腦扔給 AI,算出這篇文章的“配料”;

一個“搜索”可能有十幾個詞,也同樣剁碎,一股腦扔給 AI,算出它的“配料”。

這里的配料最初有上萬種,但是我們要層層歸納,最后歸為 128 種。這個層層歸納的過程,就像是“蓋塔”。

每上一層,配料就少一些,計算量也小一圈↓↓↓

此時,“查詢”成為一座意義之塔,“內容”也成為一座意義之塔。

最后神操作來了:只比較兩座塔的塔尖,這 128 味配料的相似度。

這不就省事兒多了?

而且,你日常就可以把所有“內容”的塔算好,用戶來了一個“查詢”,馬上就能和這些塔尖比對,找出最匹配的那些“內容”!

這就是DSSM 模型(基于點擊數(shù)據(jù)學習用于網(wǎng)絡搜索的深度結構化語義模型)。

11 年時間彈指一揮間,君且看,如今 DSSM 雙塔結構已經(jīng)遍地開花,大小互聯(lián)網(wǎng)公司,只要有“搜索、推薦、廣告”業(yè)務的,就一定有這“兩座塔”。

一篇論文,奠定了互聯(lián)網(wǎng)“搜推廣”的基本業(yè)務模式,讓后來的電商、短視頻等等帝國,都建立在這塊磚石之上,“最佳時間檢驗獎”妥妥實至名歸。

但真正兇狠的是, 有關“意義調味機”的故事并沒有結束,而是剛剛上路。

時間檢驗獎的“獎狀”。

(二)萬物皆“配料”

造出《終結者》里 T-800 那樣的通用人工智能,是 AI 科學家的人均野望,但很長時間他們眼前的 AI 都是花式智障,爛泥扶不上墻,只能掩面長嘆。

如何在一片沒有任何標志的荒原里找到通往終點的“那條路”,才是個真問題。

2018 年,何曉冬離開微軟雷蒙德研究院,回國加入京東。

在我看來,這背后恰恰隱藏著一類 AI 技術人尋找這條路徑的品味。

簡單來說就是:要想 AI 進步,得不斷讓它在*真崗位**干真活*。

這里有“兩個真”:

真崗位 ,是說 AI 必須在生產(chǎn)活動中參與人類的一項或多項工作。(否則就是玩具嘛。) 干真活 ,是說 AI 做這件工作(相同效果下)的成本必須低于人類。(否則就是作秀嘛。)

按照這個品味來說,京東還真是個好去處。

因為京東能掰成兩半:一半是個互聯(lián)網(wǎng)電商公司;另一半是運行著龐大供應鏈、倉儲、物流、客服的實體產(chǎn)業(yè)。

兩邊加起來有幾十萬員工,上千種崗位,而且很多崗位是比較基礎的體力和腦力勞動,特別適合 AI 來做嘛。

也就是在這個節(jié)骨眼上,京東提出了“技術、技術、技術”的口號,準備拉開陣勢挖掘自己的 AI 金礦。

智能客服,就是他們挖的第一批“礦坑”。

很多人覺得“智能客服”和我們上一章講的“搜推廣引擎”是兩個風馬牛不相及的東西,其實不是的。

你還記得我們之前反復說:“AI 的本質是意義調味機”嗎?

“搜推廣引擎”的本質是把“查詢需求”和“內容供給”在味道上匹配,把適合的內容展現(xiàn)給適合的人↓↓↓

智能客服本質上是把“問題”和“解答”在味道上匹配,把適合的回答展現(xiàn)給適合的問題↓↓↓

它們干的活都是:用神經(jīng)網(wǎng)絡去找到一個東東在意義空間里的位置。

只不過這些解答不是簡單的詞匯,而是詞匯串起來的句子。所以,“智能客服”顯然要比“搜推廣引擎”有更多的意義配料。

這也意味著要用更大的模型,耗費更高的算力去計算。

客服解決一個問題,顯然要比提供一次搜索結果的價值高得多。 只成本合得上,就是 “干真活” 嘛,沒毛?。?/p>

但把模型做大,只是水面之上的冰山,如果站在人類客服的“真崗位”上看,你會發(fā)現(xiàn)很水面之下還有更多棘手的問題:

首先,客服接收的詢問可以是文字,但有可能是圖片,也有可能是語音; 其次,客服要去尋找的答案,也可能來自文字、圖片、視頻、音頻雜糅的頁面。

比如我發(fā)給京東客服一張衣柜的照片,問還有沒有其他類似款式的。

人類客服可以輕易感知這張圖里的內容和“衣柜”這兩個字在意義空間里是對應的。

要想上崗干活兒,AI 也必須做到。

這就要求 AI 不僅要(像搜索引擎那樣)把文字放在意義空間里,還要把語音、圖像等等都對應在*同一個*意義空間里,用同一套意義配料來表示。

用專業(yè)”黑話”來說就是:多模態(tài)語義對齊。

問題來了:

人類 AI 技術一直是摸著石頭過河,走一步看一步,導致雖然都是使用深度神經(jīng)網(wǎng)絡技術訓練,但用于視覺識別的 AI 和用于語言理解的 AI 訓練方法走了兩條完全不同的道路。

假如中國人看到英國飯,雖然覺得不好吃,但起碼能理解他們在吃啥,因為配料能對得上。

但如果一個中國人看到了三體人吃的飯, 配料完全對不上,就很難理解了。

配料對不上,意義就對不上。

那咋辦?

這里就不得不抬出何曉冬博士十年前的另一項工作:DMSM(語言 - 視覺深度多模態(tài)語義模型)。

道理也簡單,就是要從頭訓練視覺和語言 AI,并且在訓練成型的各個階段不停地比對,確保它們的意義配料在每個階段都能準確對應。

配料一樣,就能想辦法對齊。

這就可以了嗎?

在這個崗位上真試一試,你會發(fā)現(xiàn)并不可以。

因為一張圖片里會出現(xiàn)很多物體,而人類客服可以輕而易舉地注意到圖片里的“主體”,但是 AI 就會混不吝地把所有物體都平等地識別出來。

這樣不僅浪費巨大的計算力,還會讓識別變得非常不準確。

那咋辦?

這里就不得不抬出何曉冬博士五年前的另一項工作:“Bottom-up and top-down attention”(自下而上和自上而下的注意力機制)。

這個技術其實就是受到人類注意力機制的啟發(fā)而想出來的,簡單說就是:通過圖像和文字中的一些蛛絲馬跡,提取出 AI 應該重點注意的主體。

有了這兩個技術打底,再加上億點點工程優(yōu)化,就做出了一個多模態(tài)模型,不僅能用一套“意義配料”來表示圖像和文字,還能做到成本低廉。

雖然遠談不上完美,但它可以干活了!

就像這張圖所示:AI 看到“狗”,就能馬上聯(lián)想到狗的各種關聯(lián)詞,還有狗的樣子,還有狗的發(fā)音。

你看,只要人類認為*可以有意義*的東西,甭管是文字、圖像、語音,都可以塞進同一個意義空間,用同一套意義配料來表示。

理解并且做到這一點,我們才邁過了通往通用人工智能的一個重要的里程碑!

在 2020 年時,這個多模態(tài)模型已經(jīng)被干到了 10 億參數(shù)量。

這樣的模型不僅可以做客服,也能做銷售。比如打電話給老用戶,通知他們新的促銷活動。

言犀的師傅們發(fā)現(xiàn)一個有趣的心理規(guī)律,大多數(shù)用戶會在接到電話的第一句決定是不是要掛斷。如果沒掛斷,大多就會和你多聊幾句。

于是他們制定了一個指標——“首句掛斷率”。為了讓 AI 客服撐過第一句,他們拼命優(yōu)化說話的口氣,甚至還用上了方言。

人們聽到鄉(xiāng)音,就會倍感親切,也會更愿意傾聽和交談。

你聽一段感受下↓↓↓

也正是從這個時候開始,京東啟動了 AI 能力大規(guī)模對外服務。

不僅給京東當客服,也可以出去打工,甚至被雇去給一些城市的政務熱線 12345 去做話務員。在這么重要的崗位上服務,可見能力還是頗受信任。

不過,如果此時把視野拉開,一個怪獸正在撕開帷幕,準備攪動舞臺。

(三)做出世界上不存在的蛋糕

2020 年夏天,就在全世界公司都在一腦門子官司,用小皮鞭抽打 AI 去各行各業(yè)打工時,大洋彼岸的 OpenAI 祭出了一個“怪獸”——擁有 1750 億個參數(shù)的 GPT-3 模型。

算起來,它比京東的模型 10 億參數(shù)大了一百多倍。訓練它消耗了 500 萬美元。

但。。。它只會聊天,創(chuàng)造不出啥經(jīng)濟價值,完全不符合咱們一直鼓吹的真崗位干真活的“賽博牛馬”氣質。

這當然不能說明 GPT 沒有價值, 這恰恰說明,沒有一種 AI 路徑是絕對正確的。

歷史有時進入迷局,真就得靠瘋子撞開一扇門。

這一波 OpenAI 的折騰,言犀的師傅們從專業(yè)角度悟出了一個“門道”。

那就是,GPT-3 模型把全世界互聯(lián)網(wǎng)上的文字拿來學習,用極多的意義配料來表示這些詞匯和語句,超過一定程度,它突然就“涌現(xiàn)”出生成內容的能力。

咱們不妨想象一個蛋糕店:

過去,你是個打工學徒,有顧客形容他想要一個什么口味的蛋糕,你只能盡量理解,然后從貨架上選一款最貼合他描述的;

現(xiàn)在,經(jīng)過十年苦練你成了糕點仙人,顧客說他想要什么口味,無論多么離奇,你都可以微微一笑,現(xiàn)場拿配料給他做一個。

你完全可以把以上兩種情況都看作是“匹配”。

只不過一個是在成品層面匹配,一個是在配料層面匹配。

用無數(shù)已有的意義配料做出世界上原本“不存在的蛋糕”,其實就是我們現(xiàn)在熟悉的大模型 AIGC(人工智能生成內容)。

雖說在 2020 年,大模型的成本還在天上,沒啥實用價值;但隨著 2022 年底 ChatGPT 3.5 捅破天,大模型的能力迅速抬升,成本迅速下降,它就落入了真崗位干真活的軌道。

這也是為什么從 2023 年開始,全世界的大公司全都瘋狂地殺入大模型。

雖然各家大模型都可以 AIGC,但如果還拿蛋糕店打比方,你就會理解一個問題:能不能做出好吃的蛋糕,是由“原料種類的豐富度”“你對原料掌控的精細度”決定的。

對于京東來說,他們的“原料”里有大量的采銷信息、產(chǎn)品介紹、營銷方案、用戶對話,把這些東西揉碎在意義空間里,能出來個啥?

這要不出來個賽博牛馬級的帶貨主播,都對不起這些獨家數(shù)據(jù)呀!

京東直播間的數(shù)字人主播

話說,很多人都看過數(shù)字人的帶貨直播,但卻不太容易條分縷析理解背后的技術。

告訴你一個小妙招,從“意義配料”的角度下手,分分鐘就能“庖丁解人”:

想想看,一個人,只要精神正常,在同一個時刻,他的所有語言、嘴型、表情、動作都只為同一個意義服務。

人是如此,數(shù)字人更是如此。

現(xiàn)在我們假設:一個數(shù)字人在直播,他正好要揭曉某款空調的價格。

這一刻,把時間定格,鉆進這個數(shù)字人主播的身體里——她全身上下所有的表達必須都凝聚在“揭曉價格”這個意義上:

她的腦海里正流淌著一句 話 :“這款空調雙 11 的驚爆是 2699 元?!?她發(fā)出的 聲音 ,就是這句話的中文發(fā)音。 她使用的 語氣 ,必須是和這句話意義相匹配的(此處也許要神秘的、激動的); 她的 嘴型 ,也必須和這句話的發(fā)音相匹配; 她的 表情、手勢 也都必須和這句話揭曉價格的情緒相匹配;

那么問題就簡化了:一切樹枝攀附的樹干——這句話——是怎么來的呢?

當然是大模型的語言能力+京東電商數(shù)據(jù)的特訓+商品的基礎信息,然后“AIGC”出來的!

這段銷售的語言被生成出來,聲音、語氣、嘴型、表情、手勢才能被順次生成,他們一起在時間線上向前移動,在每個時間切片上,所有的樹枝和樹干都要表達同一個意義。

客觀上來說,以目前的人類技術,還不能用一個模型來生成這么多模態(tài)的內容:

必須用一個大模型生成語言,一個專用模型生成聲音,另一個模型生成嘴型,還有一個模型生成身體動作,等等。

但沒關系,還記得我們手上已經(jīng)有一個傳家法寶了么?

沒錯,多模態(tài)語義對齊!

只要讓語言、聲音、語氣、嘴型、表情、手勢等等各種東西都在同一個語義空間里對齊,用同一套意義配料來表示,那么數(shù)字人在說一句話的時候,自然就知道應該對應哪個聲音和動作了!

就像下圖所示↓↓↓

說到這里,我們不妨駐足回看。

你會發(fā)現(xiàn)這些年言犀老師傅雖然做的東西五花八門,但卻一直在這場曠日持久的“意義戰(zhàn)爭”里拼殺,從未離開。

每一次蹦高才能 get 的新技能,后來都成為更炸裂技術的“墊腳石”。

2013 年,他們在空間里為文字尋找意義配料,誕生了千人千面的搜推廣引擎; 2018 年,他們開始把文字、圖像、聲音用同一種意義配料表示,誕生了 AI 情感客服; 2023 年,他們開始用大模型精細的意義配料來調配不存在的東西,并且把文字、語音、動作等等更多的模態(tài)在用同一套意義配料對齊,于是才誕生了—— “言犀數(shù)字人” 。

從一開始,完全看不出和人有什么關系的專用 AI 系統(tǒng),到后來意義配料逐漸增多,模態(tài)逐漸堆壘,一個人的雛形就這樣浮現(xiàn),這才是技術進步最浪漫的劇本。

不過,我們不能沉溺于浪漫,回到開頭的故事,言犀同事們?yōu)楹螘远谱鲾?shù)字人時,讓他不要做意義明確的手勢,就足以證明現(xiàn)實的殘酷:

模型對于語義配料的分析能力還有很大的欠缺。

話說在 2023 年,業(yè)界數(shù)字人的前沿能力大概是:

1、文字、語音和唇形能夠用“配料”自然生成,即便如此還是有某一刻不那么像真人;

2、人物的表情和手部動作無法隨意生成,只能在最初的錄像里“挑選”;

3、人物的大幅度動作,比如喝水、 站起來走動、摸臉等等還無法做到。

所以整個 2024 年,京東師傅們都在意義海里深潛,就研究一件事——怎么讓數(shù)字人更!像!人!

(四)“不出戲”的數(shù)字人

說到這,就不得不給你介紹一位我新認識的兇悍產(chǎn)品人,飛姐。

飛姐確實給我隨時準備解決一場戰(zhàn)斗然后“飛”到下一個戰(zhàn)場的感覺。而且我發(fā)現(xiàn)這不是她一個人的氣質,而是數(shù)字人產(chǎn)品團隊的氣質。

技術一定有不完善的地方,主播被用戶發(fā)現(xiàn)是個數(shù)字人也在所難免。 但我們能做的是想盡辦法讓用戶晚一點兒“出戲”。只要停留在數(shù)字人直播間更長時間,自然貨賣得也會更好。

她開門見山。

“出戲”,其實是人類意識一個很玄妙的特性。某個說不清道不明的細節(jié),就會讓你意識到“哪里不對”,一旦意識到“哪里不對”以后,你就沒辦法再回到“對”的狀態(tài)了。

為了讓數(shù)字人不出戲,團隊工作的主要內容之一就是“看購物直播”。(怎么樣,羨慕么?)

當然,他們是專業(yè)的,只看,不買,除非忍不住。。。

出乎我意料的是,他們大多時間居然看的是人類直播,而非數(shù)字人直播。

他們是在“逆向思考”——人類主播做了一件事,讓觀眾 DNA 動了,他們馬上就拿小本本記下來。

然后開始逼問自己,為啥主播干了這個我就覺得好呢?我家數(shù)字人能不能也干這個?

飛姐

比如:小動作。

一個主播是端坐在那里一直說更好,還是時不時撩頭發(fā)、看手機、瞅瞅旁邊更好?

看直播的時候他們發(fā)現(xiàn),主播的各種小動作看上去沒啥意義,其實處處都在傳遞“意義”。

比如剛說錯了什么,為了緩解尷尬來個“戰(zhàn)略喝水”;比如剛才一通輸出信息量太大,撩撩頭發(fā)緩一緩。

這些都是數(shù)字人

小動作,其實可以歸為直播中的“瑕疵”。可這種瑕疵恰恰給我們更真實的環(huán)繞感。

這種奇特的結論,如果不是真的天天泡在人類直播間,真的很難得出。

比如有同學在來回切換人類主播和數(shù)字人主播觀察時,發(fā)現(xiàn)了一個更隱秘的區(qū)別,那就是:人類主播會時不時盯一下手機,看評論區(qū)留言。

數(shù)字人主播當然也能“看”留言,但顯然是通過程序接口輸入的嘛!它才不用浪費時間,把屏幕上的光點兒傳到視網(wǎng)膜,然后用大腦解析出文字的含義。

但是!只要它沒有身體前傾默默看留言的那個的過程,觀眾就覺得你不像個人!

你說說。。。人類是有多難伺候?

誒,意識到問題所在,它就已經(jīng)解決了一半兒。

在錄制數(shù)字人的時候,團隊會提前跟被錄制者說明,你必須得用放松的口音說話,如果帶點自己的口音、腔調那最好。而且還要專門錄制一些喝水、摸頭發(fā)、聆聽狀態(tài)之類的小動作,就是為了讓屏幕前的觀眾感覺到自然交互,不出戲!

下面這個直播片段,你猜哪個是數(shù)字人↓↓↓

答案是:兩個都是數(shù)字人! 效果還算 OK 吧?

但是,到這里問題都解決了嗎?

還差得遠呢。

話說,直播就像一部電影,它吸引你的程度也可以用電影評分表示:

“不出戲”,只是三顆星及格線,你起碼不會把注意力抽離到屏幕以外的地方; 接下來是“尿點少”,也就是四顆星,比如你即使憋尿也忍不住要看接下來會發(fā)生什么; 如果“全程無尿點”,尿褲子也忍不住要看,那就接近五星好評了。

怎么能讓一場帶貨直播像精彩的電影一樣“全程無尿點”,這才是終極命題。

而且這恐怕不是戰(zhàn)略喝水、撩撩頭發(fā)、看看手機就能解決的,甚至也不是對每個詞句精細打磨能解決的。

飛姐團隊苦思冥想,發(fā)現(xiàn)了一個問題:

有些主播長得不算美,說話口音還是塑料普通話,遣詞造句也不用那么標準的語法,甚至語速也不均勻,但作為觀眾,就是覺得他/她是個人才,說話好聽。。。

雖然沒完全想明白是個啥道理,但飛姐決定試試。

她找到技術團隊的算法總監(jiān)老吳,提出了非分的要求:咱家數(shù)字人能不能多點兒“主播感”?

老吳皺眉:“主播感是啥?”

飛姐給他看視頻。

老吳推推眼鏡:“可以試試。”

團隊直接把數(shù)字人的訓練庫從字正腔圓的模特天團升級到了金牌主播大軍。

一試嚇一跳:AI 把這些人的特質都學習下來 之后,數(shù)字人主播身上果然多了一些微妙的“人味兒”。

飛姐決定順著這個思路繼續(xù)得寸進尺。

“無尿點主播”不僅每句話說得讓人愛聽,更是在直播的“整體結構”上有精巧的設計。

飛姐頭頂突然亮了燈泡:“直播中的整體話術設計,也是可以被大模型學習的嗎?”

她又忐忑地找到技術團隊。

老吳推推眼鏡:“可以再試試?!?/p>

他們試著找來了各行各業(yè)的頭部主播的大段直播視頻,讓大模型分析整場直播前后邏輯設計的奧秘。

果然又嚇一跳:數(shù)字人主播居然真的學會了一些直播套路,賣 3C 的時候說一套技術宅喜歡的嗑兒,賣衣服時又會說集美們愛聽的詞兒。

飛姐說,經(jīng)過這個調整,數(shù)字人從一個“播報員”變得更像“銷售員”了!

它上道了,它變成了她/他。

站在技術空間,你會發(fā)現(xiàn)這個轉變的迷人本質: 理解正在向意義空間更深處漫溯 。

在大模型出現(xiàn)后,學界有很多大佬潑冷水:人能理解自己在說什么,可大模型的原理卻是預測下一個字的概率——這意味著 AI 永遠無法和人匹敵。

但正如辛頓所說:人工智能看起來只是一個預測下一個字的機器,但如果你能預測得極其精確,只有一種情況,那就是“理解”了。

其實,人也是被訓練出來的。

飛姐提醒我。

人生下來沒有任何能力,說話是訓練出來的,開車也是訓練出來的。三百六十行的專家,也都是經(jīng)過訓練才習得這個行業(yè)的工作模式。

不僅如此,就連公認與“靈魂”最接近的情緒,快樂、悲傷、憂慮、憤怒,舔舌頭代表遲疑、雙臂交叉反應防御,也都是在和環(huán)境互動的過程中被訓練,隨之被刻在基因編碼中的反射模式。

話說,越是在人工智能領域深耕,人們越會同意一個大逆不道的“暴論”:機器沒有靈魂,但人也沒有靈魂——就沒有靈魂。

秉持這個判斷的好處很多,但最重要的一個是:你可以心安理得地把數(shù)字人和人放在同一個高度去平視。

(五)當機器平視人

中國電商巨頭有很多,但它們在對待數(shù)字人主播的態(tài)度上有細微而深刻的區(qū)別。

比如一家以短視頻為主業(yè)的頭部電商,只接受人類主播,發(fā)現(xiàn)你用數(shù)字人直播甚至會封號;

另一家以 C2C 為主的頭部電商,目前只讓數(shù)字人對私域流量開放,也就是你無法自然刷到數(shù)字人主播,只有關注店鋪后才能刷到它的數(shù)字人直播。

而京東的態(tài)度最為激進:它并不區(qū)分這個店鋪是人類在播還是數(shù)字人在播。

也就是說,在這個平臺上,數(shù)字人主播和人類主播擁有同等的權利。

這個策略讓人驚訝,因為看上去它兩頭得罪:

一方面,這對數(shù)字人來說是殘忍的。

因為數(shù)字人技術像個孩子一樣稚嫩,但系統(tǒng)沒有給它任何保護,直接無差別面對挑剔的顧客。

另一方面,這對人類來說也是殘忍的。

因為在精力上,人類不可能像數(shù)字人一樣一秒都不休息;在記憶上,人類要想成為專家,需要十幾年刻苦練習,但數(shù)字人可以瞬間學習,零成本分裂。

血肉牛馬怎么卷得過賽博牛馬?

那京東這么選的道理何在?

如果你把視野局限在數(shù)字人和人的關系上,就很難理解。一旦把頭抬起來,看向遠處,一切都朗若列眉。

我們舉個例子:

發(fā)展電動車,就是為了取代燃油車,節(jié)省能源嗎?當然不是。

電動車普及,自動駕駛才有可能普及;自動駕駛普及,大規(guī)模的機器人才 可能普及;機器人普及,人類的生產(chǎn)制造、物流傳遞、家庭服務成本才會巨幅降低;這些成本全部降低,人類才有機會調動巨大的能量推動新一輪基礎科學進步,從而加快可控核聚變技術、星際飛船技術,飛向下一個紀元。

同樣道理:

發(fā)展數(shù)字人,只是為了在直播間多賣幾件東西嗎?當然不是。

數(shù)字人普及,人類體力和腦力的物理天花板才能打破;物理限制打破,一個生命就可以在軀體上隨時分身,在腦力上同時成為三百六十行的專家;有了這樣新的生命形態(tài),才能在人與人之間插入無數(shù)新的協(xié)作者,讓生產(chǎn)力突破天花板。

站在未來回望,你才能感受到,數(shù)字人平視人類的那一瞬間有多么可貴。

何曉冬告訴我,他想象中數(shù)字人的未來就像《紅樓夢》中所描述的“太虛幻境”。

你閉一下眼睛,就像做夢一樣穿越到一個虛幻的世界:

你只要意念一動,身邊就能閃現(xiàn)出一個形象,和你交流,互動;交流完畢,他又瞬間消失。一切溝通都不受沉重的肉身所限制。

而且這些出現(xiàn)在你身邊的人,就是專門為你的需求創(chuàng)生的,別人既不需要,也看不到。

這種體驗,是我們依靠肉身永遠無法創(chuàng)造出來的。

“人到不了的疆域,機器人可以抵達。”

何曉冬說。

我們離“太虛幻境”還遠,但我們在向那里行進。

今年春天,東哥把自己也做成了數(shù)字人,這是一個極強的信號——京東在 AI 上 All in,不準備回頭了。

市場敏銳地接收到這個信號,天平從微小的震顫到迅速傾斜,很多店鋪和直播代運營機構開始用言犀數(shù)字人直播,不僅在京東平臺上播,也在其他平臺上播。

數(shù)字人主播的成本相當于人類主播的十分之一,甚至更少。省下來 90%,意味著商家可以大幅降價卻依然維持利潤。

京東用這種方式再次殺入了電商江湖的腹地。

今年 11.11 前,言犀老師傅們興奮地告訴我,他們把數(shù)字人的語音模型進行了升級,說出的話更接近真人的語調。

而且他們還做了“雙主播”技術,兩個數(shù)字人可以在直播間里實現(xiàn)交流,雖然這種互動還很簡單,但第一步已經(jīng)邁出。

這是 2024 年 11.11 直播間的片段,你可以聽一下聲音,看一下動作。

實話說,在我這個輕度用戶看來,這些進步都是微小的創(chuàng)新,好像并不意味著什么,但是從老師傅閃光的眼神里,我看到了他們眼中的洶涌未來。

歷史總在押韻。

當年,何曉冬博士最初搞出 DSSM 時,業(yè)界的反應平平,甚至學術機構猶豫再三,讓他把論文大幅改短才勉強同意發(fā)表。

但何曉冬本人并不糾結,因為他篤信時間會給予自己應有的獎賞,所以能靜靜等待,默默前行。

言犀的同事們告訴我,何曉冬反復說:技術人要有高目標,如果每天僅僅盯著眼前的問題就會陷入迷茫。

如果把自己的工作僅僅看作是怎么讓數(shù)字人主播的銷量再提高 1%, 難免會覺得疲憊。

如果把自己看作是一個在意義空間里沖殺的戰(zhàn)士,贏得人工智能曠日持久的戰(zhàn)爭后,自己的名字會鐫刻在人類文明的史詩中,你就會跨越搜索引擎、跨越 AI 客服,甚至跨越數(shù)字人,走向更遠的地方。

在短劇《愛、死亡、機器人》中,有一集名為《齊馬藍》(Zima Blue)。

一個曠世的藝術家齊馬,以遠超常人的激情創(chuàng)造了無數(shù)震撼詩人的藝術作品。他深居簡出,從不與人對話。

世人只知道,他為了更深地體會這個宇宙的真理,把自己的身體都改造成了機械。

從某一天開始,在他的畫作中,出現(xiàn)越來越多的藍色的方塊。這個顏色精準而動人,人們想盡一切辦法理解其中深意,但終無所得,只好稱之為“齊馬藍”。

在完成最后一個作品前,他向一位記者袒露了真相:他是一個 AI。

在“他”還是“它”的時候,它只是一個清洗泳池的工作機器人。

但正是從這樣專業(yè)且微小的工作開始,經(jīng)過無數(shù)次進化,他成為了現(xiàn)在的自己。

而在畫作中反復出現(xiàn)的藍色方塊,正是在水下看到的游泳池瓷磚。

被人歌頌的偉大頓悟,來自渺小而微的勞作;

渺小的勞作,穿越恒久的時間,成為被歌頌的偉大。

這種恒久的耐心或許并非 AI 專屬,而是 AI、人類以及所有智慧生命所共同擎起的一把火炬。

在這個意義上,我們無比平等。

理解自己

造出自己

再自我介紹一下吧。我叫史中,是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。

哦對了,如果喜歡文章,請別吝惜你的“在看”“分享”。讓有趣的靈魂有機會相遇,會是一件很美好的事情。

Thx with in Beijing

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
小伙騎車撞特斯拉后賠償1.5萬修車費,4S店發(fā)票咋只開了9000元?多方回應

小伙騎車撞特斯拉后賠償1.5萬修車費,4S店發(fā)票咋只開了9000元?多方回應

大風新聞
2026-01-22 12:09:03
最低-14℃!江蘇下一輪降雪又在路上了

最低-14℃!江蘇下一輪降雪又在路上了

魯中晨報
2026-01-22 08:59:40
嘲笑川普的人該補歷史課:美國購買格陵蘭是150年的國家戰(zhàn)略

嘲笑川普的人該補歷史課:美國購買格陵蘭是150年的國家戰(zhàn)略

斌聞天下
2026-01-22 06:20:03
永遠不可能被抹殺的歷史:四野部隊里的那三萬日籍士兵

永遠不可能被抹殺的歷史:四野部隊里的那三萬日籍士兵

深度報
2026-01-21 21:25:16
湖北省農(nóng)業(yè)事業(yè)中心副主任姜衛(wèi)東接受審查調查

湖北省農(nóng)業(yè)事業(yè)中心副主任姜衛(wèi)東接受審查調查

界面新聞
2026-01-22 17:14:47
車市內卷嚴重怎么辦?遇事不決,學豐田!

車市內卷嚴重怎么辦?遇事不決,學豐田!

電動邦
2026-01-22 14:32:58
當江青還不叫江青時,她是這樣的

當江青還不叫江青時,她是這樣的

深度報
2026-01-21 22:36:36
歐洲資金開始大規(guī)模撤離

歐洲資金開始大規(guī)模撤離

販財局
2026-01-21 22:18:11
炸裂!中糧集團春招公告,學歷從大專起步,外語水平居然不設限…

炸裂!中糧集團春招公告,學歷從大專起步,外語水平居然不設限…

火山詩話
2026-01-22 10:40:46
歐洲打死也不會想到,這場戰(zhàn)爭徹底打掉了歐洲五十年的國運

歐洲打死也不會想到,這場戰(zhàn)爭徹底打掉了歐洲五十年的國運

揭秘歷史的真相
2026-01-19 21:05:12
暴雷!廣東知名董事長跳樓,公司停業(yè)破產(chǎn)清算,近百家門店全關閉

暴雷!廣東知名董事長跳樓,公司停業(yè)破產(chǎn)清算,近百家門店全關閉

南宗歷史
2026-01-22 14:32:06
人民日報,救西貝一命!

人民日報,救西貝一命!

鈞言堂
2026-01-22 09:38:41
臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

顧史
2026-01-21 21:04:39
葉某斌供述:一天騙五六個人應該差不多

葉某斌供述:一天騙五六個人應該差不多

大風新聞
2026-01-22 14:34:05
性蕭條是怎么造成的?以前穿小吊帶的女性大把,MV全是比基尼小姐姐

性蕭條是怎么造成的?以前穿小吊帶的女性大把,MV全是比基尼小姐姐

六子吃涼粉
2026-01-22 09:12:09
突發(fā)!知名網(wǎng)紅“一栗小莎子”確診癌癥,疑熬夜導致,兒子才兩歲

突發(fā)!知名網(wǎng)紅“一栗小莎子”確診癌癥,疑熬夜導致,兒子才兩歲

裕豐娛間說
2026-01-22 08:56:07
馬克龍犯了什么???

新民周刊
2026-01-22 09:08:59

美媒昭告全球: 中國不償還100年前的債務,美國將不承認欠中國的

美媒昭告全球: 中國不償還100年前的債務,美國將不承認欠中國的

墨印齋
2026-01-22 06:05:46
900萬粉絲網(wǎng)紅到株洲一村莊辦殺豬宴,稱村民收場地費還分肉,村干部:他們未報備且破壞村里聲譽,已報警

900萬粉絲網(wǎng)紅到株洲一村莊辦殺豬宴,稱村民收場地費還分肉,村干部:他們未報備且破壞村里聲譽,已報警

極目新聞
2026-01-22 13:53:44
首進澳網(wǎng)32強!王欣瑜2-1爆冷險勝前法網(wǎng)冠軍 將戰(zhàn)13號種子

首進澳網(wǎng)32強!王欣瑜2-1爆冷險勝前法網(wǎng)冠軍 將戰(zhàn)13號種子

醉臥浮生
2026-01-22 13:21:34
2026-01-22 17:28:49
淺黑科技官方 incentive-icons
淺黑科技官方
科技有溫情
284文章數(shù) 22967關注度
往期回顧 全部

科技要聞

幾千億只是開胃菜,AI基建還得再砸?guī)兹f億

頭條要聞

浙江有人領走88888888馬年紀念鈔 銀行員工:隨機分配

頭條要聞

浙江有人領走88888888馬年紀念鈔 銀行員工:隨機分配

體育要聞

跑個步而已,他們在燃什么?

娛樂要聞

鐘麗緹土耳其高空落淚 與張倫碩擁吻

財經(jīng)要聞

申通快遞創(chuàng)始人被前夫索要股份

汽車要聞

配備多塊娛樂屏 極氪8X內飾曝光

態(tài)度原創(chuàng)

教育
時尚
數(shù)碼
本地
軍事航空

教育要聞

求最大值,中考必考

50+女性穿衣沒頭緒?教你3個顯瘦還時髦的思路,照搬就好看

數(shù)碼要聞

國補疊加限時直降,這篇華為平板上車攻略不容錯過

本地新聞

云游中國|格爾木的四季朋友圈,張張值得你點贊

軍事要聞

普京:愿意向"和平委員會"提供10億美元

無障礙瀏覽 進入關懷版