国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

實(shí)時(shí)交互 AI 技術(shù)基建,Soul 打出了王牌

0
分享至


布局 AI 生態(tài),讓社交回歸情感本質(zhì)。

作者|十九

編輯|鄭玄

從2025年到2026年,Soul 的開(kāi)源動(dòng)作幾乎沒(méi)有停歇。

3 月 16 日,Soul AI 團(tuán)隊(duì)(Soul AI Lab) 發(fā)布了新的開(kāi)源模型 SoulX-LiveAct,技術(shù)報(bào)告中具體提到,該工作能夠在 2 張 H100/H200 條件下,達(dá)到 20 FPS 的實(shí)時(shí)流式推理能力,且支持輸入圖像、音頻和指令驅(qū)動(dòng),即可生成表情生動(dòng)、情緒可控、擁有豐富全身動(dòng)作的實(shí)時(shí)數(shù)字人視頻。

在此之前,這個(gè)團(tuán)隊(duì)已先后開(kāi)源了多個(gè)模型,包括了實(shí)時(shí)數(shù)字人生成方向(SoulX-FlashHead、SoulX-FlashTalk),歌聲合成方向(SoulX-Singer),播客語(yǔ)音合成方向(SoulX-Podcast)等,覆蓋圍繞交互的多個(gè)維度。

傳統(tǒng)印象中,Soul 一直被視為「應(yīng)用平臺(tái)」,如今選擇開(kāi)源本身便充滿了討論點(diǎn)。這不僅意味著平臺(tái)攜手開(kāi)源社區(qū)構(gòu)建起豐富 AI 應(yīng)用生態(tài)的新可能,更重要的是,這些工作圍繞的核心點(diǎn)是「多模態(tài)實(shí)時(shí)交互」與「真實(shí)場(chǎng)景可用」,指向了「AI 社交」時(shí)代核心技術(shù)標(biāo)準(zhǔn)的重新定義。

01

實(shí)時(shí)數(shù)字人:從能用到好用

關(guān)注到「Soul AI Lab」這個(gè)標(biāo)簽,是因?yàn)榻鼇?lái),它高頻出現(xiàn)在 AI 社區(qū)分享交流群中。

近期,這個(gè)團(tuán)隊(duì)最新發(fā)布的 SoulX-LiveAct 面向?qū)崟r(shí)數(shù)字人生成領(lǐng)域。

年初,字節(jié)旗下音視頻生成模型 Seedance 展現(xiàn)出驚艷的運(yùn)鏡能力和細(xì)膩的視頻效果,讓大眾意識(shí)到了 AI 在影視、內(nèi)容創(chuàng)作的巨大潛力,也再次反映出在「落地」成為 AI 領(lǐng)域共識(shí)的當(dāng)下,行業(yè)對(duì)于大模型的需求已經(jīng)不再是「能不能用」而是「好不好用」。

實(shí)時(shí)數(shù)字人領(lǐng)域,高畫(huà)質(zhì)、長(zhǎng)時(shí)穩(wěn)定性、低部署成本長(zhǎng)期被視為「不可能三角」。行業(yè)在具體落地技術(shù)時(shí),其實(shí)長(zhǎng)期面臨一個(gè)問(wèn)題:視頻生成時(shí)長(zhǎng)一旦拉長(zhǎng),畫(huà)面穩(wěn)定性與人物一致性會(huì)明顯下降,常見(jiàn)的 Bug 包括身份漂移、細(xì)節(jié)丟失、畫(huà)面閃爍,以及實(shí)時(shí)推理成本隨時(shí)長(zhǎng)上升等等。通過(guò)底層算法的重構(gòu),SoulX-LiveAct 想要嘗試解決這些問(wèn)題。

不同于傳統(tǒng)的 AR diffusion 對(duì)歷史記憶的無(wú)節(jié)制依賴,SoulX-LiveAct 在「條件傳播方式」和「歷史記憶管理」兩個(gè)維度實(shí)現(xiàn)了技術(shù)閉環(huán),拋棄了隨時(shí)長(zhǎng)線性增長(zhǎng)的沉重緩存機(jī)制,通過(guò)全局特征鎖定極致,既能精準(zhǔn)「帶得動(dòng)」超長(zhǎng)時(shí)段的歷史上下文,又不會(huì)因緩存膨脹拖累推理效率。這意味著,數(shù)字人具備了在小時(shí)級(jí)甚至全天候長(zhǎng)直播中的實(shí)戰(zhàn)能力。

通常情況下,長(zhǎng)視頻最容易「翻車」的不是第一分鐘,而是第十分鐘、第三十分鐘:可能是臉漂、發(fā)型/衣紋漂移,也可能是飾品忽隱忽現(xiàn),甚至口型逐步失配。SoulX-LiveAct 能在更長(zhǎng)時(shí)間窗口內(nèi)保持身份一致性與關(guān)鍵細(xì)節(jié)持續(xù)穩(wěn)定。

商業(yè)落地層面,SoulX-LiveAct 展現(xiàn)了極強(qiáng)的工程化能力與成本控制優(yōu)勢(shì)。僅需 2 張 H100/H200 即可達(dá)到 20 FPS 的實(shí)時(shí)流式推理能力,端到端延遲被壓縮至約 0.94s。通過(guò)單幀計(jì)算成本降低到 27.2 TFLOPs / frame,SoulX-LiveAct 顯著減輕了算力壓力,讓原本專屬于頂級(jí)服務(wù)器的高品質(zhì)實(shí)時(shí)交互,具備了向消費(fèi)級(jí)硬件下放的可能。

視頻由 SoulX-LiveAct 生成,人聲由 Soul 開(kāi)源的另一個(gè)工作 SoulX-Podcast 生成

事實(shí)上,面對(duì)實(shí)時(shí)數(shù)字人方向的「能用」到「好用」,Soul 已經(jīng)推出了多個(gè)解決方案。

春節(jié)前,Soul AI Lab 發(fā)布的 SoulX-FlashTalk——行業(yè)中首個(gè)能夠?qū)崿F(xiàn) 0.87s 亞秒級(jí)超低延時(shí)、32fps 高幀率,并支持超長(zhǎng)視頻穩(wěn)定生成的 14B 數(shù)字人模型。在開(kāi)源后,快速?zèng)_入全球最大 AI 開(kāi)源社區(qū) Hugging Face I2V(Image To Video)趨勢(shì)榜 TOP5,目前在 Github 已積累了 1.1k+Star。

而另一個(gè)同樣是春節(jié)前推出的 1.3B 參數(shù)輕量化模型 SoulX-FlashHead,Lite 版本在單張消費(fèi)級(jí)顯卡(RTX 4090)上跑出 96FPS 的工業(yè)級(jí)速度,同時(shí)能夠?qū)崿F(xiàn)高質(zhì)量畫(huà)質(zhì),在發(fā)布后也快速進(jìn)入 HuggingFace I2V 趨勢(shì)榜 TOP4。

02

實(shí)時(shí)交互:AI 時(shí)代的技術(shù)基建

為什么 Soul 在持續(xù)死磕「實(shí)時(shí)交互」方向?

舉個(gè)簡(jiǎn)單的例子,大模型爆火后,或許是 ChatGPT 定義了面向 C 端的基本形態(tài),后續(xù)所有的產(chǎn)品基本均采用了類似的交互模式——用文字或語(yǔ)音,人與 AI 交互過(guò)程中,完成信息的獲取和內(nèi)容的處理、創(chuàng)作。

而實(shí)時(shí)數(shù)字人生成技術(shù)則意味著這種交互升維到視覺(jué)層面。ta 擁有一個(gè)完整的,可互動(dòng)的視覺(jué)形象,且這個(gè)視頻互動(dòng)的過(guò)程是「雙向」的,ta 不只是會(huì)回應(yīng)你的問(wèn)題和指令,還會(huì)自動(dòng)根據(jù)語(yǔ)境,判斷互動(dòng)時(shí)機(jī)、節(jié)奏。是一種再自然不過(guò),類似現(xiàn)實(shí)交流的場(chǎng)景。

此前,極客公園張鵬曾有一個(gè)判斷,Location(位置)作為一條技術(shù)棧,最終成為了整個(gè)移動(dòng)互聯(lián)網(wǎng)時(shí)代最不可或缺的底層基礎(chǔ)設(shè)施之一。而「有效的主動(dòng)性」將成為 AI 時(shí)代至關(guān)重要的技術(shù)棧。「它讓你原有的產(chǎn)品,突破了純工具的被動(dòng),擁有了主動(dòng)對(duì)用戶一次次滿足預(yù)期,甚至超預(yù)期中建立信任的可能。在此過(guò)程中形成的「關(guān)系」,正是 AI 產(chǎn)品獨(dú)有的延伸資產(chǎn),是你突破用戶 LTV(life time value,生命周期總價(jià)值)天花板、構(gòu)筑真正護(hù)城河的關(guān)鍵?!?/p>

如今,實(shí)時(shí)交互,同樣創(chuàng)造了一種超預(yù)期的體驗(yàn),這也是 AI 在社交場(chǎng)景的核心技術(shù)難點(diǎn)之一。

因此,聚焦實(shí)時(shí)交互,Soul 在多模態(tài)方向均有探索,除了實(shí)時(shí)數(shù)字人方向,此前,Soul 還先后開(kāi)源了語(yǔ)音合成模型 SoulX-Podcast、歌聲合成模型 SoulX-Singer、全雙工語(yǔ)音對(duì)話控制模塊 SoulX-Duplug。

其中,SoulX-Podcast 是一款專為多人、多輪對(duì)話場(chǎng)景打造的語(yǔ)音生成模型,支持中、英、川、粵等多語(yǔ)種/方言與副語(yǔ)言風(fēng)格,能穩(wěn)定輸出超 60 分鐘、自然流暢、角色切換準(zhǔn)確、韻律起伏豐富的多輪語(yǔ)音對(duì)話。在去年10月底發(fā)布后快速登頂 Hugging Face TTS 趨勢(shì)榜,Github Star 數(shù)目前超過(guò) 3.2K。

實(shí)時(shí)數(shù)字人、語(yǔ)音、歌聲...... 基于這些能力,AI 能實(shí)現(xiàn)更多的互動(dòng)可能,例如社交場(chǎng)景中 AI 不會(huì)「把天聊死」,即便面對(duì)那些相對(duì)內(nèi)向,社交能力較弱的「I 人」,也能拉長(zhǎng)整個(gè)互動(dòng)的周期,并且具備豐富的演繹(如能歌會(huì)唱)能力,帶來(lái)不一樣的交流體驗(yàn)。

這一整套的大模型能力,讓 AI 從「應(yīng)答式」交互,變成了「陪伴」,產(chǎn)品定義也從簡(jiǎn)單的工具使用,到真正的「伙伴」和數(shù)字交互「入口」。


03

AI社交還有什么新可能?

一直以來(lái),Soul 在大眾層面的標(biāo)簽,更多是與 Z 世代、年輕人高度綁定的社交產(chǎn)品。

目前的開(kāi)源動(dòng)作,成為觀察其 AI 布局的新切入口。這種「反直覺(jué)」布局的背后并非單純的炫技,而是其深刻的產(chǎn)品洞察:通用的服務(wù)無(wú)法交付差異化的社交體驗(yàn)。

Soul 的 AI 基因并非始于大模型熱潮。其早期的智能推薦系統(tǒng)已在嘗試用 AI 解決人與人的匹配效率和質(zhì)量問(wèn)題。進(jìn)入大模型時(shí)代,Soul 發(fā)現(xiàn)通用模型雖能「對(duì)答如流」,卻無(wú)法交付具有情感溫差和極致在場(chǎng)感的社交體驗(yàn),自研了 SoulX 大模型。


與此同時(shí),社交場(chǎng)景對(duì)響應(yīng)延遲有著極高要求,為實(shí)現(xiàn)亞秒級(jí)反饋,Soul 必須在全雙工通信、低延遲傳輸、多模態(tài)交互等底層技術(shù)上「死磕」。這些為解決社交核心痛點(diǎn)打磨的工業(yè)級(jí)模型,也天然具備了對(duì)外技術(shù)輸出的價(jià)值。

不同于實(shí)驗(yàn)室里的 Demo,Soul 的模型已經(jīng)經(jīng)過(guò)真實(shí)、高并發(fā)、復(fù)雜社交場(chǎng)景的驗(yàn)證,這意味著開(kāi)發(fā)者可以「拿來(lái)即用」,極大地降低了技術(shù)落地門(mén)檻。

相較于電影、小說(shuō)等傳統(tǒng)內(nèi)容產(chǎn)品所呈現(xiàn)的封裝化、靜態(tài)化特征,Soul 認(rèn)為未來(lái)內(nèi)容、數(shù)字娛樂(lè)產(chǎn)品、社交等或?qū)⒆呦蛄鲃?dòng)交互、實(shí)時(shí)介入的全新形態(tài)。這種對(duì)未來(lái)形態(tài)的預(yù)判,促使其必須掌握并共享底層工具。

作為一個(gè)興趣社交社區(qū),Soul 的底層產(chǎn)品一直建立在真人互動(dòng)的基礎(chǔ)上,所以在 AI 社交的探索過(guò)程中,一直保持著謹(jǐn)慎。

Soul 的目標(biāo)也很明確——AI 社交最終要促進(jìn)的,還是人與人的溝通。因此,AI 在該平臺(tái)的應(yīng)用路徑清晰,AI 幫助用戶交朋友,增強(qiáng)現(xiàn)實(shí)社交網(wǎng)絡(luò),構(gòu)建有力、多元的社會(huì)支持體系:通過(guò)聊天輔助、推薦匹配等功能,提升連接效率和質(zhì)量,如協(xié)助用戶發(fā)起對(duì)話、創(chuàng)作內(nèi)容、打破社交壁壘、提升自信,交到興趣相投的好友。


對(duì)于 Soul 自身而言,開(kāi)源是將其從單一 App 進(jìn)化為生態(tài)系統(tǒng)的關(guān)鍵一步:一方面在 AI 社交標(biāo)準(zhǔn)尚未確立之際,率先開(kāi)源即可掌握優(yōu)質(zhì)實(shí)時(shí)交互的定義權(quán);另一方面開(kāi)發(fā)者基于其技術(shù)基建創(chuàng)造的新玩法,也將反向反哺社區(qū),持續(xù)豐富 Soul 的 AI 社交生態(tài)體驗(yàn)。

接下來(lái),Soul 的 AI 生態(tài)價(jià)值,或許將能夠外溢到社交之外的更多交互領(lǐng)域。比如在電商直播中,數(shù)字人主播常常存在「假人感」嚴(yán)重、互動(dòng)有延遲等問(wèn)題。利用 SoulX-FlashTalk 0.87 秒的超低延時(shí)和 32fps 的高幀率,數(shù)字人能實(shí)現(xiàn)如同真人般的秒級(jí)回復(fù)反饋;在 AI 客服場(chǎng)景中,機(jī)械式問(wèn)答一直被詬病,SoulX-LiveAct不僅能讓數(shù)字人擁有生動(dòng)的表情,甚至可以控制情緒,用具有「在場(chǎng)感」的數(shù)字人服務(wù)改變枯燥的售后咨詢。在線教育場(chǎng)景中,最稀缺的是陪伴感,SoulX-Podcast 等技術(shù),能支持能穩(wěn)定輸出 60 分鐘以上的連貫對(duì)話,覆蓋完整周期的教學(xué)內(nèi)容、講解,AI 教師可以與學(xué)生開(kāi)展長(zhǎng)時(shí)間深度交流。

在 AI 領(lǐng)域熱議「Agent 替代人類」的當(dāng)下,Soul 的立場(chǎng)顯得格外清醒:AI 不是替代人,而是鏈接人。AI 社交也不是簡(jiǎn)單的信息交換,而是跨越時(shí)空的、具備「在場(chǎng)感」的情感共振。AI 的角色應(yīng)該是幫助用戶優(yōu)化表達(dá)、打破僵局、建立同頻。因此,Soul 選擇開(kāi)源,本質(zhì)上是在為 AI 時(shí)代的社交「修路」。

從一個(gè)社交平臺(tái),到一家輸出底層能力的 AI 科技公司,Soul 正在用開(kāi)源證明:AI 時(shí)代,最好的防守是開(kāi)放,最深的護(hù)城河是生態(tài)。隨著技術(shù)門(mén)檻逐漸降低,交互體驗(yàn)不斷升級(jí),社交也將逐漸回歸情感鏈接的本質(zhì)。

*頭圖來(lái)源:視覺(jué)中國(guó)

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

極客一問(wèn)

你如何看待 SoulX-LiveAct ?


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
有主場(chǎng)球迷向下場(chǎng)的奧利塞投擲雜物,后者回以一個(gè)大拇指手勢(shì)

有主場(chǎng)球迷向下場(chǎng)的奧利塞投擲雜物,后者回以一個(gè)大拇指手勢(shì)

懂球帝
2026-04-12 03:21:08
美國(guó)被氣死,中國(guó)高超導(dǎo)彈用水泥造: 想了100種可能都沒(méi)試過(guò)水泥

美國(guó)被氣死,中國(guó)高超導(dǎo)彈用水泥造: 想了100種可能都沒(méi)試過(guò)水泥

基斯默默
2026-04-10 22:52:21
張大千:國(guó)家的錢怎么能用來(lái)幫私人還債,由此拒絕回歸大陸

張大千:國(guó)家的錢怎么能用來(lái)幫私人還債,由此拒絕回歸大陸

南極狼人
2026-04-11 19:00:11
“深圳地鐵站大到能種樹(shù)了!”網(wǎng)友:遙遙領(lǐng)先

“深圳地鐵站大到能種樹(shù)了!”網(wǎng)友:遙遙領(lǐng)先

筆墨V
2026-04-11 20:20:15
搞笑,杜蘭特與愛(ài)德華茲在網(wǎng)上口水戰(zhàn)后,在火箭打森林狼賽后擁抱

搞笑,杜蘭特與愛(ài)德華茲在網(wǎng)上口水戰(zhàn)后,在火箭打森林狼賽后擁抱

好火子
2026-04-12 00:01:46
美伊“間接談判”:美霸權(quán)戲碼又上演

美伊“間接談判”:美霸權(quán)戲碼又上演

烽火瞭望者
2026-04-12 10:04:43
千萬(wàn)粉絲網(wǎng)紅曬剃光頭視頻感動(dòng)全網(wǎng)

千萬(wàn)粉絲網(wǎng)紅曬剃光頭視頻感動(dòng)全網(wǎng)

新民周刊
2026-04-11 18:14:45
“談崩”了!剛剛,直線跳水!超10萬(wàn)人爆倉(cāng)

“談崩”了!剛剛,直線跳水!超10萬(wàn)人爆倉(cāng)

中國(guó)基金報(bào)
2026-04-12 11:23:11
艾弗森這個(gè)肌肉夸張了,右手方位更夸張!

艾弗森這個(gè)肌肉夸張了,右手方位更夸張!

左右為籃
2026-04-11 12:34:23
吊射絕殺!韓鵬完成救贖,泰山險(xiǎn)勝!1大中超俊才:徐陽(yáng)高度褒獎(jiǎng)

吊射絕殺!韓鵬完成救贖,泰山險(xiǎn)勝!1大中超俊才:徐陽(yáng)高度褒獎(jiǎng)

話體壇
2026-04-11 22:13:14
寶馬“炮轟”比亞迪:不是我們做不到閃充,是不愿犧牲電池耐用性

寶馬“炮轟”比亞迪:不是我們做不到閃充,是不愿犧牲電池耐用性

混沌錄
2026-04-10 22:53:05
臭名昭著的三位相聲演員:不著寸縷入室猥褻、虛假代言、羞辱交警

臭名昭著的三位相聲演員:不著寸縷入室猥褻、虛假代言、羞辱交警

觀察鑒娛
2026-04-12 11:29:03
心理學(xué)上說(shuō):下等的自愈,是買醉;中等的自愈,是旅行;頂級(jí)的自愈,是在瑣碎的日子里,學(xué)會(huì)與自己握手言和

心理學(xué)上說(shuō):下等的自愈,是買醉;中等的自愈,是旅行;頂級(jí)的自愈,是在瑣碎的日子里,學(xué)會(huì)與自己握手言和

四行書(shū)
2026-03-17 12:32:38
美媒談強(qiáng)過(guò)杜蘭特年輕巨星,掘金刻意躲避,帕金斯充滿悲觀

美媒談強(qiáng)過(guò)杜蘭特年輕巨星,掘金刻意躲避,帕金斯充滿悲觀

啊噠體育
2026-04-12 11:06:30
32歲艾滋病女患者自述:一次放縱,讓我從萬(wàn)人迷變成了萬(wàn)人嫌

32歲艾滋病女患者自述:一次放縱,讓我從萬(wàn)人迷變成了萬(wàn)人嫌

千秋文化
2026-04-11 20:06:20
中年女人這兩個(gè)表現(xiàn),就是真心喜歡你

中年女人這兩個(gè)表現(xiàn),就是真心喜歡你

加油丁小文
2026-03-30 08:08:35
復(fù)旦大學(xué)研究:我國(guó)財(cái)政供養(yǎng)人員6846萬(wàn),其中退休人員占四成!

復(fù)旦大學(xué)研究:我國(guó)財(cái)政供養(yǎng)人員6846萬(wàn),其中退休人員占四成!

黯泉
2026-04-09 17:27:59
1938年,毛主席與江青結(jié)婚,陳伯鈞寫(xiě)信反對(duì),毛主席:天塌不下來(lái)

1938年,毛主席與江青結(jié)婚,陳伯鈞寫(xiě)信反對(duì),毛主席:天塌不下來(lái)

歷史龍?jiān)w
2026-04-11 08:40:19
A股:周日上午突發(fā)2大消息!下周或迎來(lái)更大級(jí)別震蕩調(diào)整大行情?

A股:周日上午突發(fā)2大消息!下周或迎來(lái)更大級(jí)別震蕩調(diào)整大行情?

股市皆大事
2026-04-12 11:23:09
陳麗華長(zhǎng)子身份曝光:北大畢業(yè),31歲成為富華掌舵人

陳麗華長(zhǎng)子身份曝光:北大畢業(yè),31歲成為富華掌舵人

李橑在北漂
2026-04-09 11:48:49
2026-04-12 12:16:49
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11948文章數(shù) 78866關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

美國(guó)副總統(tǒng)萬(wàn)斯:美伊談判未能達(dá)成協(xié)議 將返回美國(guó)

頭條要聞

美國(guó)副總統(tǒng)萬(wàn)斯:美伊談判未能達(dá)成協(xié)議 將返回美國(guó)

體育要聞

換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

娛樂(lè)要聞

46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

財(cái)經(jīng)要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

旅游
游戲
親子
時(shí)尚
教育

旅游要聞

河北灤平:春日金山嶺長(zhǎng)城美如畫(huà)卷

PS3模擬器重磅進(jìn)化!最接近原機(jī)體驗(yàn)的更新來(lái)了

親子要聞

孩子去醫(yī)院不配合檢查怎么辦??jī)嚎漆t(yī)生教你一招!

春季穿衣別死氣沉沉,看看這27套日常穿搭,活力時(shí)尚又減齡

教育要聞

誰(shuí)說(shuō)中考作文必須寫(xiě)自身經(jīng)歷?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版