国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)Seed最新模型,讓豆包學會閉嘴聽人說話(罵人也更自然了。

0
分享至


作者 | 董道力
郵箱 | dongdaoli@pingwest.com

4 月 9 日,字節(jié)跳動旗下 AI 研究團隊 Seed 發(fā)布了新的語音模型 Seeduplex,同步完成了在豆包 App 的全量上線。


語音模型我們已經(jīng)見過很多了,更新迭代無非是聲音更擬人、延遲更低。而 Seeduplex 的亮點不在這些,而是它文章標題里藏著的一個詞:Full-Duplex,中文翻譯過來叫“全雙工”。

這幾個字,到底什么意思。

1

豆包學會邊說邊聽

全雙工是通信工程里的術(shù)語,簡單來說,就是通信雙方可以同時收發(fā)信號,互不干擾。

比如對講機是半雙工,同一時刻只能一個人說話,說完松開按鈕對方才能開口,而電話是全雙工,兩個人可以同時說話,同時聽。

豆包此前的語音模型,本質(zhì)上是對講機邏輯。架構(gòu)上"聽"和"說"是兩個獨立狀態(tài),不能同時運行。

模型在輸出語音的時候,麥克風輸入要么被關(guān)掉,要么不被處理。判斷你是否說完了的,是一個叫 VAD(語音活動檢測)的獨立模塊,檢測到聲音停了,才切換到"處理"狀態(tài),再生成回復(fù)。

VAD 只看聲音有沒有,不懂你在說什么。你停兩秒想詞,它判定你說完了,旁邊有人咳嗽,它判定你開口了。

按字節(jié)的技術(shù)文檔說法,傳統(tǒng)半雙工系統(tǒng)"使用獨立的 VAD 進行機械式音頻分割,由于決策僅限于孤立的聲學特征或局部文本語義特征,這些系統(tǒng)在復(fù)雜環(huán)境中容易被帶跑,或在用戶停頓時觸發(fā)過早響應(yīng)"。

Seeduplex 則解決了這個問題。

模型在說話的同時,持續(xù)處理麥克風輸入,實時判斷哪些聲音是用戶在對它說話,哪些是背景噪音,哪些是停頓思考而不是說完了。

這套判斷交由同一個 LLM 統(tǒng)一完成,聲學特征和語義上下文同時參與決策,不再是幾個獨立模塊各干各的。和此前豆包使用的半雙工框架相比,Seeduplex 的判停 MOS 分提高了 8%,對話流暢度 MOS 分提升了 12%。

(MOS 是通信領(lǐng)域衡量語音質(zhì)量的主觀評測標準,本質(zhì)上是讓真實用戶打分,再取平均值。分數(shù)越高,代表用戶感知到的體驗越好。)

具體指標上,判停延遲降低約 250ms,復(fù)雜場景下 AI 搶話比例減少 40%,用戶想打斷時,響應(yīng)延遲縮短約 300ms,準確率同步提升,復(fù)雜聲學干擾場景下,誤回復(fù)率和誤打斷率降低一半。


字節(jié)還做了一組真人對話測試,把 Seeduplex、半雙工方案和人人對話放在一起比。判停上 Seeduplex 比半雙工提升了 8%。響應(yīng)打斷上甚至略好于人人對話的平均水平,因為真實對話里人也會偶爾反應(yīng)慢(其實半雙工也好于人人)。但整體對話流暢度上,和真人聊天仍有不小的差距。

1

全雙工的豆包交互更加自然

說完技術(shù)層面的變化,使用場景上,全雙工的 AI 語音的邊界也有不小擴展。

比如開車時,車里廣播和導航同時在響,你順口問 AI"這條路堵不堵",Seeduplex 能從混雜的聲音里分辨出哪句是你說的,直接回答,而不是被導航播報帶跑。


在咖啡館碰到朋友打了個招呼,或者快遞員敲門你隨口應(yīng)了一聲,AI 能判斷出這些話不是對它說的,不會插進來亂回。

練英語口語時,你磕磕絆絆說了半句,停下來想詞,改口重說,AI 不會在你停頓的間隙搶話,而是等你把完整的意思說出來,再給反饋。

這幾個場景有一個共同點:你不需要專門騰出時間、找安靜地方、說完整句子。對話嵌進了日;顒,而不是日;顒訛閷υ捵屄。

全雙工還帶來了一種新的交互可能,AI 開始有了"說話間隙"。以前 AI 說話時你只能等,或者出聲強行打斷,但它停下來不是因為聽懂了你想說什么,而是檢測到有聲音進來了,F(xiàn)在你說"等一下",它能聽懂這是打斷意圖,立刻停下來。

反過來,當你在說話時,AI 也能給出實時的回應(yīng)信號,比如"嗯""好的",而不是沉默著等你把話說完。

這種你來我往的節(jié)奏,是半雙工架構(gòu)物理上做不到的事。

之前的半雙工 AI 語音的隱性前提是,用戶必須進入"使用 AI 模式"。這個前提把語音 AI 的可用場景鎖在了一個很窄的范圍里。

全雙工解決了這個前提,讓用戶更愿意和豆包對話了。

1

AI 語音助手的技術(shù)分野

全雙工語音 AI 的競爭格局,目前有幾個方向在跑,技術(shù)路線差異很大。

原生音頻全雙工是走得最遠、也最難落地的一條。

代表是法國 AI 實驗室 Kyutai 在 2024 年 9 月發(fā)布的開源模型 Moshi,用同一個底層模型在并行流上同時對用戶音頻和系統(tǒng)音頻建模,并引入"內(nèi)心獨白"機制,在生成音頻的同時預(yù)測對齊文本作為內(nèi)部推理層,順帶獲得了流式轉(zhuǎn)寫能力。

NVIDIA 今年 1 月發(fā)布的 PersonaPlex 在此基礎(chǔ)上引入混合提示系統(tǒng),讓模型可以通過文字定義角色、語音嵌入定義聲音特征,扮演特定人格。

這個方向的問題是穩(wěn)定性,學術(shù)先驅(qū)居多,沒有產(chǎn)品化落地。


Thinker-Talker分離架構(gòu)是另一種實現(xiàn)路徑。

阿里 2025 年 3 月發(fā)布的 Qwen2.5-Omni 將推理和輸出拆成 Thinker 與 Talker 兩個組件,前者在文本域完成推理,后者把結(jié)果實時轉(zhuǎn)為音頻,LLM 生態(tài)的長上下文、工具調(diào)用、檢索注入全部可以復(fù)用。

代價是同時聽說比雙流方案更難實現(xiàn),端到端延遲高于流式級聯(lián)管道方案。


流式級聯(lián)管道(ASR→LLM→TTS)是目前生產(chǎn)環(huán)境最普遍的方案。延遲可控在 1 秒以內(nèi),工具調(diào)用支持最成熟,但本質(zhì)是輪流制,系統(tǒng)必須等用戶說完才能處理,全雙工能力無從談起。

Seeduplex 屬于原生音頻全雙工方向,但解決了其他方案沒有解決的問題:在豆包上穩(wěn)定運行。

學術(shù)環(huán)境和產(chǎn)品環(huán)境的差距,比多數(shù)人想象的大。字節(jié)在技術(shù)文檔中提到,落地過程中需要解決的包括高并發(fā)下的延遲抖動、音頻輸入輸出卡頓和服務(wù)穩(wěn)定性,這些問題在論文里不存在,在數(shù)億用戶面前全會出現(xiàn)。

全雙工解決了能不能同時聽說的問題,說得多自然還需要改進。

字節(jié)自己在文章末尾也承認,與真人對話相比,整體流暢度仍有相當差距。下一步包括多方對話場景優(yōu)化、引入視覺輸入實現(xiàn)聽看說聯(lián)動,以及邊聽邊思考、邊聽邊搜索等方向,每一個都是新的工程難題。

從對講機到電話,中間有很多年的演化,Seeduplex 是這條路上的一個節(jié)點,不是終點。


點個愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
貝克漢姆迎51歲生日,貝嫂大方曬老公腹肌泳裝,長子沉默令人心寒

貝克漢姆迎51歲生日,貝嫂大方曬老公腹肌泳裝,長子沉默令人心寒

譯言
2026-05-03 08:10:06
世乒賽爆冷+丑聞日:張本智和、松島翻車,中國臺北教練發(fā)文炮轟

世乒賽爆冷+丑聞日:張本智和、松島翻車,中國臺北教練發(fā)文炮轟

大秦壁虎白話體育
2026-05-02 23:54:47
別再跟風了!五一最堵五大景點,第5名擠到勸退,第1名直接崩潰

別再跟風了!五一最堵五大景點,第5名擠到勸退,第1名直接崩潰

吃青菜長高
2026-05-03 08:12:17
張雪這張嘴,正在給品牌埋雷

張雪這張嘴,正在給品牌埋雷

全棧遛狗員
2026-04-30 17:12:13
我懷疑,男人更喜歡左邊這一款

我懷疑,男人更喜歡左邊這一款

娛你同歡
2026-05-02 21:44:54
演員陳學冬:2年4次手術(shù),11部作品被下架,如今生活無法自理

演員陳學冬:2年4次手術(shù),11部作品被下架,如今生活無法自理

悅君兮君不知
2026-05-02 11:55:33
退休后才懂:為啥多數(shù)老人不旅游_真正滿世界跑的,竟是這兩類人

退休后才懂:為啥多數(shù)老人不旅游_真正滿世界跑的,竟是這兩類人

心理觀察局
2026-05-03 09:12:14
繼亨德利后,世錦賽六冠王戴維斯也痛批艾倫:這讓斯諾克蒙羞

繼亨德利后,世錦賽六冠王戴維斯也痛批艾倫:這讓斯諾克蒙羞

觀察鑒娛
2026-05-02 15:26:23
人不會無緣無故患帶狀皰疹!調(diào)查發(fā)現(xiàn):得帶狀皰疹,離不開這5點

人不會無緣無故患帶狀皰疹!調(diào)查發(fā)現(xiàn):得帶狀皰疹,離不開這5點

岐黃傳人孫大夫
2026-05-01 14:35:03
歷史第8次黑七!76人掀翻綠軍創(chuàng)造歷史 前7支球隊走了多遠?

歷史第8次黑七!76人掀翻綠軍創(chuàng)造歷史 前7支球隊走了多遠?

羅說NBA
2026-05-03 10:43:20
失蹤的17歲女生遺體已經(jīng)找到,那天她穿上了最好看的裙子和假發(fā)

失蹤的17歲女生遺體已經(jīng)找到,那天她穿上了最好看的裙子和假發(fā)

映射生活的身影
2026-05-02 20:13:26
委內(nèi)瑞拉代總統(tǒng)干了什么,換下馬杜羅后整個國家蒸蒸日上?

委內(nèi)瑞拉代總統(tǒng)干了什么,換下馬杜羅后整個國家蒸蒸日上?

錯過美好
2026-05-02 14:40:24
太離譜!華西醫(yī)院五一放假引爭議,被罵想休息別當醫(yī)生,網(wǎng)友吵翻

太離譜!華西醫(yī)院五一放假引爭議,被罵想休息別當醫(yī)生,網(wǎng)友吵翻

譚談社會
2026-05-02 14:27:21
皇馬悔青腸子!死保姆巴佩的同時,當初錯過的神鋒正在持續(xù)封神

皇馬悔青腸子!死保姆巴佩的同時,當初錯過的神鋒正在持續(xù)封神

奶蓋熊本熊
2026-05-03 02:07:54
又行了?阿森納完勝6分領(lǐng)跑!記者:槍手調(diào)查后決定簽阿爾瓦雷斯

又行了?阿森納完勝6分領(lǐng)跑!記者:槍手調(diào)查后決定簽阿爾瓦雷斯

足球偵探
2026-05-03 08:30:16
哈佛研究生大罷工:你們有五百億美元,發(fā)薪水給你的學術(shù)勞動者

哈佛研究生大罷工:你們有五百億美元,發(fā)薪水給你的學術(shù)勞動者

知識分子
2026-05-02 22:16:41
南昌一樂園過山車空中發(fā)生故障,多名游客被困空中從軌道走下來,文旅局:已督促景區(qū)整改;樂園:有游客的手被倒刺扎傷,已賠償

南昌一樂園過山車空中發(fā)生故障,多名游客被困空中從軌道走下來,文旅局:已督促景區(qū)整改;樂園:有游客的手被倒刺扎傷,已賠償

極目新聞
2026-05-03 10:40:39
搶七轟34+12+6率隊黑七,大帝成NBA歷史首人!三巨頭1-3絕境翻盤

搶七轟34+12+6率隊黑七,大帝成NBA歷史首人!三巨頭1-3絕境翻盤

鍋子籃球
2026-05-03 11:33:14
退役3年 38歲前皇馬巨星形象全毀:發(fā)福大肚腩 如同60歲

退役3年 38歲前皇馬巨星形象全毀:發(fā)福大肚腩 如同60歲

葉青足球世界
2026-05-02 15:22:52
足壇瘋狂一夜:阿森納橫掃富勒姆,大巴黎爆冷丟分,巴薩2-1險勝

足壇瘋狂一夜:阿森納橫掃富勒姆,大巴黎爆冷丟分,巴薩2-1險勝

足球狗說
2026-05-03 05:19:37
2026-05-03 12:52:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
3054文章數(shù) 10493關(guān)注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應(yīng)鏈卡脖子

頭條要聞

上?萍即髮W王晨輝教授因營救至親不幸去世 年僅39歲

頭條要聞

上?萍即髮W王晨輝教授因營救至親不幸去世 年僅39歲

體育要聞

裁判準備下班,結(jié)果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現(xiàn)身 戴結(jié)婚戒指笑容不斷

財經(jīng)要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態(tài)度原創(chuàng)

藝術(shù)
時尚
旅游
健康
家居

藝術(shù)要聞

Dale terbush:當代美國風景畫家

春天別總傻傻穿一身黑,看看這些日常穿搭,高級舒適又優(yōu)雅

旅游要聞

夯!上海人的朋友圈被刷屏!上萬人的震撼場面

干細胞治燒燙傷面臨這些“瓶頸”

家居要聞

靈動實用 生活藝術(shù)場

無障礙瀏覽 進入關(guān)懷版