国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

耳朵被虐哭?正義老師傅怒搓 AI 為“聽感”報(bào)仇!

0
分享至

淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會(huì)嘗試用各種姿勢(shì),把他們的無(wú)邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。

耳朵被虐哭?

正義老師傅怒搓 AI 為“聽感”報(bào)仇!

文 | 史中

(零)紅燒肉引發(fā)的血案

鐵柱不顧旁人勸阻,找了一位黑客女友。

然而命運(yùn)的饋贈(zèng)早就暗中標(biāo)好了價(jià)格。

今天,他和女票吵架,女票不知施了神馬法術(shù),把鐵柱的手機(jī)網(wǎng)速封印在了6kbps,然后奪門而出消失在夕陽(yáng)下。

這個(gè)網(wǎng)速簡(jiǎn)直是詛咒,短視頻刷不開,游戲打不了。手機(jī)唯一的作用就剩下給女友發(fā)信息道歉了。。。。

但鐵柱不打算屈服。

事已至此,先吃飯吧。他決定自己做一道紅燒肉。

切好了肉,燒熱了油,誒,后面該咋弄嘞?

鐵柱掏出手機(jī),搜索紅燒肉的菜譜。然后,網(wǎng)絡(luò)像體弱的郵差一樣,艱難地搬運(yùn)遠(yuǎn)方的消息。

等了足足一分鐘,才看完介紹:“紅燒肉是一道很普通的家常菜,一鍋濃油赤醬,肥而不膩,放在桌子上一拍抖三抖?!?/p>

又等一分鐘,加載出一張紅燒肉成品的圖片。。。

又等了半分鐘,才出現(xiàn)第一步操作:準(zhǔn)備新鮮的五花肉。

鐵柱心態(tài)崩了,一怒之下關(guān)掉網(wǎng)頁(yè),嘴角流下了不爭(zhēng)氣的淚水。

就在這時(shí),他突然想到另一個(gè)女人——媽媽。

他打開手機(jī)QQ,試著給媽媽撥了語(yǔ)音電話。

網(wǎng)頁(yè)都打不開,語(yǔ)音他也沒抱希望。

但老媽的聲音傳過來(lái)時(shí),鐵柱驚呆了,居然清晰流暢。

千里之外,老媽揮斥方遒,一邊跳著廣場(chǎng)舞,一邊指揮灶臺(tái)前的鐵柱做好了紅燒肉。

那一刻,鐵柱突然被老媽的廚藝治愈,決定把女友召喚回來(lái)一起吃飯,兩人冰釋前嫌,從此沒羞沒臊地生活在一起。。。

淺友們,故事當(dāng)然是我編的,但其中的硬核技術(shù)卻是千真萬(wàn)確的:

如今的騰訊老師傅,真的能夠在打開網(wǎng)頁(yè)都費(fèi)勁的 6kbps 的極限弱網(wǎng)下實(shí)現(xiàn)“通話自由”。

這個(gè)技術(shù)得來(lái)不易,背后還藏著一串動(dòng)人的故事,且聽中哥慢慢道來(lái)。

(一)只有耳朵負(fù)重前行的世界

“啪!”

肖瑋突然打了一個(gè)響指,我一激靈。

“你有沒有發(fā)現(xiàn),人對(duì)于聲音事件是非常敏感的?”他說。

作為研究音頻信號(hào)傳輸十幾年的騰訊老師傅,肖瑋對(duì)音頻熟悉到了“從聲波里都能看出夢(mèng)娜麗莎”的程度。

騰訊的技術(shù)老師傅

他告訴我一件很委屈的事情:

千萬(wàn)年來(lái),聽覺都在用極小的“帶寬”承擔(dān)著極大的“信息量”。

啥意思呢?

人的腦袋上,有700萬(wàn)個(gè)視覺細(xì)胞,卻只有2萬(wàn)個(gè)聽覺細(xì)胞。

要是把它倆比作公司,那眼睛是個(gè)有 700 萬(wàn)員工的“大廠”,耳朵則是只有 2 萬(wàn)人的“創(chuàng)業(yè)公司”。

可是憑胸而論,人做決策所使用的視覺信息和聽覺信息的比例,絕對(duì)不會(huì)是 700:2 這么夸張。

科學(xué)家們研究,根據(jù)場(chǎng)合的不同,視聽信息在人們決策中的比例大概在 8:1 ~ 3:1 之間。

可以說,聽覺用極其有限的數(shù)據(jù)量,托起了我們對(duì)于環(huán)境感知的半壁江山——貢獻(xiàn)可謂杠杠的!

這還沒有算把口罩帶眼鏡腿都勒耳朵上(甚至有時(shí)候還得挨一槍)的貢獻(xiàn)。。。

耳朵負(fù)重前行。。。

話說回來(lái),這科學(xué)嗎?

音頻是怎么用這么窄的帶寬,貢獻(xiàn)了這么豐富的信息量呢?

原因就在于,人腦對(duì)音頻信號(hào)的處理極其精細(xì):

環(huán)境里的噪音突然變化,人立馬會(huì)感覺哪里不對(duì)勁; 說話聲音有瑕疵、失真、微弱的顫動(dòng),人都能分辨出來(lái)。(甚至有時(shí)人們不愿承認(rèn)聲音的貢獻(xiàn),把它歸功于第六感。。。)

說到這,我提醒你注意:日常服務(wù)各個(gè)感官的資源也不是平均分配的——分配給視頻的資源一般是大頭,分配給音頻的資源一般是零頭。

先說硬件:

就拿 iPhone 15 Pro max 來(lái)說,總共558美元的硬件成本,屏幕占了 110 美元,攝像頭 90 美元;而揚(yáng)聲器和麥克風(fēng)各自只有10美元左右。。。

再說軟件:

就拿“騰訊會(huì)議”來(lái)說,一般要給高清視頻預(yù)留的帶寬是 4Mbps(每秒400萬(wàn)個(gè)比特),傳輸音頻一般只給留 100kbps(每秒10萬(wàn)個(gè)比特)。

耳朵沒人疼愛。。。

所以說,音頻工程師玩兒的都是高端局:要用極其有限的軟硬件資源,來(lái)硬控敏感且挑剔的耳朵。

他們面前的游戲是醬的:

如果用 100kbps 的網(wǎng)速楞傳原始的音頻,就是把大象塞冰箱,純純 Mission Impossible!

于是,前面只有兩條路。

1、降低音頻采樣率。

你弱水三千我只傳一瓢還不行?比如上世紀(jì)90年代的電話機(jī),聽筒里的聲音聽起來(lái)非常悶,這就是采樣率低的結(jié)果。

2、降低音頻采樣率,再用某種算法處理,盡量往原聲音“找補(bǔ)”一下。

沒錯(cuò),這個(gè)操作就是我們都聽說過的“壓縮”。從早期的 ADPCM 到 上世紀(jì)90年代出現(xiàn)的 MP3 格式,也算是撫慰了一代人的耳朵。

壓縮的原理大概是這樣↓↓↓

敲黑板!一涉及到“壓縮算法”,這個(gè)事兒就考驗(yàn)技術(shù)了!

因?yàn)樗惴ê退惴ㄖg的差異,就像是“張華考上了北京大學(xué),李萍進(jìn)了中等技術(shù)學(xué)校,我在百貨公司當(dāng)售貨員”這么大。

而且你知道嗎?生命體的智能水平差異,本質(zhì)上就是壓縮能力的差異。不久前我寫了一篇文章,就是在探討這個(gè)道理,強(qiáng)烈建議淺友去看看。

雖說人類對(duì)于音頻的壓縮算法一直在進(jìn)步,但最近十幾年,已經(jīng)一度慢到了“擠牙膏”的程度。

老師傅把能想的轍都想了,但把已有技術(shù)發(fā)揮到極限后,壓縮就變成一個(gè)純蹺蹺板:

1、要想省帶寬,就得費(fèi)算力。 2、要想省算力,就得費(fèi)帶寬。

這很好理解。既然傳輸?shù)脑紨?shù)據(jù)少,那很多結(jié)果都得靠大量計(jì)算得到嘛!反之,你要不想做這么多計(jì)算,原始數(shù)據(jù)還不給多些?

不過,漫長(zhǎng)的黑夜總會(huì)過去。

2019 年左右,一絲不易察覺的曙光開始灑落。

(二)以假亂真術(shù):我們時(shí)代獨(dú)有的光芒

我們來(lái)打一個(gè)比方。

現(xiàn)在,你是 A 國(guó)博物館的館長(zhǎng)。

B 國(guó)對(duì) A 國(guó)發(fā)動(dòng)了戰(zhàn)爭(zhēng),眼看就要攻下首都。總統(tǒng)決定撤離,撤離前給你派來(lái)一列火車,讓你挑選一些最能代表 A 國(guó)文明的文物。

總統(tǒng)凝重地說:這一去,也許世世代代都無(wú)法再回來(lái)了。我們的后人就要靠這一列車的文物來(lái)理解我們的文化,重建我們的文明。

你眼淚下來(lái)了:“總統(tǒng),我們的文化博大精深,別說一車皮,就是一百車皮也拉不下??!”

總統(tǒng)說:“為了給你擠出這一列火車,已經(jīng)有無(wú)數(shù)前線將士失去了彈藥補(bǔ)給,不可能再多了!”

請(qǐng)問,這時(shí)你會(huì)怎么辦?

你能想到的辦法,肯定是召集博物館的專家討論,選出你們認(rèn)為最能代表 A 國(guó)文明的文物,然后反復(fù)嘗試用最緊湊的方式打包,把這一火車皮塞到爆!

沒錯(cuò),不知不覺中,你已經(jīng)在研發(fā)壓縮技術(shù)了。

1)為了能最大程度重建 A 國(guó)文明,不同專家選出的代表文物肯定不同,這就是使用的“采樣方案”不同; 2)同樣是塞滿一車皮,好的專家確實(shí)能選出維度更豐富,更適合重建文明的文物組合,也就是說,他們的壓縮方案更優(yōu)。

但是!無(wú)論怎么挑選文物,這些方法最終都?xì)w為“經(jīng)典壓縮技術(shù)”的范疇。

難道。。。還有什么更逆天的,降維打擊的騷操作??!!

沒錯(cuò),現(xiàn)在換中哥來(lái)當(dāng)博物館館長(zhǎng)。

中哥把專家們都叫來(lái),讓他們四步走:

1、找到最有代表性的文物,然后只留關(guān)鍵部分。把霓裳剪開,只留最精美的紋飾;把瓷瓶打碎,只留最核心的圖案。

2、然后再?gòu)牟煌I(lǐng)域挑選一些最有代表性的完整器物,不用太多;

3、把這些”零件“用最緊湊的方法打包,同樣一車皮,我們當(dāng)然可以攜帶更多東西。

4、到了新家園,我們依靠少量的完整器物加上眾多的精美殘片,再加上文物專家的經(jīng)驗(yàn)和智慧,利用當(dāng)?shù)卣襾?lái)的輔助材料,就能復(fù)原這些文物。

用這種方法復(fù)建的博物館,最終擁有的文物數(shù)量可能比只帶完整文物的方法多三倍以上,完全突破了經(jīng)典方法的上限↓↓↓

看到這,你可能皺眉:咋還破壞文物呢?那最后復(fù)原出來(lái)不是贗品了么?

這就說到了精髓。

我們的目標(biāo)是“對(duì)文明負(fù)責(zé)”,而不是“對(duì)某個(gè)文物負(fù)責(zé)”。你可以說最后復(fù)原出來(lái)的文物是贗品,但它是根據(jù)科學(xué)嚴(yán)謹(jǐn)?shù)姆椒◤?fù)原的,“贗”得有道理在傳續(xù)文明的意義上,它可以達(dá)到和真實(shí)文物幾乎一樣的效果。

而且你想想,在傳統(tǒng)方案中,我們可是把更多的“文 物”給整個(gè)丟棄了,這難道不是更大的罪過嗎?

看完這個(gè)比喻,我想你已經(jīng)猜到了這種新一代的音頻壓縮方案,那就是——“人工智能加持的編解碼”,簡(jiǎn)稱 AI Codec。

它可以只用過去三分之一的數(shù)據(jù)量,復(fù)原出和傳統(tǒng)壓縮算法一樣,甚至更好的音質(zhì)。

肖瑋所在的騰訊會(huì)議天籟實(shí)驗(yàn)室,前后花了五年時(shí)間磨出這支寶劍——Penguins AI 語(yǔ)音引擎。

少?gòu)U話,先看東西,哦不,先聽東西!

第一段是原始音頻:

第二段是用經(jīng)典算法 OPUS 適配正常的 20kbps 碼率時(shí)壓縮的音頻:

第三段是騰訊老師傅用 Penguins 壓縮后,用不到三分之一碼率,也就是 6kbps 傳輸?shù)囊纛l:

第四段是用經(jīng)典算法 OPUS 在 6kbps 碼率下的壓縮音頻:

人的耳朵很敏感的,我保證你聽到“第四段”時(shí),已經(jīng)不能忍它的全損音質(zhì)了。

明確告訴你,這第三段音頻就是使用“聲音殘片”借助 AI 恢復(fù)后的“贗品聲音”。

現(xiàn)在只有 6kbps 的網(wǎng)速,只能在“三”和“四”中間選一個(gè),你會(huì)選哪個(gè)?

反正就算是天王老子來(lái)了,我也會(huì)選第三個(gè)。

說到這兒,我插一句。并不是說以前的音頻老師傅有什么道德潔癖,死活不愿意用 AI 生成贗品聲音,而是因?yàn)橹暗?AI 技術(shù)根本達(dá)不到“以假亂真”的效果。

不同碼率傳輸,恢復(fù)后的頻譜對(duì)比(紅色:原始語(yǔ)音 / 藍(lán)色:Penguins@6kbps / 黃色:OPUS@6kbps)可見藍(lán)線與紅線非常接近。

我們有幸能聽到這第三段聲音,需要感謝“生成式人工智能”(AIGC)在最近幾年的突飛猛進(jìn)。

話說,騰訊師傅是怎么用人工智能把這些聲音殘片修復(fù)到和真的聲音一毛一樣嘞?

接下來(lái)看中哥徒手劈磚,給你掰開來(lái)講講其中的道理。

(三)從“二刺猿美少女”說起

先給你推薦一個(gè)網(wǎng)址(鏈接放文末)。你點(diǎn)進(jìn)去,啥也不用干,它就會(huì)給你自動(dòng)生成圖片。

啥圖片嘞?二次元美少女頭像。

你盯著一張圖片的生成過程,會(huì)覺得匪夷所思。因?yàn)樗畛蹙褪且欢选把┗ā?,然后每隔半秒就刷新一次,每刷一次就清晰一點(diǎn)兒,直到最后,少女定格在屏幕上。

我 50x 加速給你看下:

沒錯(cuò),這張圖片就是這堆“雪花”通過 AI 模型算出來(lái)的。

具體來(lái)說,這個(gè) AI 模型預(yù)測(cè)的是“噪聲”↓↓↓

每一次它都會(huì)根據(jù)現(xiàn)有圖片預(yù)測(cè)哪些點(diǎn)位是噪聲,然后從圖片中把噪聲去掉;

再在這張新圖的基礎(chǔ)上重新計(jì)算噪聲,去掉;

如此迭代300次,就出現(xiàn)了一張少女圖。

這個(gè)過程就像米開朗基羅從一塊里石頭里反復(fù)敲掉碎屑,一直敲掉 300 層,每一層敲掉的都是“噪聲”。最后剩下的部分,就是“大衛(wèi)”。

你可能會(huì)問:為啥這個(gè) AI 模型不斷去掉噪聲,最后剩下的就是美少女呢?為啥不是老爺們、皮卡丘?

因?yàn)檫@個(gè) AI 模型當(dāng)初就是用無(wú)數(shù)美少女的圖片訓(xùn)練出來(lái)的。其中飽含著對(duì)全世界美少女頭像特征的理解,它只會(huì)畫美少女。

就像米開朗基羅剛動(dòng)手的時(shí)候,雖然腦海里不能確切描摹出大衛(wèi)成型后的每一寸肌膚,但他“方向性地”知道自己要雕一個(gè)健碩男子,最后肯定不會(huì)離譜到雕出個(gè)皮卡丘。

而隨著他一層層雕刻,大衛(wèi)的樣子果然逐漸出現(xiàn),最后定格成現(xiàn)在的樣子。

好,我們說回“美少女生成模型”。

從信息論的角度看:減少噪聲的過程,就是向其中不斷添加信息量的過程。

在開始的第 1 步,圖像是一堆完全隨機(jī)正態(tài)分布的噪點(diǎn),誰(shuí)都猜不出最后出來(lái)的美少女是啥樣,其中蘊(yùn)含的信息量可以視為0; 但到了第 100 步,圖像中已經(jīng)蘊(yùn)含了一些信息,但如果你是個(gè)老二刺猿,也許基本能猜出最后的成品是啥樣了。 到了第 200 步,圖像中的信息已經(jīng)很豐富了,哪怕你是個(gè)普通人,也基本能猜出最后成品的樣子了。 到了第300步,你就不用猜了,所有信息都展現(xiàn)給你了。

注意!

從第1步到第300步,圖片里的信息量逐漸增加,圖片文件也越來(lái)越大。

如果我把信息含量更少的“第200步”版本傳給你,而你手里的 AI 模型恰好能夠把它復(fù)原成第 300 步的成品,咱倆不就可以節(jié)省傳輸成本么?

在你同樣可以恢復(fù)圖像的前提下,我給你傳遞這張圖片的“第 100 步”版本,成本不就越低么?

說到這,估計(jì)聰明的淺友已經(jīng)感覺到這個(gè)“美女生成模型”和“聲音復(fù)原模型”的關(guān)系了。

它們本質(zhì)上就是一件事兒!

1、把我聲波里的 關(guān)鍵信息做一些提?。?2、然后把提取結(jié)果發(fā)給你; 3、你再用專門的 AI 模型把它還原出來(lái)!流量帶寬不就妥妥省下了嗎?

2019年夏天,騰訊會(huì)議天籟實(shí)驗(yàn)室負(fù)責(zé)人商世東找到同學(xué)們,就是商量這個(gè)神秘的議題。

作為在音頻領(lǐng)域深耕二十多年資深音頻人,商世東清楚編碼器對(duì)生態(tài)的價(jià)值,這么多年也親歷了不少編碼器江湖的往事,他覺得新的時(shí)代快到了。

大家一致決定,開始 在 AI Codec 的“無(wú)人區(qū)”里搞搞事情。

之前我們說過,AI Codec 就像是在文物局部取碎片,而 Codec 就像是取整個(gè)的文物,它倆的采樣機(jī)制完全不同。可以說,AI Codec 為核心的編解碼器,幾乎是一項(xiàng)全新的技術(shù)。

全新的技術(shù),破舊立新,改天換地,多酷!

從看熱鬧的角度確實(shí)酷,從干活兒的角度嘛。。。這里面有三個(gè)大坑:

第一坑,這個(gè) AI 模型受到的限制賊多。

這里就得提到 Penguins 底層技術(shù)的另一個(gè)貢獻(xiàn)者:騰訊 AI Lab。

騰訊 AI Lab 的陽(yáng)珊告訴我, 實(shí)時(shí)通信的場(chǎng)景既要高質(zhì)量,又要低復(fù)雜度,還要低延時(shí)。單獨(dú)滿足某一個(gè)都不難,但做出既要又要還要的模型,就純純難煞打工人了。

第二坑,騰訊這幫產(chǎn)品經(jīng)理,那可是太難纏了。


騰訊以產(chǎn)品著稱,所以產(chǎn)品經(jīng)理極其寵溺用戶。

他們“龜毛”到了啥程度? 但凡技術(shù)同事拿來(lái)的新玩意兒可能造成用戶體驗(yàn)有一絲一毫的下降,甭管成本降低多少,都不可能更換。您就別找我談,面斥不雅。。。

所以,在找產(chǎn)品經(jīng)理之前,老師傅必須在家里先“暗搓搓”測(cè)試完。

騰訊會(huì)議質(zhì)量測(cè)試團(tuán)隊(duì)的高雄告訴我,他們專門搓了一個(gè)評(píng)價(jià)系統(tǒng), 同時(shí)測(cè)試傳統(tǒng)方案和 AI Codec 方案,這樣才 方便比較嘛。

這個(gè)系統(tǒng)外號(hào)叫“包青天”,每次改進(jìn),但凡有一點(diǎn)不合格就會(huì)打回來(lái),技術(shù)老師傅開心得拳頭都硬了。

其實(shí),技術(shù)團(tuán)隊(duì)和測(cè)試團(tuán)隊(duì)兩撥師傅從沒紅過臉,畢竟知道他們“是為自己好”。。。

第三坑,還得看新技術(shù)的改造成本呢!

根據(jù)天籟實(shí)驗(yàn)室的經(jīng)驗(yàn),音頻編解碼技術(shù)要是在體驗(yàn)打平的前提下,成本不降低個(gè)20%,產(chǎn)品團(tuán)隊(duì)基本不會(huì)考慮。

然鵝,剛才我們說了,AI Codec 是一項(xiàng)全新的技術(shù)。如果說傳統(tǒng)編解碼器的升級(jí)像是把房子重新裝修,那么 AI Codec 就像是把房子拆了重蓋!

這么大動(dòng)干戈,只多 20% 的好處,那人家房東肯定還是不干??!

2019 年底,肖瑋他們就關(guān)起門來(lái)打過算盤,要想讓新編解碼器驚艷世人,起碼得把性能提升個(gè) 300% 神馬的。。。

在業(yè)界,對(duì)于音頻質(zhì)量的好壞其實(shí)是有一個(gè)評(píng)分標(biāo)準(zhǔn)的。5 分是完美,0 分是完全沒法聽。

騰訊產(chǎn)品的“龜毛”要求,一般最低得是 4 分,最好是 4.5 分。

要想保證 4 分的用戶體驗(yàn),音頻界公認(rèn)的最低網(wǎng)絡(luò)要求大概是 20kbps,也就是說,天籟實(shí)驗(yàn)室的目標(biāo)只能是:效果做到 4 分以上的同時(shí),把網(wǎng)絡(luò)要求降低到 6kbps!

就像下面醬↓↓↓

當(dāng)時(shí)老師傅們算出這個(gè)數(shù),把自己都嚇了一跳。

因?yàn)楦咀霾坏剑蛩酪沧霾坏?。?!?/p>

搞技術(shù)要實(shí)事求是,不能搞什么“畝產(chǎn)萬(wàn)斤”,他們只好含恨把這條技術(shù)路線放下了。

但是,這個(gè)念頭如微弱的火苗,一直在大家的腦回路里燃燒,等待有一天找到噴薄的出口。

(四)不管黑貓白貓

話說,老師傅到底卡在哪了呢?

你還記得我們之前說過的“蹺蹺板”么?

在技術(shù)一定的前提下,帶寬和算力是此消彼長(zhǎng)的關(guān)系。

如果用 AI 模型來(lái)做編解碼器,把帶寬速率壓到 6kbps 其實(shí)是可以的,但是此時(shí)要把它恢復(fù)到 4 分的音質(zhì),就需要一個(gè)很大的模型來(lái)搞,甚至光靠 CPU 都跑不動(dòng),得上 GPU。

這個(gè)模型說大,其實(shí)也不大。全世界對(duì)于音頻處理的要求都是很苛刻的,不可能給到和視頻處理一樣的軟硬件資源,大概整個(gè)手機(jī),能劃給你5%~8%的算力就頂天了。

當(dāng)然各個(gè)手機(jī)的算力不同,但平均而言,這個(gè)限制下,模型的個(gè)頭(或計(jì)算量)至少得從姚明砍到郭敬明。

可是怎么砍呢?

從 2019 年底開始,天籟實(shí)驗(yàn)室一直有一支小分隊(duì)研究這個(gè)事情,他們不僅自己琢磨,也在關(guān)注國(guó)內(nèi)外學(xué)術(shù)界的進(jìn)展。

遇到有戲的技術(shù)就做一個(gè) Demo,發(fā)現(xiàn)走不通就回來(lái),也沒設(shè)定時(shí)間表。

但到了 2020 年,老師傅的思考節(jié)奏被猝不及防打斷——疫情襲來(lái)。

你可能還記得,就是這年春天,騰訊會(huì)議突然躥紅,成為了大家辦公上課的剛需。

當(dāng)時(shí)老師傅們也顧不上新技術(shù)的研發(fā),每天都在想著找資源擴(kuò)容,尋思用什么姿勢(shì)才能頂住下個(gè)周一更大的流量洪峰。。。

這段經(jīng)歷看似是支線任務(wù),但現(xiàn)在回望,它給天籟實(shí)驗(yàn)室留下一個(gè)閃亮的精神遺產(chǎn),那就是:

關(guān)鍵時(shí)刻,當(dāng)幾億人迫切需要大規(guī)模傳遞信息時(shí),他們會(huì)犧牲畫面,而聲音是最后的信息承載渠道。 此時(shí),“以低帶寬承載高質(zhì)量的音頻”就不再是一個(gè)錦上添花的“玩物”,而是支撐我們社會(huì)運(yùn)轉(zhuǎn)的 “基石” 之一。

把這個(gè)技術(shù)做出來(lái),成了老師傅面對(duì)歷史的責(zé)任!

疫情剛一穩(wěn)定,天籟實(shí)驗(yàn)室就抽調(diào)出重要的同事,開始加碼 AI Codec 的研發(fā)。

到了 2021 年,他們心里已經(jīng)隱約勾勒出一種可行方案。但愣是沒敢聲張。。。

為啥呢?

當(dāng)時(shí)天籟實(shí)驗(yàn)室已經(jīng)推到了“無(wú)人區(qū)”。市面上沒有別人的技術(shù)可供參考了。他們抱著這個(gè)自研方案站在那里,左右都沒人跟上,多少帶點(diǎn)膽兒禿。。。

就在這時(shí),天籟團(tuán)隊(duì)偶然翻到了微軟音頻技術(shù)團(tuán)隊(duì)一個(gè)簡(jiǎn)短的分享。

文章只有區(qū)區(qū)幾百字,根本看不出啥信息,但他們一下子跳起來(lái)了。在荒無(wú)人煙的原野,只要能瞄見另一個(gè)獵手的影子,他們就足以心安,自己追蹤的方向?qū)α耍「螞r看到的是一個(gè)公認(rèn)的“好獵手”。

肖瑋嗅到了獵物的味道。他建議投入重兵, 拉上 AI Lab 的陽(yáng)珊他們, 趕緊開整!已經(jīng)前后追蹤了三年,可不能讓其他獵人給打了去!

賣了這么大的關(guān)子,到底技術(shù)是咋實(shí)現(xiàn)的?

其實(shí)捅破窗戶紙就很簡(jiǎn)單:這個(gè)方案把“經(jīng)典信號(hào)處理技術(shù)”和“AI Codec”結(jié)合了起來(lái)。

既然純粹用 AI 算力不夠,那可不可以在所有頻譜上,只劃出一部分重要頻譜交給 AI 模型處理,剩余的還交給經(jīng)典技術(shù)處理?

這樣模型的計(jì)算量就不會(huì)超綱,總體質(zhì)量還能保證香香!

就像下面這樣↓↓↓

你可能會(huì)說:就這?

話說,音頻處理領(lǐng)域就像一個(gè)武林,各個(gè)門派還是有很深的成見的。AI 派看經(jīng)典派是行走的古董,經(jīng)典派笑話 AI 派拿錘子看什么都是釘子,兩邊經(jīng)常隔空吵架。

但肖瑋他們的意思是:最厲害的功夫,本來(lái)就不該有“門派”。

我是來(lái)做成這件事兒的,自然是哪招好用用哪招!黑貓白貓,抓到老師是好貓?。?/p>

況且,即便“就這”,里面的學(xué)問還大著呢!

究竟把哪些頻譜交給 AI ,把哪些頻譜交給經(jīng)典,才能讓總體聽感保持最佳呢?

對(duì)于語(yǔ)音信號(hào)來(lái)說,原則上低頻聲波攜帶的信息對(duì)聽感影響更重,高頻聲波攜帶的信息對(duì)聽感影響更輕,也就是說,要把 AI 盡量用在低頻波段上。

經(jīng)典信號(hào)處理,高低頻的碼率分配大概是 1:8。 用這種“AI+經(jīng)典”雜糅的方案,高低頻的碼率分配大概是 1:2~1:3。

就像下面這樣↓↓↓

嗯,紙上推演,似乎還不錯(cuò)!

老師傅著手實(shí)操,試著從頻寬中間畫了條線,然后分別處理,結(jié)果是。。。。不行!

雖然總體計(jì)算量確實(shí)是下去了,但聽感也下去了,用這種方法壓縮的音頻在 6kbps 的碼率下居然低于 4.0 分。

“不叫事兒”,老師傅安慰自己,以為調(diào)調(diào)就能過去。但誰(shuí)承想,低碼率下的聽感像是被強(qiáng)力膠粘在了 3.x 分,無(wú)論怎么左沖右突,死活上不去 4.0。

調(diào)到最后,老師傅已經(jīng)雙目失神雙耳失聰了。。。

蒼天啊大地啊!明明技術(shù)其實(shí)已經(jīng)突破了,但距離“騰訊級(jí)標(biāo)準(zhǔn)”就差那么一neinei,這也太窩火了。

但創(chuàng)新不就像打獵么?有時(shí)獵物就該在附近,獵手偏偏原地鬼打墻。此刻越急越找不到,冷靜下來(lái)沒準(zhǔn)卻能不期而遇。

那天夜里,萬(wàn)籟寂靜。躺在在床上,肖瑋突然睜開了眼,他仿佛聽到了千軍萬(wàn)馬,正趕來(lái)支援。

(五)來(lái)自 40 年前的援軍

人的聽力并非來(lái)自某種設(shè)計(jì),而是漫長(zhǎng)的自然演化中和環(huán)境互動(dòng)不斷進(jìn)化的結(jié)果。

這是一個(gè)大家都明白,但又極易忽略的道理。

由于進(jìn)化歷史的復(fù)雜,在很多細(xì)節(jié)上,人的聽力是“不講武德”的,或者說,它背后的道理是不能那么容易講清楚的。

比如在狩獵時(shí)代人們需要分辨鳥鳴,演化就調(diào)高了特定高頻處的敏感度;比如有些頻率是野獸吼叫的聲音,會(huì)激發(fā)我們的杏仁核產(chǎn)生恐懼。

這就造成,人的聽覺系統(tǒng)雖然整體上偏重某個(gè)頻段,但演化又在這個(gè)大概的規(guī)律上持續(xù)給不同頻譜調(diào)整“權(quán)重”——最終,人的聽力不再是一個(gè)簡(jiǎn)單的直線,而是充滿了難以解釋的“小起伏”。

既然聽力不是一個(gè)直線,那么你用一條直線去服務(wù)它,耳朵怎么會(huì)滿意嘞?

這張圖顯示了:相同音量下,人耳對(duì)不同頻率聲音的感知度是不同的。

耳朵里的事情,需要巧取,不能硬來(lái)。

肖瑋給我科普。

想明白這些,老師傅面前的問題就變成了:不同頻段里,到底哪些細(xì)節(jié)對(duì)于聽感而言是重要的呢?

這個(gè)問題,對(duì)碼農(nóng)來(lái)說其實(shí)超綱了。。。它應(yīng)該由“生物學(xué)家”“醫(yī)學(xué)家”或者“聽覺科學(xué)家”來(lái)回答。

但直覺告訴肖瑋,人類研究聲學(xué)信號(hào)這么多年,自己不可能是第一個(gè)考慮這個(gè)問題的人,一定有前人做過研究。

于是老師傅們決定——翻論文!各種有關(guān)聽力研究的,越精專越要啃,越艱深越不放過。

如山的論文,從 2021 年底看到了 2022 年初。

功夫不負(fù)苦心人,就在 2022 年春節(jié)前夕,他們居然找到了一篇上世紀(jì) 80 年代的論文,恰好研究了人耳在各個(gè)頻譜上的細(xì)節(jié)特性。

踏破鐵鞋,老師傅如獲至寶,趕緊按照其中的結(jié)論來(lái)調(diào)整系統(tǒng)框架,重訓(xùn)模型。

春節(jié)一回來(lái),模型還在迭代收斂中,就看到了評(píng)價(jià)系統(tǒng)的客觀評(píng)分超過了 4.0,一般來(lái)說,這種情況下主觀評(píng)分只會(huì)更高!

所有人的心臟都在突突地跳,這事兒成了!

果然,模型最終收斂,整個(gè)系統(tǒng)封裝之后,可以在 6kbps 的情況下,讓通話中聽感保持在 4 分以上。生生把最低碼率壓到了原本極限的三分之一。

Penguins 編解碼器誕生了??!

在音頻信號(hào)處理界,有一個(gè)公認(rèn)最難纏的客觀質(zhì)量測(cè)試標(biāo)準(zhǔn),叫“ITU-T P.863”。

這個(gè)標(biāo)準(zhǔn)是由一眾老牌聲學(xué)家主導(dǎo)制定的,它關(guān)注的主要方向就是人的細(xì)節(jié)聽感。

實(shí)際上,很多基于 AI Codec 的壓縮方法在這個(gè)測(cè)試中得分都不高,所以他們經(jīng)常心照不宣地跳過這個(gè)測(cè)試,反正外行也不懂。。。


天籟老師傅們點(diǎn)點(diǎn)頭,咱就得用這個(gè)指標(biāo)考驗(yàn)自己的成果!能夠在這個(gè)客觀測(cè)試標(biāo)準(zhǔn)中取得好成績(jī),大概率 Penguins 也能給出頂呱呱的主觀通話質(zhì)量。


果然,在這個(gè)測(cè)試中 Penguins 甩開對(duì)手老遠(yuǎn)——畢竟它的關(guān)鍵設(shè)計(jì)思路就是在細(xì)節(jié)處給耳朵“跪式服務(wù)”嘛!

這張圖里,藍(lán)色柱子是 Penguins 的得分,橘色柱子是同樣采用了 AI Codec 技術(shù)的 Lyra2,可以看到 Penguins 表現(xiàn)全面領(lǐng)先。綠色和黑色柱子是基于傳統(tǒng)信號(hào)處理的 EVS 和 OPUS,與這些傳統(tǒng)信號(hào)處理方法的中高碼率的質(zhì)量相比,Penguins 也不遜色。

普通人也許很難想象,最終幫他們打勝仗的決定性援軍,是來(lái)自 40 年前的一篇發(fā)黃的論文。

實(shí)話說,這篇論文的作者早已不再活躍,但他的研究成果卻守候在永恒的歷史岸邊,橫跨 40 年時(shí)空,把水中掙扎的素不相識(shí)的一群技術(shù)人拉上了岸。

他們相互對(duì)視,鞠躬致謝,然后揮手告別,這是一種無(wú)法言說的浪漫。

真正讓老師傅覺得自豪的是:

這篇論文一直在那里,它像一扇門,誰(shuí)都可以推開。但是天籟實(shí)驗(yàn)室最終想到去推這扇門,靠的并不是僥幸。

過去幾年無(wú)數(shù)嘗試碰壁后的經(jīng)驗(yàn),無(wú)數(shù)細(xì)小技術(shù)突破積累出的直覺,無(wú)數(shù)次因?yàn)樨?zé)任而決定再試一次的發(fā)愿,都化成一級(jí)級(jí)臺(tái)階,最終指引老師傅走到了這扇門前。

正所謂世上沒有白走的路,每一步都算數(shù)。

手握這個(gè)性能狂飆三倍的音頻編解碼標(biāo)準(zhǔn),老師傅終于有勇氣敲響產(chǎn)品團(tuán)隊(duì)的大門,這第一戰(zhàn),當(dāng)然就是和自己關(guān)系最密切的騰訊會(huì)議!

(六)只有 6bps 的世界

在音頻處理界有句俗話:

算法好不好,現(xiàn)網(wǎng)跑一跑。

這是因?yàn)樵诂F(xiàn)實(shí)生活中,網(wǎng)絡(luò)環(huán)境比實(shí)驗(yàn)室復(fù)雜千萬(wàn)倍。實(shí)驗(yàn)室里的數(shù)據(jù)再炸裂,都不能代表它實(shí)際就很好用。

天籟實(shí)驗(yàn)室的算法同學(xué)找到騰訊會(huì)議的產(chǎn)品同學(xué)時(shí),騰訊會(huì)議的伙伴建議,先從帶寬最低的“駕駛模式”和“弱網(wǎng)模式”入手。

現(xiàn)有的編解碼器在 6kbps 下肯定卡,那就死馬當(dāng)活馬醫(yī),把這部分的編解碼器替換成 Penguins,反正不會(huì)更壞了。。。

在軟件里替換掉編解碼器已然工程量巨大,但這還只是萬(wàn)里長(zhǎng)征的第一步,老師傅們必須對(duì)于各個(gè)車型、機(jī)型在各種實(shí)際網(wǎng)絡(luò)工況下做實(shí)際測(cè)試。

這時(shí),工程團(tuán)隊(duì)和測(cè)試團(tuán)隊(duì)就必須通力合作。

肖瑋回憶一個(gè)搞笑的細(xì)節(jié):2022 年他們開著自己的車在公司附近兜圈,就是為了找到哪兒信號(hào)只有 6kbps。。。

這不是在摸魚旅游,是師傅們兜兜轉(zhuǎn)轉(zhuǎn)找弱網(wǎng)的地方時(shí)拍的。

“關(guān)鍵是信號(hào)還要穩(wěn)定地差!有的地方測(cè)了兩天之后,可能運(yùn)營(yíng)商也發(fā)現(xiàn)這里信號(hào)不行,給強(qiáng)行改好了,這就很尷尬?!彼虏?。

有時(shí)候?yàn)榱苏业揭粋€(gè)弱網(wǎng)環(huán)境,老師傅開車兜一天,油錢都心疼。

除了尋找各種網(wǎng)絡(luò)外,老師傅還要尋找各種手機(jī)。

因?yàn)樗麄儽仨毚_定:在各種機(jī)型、芯片、操作系統(tǒng)的組合下,尤其是在綜合性能較差的手機(jī)里,編解碼系統(tǒng)都能按預(yù)想的姿勢(shì)干活。

“非要把所有機(jī)型都真實(shí)測(cè)一遍嗎?這效率也太低了?!蔽覇?。

“就像瑞士手表,鐘表匠測(cè)試手表質(zhì)量,就必須讓表真的轉(zhuǎn)那么多天;就像汽車防撞、手機(jī)跌落測(cè)試,廠家真的就得去撞去摔?,F(xiàn)實(shí)世界很復(fù)雜,在測(cè)試環(huán)節(jié)沒有用虛擬替代現(xiàn)實(shí)的捷徑?!备咝劢忉尩馈?/p>

就這樣,各種弱網(wǎng)、弱機(jī)都被他們搞了一遍,確實(shí)發(fā)現(xiàn)了很多隱秘的小坑。

他給我舉了一個(gè)“數(shù)據(jù)包”的小例子。

網(wǎng)絡(luò)傳輸音頻信號(hào)有點(diǎn)像寄快遞,是一個(gè)數(shù)據(jù)包一個(gè)數(shù)據(jù)包傳送的。

傳統(tǒng)方案當(dāng)然是給每一幀音頻信息打一個(gè)包。

但是問題來(lái)了,每一個(gè)包外面還得有“包裝”,包裝上標(biāo)注了這個(gè)數(shù)據(jù)包的基本信息,從哪來(lái)到哪去之類的,這就是“包頭”。包頭當(dāng)然也占用一定的信息空間。

在新的編解碼技術(shù)下,每一幀的有效數(shù)據(jù)量變成了原有的三分之一,這時(shí)包頭的比重就變得很大,再這樣一幀數(shù)據(jù)打一個(gè)包就不劃算了!

于是老師傅們決定——把兩幀打進(jìn)一個(gè)數(shù)據(jù)包。

像這樣的小改動(dòng)還有很多,它們大多解決起來(lái)并不難,只是很瑣碎。

“其實(shí)有多少黑科技,就有多少工程量?!?負(fù)責(zé)工程化的文龍吐槽。

他用“短木板”理論打了個(gè)比方:

算法的革新帶來(lái)的是體驗(yàn)的上界突破,肯定讓人興奮;但是工程底坐卻是保證一切成功的前提。 沒有一個(gè)王牌 App 是通過各種高精尖算法簡(jiǎn)單堆砌而成的,因?yàn)樯圆蛔⒁?,黑科技成了那塊“短木板”了!

為了保證 Penguins 能夠用起來(lái),當(dāng)時(shí)工程團(tuán)隊(duì)把客戶端、服務(wù)后臺(tái)等好多節(jié)點(diǎn)都從新打磨——幾乎所有的重點(diǎn)處理鏈條都進(jìn)行了針對(duì)性改造。

花了小半年時(shí)間,新的編解碼器終于在騰訊會(huì)議里成功安家。

接下來(lái),騰訊會(huì)議又逐漸切換,把原有編解解碼器完全過渡到 Penguins 上,至此,從2019年就開始研究的技術(shù),時(shí)隔漫長(zhǎng)的三年,終于在第一個(gè)產(chǎn)品里實(shí)現(xiàn)了完整落地。

顧不上喘氣,老師傅又盯上了下一個(gè)“獵物”,那就是 QQ。

QQ 研發(fā)團(tuán)隊(duì)的天成給我爆了一些“內(nèi)幕”:

年輕人更喜歡用 QQ,而且他們使用 QQ 的姿勢(shì)和我們這群老人用微信的姿勢(shì)不同。 比如,年輕朋友之間,干啥都要連著麥干。哪怕各自刷網(wǎng)頁(yè),也要保持著通話狀態(tài)。 甚至,情侶可能會(huì)“連麥陪睡”——倆人一宿不掛電話,聽對(duì)方睡覺,或者打呼嚕。。。

這已經(jīng)不是“煲電話粥”了,簡(jiǎn)直是“吸電話氧”了呀!不理解,尊重吧。。。

長(zhǎng)時(shí)間通話,網(wǎng)絡(luò)環(huán)境肯定會(huì)經(jīng)歷各種變化,QQ 要想保證他們?cè)谌魏螘r(shí)點(diǎn)都不被卡掉線,就更艱難。

關(guān)鍵是,年輕人比較“貧苦”,用的手機(jī)大都不高端,這進(jìn)一步壓縮了編解碼器的運(yùn)算資源。

這。。。不就是 Penguins 最好的用武之地嗎?

于是在 2023 年,天成帶領(lǐng)的 QQ 團(tuán)隊(duì) 也完成了編解碼系統(tǒng)的改造,在只有 6kbps 的世界里完成了“荒野求生”!


到這一步,天籟實(shí)驗(yàn)室的師傅終于能騰出腦袋,思考那個(gè)“更遼闊”的問題:


既然技術(shù)飛躍這么大,而且已經(jīng)在兩大 App 上證明了自己,我們能不能去申請(qǐng)成為下一代語(yǔ)音通信的編解碼標(biāo)準(zhǔn)呢?

憑借對(duì)標(biāo)準(zhǔn)的理解,老師傅們 確信:在現(xiàn)有的標(biāo)準(zhǔn)體系里,AI Codec 標(biāo)準(zhǔn)妥妥是一片待開發(fā)的沃土。

尚世東調(diào)集算法、工程、質(zhì)量等等團(tuán)隊(duì),開始向中國(guó)的標(biāo)準(zhǔn)化組織 ——AVS——遞交申請(qǐng)。

(七)成為榜樣

說到音視頻壓縮傳輸標(biāo)準(zhǔn),估計(jì)有的淺友覺得這是某種“榮譽(yù)稱號(hào)”。

其實(shí)不然,從歷史上看,音視頻壓縮標(biāo)準(zhǔn)一直是廠商甚至國(guó)家之間角力的戰(zhàn)場(chǎng)。

就拿大家平時(shí)看片都會(huì)用到的視頻壓縮格式“MP4”和“MPEG”來(lái)說,它的音視頻標(biāo)準(zhǔn)被稱為“H.264”,背靠國(guó)際標(biāo)準(zhǔn)化組織(ISO)和國(guó)際電聯(lián)(ITU)。很多國(guó)際公司,例如杜比、索尼、AT&T 等都參與了這個(gè)標(biāo)準(zhǔn)背后的研討。

H.264 的授權(quán)協(xié)議

而這些公司可沒有在做慈善,他們通過 ISO 和 ITU,對(duì)每一個(gè)使用這個(gè)標(biāo)準(zhǔn)的廠商都收一些費(fèi)用。

這本來(lái)沒什么問題,但 要命的是,這些國(guó)外大公司嘗到了甜頭,爭(zhēng)先恐后地參與制定下一代“H.265”標(biāo)準(zhǔn),而且大幅提高收費(fèi)。

一臺(tái)使用 H.265 設(shè)備要想不遭受專利訴訟,得在各個(gè)專利池里四處交錢,總共至少要掏 4 美元。。。

H.265 的“專利池”

碰到哪個(gè)都不行

這一下子超出了大家的承受范圍,導(dǎo)致很多廠商根本做不下去了。

大致在這樣的背景下,中國(guó)成立了數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組,也就是 AVS(Audio Video Coding Standard Workgroup of China),就是為了繞過這些國(guó)際大廠的專利壁壘。

由于 AVS 主要是為了國(guó)家層面技術(shù)自保,所以對(duì)于中國(guó)企業(yè)的專利收費(fèi)是極其友好的,很多都是免費(fèi)或象征性收費(fèi)。

至 2024 年春天,AVS 已經(jīng)經(jīng)歷了 AVS-1 和 AVS-2 兩代,AVS-3 正在緊急編訂中。

騰訊老師傅要沖擊的,就是 AVS-3,確切地說是 AVS-3 中實(shí)時(shí)語(yǔ)音編解碼技術(shù)的那部分。作為中國(guó)企業(yè)、中國(guó)技術(shù)人,這不僅是責(zé)任,也是榮光。

這是國(guó)際上的一些標(biāo)準(zhǔn)源流

但可想而知,既然是標(biāo)準(zhǔn),制定流程是非常嚴(yán)肅的。這次,老師傅的搭檔切換成了標(biāo)準(zhǔn)團(tuán)隊(duì)的專業(yè)咖,亞軍。


亞軍解釋了 AVS 標(biāo)準(zhǔn)化的大概流程:

1、作為音頻編解碼標(biāo)準(zhǔn)的主導(dǎo)方,騰訊需要提出足夠的論據(jù)證明標(biāo)準(zhǔn)立項(xiàng)的重要性,這叫需求評(píng)審。 2、AVS 標(biāo)準(zhǔn)組認(rèn)可并立項(xiàng)后,會(huì)發(fā)出技術(shù)征集書。 3、AVS 工作組成員會(huì)提出各種候選技術(shù)提案,連帶自測(cè)結(jié)果。 4、 多次討論迭代并通過第三方測(cè)試后,會(huì)慢慢形成穩(wěn)定的 標(biāo)準(zhǔn)文檔 和完整的 參考代碼 。 5、最后把參考代碼和技術(shù)征集書比對(duì),如果指標(biāo)全部滿足,大家會(huì) 表決 通過,標(biāo)準(zhǔn)才最終誕生。

這里首先要過的難關(guān),就是技術(shù)征集書”。

標(biāo)準(zhǔn)之所以叫做標(biāo)準(zhǔn),就是因?yàn)樗皇且患抑?。如果你的技術(shù)只適合騰訊家的產(chǎn)品,那肯定不行。


AVS 標(biāo)準(zhǔn)工作組會(huì)里有大學(xué)教授,有云計(jì)算廠商,有互聯(lián)網(wǎng)廠商,還有手機(jī)等設(shè)備生產(chǎn)商。各位師傅都面臨自己行業(yè)的實(shí)際情況,根據(jù)這些提出指標(biāo)需求。

每次都是大型辯論現(xiàn)場(chǎng),討論達(dá)成一致后,才能最終輸出技術(shù)征集書。

征集書像是個(gè)“英雄帖”,接下到了大家各顯神通的時(shí)候,要拿出自己的“技術(shù)提案”來(lái)滿足這些指標(biāo)。

這個(gè)是各項(xiàng)細(xì)節(jié)指標(biāo),你感受一下(點(diǎn)擊可以看大圖)

肖瑋把寫送技術(shù)提案的工作比作“造炮彈”。

一旦開炮,炮彈離開炮筒,你就再?zèng)]辦法控制了。所以你不能放過自己,必須保證把炮彈造到最硬,再打出去。

老師傅先在自己的模擬環(huán)境里反復(fù)摩擦,又在騰訊會(huì)議和 QQ 實(shí)戰(zhàn)環(huán)境中反復(fù)打磨,磨到不能再磨,磨禿嚕皮,終于在 2023 年底整體提交。

這一炮打響了!提案通過了 AVS 組織嚴(yán)格測(cè)試,成為了穩(wěn)定的“ 標(biāo)準(zhǔn)基線版本”。

這意味著:后續(xù)的迭代,都會(huì)在騰訊的“參考代碼”上微調(diào)。

微調(diào)的工作一點(diǎn)兒都不輕松。


標(biāo)準(zhǔn)文檔堪比學(xué)術(shù)論文,就連平時(shí)大家不太注意的每一章概述部分都要字斟句酌,甚至因?yàn)橐粋€(gè)標(biāo)點(diǎn)符號(hào)要用分號(hào)還是逗號(hào),大家都會(huì)爭(zhēng)執(zhí)。


雖然極端繁瑣,但亞軍知道這種爭(zhēng)論是有意義的。

因?yàn)闃?biāo)準(zhǔn)一旦形成,它就會(huì)被成千上萬(wàn)廠商采用、執(zhí)行。每個(gè)標(biāo)點(diǎn)都必須經(jīng)得起歷史的考驗(yàn)。


到了 2024 年6月,滿足技術(shù)征集書的標(biāo)準(zhǔn)交付件終于成型,很快大家就進(jìn)入表決環(huán)節(jié),各家企業(yè)代表此刻一致通過,這個(gè)新的音頻編解碼標(biāo)準(zhǔn)呱呱墜地,它就是——AVS3P10。

掌聲熱烈而漫長(zhǎng)。

從 2019 年起心動(dòng)念,到2022年落地實(shí)戰(zhàn),到 2024 年成為 AVS 標(biāo)準(zhǔn),這條路騰訊老師傅們走了五年。

“其實(shí)在業(yè)內(nèi),一般都是五年做標(biāo)準(zhǔn),五年做推廣,總共要十年。我們的標(biāo)準(zhǔn)快了一倍,已經(jīng)算非常順利了!”肖瑋說。

雖然不會(huì)把比較作為目的,但天籟實(shí)驗(yàn)室還是會(huì)積極關(guān)注國(guó)際上的同類技術(shù)進(jìn)展。

事實(shí)上,國(guó)際上其他標(biāo)準(zhǔn)組織也在進(jìn)行類似的工作。 但從目前進(jìn)展和完成的情況,AVS3P10 為代表的中國(guó)標(biāo)準(zhǔn)不僅在標(biāo)準(zhǔn)進(jìn)度上做到領(lǐng)先,在很多指標(biāo)上也是領(lǐng)先的。

肖瑋的話雖然克制,但難掩驕傲。

他值得驕傲。

從專利自保,到分庭抗禮,到自主創(chuàng)新達(dá)到國(guó)際頂尖,中國(guó)技術(shù)人用二十幾年的時(shí)光,穿越了前車卷起的漫天黃塵,闖出了自己的天地澄澈。

圖片來(lái)自《飛馳人生2》

(八)漫長(zhǎng)歲月里的款款聲波

“手藝”是個(gè)古早的詞匯,它是工匠手里的刻刀,也是電流中奔騰的代碼。

過去幾年,天籟實(shí)驗(yàn)室這群師傅的手藝不僅撐住了騰訊會(huì)議真實(shí)的 4 億用戶,還煉成了惠及 14 億人的技術(shù)標(biāo)準(zhǔn),堪稱“爽文”典范。

但我卻愿意提示其中“克制”的力量。

技術(shù)人最容易犯的錯(cuò)誤,是篤信某種技術(shù)。

2016 年 AI Codec 橫空出世,如核爆一樣在技術(shù)圈炸開,讓傳統(tǒng)的音頻編解碼黯然失色;它太優(yōu)雅,就像電動(dòng)汽車一樣,用幾臺(tái)電機(jī)和一盤電池就能替代過去上萬(wàn)個(gè)零件組成的燃油機(jī)械。

于是,很多年輕的師傅激進(jìn)地轉(zhuǎn)向“純 AI 派”,他們的理由很充分:具有底層先進(jìn)性的 AI 模型定能江山一統(tǒng),實(shí)現(xiàn)“技術(shù)革命”。

但大多數(shù)時(shí)候,決定“做什么”是簡(jiǎn)單的,但決定“不做什么”卻要依靠經(jīng)驗(yàn)、智慧以及強(qiáng)大的自制力,是更難的。

正如保守主義哲學(xué)家家埃德蒙·伯克所說:“先例是人類的學(xué)府,具有包容一切的氣度和改善一切的才能,才是真正的改革家。”

如此看來(lái),天籟實(shí)驗(yàn)室的老師傅至少做對(duì)了兩件事:

第一,等待良機(jī):在看清技術(shù)路線之前,寧可保存實(shí)力,也不盲目在新技術(shù)上撲入重兵。

第二,尊重先例:在 AI Codec 烈火烹油的時(shí)候,依然對(duì)傳統(tǒng)音頻編解碼技術(shù)敞開大門。

事實(shí)證明,越是技術(shù)突飛猛進(jìn)的時(shí)代,越需要有老師傅抱持這種看似冰冷,實(shí)則溫?zé)岬摹氨J刂髁x”態(tài)度。

回看中國(guó)的音視頻編解碼技術(shù)走過的道路,也是如此。

肖瑋回憶起十幾年前自己初次參加國(guó)際標(biāo)準(zhǔn)討論的情景:

當(dāng)時(shí)他感覺到巨大的反差。其他國(guó)家的代表團(tuán)都是連鬢絡(luò)腮白胡子,一看就是干了多半輩子的老法師;再看中國(guó)代表團(tuán),清一色都是二十來(lái)歲的毛頭小伙子、小姑娘。

一個(gè)國(guó)外老哥專門走過來(lái)問肖瑋:“How old are you?”

外國(guó)老哥解釋,在他們國(guó)家,必須是在行業(yè)里摸爬滾打二十年以上的技術(shù)人,才有資格參與這種規(guī)格的標(biāo)準(zhǔn)討論。

肖瑋有點(diǎn)兒不好意思:在我們國(guó)家,二十年前整個(gè)行業(yè)才剛剛起步。。。

不過從那以后,就是這些小伙子小姑娘,一直在代表中國(guó)出席各種國(guó)際討論,他們?yōu)槿澜绲囊粢曨l技術(shù)添磚加瓦,積沙成塔,以手中的代碼而非年齡贏得世界的尊重。

如今他們雖還沒夸張到白胡子的年級(jí),但確實(shí)都已更加成熟。而在他們身后,正站著更多年輕的中國(guó)技術(shù)人。

一代代人,就這樣前行,不疾亦不徐。俯瞰他們的腳印,是漫長(zhǎng)的歲月里一串聲波。

而我們的歷史,也在這樣的聲音里,滾滾向前。


你還可以看:

間關(guān)鶯語(yǔ)花底滑

幽咽泉流冰下難

再自我介紹一下吧。我叫史中,是一個(gè)傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。

哦對(duì)了,如果喜歡文章,請(qǐng)別吝惜你的“在看”“分享”。讓有趣的靈魂有機(jī)會(huì)相遇,會(huì)是一件很美好的事情。

Thx with in Beijing

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小伙騎車撞特斯拉后賠償1.5萬(wàn)修車費(fèi),4S店發(fā)票咋只開了9000元?多方回應(yīng)

小伙騎車撞特斯拉后賠償1.5萬(wàn)修車費(fèi),4S店發(fā)票咋只開了9000元?多方回應(yīng)

大風(fēng)新聞
2026-01-22 12:09:03
最低-14℃!江蘇下一輪降雪又在路上了

最低-14℃!江蘇下一輪降雪又在路上了

魯中晨報(bào)
2026-01-22 08:59:40
嘲笑川普的人該補(bǔ)歷史課:美國(guó)購(gòu)買格陵蘭是150年的國(guó)家戰(zhàn)略

嘲笑川普的人該補(bǔ)歷史課:美國(guó)購(gòu)買格陵蘭是150年的國(guó)家戰(zhàn)略

斌聞天下
2026-01-22 06:20:03
永遠(yuǎn)不可能被抹殺的歷史:四野部隊(duì)里的那三萬(wàn)日籍士兵

永遠(yuǎn)不可能被抹殺的歷史:四野部隊(duì)里的那三萬(wàn)日籍士兵

深度報(bào)
2026-01-21 21:25:16
湖北省農(nóng)業(yè)事業(yè)中心副主任姜衛(wèi)東接受審查調(diào)查

湖北省農(nóng)業(yè)事業(yè)中心副主任姜衛(wèi)東接受審查調(diào)查

界面新聞
2026-01-22 17:14:47
車市內(nèi)卷嚴(yán)重怎么辦?遇事不決,學(xué)豐田!

車市內(nèi)卷嚴(yán)重怎么辦?遇事不決,學(xué)豐田!

電動(dòng)邦
2026-01-22 14:32:58
當(dāng)江青還不叫江青時(shí),她是這樣的

當(dāng)江青還不叫江青時(shí),她是這樣的

深度報(bào)
2026-01-21 22:36:36
歐洲資金開始大規(guī)模撤離

歐洲資金開始大規(guī)模撤離

販財(cái)局
2026-01-21 22:18:11
炸裂!中糧集團(tuán)春招公告,學(xué)歷從大專起步,外語(yǔ)水平居然不設(shè)限…

炸裂!中糧集團(tuán)春招公告,學(xué)歷從大專起步,外語(yǔ)水平居然不設(shè)限…

火山詩(shī)話
2026-01-22 10:40:46
歐洲打死也不會(huì)想到,這場(chǎng)戰(zhàn)爭(zhēng)徹底打掉了歐洲五十年的國(guó)運(yùn)

歐洲打死也不會(huì)想到,這場(chǎng)戰(zhàn)爭(zhēng)徹底打掉了歐洲五十年的國(guó)運(yùn)

揭秘歷史的真相
2026-01-19 21:05:12
暴雷!廣東知名董事長(zhǎng)跳樓,公司停業(yè)破產(chǎn)清算,近百家門店全關(guān)閉

暴雷!廣東知名董事長(zhǎng)跳樓,公司停業(yè)破產(chǎn)清算,近百家門店全關(guān)閉

南宗歷史
2026-01-22 14:32:06
人民日?qǐng)?bào),救西貝一命!

人民日?qǐng)?bào),救西貝一命!

鈞言堂
2026-01-22 09:38:41
臺(tái)軍女飛行員郭文靜:只要長(zhǎng)官敢下令,我會(huì)毫不猶豫的擊落殲20!

臺(tái)軍女飛行員郭文靜:只要長(zhǎng)官敢下令,我會(huì)毫不猶豫的擊落殲20!

顧史
2026-01-21 21:04:39
葉某斌供述:一天騙五六個(gè)人應(yīng)該差不多

葉某斌供述:一天騙五六個(gè)人應(yīng)該差不多

大風(fēng)新聞
2026-01-22 14:34:05
性蕭條是怎么造成的?以前穿小吊帶的女性大把,MV全是比基尼小姐姐

性蕭條是怎么造成的?以前穿小吊帶的女性大把,MV全是比基尼小姐姐

六子吃涼粉
2026-01-22 09:12:09
突發(fā)!知名網(wǎng)紅“一栗小莎子”確診癌癥,疑熬夜導(dǎo)致,兒子才兩歲

突發(fā)!知名網(wǎng)紅“一栗小莎子”確診癌癥,疑熬夜導(dǎo)致,兒子才兩歲

裕豐娛間說
2026-01-22 08:56:07
馬克龍犯了什么病?

馬克龍犯了什么?。?/a>

新民周刊
2026-01-22 09:08:59
美媒昭告全球: 中國(guó)不償還100年前的債務(wù),美國(guó)將不承認(rèn)欠中國(guó)的

美媒昭告全球: 中國(guó)不償還100年前的債務(wù),美國(guó)將不承認(rèn)欠中國(guó)的

墨印齋
2026-01-22 06:05:46
900萬(wàn)粉絲網(wǎng)紅到株洲一村莊辦殺豬宴,稱村民收?qǐng)龅刭M(fèi)還分肉,村干部:他們未報(bào)備且破壞村里聲譽(yù),已報(bào)警

900萬(wàn)粉絲網(wǎng)紅到株洲一村莊辦殺豬宴,稱村民收?qǐng)龅刭M(fèi)還分肉,村干部:他們未報(bào)備且破壞村里聲譽(yù),已報(bào)警

極目新聞
2026-01-22 13:53:44
首進(jìn)澳網(wǎng)32強(qiáng)!王欣瑜2-1爆冷險(xiǎn)勝前法網(wǎng)冠軍 將戰(zhàn)13號(hào)種子

首進(jìn)澳網(wǎng)32強(qiáng)!王欣瑜2-1爆冷險(xiǎn)勝前法網(wǎng)冠軍 將戰(zhàn)13號(hào)種子

醉臥浮生
2026-01-22 13:21:34
2026-01-22 17:28:49
淺黑科技官方 incentive-icons
淺黑科技官方
科技有溫情
284文章數(shù) 22967關(guān)注度
往期回顧 全部

科技要聞

幾千億只是開胃菜,AI基建還得再砸?guī)兹f(wàn)億

頭條要聞

浙江有人領(lǐng)走88888888馬年紀(jì)念鈔 銀行員工:隨機(jī)分配

頭條要聞

浙江有人領(lǐng)走88888888馬年紀(jì)念鈔 銀行員工:隨機(jī)分配

體育要聞

跑個(gè)步而已,他們?cè)谌际裁矗?/h3>

娛樂要聞

鐘麗緹土耳其高空落淚 與張倫碩擁吻

財(cái)經(jīng)要聞

申通快遞創(chuàng)始人被前夫索要股份

汽車要聞

配備多塊娛樂屏 極氪8X內(nèi)飾曝光

態(tài)度原創(chuàng)

游戲
本地
旅游
數(shù)碼
公開課

科幻生存新爆款!《星際裂變》兩周銷量超50萬(wàn)

本地新聞

云游中國(guó)|格爾木的四季朋友圈,張張值得你點(diǎn)贊

旅游要聞

赴一場(chǎng)冰雪之約!看見新疆的冬日浪漫

數(shù)碼要聞

國(guó)補(bǔ)疊加限時(shí)直降,這篇華為平板上車攻略不容錯(cuò)過

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版