国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

騰訊在命運(yùn)的棋盤上砸下一顆釘子

0
分享至

  淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會(huì)嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。

  騰訊在命運(yùn)的棋盤上砸下一顆釘子

  文 | 史中

  2013年,騰訊市值沖破千億美元,反超百度,一騎絕塵。

  在當(dāng)年舉辦的騰訊WE大會(huì)上,人們眼巴巴等著馬化騰說出豪言壯語。他說:

  “我們很怕?!?/p>

  (一)“危險(xiǎn)的土地”和“迷惘的動(dòng)物”

  張志東的QQ號(hào)是10002。

  自1998年和馬化騰一起注冊(cè)騰訊,他就撐起了底層技術(shù)架構(gòu),坊間傳說,他寫的QQ架構(gòu),直到用戶過億,還能微微一笑,輕松扛住。

  騰訊16歲時(shí),張志東急流勇退——辭任首席技術(shù)官。從那之后,鵝廠 CTO 的椅子一直在熠熠的陽光下空缺,像是半首等待續(xù)句的詩。

  而這把空椅子,正是我們故事的開端。

  放手前,張志東主導(dǎo)做了兩件事:

第一,把騰訊最王牌的技術(shù)團(tuán)隊(duì)安頓在技術(shù)工程事業(yè)群(TEG),托付給老部下盧山。 第二,在騰訊建立了一個(gè)內(nèi)部論壇,名叫“樂問”。

  這兩件事看似平常,其實(shí),他們都與“危險(xiǎn)”二字相關(guān)。

表面直言快語的盧山,內(nèi)心其實(shí)奔涌著對(duì)技術(shù)細(xì)膩的珍視。這種珍視,會(huì)在騰訊 面對(duì) 危險(xiǎn) 時(shí)爆發(fā)出強(qiáng)大的力量; 而“樂問”論壇,恰恰能夠 發(fā)現(xiàn)危險(xiǎn) 。成立第一天,樂問就定下規(guī)矩:哪怕最普通的工程師也可以毫無鴨力發(fā)帖吐槽。一線戰(zhàn)士的聲音未經(jīng)修飾,雖然刺耳,但必定真切??偛棉k只有每天被這樣的聲音“錐心刺骨”,才不至于沉溺在幻象中。

  但是,歲月奔流。

  危險(xiǎn)的腳步終究還是迫近了。

  2018年,盧山面前屏幕閃爍,樂問上的一個(gè)帖子赫然寫著:來到騰訊就像來到技術(shù)沙漠!

  吐槽來自一位新員工——他懷著憧憬加入騰訊,為了快速進(jìn)入狀態(tài),想要參考一些其他團(tuán)隊(duì)的代碼成果,然而翻遍了全公司系統(tǒng),他懵了。竟然什么都找不到。。。

  眼前每一個(gè)字都像一根釘子,把盧山的心絞得生疼。

  事情為何變成了這樣?

  隱喻也許就藏在騰訊的 Logo——那只企鵝身上。

  QQ的企鵝是動(dòng)物,騰訊的王牌產(chǎn)品微信、騰訊視頻、王者榮耀等等也都可以看成是動(dòng)物。

  《動(dòng)物世界》里的劇情大家都熟悉:要想統(tǒng)領(lǐng)獅群,新獅王必須先打敗競爭者,然后終其一生隨時(shí)準(zhǔn)備迎戰(zhàn)新的挑戰(zhàn)者。

  同理,當(dāng)年每一個(gè)從騰訊跑出來的王牌產(chǎn)品,都是先在騰訊內(nèi)部擊敗了所有類似產(chǎn)品,才沖進(jìn)“大草原”,在眾目睽睽下和其他對(duì)手博弈的。

  如此殘酷的生存篩選下,造就了世人熟知的“賽馬文化”。

  賽馬

  想要馬兒得第一,不僅要速度快,還要?jiǎng)幼黛`活。一旦和別人的協(xié)作,就怕遇上“豬隊(duì)友”,那還不如小團(tuán)隊(duì)自己干,把所有的技術(shù)都抓在自己手中。

  回到2018,從盧山眼里的倒影,我們恰恰可以窺見整個(gè)騰訊的版圖:

每個(gè)“動(dòng)物”(產(chǎn)品)都坐擁一座自己的莊園,莊園里運(yùn)轉(zhuǎn)著支撐它主人一切的肥美牧草(底層技術(shù))。然而,莊園的大門緊閉,謝絕參觀。。。

  沙漠并非沒有草,只是綠洲都被圍在了柵欄里。

  這讓對(duì)技術(shù)負(fù)責(zé)的盧山感到脊背發(fā)涼。五指畢竟難敵一拳。時(shí)間分秒流逝,騰訊技術(shù)將越來越分裂,越來越脆弱。

  他當(dāng)然奮力嘗試過拆掉各個(gè)莊園的圍墻,比如嘗試把各個(gè)業(yè)務(wù)的技術(shù)拿過來“托管”。但是,時(shí)間一長,被托管團(tuán)隊(duì)就覺得自己失去了對(duì)技術(shù)的控制權(quán),很沒有安全感。

  “我憑實(shí)力打下來的陣地,來接管的人水平還不如我,憑什么讓我繳槍?”有員工曾經(jīng)發(fā)過這樣激烈的朋友圈。

  事實(shí)上,盧山的數(shù)次沖鋒都以不了了之告終。

  作為顧問的張志東時(shí)不時(shí)回來找盧山,強(qiáng)烈建議他趕緊推進(jìn)。盧山心里難受,沒壓住火:“我不是不知道這件事重要!但硬推根本不靠譜!”

  杠到最后,盧山 emo 了,跟張志東說:你就不應(yīng)該退休。。。

  故事進(jìn)展到這,有淺友可能會(huì)出主意:那不拆圍墻就不拆唄,只要騰訊這片土地上的動(dòng)物們都活蹦亂跳,又有什么問題呢?

  怎么可能沒問題?

  每個(gè)“動(dòng)物”都心知肚明,還有另一圈玻璃幕墻就高聳在草原周圍,這個(gè)圍墻就是——人口天花板。

一個(gè)普通人大概不需要兩個(gè)QQ號(hào)或者微信號(hào);每個(gè)人每天也只有24個(gè)小時(shí),娛樂休閑的時(shí)間必然存在恒定上限—— 消費(fèi)互聯(lián)網(wǎng)的空間是有邊界的。

  況且,中國“消費(fèi)互聯(lián)網(wǎng)”的土地上,當(dāng)然不只有騰訊。放眼望去,各大廠商的“動(dòng)物們”擴(kuò)展空間都已十分有限了。自然法則非常殘酷:一旦生存空間難以繼續(xù)擴(kuò)展,等待它們的將是慘烈的“內(nèi)卷”宿命。

  到時(shí)候,各自莊園里儲(chǔ)備的這些“牧草”(底層技術(shù)),還夠不夠鮮美(先進(jìn)),夠不夠廉價(jià)(成本低),能不能支撐得住慘烈的競爭,誰都打不了包票。

  其他動(dòng)物虎視眈眈

  兩條路擺在騰訊面前。

向左走,守在原地和挑戰(zhàn)者們拼個(gè)你死我活; 向右走,走出大草原,尋找一片新的棲息地。

  當(dāng)時(shí)(2011年),手中資源充足的騰訊選了“我全都要”:

“留下一半人馬在原地廝殺” + “派出另一半人馬擎旗遠(yuǎn)征”。

  現(xiàn)在,我們把目光轉(zhuǎn)向這支“遠(yuǎn)征軍”。手握旌旗的人,并不是想象中鐵面長髯的驃騎大將軍,而是有一張和善面孔,他就是湯道生。

  這支遠(yuǎn)征軍伍叫 “騰訊云” 。

  湯道生

  (二)向“中央草原”進(jìn)發(fā)

  講到這里,不妨?xí)和酌?,插播一下湯道生的“藝術(shù)人生”。

  “偏師遠(yuǎn)征”,是湯道生不斷重復(fù)的人生劇本。最著名的就有三次:

  第一次,是2005年之后,湯道生帶著QQ秀和QQ空間殺出重圍,讓QQ不再只是一個(gè)聊天工具,還成了大家展示自我的明媚舞臺(tái)。

  第二次,是2012年之后,微信異軍突起,湯道生又帶著QQ出走,在“年輕人”這片肥沃的用戶群體中安頓了下來。

  而這第三次,就是騰訊云了。

  “騰訊云”比“騰訊”多了個(gè)云字,干的事情自然大有不同。簡單區(qū)分,就兩句話:

過去,騰訊鉆研的是 “技術(shù)上面的產(chǎn)品” (也就是那些動(dòng)物); 未來,騰訊云要鉆研 “產(chǎn)品下面的技術(shù)” (也就是動(dòng)物吃的牧草)。

  好,了解這些背景后,我們不妨再回到2018歷史現(xiàn)場,站在湯道生身邊,我們同樣能看到他眼里倒映的“危險(xiǎn)”。

  他去和企業(yè)客戶聊生意的時(shí)候,人家一定會(huì)問:既然你騰訊說要用技術(shù)來服務(wù)我,那么,騰訊自己的微信、王者榮耀到底用沒用騰訊云的技術(shù)?

  他的答案有點(diǎn)羞澀:只用到了一些。

  “你自己都不全用,憑什么讓我用?”

  湯道生無言以對(duì)。他清楚,如果陷入這個(gè)死循環(huán),騰訊云這支遠(yuǎn)征軍終究也很難幫騰訊找到新出路。

  講到這,估計(jì)淺友們都看明白了。站在當(dāng)時(shí),解開“湯道生的外患”和解開“盧山的內(nèi)憂”的方法竟然是相同的,那就是:

一秒都不要等! 趕快拆掉各業(yè)務(wù)的“莊園圍墻”??! 讓他們住進(jìn)一片“中央草原”上?。。?/blockquote>

  此時(shí),在騰訊技術(shù)棧的博弈天平上,湯道生也堅(jiān)定地站在了“統(tǒng)一派”這一邊,和盧山并肩成為兩個(gè)重磅砝碼。

  即便這樣,形勢仍然很微妙,各個(gè)業(yè)務(wù)的負(fù)責(zé)人雖然也理解上云對(duì)騰訊的意義,但受到各種內(nèi)部阻力,很難形成共振,同時(shí)把手術(shù)刀揮向自己。

  這就像七個(gè)葫蘆娃分頭行動(dòng),就會(huì)被妖精“各個(gè)擊破”,爺爺總也救不出來。。。

  動(dòng)畫片的結(jié)尾已經(jīng)昭示了答案,只有一個(gè)辦法能成功:讓七個(gè)葫蘆娃合體!

  2018年夏末,耳聽馬蹄奮急,遠(yuǎn)方懸崖迫近,CEO馬化騰和總裁劉熾平下定決心,把所有業(yè)務(wù)線負(fù)責(zé)人緊急集合起來,開了三天三夜的會(huì),討論改革方案。這就是著名的“香港會(huì)議”。

  憋壞了的盧山和湯道生,終于有機(jī)會(huì)在大家面前把計(jì)劃和盤托出。

盧山的建議是:把騰訊的技術(shù)宅們重組一個(gè)“聯(lián)合戰(zhàn)隊(duì)”,合力研發(fā)像積木一樣的“基礎(chǔ)技術(shù)模塊”,從此所有模塊完全代碼透明,騰訊各業(yè)務(wù)需要哪塊就用哪塊,這就是“開源協(xié)同”。 湯道生的建議是:這些積木,請(qǐng)大家不要再拿回“莊園”里,索性你們都來騰訊云這片“中央草原”上,搭建起沒有圍墻的新莊園。這就是“自研業(yè)務(wù)上云”,簡稱 “自研上云”。

  表決時(shí)刻,所有業(yè)務(wù)負(fù)責(zé)人一致舉手。

  歷史的天平,倒向“統(tǒng)一派”。

  2018年9月30日,大事甫定,騰訊鼓起勇氣打開胸膛,讓體內(nèi)積聚數(shù)年的暗流對(duì)外奔涌——重組架構(gòu),成立新的事業(yè)群,史稱 “930變革” 。

  此時(shí)俯瞰騰訊這片土地,迷惘的動(dòng)物們眼神重新鋒利,葫蘆娃們開始合體成小金剛。

  自研上云的故事,也由此拉開大幕。

  (三)效率!效率!效率!

  如塞倫蓋蒂大草原上的角馬遷徙,騰訊自研上云必然是一首混雜著雄壯與兇險(xiǎn)的命運(yùn)之歌。

  香港會(huì)議上,各路老板同意上云之后,一起看向湯道生:“那你定個(gè)時(shí)間表,多長時(shí)間能干完?”

  湯道生想了一下,伸出手指:三年!

你知道,騰訊的管理方式不是“從上到下”的,雖然大方向定了,但上上下下這么多人,還是要慢慢說服。人家業(yè)務(wù)就是不上來,你也強(qiáng)迫不了的。。。況且,騰訊云 還要做好技術(shù)準(zhǔn)備,怎么能支撐好騰訊的海量業(yè)務(wù),我們也要花些時(shí)間。 這事本身確實(shí)是有挑戰(zhàn)的,三年有一定拍腦袋的成分,但當(dāng)時(shí)也沒辦法算得非常仔細(xì)。

  湯道生回憶。

  可是,君子一言,駟馬難追。“三年”說出口的一瞬間,倒計(jì)時(shí)就開始了滴答作響。。。

  好消息快馬加鞭送回騰訊云。首先感覺鴨梨山大的,就是邱躍鵬。

  邱躍鵬是騰訊云總裁,也是剛剛成立的云與智慧產(chǎn)業(yè)事業(yè)群(CSIG)的COO。騰訊云服務(wù)了這么多客戶,如今迎來了最大的客戶——騰訊自己。這對(duì)騰訊云來說是超級(jí)大的挑戰(zhàn)。

  同樣的壓力,也很快壓到王慧星身上。

  王慧星是騰訊云的 CTO,專門負(fù)責(zé)騰訊云的技術(shù),技術(shù)但凡有裂縫的話,面對(duì)超大客戶的重壓肯定是要跪的。。。如今,是騾子是馬,到了出來遛遛的時(shí)候了。

  王慧星

  湯道生還向騰訊云這群人轉(zhuǎn)達(dá)了總裁劉熾平的“靈魂拷問”:

搬家上云之后,騰訊的運(yùn)營成本會(huì)怎么變化?

  劉熾平是個(gè)溫和的人,話一向說得委婉。我?guī)退g成大白話就是:騰訊各個(gè)業(yè)務(wù)都搬到你騰訊云上,要是運(yùn)行起來比以前花的錢還多,那絕對(duì)不行!

  等等!咱們之前一直默認(rèn),大家搬上云一起過日子肯定會(huì)比原來更省錢??墒?。。。真的是這樣嗎?

  “真的是這樣!”邱躍鵬斬釘截鐵。

  他給我科普了其中的原理,我用圖畫翻譯給你。

  咱們剛才一直把計(jì)算力的底層技術(shù)比作草原,現(xiàn)在不妨放大一點(diǎn),看看“草原”的內(nèi)部結(jié)構(gòu)。

  我們可以把它分成兩層:

  1、基礎(chǔ)設(shè)施層(IaaS)

  要想支撐用戶上億的產(chǎn)品,你需要成千上萬的服務(wù)器,每臺(tái)服務(wù)器都一刻不停地計(jì)算,咱們掀開機(jī)箱蓋,把它想象成無數(shù)個(gè)不知疲倦的“工人”。

  2、平臺(tái)層(PaaS)

  有一群只會(huì)“傻算”的工人還不夠,還需要一些不同種類的“工頭”(可以理解為特定的程序),負(fù)責(zé)調(diào)動(dòng)“工人”去算具體的任務(wù),比如是去存儲(chǔ)數(shù)據(jù),還是轉(zhuǎn)發(fā)消息,還是查詢信息等等。

  有點(diǎn)抽象么?咱們拿微信舉個(gè)例子吧:

“消息模塊”就是一個(gè)“工頭”。 你給媳婦發(fā)一條微信,你的消息會(huì)先傳到微信的服務(wù)器里做臨時(shí)中轉(zhuǎn),“消息工頭”看到這個(gè)任務(wù):“哦是我們小組的工作”。它就會(huì)指揮手下的“工人”,找到你媳婦的微信端口,然后把消息轉(zhuǎn)發(fā)過去。 “存儲(chǔ)模塊”也是一個(gè)“工頭”。 你在朋友圈發(fā)了一張照片,這個(gè)照片也被送到了服務(wù)器里,然后微信的“存儲(chǔ)工頭”會(huì)調(diào)動(dòng)手下的一群“工人”把你的照片放好,然后你的朋友們就能刷到這張照片了。

  “消息工頭”的工作原理大概是醬。

  注意!這里藏著一個(gè)有趣的真相:無論是微信、QQ還是王者榮耀,雖然他們看起來是完全不同的 App,但在最底層,為他們干活的“工人”是一毛一樣的。

  這樣的話,就出現(xiàn)了一種可能:

  如果把微信、QQ、王者榮耀等等騰訊的業(yè)務(wù)同時(shí)放到騰訊云的“大資源池”上,它們不就可以 共享 底層的“云工人”了么?

  你用完了我用,我不用的時(shí)候給他用。反正服務(wù)器里的“云工人”只吃電,也不知道累。就像共享單車一樣,大家一起騎車,肯定比每人霸占一臺(tái)單車?yán)眯室叨嗔恕?/p>

  你看,這就是云計(jì)算能省錢的基本原理。

  好了,科普結(jié)束,回到我們的故事。

  2019春節(jié)一過,游戲、QQ、微信的基層技術(shù)團(tuán)隊(duì)就“響應(yīng)上級(jí)號(hào)召”,排著隊(duì)來騰訊云考察。

  雖然眼里有藏不住的懷疑和審視,但大家還是客氣地在云上開了測試賬號(hào),把自家的“測試用例”放上去。(所謂“測試用例”,就是一套模擬成千上萬用戶“極限并發(fā)”的程序,只有扛過測試用例的爆錘,在實(shí)戰(zhàn)中才能堪大用。)

  騰訊云這群人焦急等待,就像期末考試等待老師念分的孩子,大氣不敢喘。

  第一天,沉默,第二天,沉默。。。第三天,無數(shù)問題像亂箭一樣射來。。。

  比如,微信的同事就發(fā)現(xiàn)了一個(gè)關(guān)鍵的事兒:你這個(gè)“云上工人”為啥比我們的“云下工人”弱?。恐挥形覀児と?5%的水平?

  這個(gè)問題,劍指云計(jì)算的核心軟肋——虛擬化損耗。

  剛才我們說了,云的本質(zhì)就是把“工人”讓大家共用??墒?,直接共用的話,就像好幾撥大媽在一起跳廣場舞,這邊放“套馬的漢子”,那邊放“小蘋果”,相互之間難免沖突——所以必須在“云工人”之間打好“隔斷” ,這個(gè)過程就叫虛擬化,隔出來的隔間叫 “虛擬機(jī)” 。

  騰訊云的虛擬機(jī),名字叫 CVM (Cloud Virtual Machine)。

  打隔斷的工作誰來做?沒別人,還得是“云工人”自己來做啊,所以。云工人們得分出15%的力氣用在維護(hù)“隔斷”上,留給 CVM 就只剩下85%的力氣了。。。

  你看,因?yàn)樘摂M化程序本身占用了一些資源,剩下的計(jì)算力就少了一丟丟。

  微信的老師傅搖搖頭:這可不行啊。

一來,白白損失了15%的計(jì)算力,為了和原來的計(jì)算力持平,我們就得多加15%的虛擬機(jī),成本扛不?。?二來,在搬遷的過程中,肯定會(huì)存在一半在云下一半在云上的“腳踩兩只船”的時(shí)刻,此時(shí)兩邊的計(jì)算力差太大,會(huì)造成服務(wù)不穩(wěn)定的問題。。。

  劉熾平的直覺果然準(zhǔn),他擔(dān)心的事兒眼看還是要發(fā)生——算理論賬的時(shí)候,怎么算都是效率更高;可是真到了實(shí)際搬遷時(shí),各種邊邊角角的問題一來,到底效率如何還真不好說。。。

  微信團(tuán)隊(duì)回去算了半天,然后提出來:

  虛擬化損耗不用降到0,咱們降到8%,行不?

  CVM 的技術(shù)宅們幾欲先走。。。心說:這個(gè)損耗水平,在地球上也沒人能達(dá)到啊,要不您去火星問問?

  但正如前兩章所講,自研上云事關(guān)騰訊接下來20年的生死安危。這個(gè)時(shí)候 CVM 要是縮回去,那就妥妥成為讓騰訊變成“技術(shù)沙漠”的歷史罪人。。。

  不能退,說什么都不能退!

  CVM 團(tuán)隊(duì)的劉潔欣回憶,為了搞定“8%”,那幾個(gè)月他們一群工程師就快要把虛擬化系統(tǒng)給拆碎了。

  說白了,虛擬化要想提效,主要就是和 CPU 死磕——為了把 CPU 之間的通信時(shí)間降低幾毫秒,老師傅們甚至要重寫處理器之間的通信方式;更夸張的是,還有一個(gè)小分隊(duì)深入芯片內(nèi)部的指令層,一條條篩選優(yōu)化,哪怕只省出幾顆電子傳輸?shù)穆烦?,也?huì)在大規(guī)模運(yùn)算的時(shí)候把效率提高一點(diǎn)點(diǎn)。

  功夫不負(fù)苦心人,幾百項(xiàng)優(yōu)化一個(gè)個(gè)堆疊,別說,虛擬化損耗直接干到了5%。

  這個(gè)示意圖顯示的是:改進(jìn)虛化系統(tǒng),把浪費(fèi)的資源擠壓到最小。

  但 CVM 這群人半口氣都顧不上歇。

  因?yàn)?。。。虛擬化損耗僅僅是諸多“亂箭”中的一根。。。這邊微信話音還沒落,那邊QQ團(tuán)隊(duì)又找來了:為啥測試的時(shí)候網(wǎng)絡(luò)丟包率這么高?網(wǎng)絡(luò)穩(wěn)定性要提高哦!那邊游戲團(tuán)隊(duì)又找來了:我們?cè)瓉碜约翰渴鹆撕芏噙\(yùn)維工具,現(xiàn)在上了騰訊云,有的工具對(duì)接不上了,這可不行哦!

  劉潔欣瞬間感覺到一股強(qiáng)大的人肉DDoS。。。

  此刻,我們不妨從混戰(zhàn)中把視線抽離出來,再回到空中俯瞰。

  2019年的騰訊,人心如海潮漲落:

各個(gè)業(yè)務(wù)線的人,一會(huì)兒解決了一個(gè)技術(shù)難題,覺得上云之后效率就是高;一會(huì)兒又發(fā)現(xiàn)了新麻煩,覺得上云效率也一般嘛。。。就這樣一會(huì)兒信心滿懷,一會(huì)兒垂頭喪氣,反反復(fù)復(fù)來來回回地摩擦。。。。

  不過,王慧星心里倒很篤定:這樣的摩擦不會(huì)一直持續(xù)下去。

  因?yàn)?,他手里握著一個(gè) “大殺器” !

  (四)星星海

  2018年,就在“930變革”前不久,騰訊云的一支名為星星海的團(tuán)隊(duì)拜訪了AMD。

  此次行程,他們有一項(xiàng)重要的議程——敲定騰訊第一款自主研發(fā)服務(wù)器“星星?!钡亩ㄖ艭PU的技術(shù)參數(shù)細(xì)節(jié)。

  端詳著手里這顆 AMD 的處理器,這幫人既激動(dòng)又糾結(jié):

一方面,測試指標(biāo)顯示,這一代 AMD 處理器非常符合騰訊云的要求,預(yù)計(jì)可以把計(jì)算效率提升一大截。 但另一方面,AMD 作為服務(wù)器處理器還是個(gè)新鮮事物,當(dāng)時(shí)的云計(jì)算廠商中沒人敢把它大規(guī)模投入使用。

  冒險(xiǎn)上 AMD,萬一搞砸了,就會(huì)浪費(fèi)巨大的研發(fā)資源和寶貴時(shí)間;不上 AMD,騰訊云就可能錯(cuò)過彎道超車的歷史機(jī)會(huì)。。。

  從某種程度上說,星星海團(tuán)隊(duì)手里攥著一枚硬幣,這枚硬幣的正反,將會(huì)決定騰訊云的未來的發(fā)展。

  要不要冒這個(gè)險(xiǎn)?

  討論了一上午,他們決定做。

  “技術(shù)人只能相信技術(shù)。看過技術(shù)參數(shù),大家找不到不用 AMD 的理由。后面哪怕遇到很大的 Bug,也要死活搞定?!毙切呛F(tuán)隊(duì)的同學(xué)回憶。

  故事閃回到2019年,就在騰訊云 CVM 被各個(gè)團(tuán)隊(duì)“DDoS”到暈頭轉(zhuǎn)向時(shí),好消息傳來,定制的 AMD 版“星星海服務(wù)器”開始量產(chǎn)了!

  第一代星星海服務(wù)器

  騰訊云工程師們喜大普奔。

  因?yàn)闊o論是微信、QQ還是王者榮耀,他們都只能作為客戶(最多是大客戶)去市場上買已經(jīng)存在的服務(wù)器。就像去飯店點(diǎn)菜,只能選菜單上有的菜品;可是騰訊云作為一個(gè)巨大的計(jì)算資源提供者,完全有能力親自下廚,做“菜單上沒有的菜”——按照最優(yōu)的技術(shù)路線定制服務(wù)器

  沒錯(cuò),這就是王慧星他們心心念念一整年的“大殺器”。

  正如湯道生所說,“我是沒有殺手锏的,只能一點(diǎn)點(diǎn)說服人家上來”。星星海服務(wù)器,就是最“香”的論據(jù)。

  冥冥中,“基礎(chǔ)設(shè)施層(IaaS)上云”的天平第一次確定無疑地傾斜向騰訊云這一方。

  “唯一的問題就是時(shí)間。”劉潔欣回憶。

  每年春節(jié),是騰訊各個(gè)業(yè)務(wù)服務(wù)器最忙的時(shí)候,因?yàn)橐С执蠹疫^年玩游戲、發(fā)微信、搖紅包。。。CVM 團(tuán)隊(duì)特別想在2020年春節(jié)就拋出這顆“震撼彈”,讓業(yè)務(wù)們都用上星星海。

  但是,星星海裸服務(wù)器2019年10月才交付到 CVM 團(tuán)隊(duì)。

  畢竟是新款處理器,很多地方需要調(diào)整,CVM 團(tuán)隊(duì)又加班加點(diǎn)用了兩個(gè)月才搞定虛擬化系統(tǒng)適配,交給各個(gè)業(yè)務(wù)進(jìn)行測試時(shí)已經(jīng)到了年底,距離春節(jié)只有1個(gè)月時(shí)間了。

  大家雙手合十,祈禱不要出問題。

  (并非現(xiàn)場圖片。。。你就感受一下心情)

  祈禱果然。。。沒用。。。

  各個(gè)業(yè)務(wù)匯總的 Bug,又如亂箭射來。

  問題有多少呢?多到需要列在 Excel 表格里才能捋清楚。

  時(shí)間分秒流逝,CVM 這群人只能拼了:他們同時(shí)對(duì)接N個(gè)團(tuán)隊(duì),手動(dòng)維護(hù)了20個(gè) Excel 表格,每天半夜都要把各個(gè)項(xiàng)目的進(jìn)度檢查一遍才能睡著,第二天起來,還得接著接受新的“靈魂拷問”。

  過年前兩周,CVM 進(jìn)入了“至暗時(shí)刻”。。。

  微信團(tuán)隊(duì)為了保證除夕全國人民能順利搶紅包,提前對(duì)所有服務(wù)器都進(jìn)行了一輪“壓力測試”??墒牵瑝旱叫切呛7?wù)器的時(shí)候,報(bào)出了意料之外的失敗。

  大家一下懵了,要是星星海存在什么 Bug,那14億人春節(jié)發(fā)微信紅包。。。。

  這一刻,星星海實(shí)驗(yàn)室、CVM 和微信技術(shù)團(tuán)隊(duì)根本顧不上切分是誰的責(zé)任了,像下河救人一樣,一起跳進(jìn)代碼的汪洋。

  很快,問題定位出來:是 CVM 網(wǎng)卡虛擬化模塊存在一個(gè)小問題,很多虛擬機(jī)同時(shí)進(jìn)行大吞吐作業(yè)的時(shí)候,就會(huì)把網(wǎng)卡堵死。

  微信技術(shù)架構(gòu)部的負(fù)責(zé)人 Stephen Liu 回憶:

那種情況下,很多深層改動(dòng)都來不及了,我們緊急商量,決定把虛擬機(jī)切分得更細(xì),然后把消耗網(wǎng)絡(luò)的應(yīng)用和不消耗網(wǎng)絡(luò)的應(yīng)用混部在同一臺(tái)設(shè)備上,減輕網(wǎng)卡并發(fā)壓力。

  總之,先扛過春節(jié)再說!

  春節(jié)前五天,代碼修改完畢,微信的師傅們顫抖著雙手開始?jí)簻y。

  10%、20%、50%、100%。。。壓測通過?。?!

  全國人民發(fā)紅發(fā)的大事兒,總算穩(wěn)了。。。

  春節(jié)假期轉(zhuǎn)眼來臨,微信團(tuán)隊(duì)和 CVM 團(tuán)隊(duì)的同學(xué)們雖然肉身回到老家團(tuán)聚,但靈魂還守在電腦前,一直盯著后臺(tái)監(jiān)控,生怕再有什么問題。

  從除夕到初七,人們拜年、傳視頻、發(fā)紅包,一波波洪峰沖擊微信服務(wù)器,但是星星海絲般順滑,沒有任何問題。

  所有人長出一口氣,高懸了幾個(gè)月的心終于放在了平地上。

  然而,就在這群人準(zhǔn)備返回深圳生命不息折騰不止時(shí),全國各地的鵝廠同學(xué)收到通知:暫緩復(fù)工。

  新冠疫情爆發(fā)了。

  (五)斷壁殘?jiān)?/strong>

  故事講到這里,就要花開兩朵各表一枝了。

  一邊是騰訊各個(gè)產(chǎn)品投入史詩級(jí)別的抗疫戰(zhàn)爭,另一邊騰訊云“自研上云”的工作進(jìn)入了最艱苦卓絕的階段。

  我們先說騰訊云吧。

  你還記得我們的比喻嗎?云計(jì)算分為“云工人”(IaaS)和“云工頭”(PaaS)兩層。

  之前我們說的“上云”,其實(shí)只完成了第一步: 自研業(yè)務(wù)共用了“云工人”這樣的底層計(jì)算力(云IaaS)。

  但是別忘了,調(diào)度這些云工人的,依然還是各家的“舊工頭”。

  這有什么問題嗎?

  打個(gè)比方:這就像我住進(jìn)了酒店,卻不用酒店的客房服務(wù),而是用自己的廚師生火做飯、用自己的服務(wù)員洗衣服曬被子。

  你說這是住進(jìn)了酒店,也可以,但這。。。似乎和真正的住進(jìn)酒店又不太一樣。

  真正的上云,顯然是要完成第二步: 把自己家的“工頭”解雇,共用“云工頭”(云PaaS)。

  之前說過,“工頭”的種類很多,包括“計(jì)算調(diào)度平臺(tái)”、“數(shù)據(jù)存儲(chǔ)平臺(tái)”、“AI和大數(shù)據(jù)分析平臺(tái)”等等。這里為了簡化認(rèn)知,我們就說最有代表性的一個(gè),“計(jì)算調(diào)度平臺(tái)”

  騰訊云上的計(jì)算調(diào)度平臺(tái),使用了最流行的 Kubernetes “容器調(diào)度技術(shù)”,名叫 TKE (Tencent Kubernetes Engine)。

  TKE 這個(gè)“工頭”的原理很有趣:

你可以想象一下,它就像個(gè)“泡泡機(jī)”,把“云工人”包裹在一種叫做“容器”的泡泡里; 假如來了任務(wù)A,它就把任務(wù)A的代碼塞進(jìn)泡泡,讓工人干。干完活兒,就把泡泡扎破,工人就被釋放出來了; 下一秒來了任務(wù)B,TKE 就再吐一個(gè)泡泡,把任務(wù)B的代碼塞進(jìn)去,讓工人繼續(xù)干。如此反復(fù)。 從遠(yuǎn)處看起來,每秒鐘都有無數(shù)個(gè)泡泡產(chǎn)生,也有無數(shù)個(gè)泡泡寂滅,就像孫悟空吹毫毛,左邊變出百萬猴子猴孫,右邊收回成一把毫毛。

  TKE的“魔術(shù)”大概就像這樣。

  這一套以容器調(diào)度為核心的技術(shù)體系,可以大幅提高計(jì)算調(diào)配的效率,也能短時(shí)間擴(kuò)容縮容。由于它最適合在云上部署,人們又叫它“云原生技術(shù)”。

  如果非要比較的話,“云原生”和“非云原生”的技術(shù)差距,那就像加特林機(jī)槍和半自動(dòng)步槍的差距那么大。

  怎么樣,聽起來很厲害吧?

  但是,問題來了:

  相比上云第一步(使用 CVM 虛擬機(jī)),大家完成上云第二步(使用 TKE 為代表的云原生技術(shù))的熱情遠(yuǎn)遠(yuǎn)不足。。。

  為啥不用呢?王慧星一個(gè)團(tuán)隊(duì)一個(gè)團(tuán)隊(duì)地跑,詢問大家的困難所在。跑了一圈下來,反饋很殘酷:

過去十幾年,每個(gè)業(yè)務(wù)為了極致服務(wù)自己的用戶,都對(duì)自家的“計(jì)算調(diào)度模塊”做了很多定制化的功能。如果換成標(biāo)準(zhǔn)的 TKE,那好多功能就實(shí)現(xiàn)不了。。。

  打個(gè)比方:我原來的半自動(dòng)步槍上有刺刀,可以開罐頭,你現(xiàn)在讓我換機(jī)槍,我知道機(jī)槍更好,但你的機(jī)槍上有刺刀嗎?能開罐頭嗎?

  平胸而論,人家說得也有道理。

  局面一度尷尬:強(qiáng)推標(biāo)準(zhǔn)化技術(shù),微信、王者這樣的國民 App 對(duì)用戶的服務(wù)就可能降級(jí),那肯定不行;不強(qiáng)推,騰訊自研上云的進(jìn)度條就可能一直卡在50%,留下一屁股殘?jiān)珨啾?。?!?/p>

  這個(gè)死結(jié)要怎么破呢?

  回到歷史現(xiàn)場,我們不妨再推開騰訊總辦會(huì)議室的大門,來聽聽2019年騰訊云對(duì)總裁劉熾平的一次關(guān)鍵匯報(bào)。

  會(huì)上,由于感受到大家上 TKE 的困難,騰訊云同事特地使用了“迂回話術(shù)”,說:“只要用了 CVM,那也勉強(qiáng)算是上了騰訊云吧 。。?!?/p>

  他們心里想的是:留得青山在,下來再慢慢推動(dòng),總有辦法。

  可是,旁邊一個(gè)人聽到他這樣講,突然一嗓子打斷:“不行!”

  大家齊刷刷看向他。

  這個(gè)人是盧山。

  盧山

  盧山對(duì)劉熾平一通輸出,給他掰開揉碎講了半天“云原生”的原理。然后給結(jié)論:“如果不采用云原生技術(shù),僅僅用了云上的虛擬機(jī),那根本就享受不到云的核心好處,最終,騰訊的技術(shù)仍然是割裂的,上云就是失敗的!”

  盧山心里急,話說得很重。

  但是劉熾平完全聽懂了他的意思,當(dāng)即明確表態(tài)支持:所有業(yè)務(wù)必須走到“云原生”這第二步,才算完成上云。各業(yè)務(wù)必須配合!

  站在今天回看,盧山這挺身一喊無比重要,它直接把自研上云的船頭扶正,遠(yuǎn)離淺灘暗礁,節(jié)省了金子一樣的時(shí)間。

  其實(shí),在騰訊內(nèi)部,大家都聽說過盧山的一句名言:“往死里幫云”。

  這句話背后,有個(gè)頗為動(dòng)人的故事。

  之前我們提到,早年間為了統(tǒng)一騰訊的技術(shù),盧山的大多數(shù)沖鋒都沒能成功,唯一成功的少數(shù),就是在湯道生所帶領(lǐng)的SNG(也就是當(dāng)時(shí)QQ和QQ空間所在的部門)中實(shí)現(xiàn)的。

  那時(shí)候湯道生剛剛開始他的第一次“遠(yuǎn)征”,率QQ空間殺出重圍。

  QQ空間里,藏著很多人殺馬特的“黑歷史”。

  眾所周知,QQ空間的一個(gè)重磅功能就是“相冊(cè)”。而相冊(cè)的底層技術(shù)就是“存儲(chǔ)系統(tǒng)”。

  湯道生本身就是做數(shù)據(jù)庫出身,在彼時(shí)賽馬文化濃郁的騰訊,他完全可以拉起隊(duì)伍自己造一套存儲(chǔ)系統(tǒng),但是,他思來想去,把機(jī)會(huì)讓給了盧山帶領(lǐng)的 TEG 眾將,原因是統(tǒng)一技術(shù)底座對(duì)騰訊更有利。

  也正是因?yàn)闇郎臍v史擔(dān)當(dāng),才讓 TEG 有機(jī)會(huì)磨練了一支存儲(chǔ)隊(duì)伍。

  而后,存儲(chǔ)團(tuán)隊(duì)的負(fù)責(zé)人謝明帶著一群技術(shù)戰(zhàn)士篳路藍(lán)縷,不僅讓存儲(chǔ)系統(tǒng)服務(wù)了騰訊幾乎所有產(chǎn)品,成為人人稱道的技術(shù)底座,也在后來衍生出了騰訊 CDN、數(shù)據(jù)庫等等領(lǐng)先于世界的基礎(chǔ)技術(shù)。(有關(guān)這個(gè)內(nèi)容,可以參考、。)

  這是2016年,騰訊存儲(chǔ)團(tuán)隊(duì)在辦公室值守“春?!钡暮嫌啊?/strong>

  而盧山欽佩湯道生的格局,才在湯道生第三次“遠(yuǎn)征”之初,說出了“往死里幫云”這句話。

  盧山不僅是這么說,他還是這么做的。

  拿到總辦的認(rèn)可之后,盧山把配合上云的工作交給了“運(yùn)營管理部”。

  運(yùn)營管理部手握“尚方寶劍”,專門評(píng)估各業(yè)務(wù)對(duì)計(jì)算資源的使用情況,如果認(rèn)為不達(dá)標(biāo),運(yùn)營管理部是有權(quán)力讓你整改的。

  運(yùn)營管理部的負(fù)責(zé)人 Eric 組織大家制定了一套 “云成熟度模型” ,每個(gè)季度都對(duì)所有業(yè)務(wù)云原生的程度進(jìn)行評(píng)估,得高分不僅給獎(jiǎng)狀,還有獎(jiǎng)金拿;落后的自然就會(huì)有壓力。

  各個(gè)業(yè)務(wù)線的中的“阻力派”一看,技術(shù)委員會(huì)這是要玩兒真的了。。。

  這是2020年的一次開源協(xié)同治理頒獎(jiǎng)

  盧山對(duì)云的“往死里幫”,甚至都到了魔怔的程度。

  那天,盧山碰到了20年的老同事,平臺(tái)內(nèi)容事業(yè)群(PCG) 的技術(shù)負(fù)責(zé)人曾宇,他上來就劈頭蓋臉:“兄弟,你們得趕緊支持 TKE ?。 ?/p>

  曾宇哈哈一笑:“怎么沒支持?我都跟我們做容器的技術(shù)同學(xué)說了,要想繼續(xù)做容器就加入 TKE 團(tuán)隊(duì),不然就在內(nèi)部找位置,找不到就走人,反正我們 PCG 肯定不會(huì)繼續(xù)保留自己的容器平臺(tái)了!”

  聽到這話,盧山反而有點(diǎn)蒙:“?。磕銈兌贾С值竭@種程度了嗎?”

當(dāng)時(shí)我就感覺,20多年一起走來的老同事,雖然后來各管一攤,交流變少了,但大家的心其實(shí)在一起。很多老騰訊人嘴上不表達(dá),但關(guān)鍵時(shí)刻全都在默默推動(dòng)。

  盧山感慨。

  曾宇

  宜將剩勇追窮寇。為了掰正更多人的思想,那之后不久,盧山在一次內(nèi)部大會(huì)上,當(dāng)著曾宇的面又把這個(gè)故事講給現(xiàn)場的基層同事。

也許有一天,我們會(huì)離開騰訊,但如果那時(shí)我們回頭看,留下一堆技術(shù)上的殘?jiān)珨啾冢覀兊男臅?huì)不會(huì)痛?

  盧山說。

  說完,他看了一眼身邊的曾宇。曾宇的眼里有閃光。

  老戰(zhàn)友盧山不遺余力,湯道生自然更是百倍加油。

  “930變革”之后,在盧山和湯道生的聯(lián)合推動(dòng)下,騰訊成立了一個(gè)神秘的部門——“技術(shù)委員會(huì)”,這個(gè)部門由各大業(yè)務(wù)的技術(shù)負(fù)責(zé)人組成,相當(dāng)于一個(gè)“分布式 CTO”。

  技術(shù)委員會(huì)和各部門技術(shù)人的合影

  而在技術(shù)委員會(huì)下面,又成立了很多 Oteam,每個(gè) Oteam 對(duì)應(yīng)一個(gè)技術(shù)(也就是我們比喻中的“工頭”)。

  TKE Oteam,就是諸多 Oteam 中的一個(gè),非常重要的一個(gè)。

  在總辦定調(diào) “ 云原生才算完成上云” 之后,湯道生也誠懇地跟大家說:“上 TKE 有什么困難,請(qǐng)拿到 Oteam 例會(huì)來討論,我們一定服務(wù)好大家,找到兩全其美的技術(shù)方案!”

  私下里,湯道生又告訴騰訊云的同學(xué):只要兄弟團(tuán)隊(duì)遇到自研上云相關(guān)的技術(shù)問題,一定要百分百給出解答,要像服務(wù)外部客戶爸爸一樣服務(wù)騰訊兄弟團(tuán)隊(duì)。

  就這樣,湯道生的誠懇,感染了所有騰訊云的同事,騰訊云的同事們又把這種誠懇傳遞到了他們對(duì)接的業(yè)務(wù)線的基層團(tuán)隊(duì)中。

  一點(diǎn)一點(diǎn),一天一天,雖然沒什么轟轟烈烈的投票,但大多數(shù)騰訊人都默默站在了“徹底上云”的一側(cè),阻力的聲音越來越少。

  “云原生”的天平,也漸漸傾斜了。

  騰訊大大小小幾百個(gè)業(yè)務(wù),就這樣開始了轟轟烈烈的云原生改造。

  (六)在機(jī)槍上裝刺刀

  騰訊云容器產(chǎn)品中心的負(fù)責(zé)人鄒輝內(nèi)心冰火兩重天。

  一邊是集團(tuán)用百萬雄師下江南的氣勢推進(jìn)各個(gè)業(yè)務(wù)沖上 TKE;另一邊,鄒輝不想讓任何人覺得自己團(tuán)隊(duì)的兄弟們是躺在政策下面吃紅利的人。

  他們要用技術(shù)證明 TKE 就是最棒的選擇。

  沒有之一。

  可是,各個(gè)業(yè)務(wù)定制的“刺刀”,到底能不能插在 TKE這挺機(jī)槍上呢?

  “肯定沒問題!”

  搶過話頭的人,是于廣游 ,TKE 的負(fù)責(zé)人,說到容器的核心技術(shù) K8S(Kubernetes),他的眼神里閃爍著教徒一般的光芒。

TKE 不是人們想象中“堅(jiān)固而不可改造”的平臺(tái)。我了解 K8S 的技術(shù),它就像是一個(gè)核心操作系統(tǒng),兼容性非常強(qiáng)。無論什么定制化需求,一定有辦法做成“插件”形式,插在我們的容器平臺(tái)上。我對(duì) K8S 一統(tǒng)江湖堅(jiān)信不疑!

  于廣游說。

  各個(gè)團(tuán)隊(duì)的骨干在封閉開發(fā) TKE

  第一個(gè)找來的是騰訊游戲。

  游戲,其實(shí)是騰訊所有業(yè)務(wù)里軟件結(jié)構(gòu)最特殊的一個(gè)。為什么呢?因?yàn)橄耠娚?、社交這些互聯(lián)網(wǎng)業(yè)務(wù),它們的系統(tǒng)可以拆分成標(biāo)準(zhǔn)的“微服務(wù)”模塊,分別塞進(jìn)容器里。

  而游戲業(yè)務(wù),比如《王者榮耀》和《和平精英》,后臺(tái)服務(wù)模塊比較重,很難拆分成比較小的微服務(wù)模塊。

  另一方面,游戲服務(wù)的鏡像一般比較大,有的甚至達(dá)到十多GB。這么大的鏡像,在部署的時(shí)候,如果都從集中的倉庫下載,“倉庫大門”就會(huì)成為比較大的瓶頸。

  鄒輝他們和騰訊游戲的老師傅在 Oteam 會(huì)議上討論了無數(shù)次,決定搞一套“鏡像分發(fā)系統(tǒng)”,一個(gè)容器啟動(dòng)之后,會(huì)從相鄰的容器來拉取系統(tǒng)鏡像,而不是都訪問同一個(gè)中心點(diǎn)。這樣就能大幅提高容器的使用效率。

  游戲這邊剛解決了一兩個(gè)問題,那邊微信又找過來。

  微信自研的容器調(diào)度平臺(tái)叫 YARD,但是這套系統(tǒng)和 TKE 有很大的區(qū)別。一個(gè)顯著區(qū)別就是:比如當(dāng)年為了保證穩(wěn)定服務(wù),每個(gè)容器對(duì)應(yīng)的 IP 是固定的。隨著歷史沿革,“固定 IP”也就保留了下來。

  簡單來說就是,一個(gè)容器關(guān)閉之后,必須原地復(fù)活才能繼續(xù)提供服務(wù),否則就會(huì)引發(fā)錯(cuò)誤。

  但是,在 K8S 的哲學(xué)里,這卻是“不當(dāng)操作”。一個(gè)容器關(guān)閉之后,應(yīng)該隨便找個(gè)什么地方復(fù)活,這樣才能實(shí)現(xiàn)靈活調(diào)度。

  兩邊老師傅切磋了好幾個(gè)來回,最終微信團(tuán)隊(duì)決定做出改變,向 K8S 的主流技術(shù)靠攏。

  他們研發(fā)了一個(gè)插件,讓容器綁定了一個(gè)彈性地址,這樣,既不損害微信的歷史設(shè)計(jì)架構(gòu),又能實(shí)現(xiàn)容器異地重啟。

  于廣游告訴我,在解決這些問題的時(shí)候,他的心里其實(shí)一直在“滴血”。

  作為 K8S 的原教旨主義者,他感覺每一個(gè)插件都在讓這個(gè)輕盈的技術(shù)變得沉重。“在機(jī)槍上裝刺刀”并不是他心目中云原生該有的樣子。。。

  有時(shí)候,夜里回家路上,自己一個(gè)人郁悶,他甚至萌發(fā)出“這些人是不是在故意搞我”的疑問。

  但是,跟業(yè)務(wù)團(tuán)隊(duì)開過幾十場會(huì)以后,他漸漸改變了想法。

  業(yè)務(wù)側(cè)的老師傅并不是有意為難。因?yàn)榧夹g(shù)的生長就像生命的進(jìn)化,在歷史特定階段,為了給用戶提供最好的服務(wù),不得已必須把技術(shù)設(shè)計(jì)成那樣。而隨著產(chǎn)品繼續(xù)演進(jìn),這些舊架構(gòu)就成為產(chǎn)品的一部分,很難推翻重來了。

技術(shù)最終還是要為人服務(wù)的。慢慢地,我也成長了。我仍然堅(jiān)信 K8S 技術(shù)是未來,但一個(gè)技術(shù)成熟的標(biāo)注,不恰恰是它能夠兼容更多的舊架構(gòu)嗎?

  于廣游感慨。

  當(dāng)然,上面舉的例子,只是九牛一毛,比如 TKE 團(tuán)隊(duì)還和游戲團(tuán)隊(duì)一起,做了適合 Windows 的容器;和微信團(tuán)隊(duì)做了多地三園區(qū)的高可用容器調(diào)度架構(gòu)等等,細(xì)節(jié)繁復(fù),這里不一一介紹。

  其實(shí),從另外的角度看,這些細(xì)微繁瑣的技術(shù)點(diǎn),正是騰訊這群人在20多年里服務(wù)十億用戶積攢下來的寶貴經(jīng)驗(yàn)。

  在騰訊內(nèi)部,這些技術(shù)還有一個(gè)共同的名字,叫“海量之道”

  海量之道

  把各個(gè)業(yè)務(wù)的細(xì)微模塊一點(diǎn)點(diǎn)塞進(jìn) TKE 的過程,正是把騰訊“海量之道”搬上云的過程,也是把騰訊這二十年的“傳家寶”搬上云的過程。

  不知道你有沒有想到一個(gè)問題。

  你我前兩年都一直在用微信,但微信底層悄悄更換技術(shù)時(shí),我們好像沒有任何感覺啊。

  借用張志東的話,海量服務(wù)之道的核心就是“碰到不可抗力的時(shí)候,還能用技術(shù)保證用戶的體驗(yàn)最小程度受損”。

  微信基礎(chǔ)架構(gòu)的同事 Edsel 告訴我,為了實(shí)現(xiàn)用戶無感,他們把微信遷移到 TKE 的過程可以用“事無巨細(xì)”來形容。

我們做了詳細(xì)的預(yù)案。每一步遷移都有監(jiān)控系統(tǒng)在關(guān)注,如果指標(biāo)出發(fā)某個(gè)邏輯,就會(huì)判定遷移失敗,就能回退到舊的 YARD 系統(tǒng),而整個(gè)遷移過程哪怕失敗了,微信的用戶也不會(huì)有任何感覺。

  他說。

  你還記得我們之前要“花開兩朵,各表一枝”嗎?現(xiàn)在輪到了另一枝。

  正如貝多芬的《命運(yùn)交響曲》,最不朽的音符恰恰迸發(fā)自命運(yùn)向你揮動(dòng)重拳的那一刻。

  2020年的春天,就這樣降臨了。

  (七)2020年的春天

  就在 CVM 團(tuán)隊(duì)和微信團(tuán)隊(duì)緊張地盯著星星海服務(wù)器的春節(jié)檔口,疫情已經(jīng)來勢洶洶,越來越多的公司通知員工暫緩返回崗位,遠(yuǎn)程辦公。

  隨之而來的,就是在線會(huì)議的用戶指數(shù)級(jí)飆升。

  當(dāng)時(shí)的騰訊會(huì)議,總共只有幾十個(gè)人,團(tuán)隊(duì)原本的計(jì)劃是慢慢來,一點(diǎn)點(diǎn)發(fā)展市場,做大做強(qiáng)。

  然鵝,疫情來了,容不得你慢慢來了。。。

  從過年開始,騰訊會(huì)議在線人數(shù)一天翻一番,原本為5萬并發(fā)設(shè)計(jì)的系統(tǒng)架構(gòu),眼看已經(jīng)扛到了10萬、20萬、40萬并發(fā),還一直在上漲。

  最先扛不住的肯定是 IaaS 層的計(jì)算力資源。

  這件事情在幾天內(nèi)就驚動(dòng)了總辦,批示各團(tuán)隊(duì)協(xié)作在最短時(shí)間內(nèi)擴(kuò)容。

  可是,程序上批準(zhǔn)了,技術(shù)上能實(shí)現(xiàn)嗎?

  粗略估算,在一天之內(nèi)就要加幾十萬核 CPU 資源,目測只有 CVM 的虛擬機(jī)可以做到。

  于是,騰訊歷史上從未發(fā)生過的奇跡開始上演:騰訊云上所有的剩余資源全部被喚醒,統(tǒng)一做成支持騰訊會(huì)議的虛擬機(jī)型號(hào),偌大的騰訊,帶寬資源和計(jì)算力資源被雙雙用滿了。

  即便這樣,計(jì)算力還是有缺口。

  慌忙中,運(yùn)管部門看到了庫房里還有剛剛退役的幾千臺(tái)舊機(jī)器,這時(shí)也管不了那么多,舊機(jī)器總比沒機(jī)器好。趕緊又拉回機(jī)房重新上線,接入騰訊云。

  就這樣,巨大的底層計(jì)算力像無盡的彈夾,填進(jìn)了騰訊云的槍膛,如火舌一般奔涌而出。

  工人這一層總算勉強(qiáng)撐住,接下來,考驗(yàn)的就是工頭了。

  騰訊會(huì)議使用到的核心模組就是“音視頻實(shí)時(shí)通信組件”,負(fù)責(zé)高效傳遞會(huì)議各方的圖像和聲音。

  這個(gè)組件在騰訊里名叫 TRTC (Tencent Real-Time Communication) ,他的負(fù)責(zé)人是薛笛。

  薛笛早在手機(jī)QQ剛推出不久,就開始研發(fā)語音通信功能了,算算這已經(jīng)是多少年的“老革命”了。

  可是,老革命也遇到新問題。。。

  這么瘋狂增長的用戶潮,TRTC 也沒見過啊。很快,架構(gòu)就出現(xiàn)了瓶頸,無法繼續(xù)放大。薛笛趕緊帶隊(duì)殺向代碼的戰(zhàn)場,緊急升級(jí)架構(gòu)。

  “當(dāng)時(shí)的感覺,就像站在洪峰中抗洪?!彼貞?。

  可即便是這樣,TRTC 開發(fā)團(tuán)隊(duì)的人數(shù)還是有限的,眼看工期就要延誤。。。

  就在這時(shí),騰訊各個(gè)技術(shù)團(tuán)隊(duì)的負(fù)責(zé)人聽到騰訊會(huì)議爆了,全都主動(dòng)請(qǐng)纓,想要給予技術(shù)支持。

  史詩級(jí)的畫面出現(xiàn)了:

  已經(jīng)趕回深圳的人,就在辦公室吃住開發(fā);仍然在老家的,就遠(yuǎn)程貢獻(xiàn)代碼。

  擅長做分布式的就做分布式,擅長做負(fù)載均衡的就做負(fù)載均衡,擅長流量調(diào)度的就做流量調(diào)度。

  所有人都毫無保留地把畢生經(jīng)驗(yàn)和珍藏代碼奉獻(xiàn)出來。

  多個(gè)團(tuán)隊(duì)的成員一起幫騰訊會(huì)議擴(kuò)容(屏幕上還有遠(yuǎn)程的同學(xué))

  
這個(gè)瞬間,被大家吐槽了十幾年的“獨(dú)立莊園”不見了,出現(xiàn)在眼前的人只有一個(gè)身份——“騰訊人”。

  升級(jí)后的 TRTC 代碼被緊急部署在騰訊云的100萬顆核心上,在騰訊云遍及全國的網(wǎng)絡(luò)專線中縱橫脈沖。

  雖然很多模塊是臨時(shí)加增的,來不及仔細(xì)整理,但騰訊會(huì)議卻沒有給騰訊技術(shù)人丟臉,它彪悍地?fù)纹鹆藬?shù)億人在網(wǎng)上的圖像和聲音互動(dòng),進(jìn)而撐起了千萬家公司跨越大江南北的會(huì)議溝通。

  在各自冰封的城市中,人們通過電流看到同事們熟悉的臉,聽到同事熟悉的聲音,一切也顯得并沒那么糟糕了。

  由此,社會(huì)生產(chǎn)得以一點(diǎn)點(diǎn)復(fù)蘇。

  2020年迎接武漢員工返回深圳時(shí)的照片

  塵埃稍稍落定,從硝煙中走出來的騰訊人相視一笑。雖然彼此無言,但每個(gè)人都確鑿無疑地感受到,有些東西永遠(yuǎn)地被改變了。

  仿佛空氣中彌漫起新鮮的氧氣,再也沒人懷疑“開源協(xié)同”和“自研上云”的意義,曾經(jīng)無比堅(jiān)固的“莊園圍墻”就這樣如冰雪消逝,再無人懷戀。

  其實(shí),這世界上哪里有圍墻,所有的圍墻不過是在人心里罷了。

  騰訊會(huì)議,就這樣陰差陽錯(cuò)地成為了騰訊第一個(gè)誕生在云上的應(yīng)用。它用自己核彈般的爆炸證明了云計(jì)算的狂暴力量。

  由此,自研上云吹響了總攻的號(hào)角——最難啃的骨頭,數(shù)據(jù)庫、大數(shù)據(jù)平臺(tái)、AI平臺(tái)等等都紛紛開始了摧枯拉朽的云上遷徙。

  (八)命運(yùn)棋盤上的一顆釘子

  如果從自研上云正式啟動(dòng)的2018年底開始算,2021年底應(yīng)該是湯道生的“三年之約”到期之時(shí)。

  他的承諾實(shí)現(xiàn)了。

  站在命運(yùn)之河的對(duì)岸回頭看,湯道生卻驚出一身冷汗。

  過去三年,互聯(lián)網(wǎng)行業(yè)環(huán)境已經(jīng)發(fā)生了天翻地覆的變化——業(yè)務(wù)受阻、用戶飽和、監(jiān)管趨嚴(yán)、估值下降,過去的那片草原一夜之間寒霜降臨,“動(dòng)物們”悉數(shù)進(jìn)入嚴(yán)冬。

  如果“自研上云”不是此刻完成,而是此刻才啟動(dòng),難以想象寒冬中的騰訊將付出比現(xiàn)在多幾倍沉重的代價(jià)。

  由此觀之,“自研上云”的過程,仿佛歷史的機(jī)會(huì)之門微微張開了窄縫,騰訊剛剛狂奔而過,回頭望,大門已經(jīng)緊閉。

  騰訊眾將逃過了命運(yùn)的絞殺,正如一頭角馬沖過鱷魚環(huán)伺的馬拉河,回望血色的河水。

  “確實(shí)很慶幸,當(dāng)年做了這個(gè)選擇?!睖郎锌?/p>

  “自研上云成功之后,你們有沒有搞一個(gè)慶祝會(huì)?”我問湯道生。

  “好像沒有誒,我們就這樣每兩周一次總辦會(huì)議,每次都復(fù)盤、微調(diào),就這樣過去了。。?!?/p>

  湯道生的回答很騰訊。

  在這家公司的歷史上,你最難找到的就是“轟轟烈烈”。翻開歷史,這群人似乎總是在問題還沒壞到不可收拾的時(shí)候,就聚在一起研究解法;而在波濤平復(fù)后,他們又馬上恢復(fù)到平凡的節(jié)奏里。

  他們小心翼翼地不讓自己陷入“步兵趟雷、萬歲沖鋒”的境地。

  這樣的“無趣人生”,屬于普通的騰訊員工們,也屬于總辦的這些“老男孩”們。

  雖然從外表觀看,企鵝還是企鵝,并無任何異樣;但如果你剖開它的軀體,內(nèi)部已經(jīng)移髓換血:

  騰訊游戲技術(shù)運(yùn)營部負(fù)責(zé)人劉棲銅告訴我,過去一到逢年過節(jié)或者宣傳節(jié)點(diǎn),騰訊游戲就要提前一個(gè)月申請(qǐng)購買服務(wù)器,擴(kuò)充資源;重大節(jié)點(diǎn)過去一個(gè)月,才能慢慢把服務(wù)器撤下來。

  而現(xiàn)在,云上擴(kuò)縮容只需要幾個(gè)小時(shí)——明天要擴(kuò)容,今天在騰訊云上點(diǎn)幾下按鈕就OK。

  騰訊會(huì)議的技術(shù)負(fù)責(zé)人陳健生告訴我,在2022年新的一波疫情來臨時(shí),騰訊會(huì)議已經(jīng)承載了千萬級(jí)并發(fā),這個(gè)數(shù)量已經(jīng)遠(yuǎn)超2020年的量級(jí)。但這次,整個(gè)團(tuán)隊(duì)心情平靜,完全不會(huì)有上次的驚慌。

  微信技術(shù)架構(gòu)部負(fù)責(zé)人 Stephen Liu 還記得,當(dāng)年北京下了一場大雪,人們紛紛在朋友圈曬圖就把朋友圈的存儲(chǔ)系統(tǒng)給打掛了;如今存儲(chǔ)系統(tǒng)跑在騰訊云上,也不會(huì)再出現(xiàn)容量不足的情況。

  “運(yùn)維起來就像自動(dòng)駕駛。”他說。

  騰訊云清遠(yuǎn)數(shù)據(jù)中心,是它在國內(nèi)最大的數(shù)據(jù)中心

  微信視頻號(hào)后臺(tái)開發(fā)工程師 Bok 告訴我,過去使用云下系統(tǒng),一次更新發(fā)布至少要一個(gè)半小時(shí),但是上云之后,直接銷毀舊容器,拉起新容器,全過程只用35分鐘就能完成。

  2022年,微信視頻號(hào)異軍突起。巨大的放量面前,直播、短視頻卻沒有遇到瓶頸,也為騰訊云的技術(shù)做了最好的證明。

  雖然騰訊云交出的答卷很圓滿,但邱躍鵬仍然覺得不夠。

  “騰訊內(nèi)部的業(yè)務(wù)大多都是互聯(lián)網(wǎng)業(yè)務(wù),而騰訊云對(duì)外服務(wù)的有很多都是實(shí)體行業(yè)。怎么把服務(wù)互聯(lián)網(wǎng)的經(jīng)驗(yàn)?zāi)贸鰜矸?wù)他們,是我們一直要思考的。”邱躍鵬說。

  為了讓這些經(jīng)驗(yàn)適應(yīng)更多行業(yè),王慧星的眼睛必須穿透服務(wù)器,進(jìn)入最底層的板卡、芯片和電流。

從虛擬化的角度說,現(xiàn)在我們已經(jīng)做到把虛擬化交給專用的芯片來做,虛擬化損耗已經(jīng)降低到0%。 從計(jì)算密度的角度說,現(xiàn)在很多人工智能服務(wù)器的耗能很高,如果能有辦法抑制GPU芯片的空轉(zhuǎn),那么大型數(shù)據(jù)中心就還能把能耗降低一大截; 從芯片指令集的角度說,其實(shí)云計(jì)算日常只用到了所有指令集里的一部分,同樣是計(jì)算“1+1”,普通指令集也許需要2000次運(yùn)算,但經(jīng)過優(yōu)化的指令集,也許只需要1000次運(yùn)算。這樣就能一下子把能耗砍掉50%。 從云上開發(fā)的角度說,我們還可以提供更多云上的開發(fā)工具,讓大家不用寫代碼,拖拖拽拽就能開發(fā)出下一個(gè)“騰訊會(huì)議”。這樣,技術(shù)就不再是創(chuàng)意的絆腳石,任何人都有機(jī)會(huì)在云上做出國民級(jí)的應(yīng)用。

  他說。

  他關(guān)心的,其實(shí)還是云計(jì)算的根本命題——效率。 而云計(jì)算的效率,怎么關(guān)心都不過分。

  我們不妨把目光重新投向那片草原,那個(gè)兵分兩路的騰訊。

那些留在寒冬中“動(dòng)物”們,只有不斷提高計(jì)算效率,才能得到更多“養(yǎng)料”,從而更好地服務(wù)消費(fèi)者,在越來越慘烈的生存大逃殺中走到最后; 而帶隊(duì)遠(yuǎn)征的騰訊云,也必須依靠最高的計(jì)算效率,才能翻越“玻璃幕墻”,可以在更廣闊的世界里提供“牧草”,支持國計(jì)民生和無數(shù)有夢(mèng)想的創(chuàng)業(yè)企業(yè)。

  2022年,湯道生仍然像從前一樣沖在一線。不是見客戶,就是在見客戶的路上。 而這次,面對(duì)用戶的詰問——“你們騰訊產(chǎn)品是不是跑在騰訊云上”,他的答案是:是!

  至此,湯道生的第三次遠(yuǎn)征跳出了“玻璃幕墻”,在9年的念念不忘后,終究聽見回響。

  “動(dòng)物”和“牧草”的比喻,貫穿了這篇文章。其實(shí),我一直沒有明確回答一個(gè)問題:騰訊為 什么不老老實(shí)實(shí)做“動(dòng)物”,而是心心念念要做“牧草”?

  因?yàn)槲蚁氚堰@個(gè)問題留給騰訊的創(chuàng)始人馬化騰親自回答。

  在接受《故事硬核》采訪時(shí),馬化騰曾經(jīng)說過一段話:

如果一個(gè)非洲大草原,你是一群動(dòng)物,你沒有了,人家還會(huì)換一批。但如果沒有草原、沒有雨露,沒有生態(tài)中的一環(huán)的話,那就是不行的。所以要到這個(gè)程度,才是我們的價(jià)值。

  由此可證,命運(yùn)如棋局,任何一種動(dòng)物,都只是棋盤上的棋子,隨時(shí)可以被吃掉,被犧牲,被清除;而當(dāng)你成為草原和雨露,你便不再是棋子,而是命運(yùn)的棋盤上釘下的一顆釘子。

  騰訊云,就是那顆釘子。

  (九)星星們

  湯道生也有被刺痛的瞬間。

  不是騰訊云丟了大訂單時(shí),也不是自研上云遇到阻力時(shí)。而是在樂問上看到基層同事對(duì)云發(fā)出特別“狠”的批評(píng)時(shí)。

  批評(píng)當(dāng)然沒問題,但是湯道生敏感地意識(shí)到,當(dāng)人們開始用“狠話”的時(shí)候,一定是溝通出了問題。

  每逢這時(shí),他就更加努力地去疏通溝通渠道,解開誤會(huì)。他于是定了規(guī)矩,“內(nèi)網(wǎng)上的吐槽,騰訊云必須在一小時(shí)內(nèi)給出回復(fù)和解答方案”。

  “后來,樂問上有夸你們的帖子嗎?”我問。

  “樂問上好像不夸人的?!睖郎?。

  但確鑿無疑的是,對(duì)騰訊云尖銳的批評(píng)減少了。

  即便有批評(píng),評(píng)論區(qū)也會(huì)有其他團(tuán)隊(duì)自發(fā)上去解釋,幫忙澄清真相。每當(dāng)看到這樣的評(píng)論,湯道生就會(huì)心底涌過一道暖流,這比什么都開心。

  因?yàn)檫@是他心中騰訊該有的樣子。

  樂問上的一個(gè)帖子

  在和我聊天的時(shí)候,盧山經(jīng)常會(huì)把2018年口誤說成“98年”。

  1998年,也許有的讀者還沒出生,但那一年,卻是盧山從中科大計(jì)算機(jī)畢業(yè)的年份。

  如果遙想當(dāng)年,大學(xué)畢業(yè)的盧山也和如今的年輕人一樣,對(duì)未來充滿憧憬,熱切地想要發(fā)光,也對(duì)人生的種種鋒利有些許怯場。

  1998年,也是騰訊成立的年份,那時(shí)的馬化騰還在勤勤懇懇扮妹子,吸引QQ最初的100個(gè)用戶,并不知曉幾年后自己會(huì)差點(diǎn)賣掉燒錢燙手的騰訊,更不知道工商注冊(cè)時(shí)唯一可用的“騰訊”二字有機(jī)會(huì)在中國互聯(lián)網(wǎng)的歷史上留下濃重的一筆。

  1998年,也恰好是湯道生從斯坦福大學(xué)碩士畢業(yè)一周年,每天用英語跟美國同事研究數(shù)據(jù)庫技術(shù)的他,不曾想到自己將要回國,輾轉(zhuǎn)參與到云計(jì)算的偉大歷史進(jìn)程中。

  但是,歲月奔流。

  2022,盧山終于打破了騰訊的“莊園藩籬”,硬是把開源協(xié)同寫進(jìn)了企鵝的基因,把“技術(shù)沙漠”的帽子拋進(jìn)了大海中央;

  2022,喜愛幻想的湯道生也完成了華麗的轉(zhuǎn)型,把手中的萌萌噠的QQ安放在時(shí)代的河流中,抽刀揮旗,帶領(lǐng)騰訊眾將找到新的豐美草原;

  2022,張志東沒有回來,但騰訊 CTO 的椅子卻不再是那首“等待續(xù)句的詩”,“技術(shù)委員會(huì)”的新銘牌在陽光下星點(diǎn)閃爍。騰訊的技術(shù)理想,將由這些穿過時(shí)光荊棘的人共同守衛(wèi)。

  2022,騰訊“自研上云”轟轟烈烈的“遷徙之歌”也度過了高潮部分。大草原上奮蹄揚(yáng)起的煙塵背后,“馬拉河”里的鱷魚也慢慢潛入水下,等待下一次咬斷獵物喉嚨的時(shí)機(jī)。

  草原的黃昏下,生命的舞劇經(jīng)久不息地上演,其中具體的面孔也許終會(huì)被人遺忘,但背后對(duì)于現(xiàn)狀的不甘和改變的勇氣,卻是和草原一樣永恒的存在。

  2013年的“WE 大會(huì)”上,說出“我們很怕”的馬化騰還分享了一個(gè)小故事:

  在騰訊上市之前,他偶然和同事聊起來,發(fā)現(xiàn)很多人也和自己一樣喜歡天文。于是感慨,現(xiàn)在不僅沒有時(shí)間觀測星空,光污染還特別嚴(yán)重。

  說著說著,他們開始幻想,有朝一日,能不能在遠(yuǎn)處安裝一個(gè)望遠(yuǎn)鏡,然后通過信號(hào)連接,在家里的電腦或手機(jī)上就能觀測天文。

  當(dāng)時(shí)大家覺得這就是天方夜譚,談資罷了。

  然而,幾年過去,有位同事真的跑來,說自己在云南買了一個(gè)民居,在里面專門搭了天文臺(tái),代碼遠(yuǎn)程控制,畫面自動(dòng)傳回。

  馬化騰很有感觸。他的結(jié)論是:現(xiàn)實(shí)殘酷,偶爾會(huì)怕,但有些火花無論如何不能磨滅。因?yàn)闊崆榍∈侨藗儓?jiān)持的動(dòng)力。

  人總有無奈。馬化騰喜歡星星,劉熾平喜歡火箭,湯道生喜歡哆啦A夢(mèng)——但可能很長時(shí)間內(nèi),騰訊沒辦法造火箭,更造不出時(shí)光機(jī)。

  但把“騰訊云”作為這個(gè)階段自己人生命題的答案之一,也未嘗不可。

  畢竟,在神降臨前的日子,凡人的雙腳被埋在土地中,也許究其一生都要在溝壑縱橫的棋盤上和殘酷的命運(yùn)作戰(zhàn)。

  可是,每當(dāng)涼夜降臨,你抬頭看,星星一定會(huì)在那等你。

  它們?nèi)绫碎W耀,它們?nèi)绫藢捜荨?/p>

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

淺黑科技官方 incentive-icons
淺黑科技官方
科技有溫情
284文章數(shù) 22967關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈(zèng)里的“詩與遠(yuǎn)方

無障礙瀏覽 進(jìn)入關(guān)懷版