国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Transformer 如何將 AI 計(jì)算效率提升 100 倍?|DeepMind 首席科學(xué)家最新演講

0
分享至



11月25日,Google DeepMind首席科學(xué)家 Jeff Dean在斯坦福 AI 俱樂(lè)部發(fā)表演講。本次演講 Jeff Dean全面復(fù)盤(pán)了過(guò)去 15 年 AI 技術(shù)的關(guān)鍵轉(zhuǎn)折點(diǎn),探討了算力硬件與模型架構(gòu)的協(xié)同進(jìn)化、計(jì)算范式從 CPU 向TPU的必然轉(zhuǎn)移、大規(guī)模深度學(xué)習(xí)系統(tǒng)的工程哲學(xué)、Transformer 架構(gòu)的效率革命、自監(jiān)督學(xué)習(xí)與多模態(tài)模型的崛起,以及 AI 在數(shù)學(xué)推理與科學(xué)研究中的前沿應(yīng)用。

Jeff Dean 指出,機(jī)器學(xué)習(xí)在過(guò)去十年徹底重塑了計(jì)算能力的邊界。這種變革并非單點(diǎn)突破,而是“規(guī)?!迸c“算法”的乘數(shù)效應(yīng)。他詳細(xì)拆解了 Google Brain 早期的工程決策,指出為了突破算力瓶頸,團(tuán)隊(duì)采用了在數(shù)學(xué)上看似“完全不成立”的異步訓(xùn)練方法,這種工程實(shí)踐最終被證明是實(shí)現(xiàn)大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵。他還特別強(qiáng)調(diào)了硬件演進(jìn)的底層邏輯:Google 研發(fā) TPU 并非為了追求單純的算力堆疊,而是被“1億用戶每天使用3分鐘語(yǔ)音識(shí)別”這一實(shí)際算力缺口倒逼出的架構(gòu)創(chuàng)新,他強(qiáng)調(diào),硬件的演變不僅僅是速度的提升,更是為了適應(yīng)低精度線性代數(shù)運(yùn)算的本質(zhì)需求。

在模型架構(gòu)層面,Jeff Dean 深入剖析了從 LSTM 到 Transformer 的范式跨越,并提出了當(dāng)前前沿模型的一個(gè)關(guān)鍵共識(shí):現(xiàn)代大模型(如 Gemini)本質(zhì)上應(yīng)是“稀疏”的。他指出,處理單一任務(wù)時(shí)激活整個(gè)網(wǎng)絡(luò)是巨大的資源浪費(fèi),通過(guò)稀疏架構(gòu)僅激活 1%-5% 的參數(shù),可以在算力成本不變的前提下實(shí)現(xiàn)性能的指數(shù)級(jí)躍升。此外,他還探討了自監(jiān)督學(xué)習(xí)如何利用海量文本數(shù)據(jù)進(jìn)行“填空訓(xùn)練”,以及在后訓(xùn)練階段如何通過(guò)強(qiáng)化學(xué)習(xí)和蒸餾技術(shù)進(jìn)一步提升模型的安全性和推理能力。

01

計(jì)算范式的重構(gòu):從通用 CPU 到機(jī)器學(xué)習(xí)專用算力的演進(jìn)

Jeff Dean今天我想和大家探討AI 領(lǐng)域的重要趨勢(shì),主要是回顧過(guò)去 15 年左右的發(fā)展,以及這些進(jìn)展是如何緊密結(jié)合,從而構(gòu)建出我們今天所擁有的現(xiàn)代高能力模型的。這展示了 Google 許多人的工作成果,其中一些也源自其他地方,我有時(shí)只是一個(gè)信使,有時(shí)是合作者,也是其中部分技術(shù)的開(kāi)發(fā)者。

首先有幾個(gè)觀察。我認(rèn)為在過(guò)去十年左右,機(jī)器學(xué)習(xí)已經(jīng)完全改變了我們對(duì)計(jì)算機(jī)能力的預(yù)期。十年前,你無(wú)法獲得非常自然的語(yǔ)音識(shí)別體驗(yàn),也無(wú)法與計(jì)算機(jī)流暢對(duì)話。它們?cè)趫D像識(shí)別或理解視覺(jué)內(nèi)容方面表現(xiàn)不佳,也并不真正理解語(yǔ)言。

發(fā)生的變化是,我們發(fā)現(xiàn)了一種特定的基于深度學(xué)習(xí)的方法范式,也就是神經(jīng)網(wǎng)絡(luò)。隨著我們擴(kuò)大規(guī)模,增加算力確實(shí)帶來(lái)了極好的結(jié)果。在這個(gè)過(guò)程中,我們開(kāi)發(fā)了真正新穎且有趣的算法和模型架構(gòu),這些改進(jìn)也帶來(lái)了巨大的提升。這些因素通常能很好地結(jié)合,因此更大的規(guī)模配合更好的算法,往往能發(fā)揮出更優(yōu)異的效果。

另一件在整個(gè)計(jì)算行業(yè)產(chǎn)生重大影響的事情是,我們想要運(yùn)行的計(jì)算類型以及運(yùn)行這些計(jì)算的硬件已經(jīng)發(fā)生了巨大變化。十五年前,你主要關(guān)心 CPU 有多快,也許關(guān)心它有多少個(gè)核心,能否快速運(yùn)行 Microsoft Word 和 Chrome 或傳統(tǒng)的手工編寫(xiě)程序。而現(xiàn)在你關(guān)心的是:它能在各種不同的約束條件下運(yùn)行有趣的機(jī)器學(xué)習(xí)計(jì)算嗎?

02

你需要一百萬(wàn)倍的算力才能制作出真正好的神經(jīng)網(wǎng)絡(luò)

讓我們快速回顧一下機(jī)器學(xué)習(xí) 15 年來(lái)的進(jìn)步。神經(jīng)網(wǎng)絡(luò)被證明是一個(gè)相對(duì)古老的想法。這種在邊緣具有權(quán)重并可以學(xué)習(xí)識(shí)別特定模式的人工神經(jīng)元概念,實(shí)際上非常重要。與之相結(jié)合,反向傳播作為一種學(xué)習(xí)邊緣權(quán)重的方法被證明是關(guān)鍵所在,因?yàn)檫@樣你就可以根據(jù)擁有的一些錯(cuò)誤信號(hào),對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行端到端學(xué)習(xí)。

這是我在 1990 年,也就是大四那年第一次了解神經(jīng)網(wǎng)絡(luò)時(shí)的情況。我當(dāng)時(shí)非常興奮,心想:“這是一個(gè)如此偉大的抽象概念,這將非常棒。我們可以構(gòu)建真正偉大的模式識(shí)別系統(tǒng)并解決各種問(wèn)題?!蔽耶?dāng)時(shí)激動(dòng)地說(shuō):“我要寫(xiě)一篇關(guān)于神經(jīng)網(wǎng)絡(luò)并行訓(xùn)練的畢業(yè)論文?!?/p>

我最終做的是嘗試使用系里的 32 處理器機(jī)器而不是單臺(tái)機(jī)器,我想我們將能夠構(gòu)建真正令人印象深刻的神經(jīng)網(wǎng)絡(luò)。我基本上在這臺(tái)時(shí)髦的基于超立方體架構(gòu)的機(jī)器上實(shí)現(xiàn)了現(xiàn)在所說(shuō)的神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)并行和模型并行訓(xùn)練,然后觀察添加更多處理器時(shí)它是如何擴(kuò)展的。結(jié)果證明我完全錯(cuò)了。你需要一百萬(wàn)倍的算力才能制作出真正好的神經(jīng)網(wǎng)絡(luò),而不是僅僅 32 倍。這是一個(gè)有趣的練習(xí),但結(jié)果表明當(dāng)時(shí)的算力規(guī)模遠(yuǎn)不足以支撐這一概念。

2012 年,我在 Google 的茶水間碰到了 Andrew Ng。我問(wèn)他:“嗨 Andrew,你在這里做什么?”他說(shuō):“我開(kāi)始每周在 Google 花一天時(shí)間。我還沒(méi)完全搞清楚要做什么,但我在 Stanford 的學(xué)生開(kāi)始在各種語(yǔ)音問(wèn)題上用神經(jīng)網(wǎng)絡(luò)取得不錯(cuò)的結(jié)果?!蔽艺f(shuō):“那很酷,我們應(yīng)該訓(xùn)練真正大規(guī)模的神經(jīng)網(wǎng)絡(luò)?!边@就是 Google Brain 項(xiàng)目的起源:我們?nèi)绾卫煤A坑?jì)算來(lái)擴(kuò)展神經(jīng)網(wǎng)絡(luò)的大規(guī)模訓(xùn)練?那時(shí)我們的數(shù)據(jù)中心實(shí)際上沒(méi)有加速器,只有大量擁有許多核心的 CPU。我們最終構(gòu)建了名為 DistBelief 的軟件抽象,這最終支持了模型并行以及數(shù)據(jù)并行。

03

異步訓(xùn)練悖論:“這在數(shù)學(xué)上完全不成立,但結(jié)果證明它有效”

事實(shí)上,我們對(duì)模型的多個(gè)副本進(jìn)行了這種時(shí)髦的異步訓(xùn)練。在用一批數(shù)據(jù)進(jìn)行每一步訓(xùn)練之前,其中一個(gè)副本會(huì)下載當(dāng)前的參數(shù)集,它會(huì)全力處理這批數(shù)據(jù)的訓(xùn)練并計(jì)算梯度更新,即 ΔW,并將其發(fā)送給參數(shù)服務(wù)器,然后參數(shù)服務(wù)器會(huì)將 ΔW 累加到當(dāng)前的參數(shù)狀態(tài)中。

這在數(shù)學(xué)上完全不成立,因?yàn)榕c此同時(shí),所有其他模型副本也在計(jì)算梯度并將它們異步地添加到這組共享的參數(shù)狀態(tài)中。這讓很多人感到緊張,因?yàn)樗鼘?shí)際上不符合理論上的做法,但結(jié)果證明它有效。我們構(gòu)建了系統(tǒng),讓模型的 200 個(gè)副本都異步地運(yùn)轉(zhuǎn)并更新參數(shù),效果相當(dāng)不錯(cuò)。我們還有模型并行,可以將非常大的模型劃分到許多計(jì)算機(jī)上。這個(gè)系統(tǒng)使我們?cè)?2012 年能夠訓(xùn)練比以前任何人訓(xùn)練過(guò)的規(guī)模都要大 50 到 100 倍的神經(jīng)網(wǎng)絡(luò)。它們現(xiàn)在看起來(lái)真的很小,但在那時(shí)我們非常興奮。

04

無(wú)監(jiān)督學(xué)習(xí)的涌現(xiàn):“它從未被教過(guò)貓是什么,卻自己總結(jié)出了貓的概念”

我們使用這個(gè)系統(tǒng)做的第一件事就是后來(lái)聞名的“貓論文”,我們從隨機(jī)的 YouTube 視頻中提取了 1000 萬(wàn)個(gè)隨機(jī)幀,并僅僅使用一個(gè)無(wú)監(jiān)督目標(biāo)函數(shù)來(lái)學(xué)習(xí)一種表示,然后用它來(lái)重建每一幀的原始像素。學(xué)習(xí)目標(biāo)有點(diǎn)像是試圖最小化給定輸入幀的重建誤差。你不需要任何標(biāo)簽,事實(shí)上,系統(tǒng)從未看到過(guò)無(wú)監(jiān)督部分的任何標(biāo)記數(shù)據(jù)。

我們發(fā)現(xiàn),在這個(gè)模型的頂層,最終會(huì)得到對(duì)圖像是否包含不同種類的高級(jí)概念敏感的神經(jīng)元。即使它從未被教過(guò)貓是什么,也有一個(gè)神經(jīng)元,你能給它的最強(qiáng)刺激就是像貓臉一樣的東西。它只是通過(guò)接觸這些數(shù)據(jù)就自己總結(jié)出了貓的概念。還有針對(duì)人臉、行人背部或類似事物的其他神經(jīng)元。

也許更重要的是,我們?cè)谳^為冷門的 ImageNet 22,000 類別基準(zhǔn)測(cè)試上獲得了現(xiàn)有技術(shù)的巨大提升。大多數(shù)人競(jìng)爭(zhēng)的是 1,000 類別那個(gè)。我們當(dāng)時(shí)想,讓我們做 22,000 類別的那個(gè)。我們?cè)诂F(xiàn)有技術(shù)上獲得了 70% 的相對(duì)提升。我們還證明,如果做無(wú)監(jiān)督預(yù)訓(xùn)練,實(shí)際上在準(zhǔn)確性上獲得了相當(dāng)顯著的增加。

05

從詞向量到 LSTM 的序列預(yù)測(cè)

我們也開(kāi)始思考語(yǔ)言,并研究如何獲得單詞的良好分布式表示。與其將單詞表示為離散的符號(hào),我們希望為每個(gè)單詞建立一個(gè)類似神經(jīng)網(wǎng)絡(luò)的表示,然后能夠?qū)W習(xí)這些表示,以便最終得到代表系統(tǒng)中每個(gè)單詞或短語(yǔ)的高維向量。如果你這樣做并且擁有大量訓(xùn)練數(shù)據(jù),也就是你需要用來(lái)訓(xùn)練的原始文本,你會(huì)發(fā)現(xiàn)當(dāng)訓(xùn)練完成后,在高維空間中位置相近的單詞都是相當(dāng)相關(guān)的,比如 Cat、Puma 和 Tiger 都在附近。

但也很有趣的是,我們發(fā)現(xiàn)方向是有意義的。如果你對(duì)這些向量進(jìn)行減法運(yùn)算,你會(huì)發(fā)現(xiàn)改變單詞性別的方向是相同的,例如無(wú)論你是從 King 開(kāi)始還是從 Man 開(kāi)始。你最終能夠做到這一點(diǎn),還有針對(duì)動(dòng)詞過(guò)去時(shí)和動(dòng)詞將來(lái)時(shí)的其他方向,那確實(shí)有點(diǎn)有趣。

然后我的同事 Ilya Sutskever、Oriol Vinyals 和 Quoc Le 致力于使用 LSTM,即循環(huán)長(zhǎng)短期記憶模型,來(lái)解決一個(gè)特別好的問(wèn)題抽象,也就是你有一個(gè)序列,并使用它來(lái)預(yù)測(cè)另一個(gè)不同的序列。結(jié)果證明這在世界上有各種各樣的用途,包括翻譯。如果你看到足夠多的英語(yǔ)-法語(yǔ)句子對(duì)并使用這個(gè)基于序列到序列的學(xué)習(xí)目標(biāo),那么你最終會(huì)得到一個(gè)相當(dāng)高質(zhì)量的翻譯系統(tǒng)。結(jié)果證明你也可以將此用于各種其他事情。

06

硬件倒逼軟件:為了解決一億人的語(yǔ)音識(shí)別需求而誕生 TPU

隨著我們?cè)趯⑸窠?jīng)網(wǎng)絡(luò)用于語(yǔ)音識(shí)別、視覺(jué)和語(yǔ)言等各種有趣領(lǐng)域獲得越來(lái)越多的成功,我們開(kāi)始意識(shí)到的另一件事是——我做了一個(gè)粗略的估算。我們剛剛研發(fā)出一個(gè)真正高質(zhì)量的語(yǔ)音識(shí)別模型,雖然還沒(méi)有推出,但我們可以看到它的錯(cuò)誤率比 Google 當(dāng)前運(yùn)行在數(shù)據(jù)中心的生產(chǎn)級(jí)語(yǔ)音識(shí)別系統(tǒng)低得多。我說(shuō):“如果語(yǔ)音識(shí)別變得好很多,人們將會(huì)想要更多地使用它。所以如果 1 億人想要開(kāi)始每天對(duì)著他們的手機(jī)說(shuō)三分鐘話怎么辦?”

結(jié)果證明,如果我們想要在 CPU 上運(yùn)行這個(gè)高質(zhì)量模型,也就是我們當(dāng)時(shí)在數(shù)據(jù)中心擁有的硬件,我們將需要將 Google 擁有的計(jì)算機(jī)數(shù)量增加一倍,僅僅為了推出這個(gè)改進(jìn)的語(yǔ)音識(shí)別功能。我說(shuō):“我們真的應(yīng)該考慮專用硬件,因?yàn)槲覀兛梢酝ㄟ^(guò)構(gòu)建專用硬件來(lái)利用神經(jīng)網(wǎng)絡(luò)計(jì)算的各種優(yōu)良屬性?!碧貏e是它們非常容忍極低精度的計(jì)算。你不需要 32 位浮點(diǎn)數(shù)。我們當(dāng)時(shí)研究的所有神經(jīng)網(wǎng)絡(luò)本質(zhì)上都只是密集線性代數(shù)運(yùn)算的不同組合,如矩陣乘法、向量點(diǎn)積等等。如果你能構(gòu)建真正擅長(zhǎng)低精度線性代數(shù)的專用硬件,那么突然之間你可以擁有效率高得多的東西。

我們開(kāi)始與一組芯片設(shè)計(jì)者和電路板設(shè)計(jì)者合作。在 2015 年,我們最終擁有了 TPU v1,即張量處理單元,它真的是設(shè)計(jì)來(lái)加速推理的,并部署到了我們的數(shù)據(jù)中心。我們做了一系列實(shí)證比較,結(jié)果表明它比當(dāng)時(shí)的 CPU 和 GPU 快 15 到 30 倍,能效高 30 到 80 倍。

與同一組人合作,我們意識(shí)到我們也想研究訓(xùn)練問(wèn)題,因?yàn)橥评硎且粋€(gè)不錯(cuò)的小規(guī)模問(wèn)題,但對(duì)于訓(xùn)練,它是一個(gè)規(guī)模大得多的問(wèn)題。所以我們開(kāi)始圍繞擁有低精度、高速定制網(wǎng)絡(luò)和一個(gè)可以將高級(jí)計(jì)算映射到實(shí)際硬件上的編譯器的想法,來(lái)設(shè)計(jì)機(jī)器學(xué)習(xí)超級(jí)計(jì)算機(jī)。最終我們推出了一系列 TPU 設(shè)計(jì),這些設(shè)計(jì)逐漸變得越來(lái)越快,規(guī)模越來(lái)越大。我們最近的一個(gè)叫做 IronWood。這個(gè)系統(tǒng)的 Pod 集群大小是 9,216 個(gè)芯片,都連接在一個(gè) 3D 環(huán)面網(wǎng)絡(luò)中,擁有相當(dāng)大的帶寬和容量。

07

Transformer 革命:少10倍計(jì)算量換取更高準(zhǔn)確性

另一件已經(jīng)發(fā)生的事情是開(kāi)源工具真正賦能了整個(gè)社區(qū)。我們開(kāi)發(fā)并開(kāi)源了 TensorFlow,隨后 PyTorch 和 JAX 也相繼出現(xiàn),這些框架在很多方面真正賦能了整個(gè)社區(qū)。

在 2017 年,我的幾位同事致力于這個(gè)基于注意力的機(jī)制,建立在一些早期關(guān)于注意力的工作之上,但提出了這個(gè)非常棒的架構(gòu),它現(xiàn)在是你今天看到的那些令人興奮的語(yǔ)言模型的核心。他們的觀察實(shí)際上是:不像 LSTM 那樣,在 LSTM 中你有一個(gè)詞,你通過(guò)更新內(nèi)部狀態(tài)來(lái)消耗那個(gè)詞,然后繼續(xù)處理下一個(gè)詞;他們的觀察是,不要試圖把所有那些狀態(tài)強(qiáng)制壓縮進(jìn)一個(gè)每一步都更新的向量中。相反,讓我們保存經(jīng)過(guò)的所有狀態(tài),然后讓我們能夠在任何試圖根據(jù)過(guò)去的上下文做某事的時(shí)候,關(guān)注所有的狀態(tài)。這真的是《Attention Is All You Need》這篇論文標(biāo)題的核心。

他們能夠展示的是,你可以用少 10 到 100 倍的計(jì)算獲得高得多的準(zhǔn)確性,并且在這種情況下,用小 10 倍的模型(這是對(duì)數(shù)尺度上的參數(shù)數(shù)量)對(duì)于一個(gè)語(yǔ)言模型來(lái)說(shuō),可以將 Loss 降低到一個(gè)特定的水平。他們能夠展示的是,Transformer 基礎(chǔ)模型中少 10 倍的參數(shù)會(huì)讓你達(dá)到那個(gè)效果,而且在論文的其他數(shù)據(jù)中,他們展示了計(jì)算量減少了 10 到 100 倍。

08

自監(jiān)督學(xué)習(xí):利用海量文本的填空游戲是現(xiàn)代語(yǔ)言模型的核心

另一個(gè)超級(jí)重要的發(fā)展僅僅是使用自監(jiān)督數(shù)據(jù)的大規(guī)模語(yǔ)言建模。世界上有海量的文本?;谶@些文本的自監(jiān)督學(xué)習(xí)可以給你幾乎無(wú)限數(shù)量的訓(xùn)練樣本,其中正確的答案是已知的,因?yàn)槟阌幸恍哪P偷囊曇爸幸瞥脑~,然后你試圖預(yù)測(cè)那個(gè)詞。這有幾種不同的形式。

一種是自回歸的,你可以向左看并嘗試根據(jù)在那之前看到的所有詞來(lái)預(yù)測(cè)下一個(gè)詞是什么。例如“Stanford [空白]”,“Stanford [空白] University”,“Stanford is a [空白] University”。你為這個(gè)詞做一個(gè)猜測(cè)。所以你投入到做這種事情的所有努力使得模型能夠利用所有這些上下文并做出越來(lái)越好的預(yù)測(cè)。

還有另一個(gè)你可以使用的目標(biāo),你可以看左邊和右邊更多的上下文,只是試圖猜測(cè)缺失的詞。如果你玩過(guò)填詞游戲,它有點(diǎn)像那樣?!癟he Stanford [空白] Club”,“ [空白] together [空白] and Computer [空白] enthusiasts”。其中一些你可能可以猜到,其中一些更難猜。但這真的是在文本上做自監(jiān)督學(xué)習(xí)的關(guān)鍵,這是現(xiàn)代語(yǔ)言模型的核心。

結(jié)果證明你也可以將這些基于 Transformer 的模型應(yīng)用于計(jì)算機(jī)視覺(jué)。我的另一組同事研究了我們?nèi)绾巫龅竭@一點(diǎn)。他們?cè)俅伟l(fā)現(xiàn),對(duì)于不同大小的配置,使用大約少 4 到 20 倍的計(jì)算量,你可以達(dá)到最好的結(jié)果。再次強(qiáng)調(diào),算法改進(jìn)在這里產(chǎn)生了很大的不同,因?yàn)楝F(xiàn)在突然之間你可以訓(xùn)練大得多的模型或使用更少的計(jì)算來(lái)獲得相同的準(zhǔn)確性。

這是Jeff Dean演講實(shí)錄的下半部分,涵蓋了稀疏模型、Pathways架構(gòu)、后訓(xùn)練技術(shù)(蒸餾與強(qiáng)化學(xué)習(xí))、Gemini模型的具體突破以及對(duì)未來(lái)的展望。

09

僅激活1%的參數(shù),在同等準(zhǔn)確度下實(shí)現(xiàn)8倍算力效率提升

我和幾位同事共同倡導(dǎo)并組建了一個(gè)小團(tuán)隊(duì),致力于研究稀疏模型。我們認(rèn)為,在普通的神經(jīng)網(wǎng)絡(luò)中,處理每一個(gè)輸入示例都需要激活整個(gè)模型,這無(wú)疑是一種巨大的資源浪費(fèi)。如果能構(gòu)建一個(gè)規(guī)模極其龐大的模型,并讓其中的不同部分專精于不同類型的任務(wù),效果會(huì)優(yōu)越得多。這樣,當(dāng)你調(diào)用模型中所需的特定“專業(yè)知識(shí)”時(shí),只需激活整體模型中極小的一部分,比如在進(jìn)行任何給定的預(yù)測(cè)時(shí),可能只調(diào)用了模型總參數(shù)量的 1% 到 5%。

我們要再次強(qiáng)調(diào),在同等準(zhǔn)確度水平下,這帶來(lái)了算力效率的重大飛躍。相關(guān)數(shù)據(jù)曲線顯示,在保持相同準(zhǔn)確度的前提下,訓(xùn)練成本算力降低了約 8 倍。換個(gè)角度看,你也可以利用這些節(jié)省下來(lái)的算力預(yù)算,在成本不變的情況下訓(xùn)練出一個(gè)性能更優(yōu)的模型。隨后,我們繼續(xù)在稀疏模型領(lǐng)域進(jìn)行了大量深入研究,因?yàn)槲覀儓?jiān)信這一方向至關(guān)重要。事實(shí)上,大家今天所熟知的大多數(shù)前沿模型,例如 Gemini 模型,本質(zhì)上都是稀疏模型。

為了支持更多結(jié)構(gòu)獨(dú)特且復(fù)雜的稀疏模型,我們開(kāi)始構(gòu)建計(jì)算抽象層。這允許我們將有趣的機(jī)器學(xué)習(xí)模型映射到硬件上,而研究人員無(wú)需過(guò)多操心計(jì)算的具體部分位于何處。Pathways 是我們構(gòu)建的一個(gè)系統(tǒng),其設(shè)計(jì)初衷就是具備極高的可擴(kuò)展性,從而簡(jiǎn)化這些超大規(guī)模訓(xùn)練計(jì)算的運(yùn)行。

假設(shè)每一個(gè)計(jì)算單元都是一個(gè) TPU Pod,在 Pod 內(nèi)部的芯片之間存在超高速網(wǎng)絡(luò)連接,但有時(shí)你需要運(yùn)行一個(gè)跨越多個(gè) Pod 的任務(wù)。此時(shí),Pathways 的核心作用之一就是編排所有這些計(jì)算資源,包括本地?cái)?shù)據(jù)中心網(wǎng)絡(luò)、園區(qū)網(wǎng)絡(luò)甚至跨越大都會(huì)區(qū)域的長(zhǎng)距離鏈路。作為機(jī)器學(xué)習(xí)研究員,你不必思考應(yīng)該使用哪條網(wǎng)絡(luò)鏈路。系統(tǒng)會(huì)在最佳時(shí)間選擇最佳路徑,并自動(dòng)處理故障,比如應(yīng)對(duì)某個(gè)芯片或 Pod 宕機(jī)等突發(fā)情況。

Pathways 提供的一個(gè)重要抽象層位于 JAX 之下,即 Pathways 運(yùn)行時(shí)系統(tǒng)。這使得我們可以讓單個(gè) Python 進(jìn)程看起來(lái)像是一個(gè)擁有 10,000 個(gè)設(shè)備而非僅有 4 個(gè)設(shè)備的 JAX 編程環(huán)境。你可以使用所有標(biāo)準(zhǔn)的 JAX 機(jī)制來(lái)表達(dá)想要在所有這些設(shè)備上運(yùn)行的計(jì)算任務(wù)。

10

知識(shí)蒸餾的威力:僅用3%的訓(xùn)練數(shù)據(jù)即可逼近全量數(shù)據(jù)效果

我的另一組同事則致力于研究如何通過(guò)更好的模型提示來(lái)引導(dǎo)出更優(yōu)質(zhì)的答案。他們的觀察是,在進(jìn)行自監(jiān)督學(xué)習(xí)時(shí),教師模型會(huì)給出缺失單詞的概率分布。事實(shí)證明,當(dāng)學(xué)生模型出錯(cuò)時(shí),利用這個(gè)分布可以提供比單一答案豐富得多的信息。因?yàn)槿笔У脑~很可能是小提琴、鋼琴或小號(hào),但極不可能是飛機(jī)。這種豐富的信號(hào)實(shí)際上能讓模型學(xué)得更快、更輕松。

特別是在這篇論文中,我們展示了一個(gè)語(yǔ)音數(shù)據(jù)集的案例,試圖正確預(yù)測(cè)音頻幀中的聲音?;鶞?zhǔn)情況是,如果使用 100% 的訓(xùn)練集,在測(cè)試幀上可以達(dá)到 58.9% 的準(zhǔn)確率。但如果只使用 3% 的訓(xùn)練數(shù)據(jù),準(zhǔn)確率會(huì)大幅跌落至 44%。然而,如果利用蒸餾過(guò)程產(chǎn)生的軟目標(biāo),即便只用 3% 的訓(xùn)練數(shù)據(jù),也能達(dá)到 57% 的準(zhǔn)確率。這就是為什么蒸餾是一項(xiàng)如此關(guān)鍵的技術(shù)。因?yàn)槟憧梢韵扔?xùn)練一個(gè)超大規(guī)模的模型,然后利用蒸餾技術(shù),將其能力遷移到一個(gè)小得多的模型上,最終得到一個(gè)高質(zhì)量的小模型,其性能非常接近大模型。

11

強(qiáng)化學(xué)習(xí)進(jìn)階:在數(shù)學(xué)和代碼等可驗(yàn)證領(lǐng)域,模型能夠自我探索并超越人類數(shù)據(jù)

進(jìn)入 2020 年代后,業(yè)界開(kāi)始在后訓(xùn)練階段大量應(yīng)用強(qiáng)化學(xué)習(xí)。一旦你基于自監(jiān)督目標(biāo)訓(xùn)練好了一個(gè)模型,你會(huì)希望鼓勵(lì)模型表現(xiàn)出符合預(yù)期的行為模式。例如在回復(fù)風(fēng)格方面,你可以給予它強(qiáng)化學(xué)習(xí)反饋,或者提供有禮貌的示例并進(jìn)行微調(diào)。

此外,你還可以通過(guò)向模型展示如何處理更復(fù)雜的問(wèn)題來(lái)增強(qiáng)其能力。這些信號(hào)來(lái)源多種多樣。一種是基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),利用人類對(duì)模型輸出的反饋?zhàn)屇P捅平祟惇?jiǎng)勵(lì)信號(hào)所期望的行為。另一種是基于機(jī)器反饋的強(qiáng)化學(xué)習(xí),利用另一個(gè)“獎(jiǎng)勵(lì)模型”來(lái)提供反饋。

但在數(shù)學(xué)或代碼等可驗(yàn)證領(lǐng)域中的強(qiáng)化學(xué)習(xí)可能最為重要。在這里,你可以讓模型嘗試生成數(shù)學(xué)問(wèn)題的解,假設(shè)是一個(gè)證明,由于這是一個(gè)可驗(yàn)證的領(lǐng)域,你可以運(yùn)行傳統(tǒng)的證明檢查器來(lái)驗(yàn)證模型生成的證明。證明檢查器會(huì)判定證明正確,或者指出在第 73 步出錯(cuò)。當(dāng)模型推理正確時(shí),給予正向獎(jiǎng)勵(lì)。同樣的方法也適用于代碼生成,代碼能編譯通過(guò)給予獎(jiǎng)勵(lì),如果能編譯并通過(guò)單元測(cè)試則給予更高獎(jiǎng)勵(lì)。當(dāng)你有一系列問(wèn)題讓模型嘗試解決并根據(jù)結(jié)果給予獎(jiǎng)勵(lì)時(shí),模型就能真正探索潛在的解決方案空間。隨著時(shí)間推移,它探索該空間的能力會(huì)越來(lái)越強(qiáng)。

12

Gemini 的多模態(tài)突破

綜上所述,我們?cè)?Google 一直致力于研發(fā) Gemini 模型,它將許多上述理念融合成了非常有趣的模型。我們開(kāi)展 Gemini 項(xiàng)目的目標(biāo)是訓(xùn)練世界上最優(yōu)秀的多模態(tài)模型,并將其應(yīng)用于 Google 的全線產(chǎn)品,同時(shí)也開(kāi)放給外部開(kāi)發(fā)者。

我們希望它從一開(kāi)始就是多模態(tài)的,即能夠接受各種不同模態(tài)的輸入,也能產(chǎn)生多種模態(tài)的輸出。我們一直在增加更多的模態(tài)支持,包括生成視頻、音頻等內(nèi)容的能力。我們堅(jiān)信超長(zhǎng)上下文長(zhǎng)度的重要性,這樣模型就能查閱大量輸入片段,并對(duì)其進(jìn)行推理、總結(jié)或回顧。Gemini 2.0 在某種程度上建立在這些理念之上,是一個(gè)能力相當(dāng)強(qiáng)的模型。

為了展示數(shù)學(xué)推理能力的發(fā)展程度,我們今年使用 Gemini 1.5 Pro 的一個(gè)變體參加了國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽,去年我們也參加了,但今年是一個(gè)純語(yǔ)言模型系統(tǒng)。我們?cè)诹李}目中正確解決了五道,這相當(dāng)于金牌水平的得分。這是問(wèn)題描述,這是我們模型的輸入,這是模型能夠生成的輸出。推理過(guò)程很長(zhǎng),評(píng)委們很欣賞我們解法的優(yōu)雅,最終我們完成了論證,Q.E.D.?;叵?2022 年時(shí),我們還在試圖解決“約翰有四只兔子,又得到了兩只,他現(xiàn)在有幾只?”這樣的問(wèn)題,現(xiàn)在靜下心來(lái)欣賞這些模型在數(shù)學(xué)推理能力上走了多遠(yuǎn),確實(shí)令人感慨。

13

從代碼生成到多模態(tài)食譜轉(zhuǎn)換,AI 正在模擬人類思維過(guò)程

本周早些時(shí)候,我們發(fā)布了 Gemini 1.5 Pro 模型。它在眾多基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,特別是我們?cè)?LM Arena 中排名第一,這是一種很好的非基準(zhǔn)測(cè)試評(píng)估方法,顯示了模型在盲測(cè)中普遍比其他模型更受用戶青睞。

真正的突破之一是我們?cè)?Web 開(kāi)發(fā)風(fēng)格的代碼生成上,相比早期模型有了巨大飛躍。例如,輸入“Gemini 滑板”或“Gemini 沖浪”,模型實(shí)際上是在編寫(xiě)代碼來(lái)生成這些動(dòng)畫(huà)場(chǎng)景。你可以給這些模型非常高層的指令并讓它們編寫(xiě)代碼。雖然不總是成功,但當(dāng)它奏效時(shí),那種神奇的感覺(jué)非常棒。

另一個(gè)很好的例子是多模態(tài)能力的綜合運(yùn)用。用戶可以將一大堆各種語(yǔ)言(韓語(yǔ)、英語(yǔ))的食譜照片輸入模型,要求翻譯并轉(zhuǎn)錄,然后創(chuàng)建一個(gè)雙語(yǔ)網(wǎng)站。模型不僅完成了轉(zhuǎn)錄,還為網(wǎng)站生成了漂亮的配圖和代碼,最終生成了一個(gè)包含食譜的可用網(wǎng)站。這結(jié)合了模型的多種能力,最終生成了某種有用的東西。

我們也推出了更好的圖像生成模型。例如,你可以輸入“將這張藍(lán)圖變成房子外觀的 3D 圖像”,或者拿原始的《Attention Is All You Need》論文配圖,要求在每一個(gè)不同的點(diǎn)注釋發(fā)生的重要方面。此外,Nano-Banana 項(xiàng)目展示了在中間圖像層面進(jìn)行推理的能力。問(wèn)題是“告訴我球會(huì)落在哪個(gè)桶里”,模型使用圖像一步一步解決它,某種程度上模擬了人類的思維過(guò)程:首先球滾到那里,然后滾向另一邊到坡道三,最后落在 B 桶里。

14

AI 輔助的未來(lái)是光明的,但必須正視錯(cuò)誤信息等潛在風(fēng)險(xiǎn)

總之,我希望你們看到,這些模型在各種不同的任務(wù)上正變得相當(dāng)強(qiáng)大。進(jìn)一步的研究和創(chuàng)新將延續(xù)這一趨勢(shì)。這將對(duì)眾多領(lǐng)域產(chǎn)生巨大的影響,特別是醫(yī)療保健、教育、科學(xué)研究、媒體創(chuàng)作以及錯(cuò)誤信息應(yīng)對(duì)等。它有潛力讓真正的深度專業(yè)知識(shí)觸達(dá)更多人。

想想那些編碼的例子,許多沒(méi)有受過(guò)編程訓(xùn)練的人,可以獲得計(jì)算機(jī)的輔助,他們的愿景可以幫助他們?yōu)槭匙V或其他任何東西生成有趣的網(wǎng)站。如果利用得當(dāng),我認(rèn)為我們 AI 輔助的未來(lái)是光明的。但我并非完全無(wú)視風(fēng)險(xiǎn)。像錯(cuò)誤信息這樣的領(lǐng)域是潛在的關(guān)注點(diǎn)。實(shí)際上,John Hennessy、Dave Patterson 和我,以及其他幾位合著者去年寫(xiě)了一篇論文,探討了所有這些不同領(lǐng)域,并采訪了這些領(lǐng)域的專家,詢問(wèn)他們的意見(jiàn),以及我們?nèi)绾未_保在獲得醫(yī)療、教育和科學(xué)研究等驚人益處的同時(shí),又能最小化來(lái)自錯(cuò)誤信息或其他方面的潛在負(fù)面影響。

| 文章來(lái)源:數(shù)字開(kāi)物

第二十屆中國(guó)IDC產(chǎn)業(yè)年度大典(IDCC2025)暨數(shù)字基礎(chǔ)設(shè)施科技展(DITExpo) 以“重塑算力 破界而生”為主題,將于2025年12月10-11日在北京首鋼國(guó)際會(huì)展中心1號(hào)館舉辦,將有超過(guò)12場(chǎng)主題平行論壇聯(lián)合舉辦。

萬(wàn)卡集群怎么建?液冷如何用?算力出?,F(xiàn)狀如何?算電怎樣協(xié)同?國(guó)產(chǎn)芯片如何破局?算力資產(chǎn)如何定價(jià)?綠電直連路徑在哪?聚焦IDCC2025以及15+場(chǎng)論壇直擊算力產(chǎn)業(yè)核心命題!

↓掃碼立即報(bào)名參會(huì)


? END?

【專欄】精品再讀

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
王欣瑜遭逆轉(zhuǎn)因傾城笑容意外獲贊,網(wǎng)友喊話盡快解決老毛病

王欣瑜遭逆轉(zhuǎn)因傾城笑容意外獲贊,網(wǎng)友喊話盡快解決老毛病

網(wǎng)球之家
2025-12-27 12:50:41
離譜!17歲女生被18歲男生弄懷孕,接生醫(yī)生發(fā)視頻點(diǎn)贊,配文炸裂

離譜!17歲女生被18歲男生弄懷孕,接生醫(yī)生發(fā)視頻點(diǎn)贊,配文炸裂

溫辭韞
2025-12-25 15:46:31
加油站小伙中2800萬(wàn)美元21歲退休,嘆親友紛以一理由借錢。

加油站小伙中2800萬(wàn)美元21歲退休,嘆親友紛以一理由借錢。

環(huán)球趣聞分享
2025-12-27 16:36:30
南京博物院院長(zhǎng)從靈谷塔七層一躍而下!

南京博物院院長(zhǎng)從靈谷塔七層一躍而下!

興化論談
2025-12-19 20:21:07
泰國(guó)看守總理:如達(dá)成一致,泰柬將簽署?;鹇暶?>
    </a>
        <h3>
      <a href=環(huán)球網(wǎng)資訊
2025-12-27 07:06:35
80年媽媽心軟放走盜賊,10年后收到一個(gè)包裹,打開(kāi)一看全家蒙圈

80年媽媽心軟放走盜賊,10年后收到一個(gè)包裹,打開(kāi)一看全家蒙圈

衍月
2025-12-26 15:33:09
73歲大媽的明智養(yǎng)老:不請(qǐng)保姆不住養(yǎng)老院,而是找個(gè)年輕老伴照顧

73歲大媽的明智養(yǎng)老:不請(qǐng)保姆不住養(yǎng)老院,而是找個(gè)年輕老伴照顧

烙任情感
2025-12-26 16:46:58
越南少將阮德輝吐實(shí)情:中國(guó)軍隊(duì)回撤途中黎筍下了道死命令

越南少將阮德輝吐實(shí)情:中國(guó)軍隊(duì)回撤途中黎筍下了道死命令

磊子講史
2025-12-23 20:13:04
14年前,用全部積蓄買下10萬(wàn)個(gè)比特幣的新東方老師,如今現(xiàn)狀怎樣

14年前,用全部積蓄買下10萬(wàn)個(gè)比特幣的新東方老師,如今現(xiàn)狀怎樣

一盅情懷
2025-12-11 14:06:19
南京博物院前院長(zhǎng)被帶走不到12小時(shí),惡心事就出現(xiàn)了,還不止一件

南京博物院前院長(zhǎng)被帶走不到12小時(shí),惡心事就出現(xiàn)了,還不止一件

有范又有料
2025-12-27 09:53:55
向太曝馬伊琍已再婚:當(dāng)年文章過(guò)不了心理那關(guān)

向太曝馬伊琍已再婚:當(dāng)年文章過(guò)不了心理那關(guān)

娛樂(lè)看阿敞
2025-12-12 15:50:00
珠海天氣即將大反轉(zhuǎn)!

珠海天氣即將大反轉(zhuǎn)!

金灣通
2025-12-27 13:35:32
真有錢!中超土豪強(qiáng)挖南美全能中場(chǎng),轉(zhuǎn)會(huì)費(fèi)1200萬(wàn)!73場(chǎng)造14球

真有錢!中超土豪強(qiáng)挖南美全能中場(chǎng),轉(zhuǎn)會(huì)費(fèi)1200萬(wàn)!73場(chǎng)造14球

國(guó)足風(fēng)云
2025-12-27 10:23:09
69歲趙本山:每天2包煙,頓頓8兩酒,跟生前的楊少華如出一轍

69歲趙本山:每天2包煙,頓頓8兩酒,跟生前的楊少華如出一轍

豐譚筆錄
2025-12-16 10:55:06
尹錫悅量刑曝光,出乎所有人意料,最后關(guān)頭,李在明還是手軟了?

尹錫悅量刑曝光,出乎所有人意料,最后關(guān)頭,李在明還是手軟了?

博覽歷史
2025-12-26 19:27:26
關(guān)羽是賣棗的,張飛是殺豬的,為何一出場(chǎng)就自帶絕世武功?

關(guān)羽是賣棗的,張飛是殺豬的,為何一出場(chǎng)就自帶絕世武功?

犀利辣椒
2025-12-27 06:42:08
高市政府叫囂擁核,中美第一時(shí)間表態(tài),魯比奧的回應(yīng)堪稱絕殺

高市政府叫囂擁核,中美第一時(shí)間表態(tài),魯比奧的回應(yīng)堪稱絕殺

歷史有些冷
2025-12-26 17:25:06
戴口罩的美女真好看,一身白色包臀裙穿出高級(jí)感,身材讓人羨慕

戴口罩的美女真好看,一身白色包臀裙穿出高級(jí)感,身材讓人羨慕

朝史暮夕
2025-12-27 08:25:15
表決落敗后,陳亭妃對(duì)賴出手,鄭麗文樂(lè)開(kāi)了花!黃智賢這回尷尬了

表決落敗后,陳亭妃對(duì)賴出手,鄭麗文樂(lè)開(kāi)了花!黃智賢這回尷尬了

現(xiàn)代小青青慕慕
2025-12-27 10:27:01
包括市長(zhǎng)、常務(wù)副市長(zhǎng)、副廳長(zhǎng)、縣委書(shū)記、縣長(zhǎng)等,云南嚴(yán)肅問(wèn)責(zé)142人,其中廳級(jí)16人、處級(jí)47人

包括市長(zhǎng)、常務(wù)副市長(zhǎng)、副廳長(zhǎng)、縣委書(shū)記、縣長(zhǎng)等,云南嚴(yán)肅問(wèn)責(zé)142人,其中廳級(jí)16人、處級(jí)47人

新京報(bào)政事兒
2025-12-27 13:09:49
2025-12-27 18:20:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

男子戒毒后隨領(lǐng)導(dǎo)出差被警察帶走驗(yàn)?zāi)?回家后工作沒(méi)了

頭條要聞

男子戒毒后隨領(lǐng)導(dǎo)出差被警察帶走驗(yàn)?zāi)?回家后工作沒(méi)了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂(lè)要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開(kāi)始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開(kāi)始“聽(tīng)”用戶的

態(tài)度原創(chuàng)

藝術(shù)
健康
數(shù)碼
家居
教育

藝術(shù)要聞

砸50億!廣東驚現(xiàn)“全球最大爛尾醫(yī)院”,連窗框都沒(méi)裝完

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

華為Mate 70 Air 16GB內(nèi)存版今日開(kāi)售 配麒麟9020A

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

教育要聞

一直被催的孩子,永遠(yuǎn)學(xué)不會(huì)自覺(jué)!喚醒內(nèi)驅(qū)力,做好這3件事就夠了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版