国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

滿滿干貨!OpenAI大神免費公開課,有關(guān)大語言模型,該講的都講了

0
分享至

VIA:寶玉xp

OpenAI 的大神 Andrej Karpathy 前幾天在他的 YouTube 頻道講了一堂課,系統(tǒng)的介紹了大語言模型,內(nèi)容深入淺出,非常贊,抽空將它翻譯成了雙語。

下是第一部分

Intro: Large Language Model (LLM) talk

大家好。最近,我進行了一場關(guān)于大語言模型的30分鐘入門講座。遺憾的是,這次講座沒有被錄制下來,但許多人在講座后找到我,他們告訴我非常喜歡那次講座。因此,我決定重新錄制并上傳到 YouTube,那么,讓我們開始吧,為大家?guī)怼懊β等耸康拇笳Z言模型入門”系列,主講人 Scott。好的,那我們開始吧。

LLM Inference

首先,什么是大語言模型 (Large Language Model) 呢?其實,一個大語言模型就是由兩個文件組成的。在這個假設(shè)的目錄中會有兩個文件。

以 Llama 2 70B 模型為例,這是一個由 Meta AI 發(fā)布的大語言模型。這是 Llama 系列語言模型的第二代,也是該系列中參數(shù)最多的模型,達到了700億。LAMA2系列包括了多個不同規(guī)模的模型,70億,130億,340億,700億是最大的一個。

現(xiàn)在很多人喜歡這個模型,因為它可能是目前公開權(quán)重最強大的模型。Meta 發(fā)布了這款模型的權(quán)重、架構(gòu)和相關(guān)論文,所以任何人都可以很輕松地使用這個模型。這與其他一些你可能熟悉的語言模型不同,例如,如果你正在使用 ChatGPT 或類似的東西,其架構(gòu)并未公開,是 OpenAI 的產(chǎn)權(quán),你只能通過網(wǎng)頁界面使用,但你實際上沒有訪問那個模型的權(quán)限。

在這種情況下,Llama 2 70B 模型實際上就是你電腦上的兩個文件:一個是存儲參數(shù)的文件,另一個是運行這些參數(shù)的代碼。這些參數(shù)是神經(jīng)網(wǎng)絡(luò)(即語言模型)的權(quán)重或參數(shù)。我們稍后會詳細解釋。因為這是一個擁有700億參數(shù)的模型,每個參數(shù)占用兩個字節(jié),因此參數(shù)文件的大小為140 GB,之所以是兩個字節(jié),是因為這是 float 16類型的數(shù)據(jù)。

除了這些參數(shù),還有一大堆神經(jīng)網(wǎng)絡(luò)的參數(shù)。你還需要一些能運行神經(jīng)網(wǎng)絡(luò)的代碼,這些代碼被包含在我們所說的運行文件中。這個運行文件可以是 C 語言或 Python,或任何其他編程語言編寫的。它可以用任何語言編寫,但 C 語言是一種非常簡單的語言,只是舉個例子。只需大約500行 C 語言代碼,無需任何其他依賴,就能構(gòu)建起神經(jīng)網(wǎng)絡(luò)架構(gòu),并且主要依靠一些參數(shù)來運行模型。所以只需要這兩個文件。

你只需帶上這兩個文件和你的 MacBook,就擁有了一個完整的工具包。你不需要連接互聯(lián)網(wǎng)或其他任何設(shè)備。你可以拿著這兩個文件,編譯你的 C 語言代碼。你將得到一個可針對參數(shù)運行并與語言模型交互的二進制文件。

比如,你可以讓它寫一首關(guān)于 Scale AI 公司的詩,語言模型就會開始生成文本。在這種情況下,它會按照指示為你創(chuàng)作一首關(guān)于 Scale AI 的詩。之所以選用 Scale AI 作為例子,你會在整個演講中看到,是因為我最初在 Scale AI 舉辦的活動上介紹過這個話題,所以演講中會多次提到它,以便內(nèi)容更具體。這就是我們?nèi)绾芜\行模型的方式。只需要兩個文件和一臺 MacBook。

我在這里稍微有點作弊,因為這并不是在運行一個有700億參數(shù)的模型,而是在運行一個有70億參數(shù)的模型。一個有700億參數(shù)的模型運行速度大約會慢10倍。但我想給你們展示一下文本生成的過程,讓你們了解它是什么樣子。所以運行模型并不需要很多東西。這是一個非常小的程序包,但是當我們需要獲取那些參數(shù)時,計算的復(fù)雜性就真正顯現(xiàn)出來了。

那么,這些參數(shù)從何而來,我們?nèi)绾潍@得它們?因為無論 run.c 文件中的內(nèi)容是什么,神經(jīng)網(wǎng)絡(luò)的架構(gòu)和前向傳播都是算法上明確且公開的。

第二部分:

** LLM Training

但真正的關(guān)鍵在于這些參數(shù),我們?nèi)绾蔚玫剿鼈儯克?,為了獲得模型參數(shù),所謂的模型訓(xùn)練過程比我之前展示的模型推斷要復(fù)雜得多。模型推斷只是在 MacBook 上運行模型。而模型訓(xùn)練則是一個計算上極為復(fù)雜的過程。簡單來說,我們所做的可以被理解為對大量互聯(lián)網(wǎng)內(nèi)容的壓縮。

因為 Llama 2 70B 是一個開源模型,我們對其訓(xùn)練方式有相當深入的了解,這得益于 Meta 在論文中公開的信息。以下是一些相關(guān)的數(shù)據(jù)。你需要從互聯(lián)網(wǎng)上獲取大約10 TB 的文本,通常這些文本來自于對互聯(lián)網(wǎng)的爬取。想象一下,從各種不同的網(wǎng)站上收集大量的文本,并將它們匯集起來。接下來,你需要獲取一大塊互聯(lián)網(wǎng)數(shù)據(jù),然后,你需要配置一個 GPU 集群,這些 GPU 是為了處理像神經(jīng)網(wǎng)絡(luò)訓(xùn)練這樣復(fù)雜的計算任務(wù)而專門設(shè)計的高性能計算機。

你需要大約6,000個 GPU,并且需要運行大約12天才能得到一個 Llama 2 7B,整個過程大約需要花費200萬美元。這個過程基本上就是將這大量的文本壓縮成你可以想象的一種 zip 文件。我在早些時候的幻燈片中向你展示的這些參數(shù),可以被理解為互聯(lián)網(wǎng)的 zip 文件。例如,在這種情況下,最終生成的是140GB 的參數(shù)。大致來說,這里的壓縮比率達到了大約100倍。

但這種壓縮與 zip 文件不同,因為 zip 文件是無損壓縮,而這里是有損壓縮。我們只是大致獲取了我們訓(xùn)練文本的概念,而不是在這些參數(shù)中保留了文本的完整副本。所以,可以把它理解為一種有損壓縮方式。另外需要指出的是,按照目前最先進技術(shù)的標準,這些數(shù)據(jù)其實只是入門級別的。如果考慮到像 ChatGPT、Claude 或 Bard 這樣的頂尖神經(jīng)網(wǎng)絡(luò),這些數(shù)字可能需要增加十倍甚至更多。

這意味著在實際操作中,我們需要將這些數(shù)字大幅上調(diào)。這也解釋了為什么如今這些神經(jīng)網(wǎng)絡(luò)的訓(xùn)練成本高達數(shù)千萬甚至數(shù)億美元,它們需要龐大的計算集群和大量數(shù)據(jù)集,而且在獲取參數(shù)的過程中需要付出巨大努力。一旦獲得了這些參數(shù),實際運行神經(jīng)網(wǎng)絡(luò)的計算成本就相對較低了。

那么,這個神經(jīng)網(wǎng)絡(luò)到底在做什么呢?正如我之前提到的那些參數(shù),神經(jīng)網(wǎng)絡(luò)的主要任務(wù)其實是預(yù)測文本序列中的下一個詞。你可以這樣理解:當你輸入一連串詞語,比如 "cat sat on a",這些詞就會被送入神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)中分布著的這些參數(shù),就是完成這一任務(wù)的關(guān)鍵。通過神經(jīng)元的相互連接和激發(fā),來預(yù)測下一個單詞。

你可以這么理解這個過程:輸入一段文本后,神經(jīng)網(wǎng)絡(luò)會預(yù)測下一個詞是什么。舉個例子,在 "cat sat on a" 這四個

詞的上下文中,神經(jīng)網(wǎng)絡(luò)可能會預(yù)測下一個詞是“mat”,并且給出了97% 的高概率。這就是神經(jīng)網(wǎng)絡(luò)要解決的核心問題。從數(shù)學(xué)上可以證明,預(yù)測與數(shù)據(jù)壓縮之間存在密切聯(lián)系。這也是為什么我會說,這種神經(jīng)網(wǎng)絡(luò)訓(xùn)練在某種意義上是一種數(shù)據(jù)壓縮:因為如果你能夠非常準確地預(yù)測下一個詞,你就可以利用這個能力來壓縮數(shù)據(jù)集。

所以,這其實是一個專注于預(yù)測下一個詞的神經(jīng)網(wǎng)絡(luò)。你輸入一些詞,它就會告訴你接下來的詞是什么。這種訓(xùn)練的結(jié)果之所以顯得有些神奇,是因為盡管下一個詞預(yù)測看似是一個簡單的任務(wù),但實際上它是一個非常強大的目標。因為這個目標迫使神經(jīng)網(wǎng)絡(luò)在其參數(shù)中學(xué)習(xí)到大量關(guān)于世界的信息。

我舉個例子,我在準備這個演講時隨機找了一個網(wǎng)頁。這個頁面是從維基百科的主頁抓取的,講的是 Ruth Handler 的故事。所以,想象一下你是神經(jīng)網(wǎng)絡(luò),你需要根據(jù)給定的詞來預(yù)測下一個詞。在這個例子中,我用紅色標出了一些信息量很大的詞。例如,如果你的目標是預(yù)測下一個詞,那么你的參數(shù)必須要學(xué)習(xí)很多這樣的知識。你得知道 Ruth Handler 是誰,她何時出生,何時去世,她是誰,她的成就等等。在這個預(yù)測下一個詞的任務(wù)中,你實際上學(xué)到了大量關(guān)于世界的知識,所有這些知識都被壓縮到權(quán)重和參數(shù)中。

** LLM Dreams

那么,我們?nèi)绾螌嶋H使用這些神經(jīng)網(wǎng)絡(luò)呢?當我們訓(xùn)練好它們后,我演示了模型推斷是個非常簡單的過程。我們基本上是生成下一個詞,我們從模型中采樣,選擇一個詞,然后我們繼續(xù)將其反饋進去并得到下一個詞,然后繼續(xù)這樣反饋。我們可以重復(fù)這個過程,讓這個網(wǎng)絡(luò)仿佛在“夢游”互聯(lián)網(wǎng)文檔。打個比方,如果我們只是運行神經(jīng)網(wǎng)絡(luò),或者說進行推理,我們會得到類似于在網(wǎng)絡(luò)上瀏覽的夢境體驗。

可以這么理解:因為這個神經(jīng)網(wǎng)絡(luò)是基于網(wǎng)頁內(nèi)容進行訓(xùn)練的,然后它可以自由遨游于其中。例如,在左邊,我們可以看到類似于 Java 代碼的“夢境”。中間的部分,看起來像是對亞馬遜產(chǎn)品描述的“夢境”。而右邊,則似乎呈現(xiàn)出一篇維基百科文章的樣子。以中間的這個例子為例,標題、作者、ISBN 編號等等,這些內(nèi)容都是神經(jīng)網(wǎng)絡(luò)完全自行創(chuàng)造的。這個網(wǎng)絡(luò)正在“夢想”出它所訓(xùn)練數(shù)據(jù)集中的文本類型,它在模仿這些文檔,但其實,這些都像是它的幻覺一樣。

比如說 ISBN 號碼,這個號碼幾乎可以肯定是不存在的。網(wǎng)絡(luò)只是知道在“ISBN:”后面通常會跟著這樣長度的數(shù)字,然后就隨機生成一個。實際上,它只是隨意插入看起來合理的內(nèi)容。因此,它在模仿訓(xùn)練數(shù)據(jù)集的分布模式。在右邊,黑鼻鮭魚,我查了一下,它實際上是一種魚。這里的情況是,這段文字在訓(xùn)練集文檔中并未原樣出現(xiàn),但如果你真的去查證,會發(fā)現(xiàn)對這種魚的這些描述信息大致上是正確的。因此,這個網(wǎng)絡(luò)對這種魚有一定的了解,它知道很多關(guān)于這種魚的信息。它不會完全復(fù)制訓(xùn)練集中看到的文檔,但它會對互聯(lián)網(wǎng)的信息進行某種程度的壓縮和整合,它能夠記住整體的輪廓。它大致掌握了相關(guān)知識,然后開始創(chuàng)造。它構(gòu)建了一種合適的形式,并用自己的知識填充其中。

但我們永遠不能百分之百確定它生成的內(nèi)容是幻覺、錯誤的回答,還是正確的回答。所以,它的一部分內(nèi)容可能是記憶中的,而另一部分則不是,我們無法精確區(qū)分。但大多數(shù)情況下,這就像是它在夢游或在做關(guān)于互聯(lián)網(wǎng)文本的夢,源于它的數(shù)據(jù)分布。這種能力使得神經(jīng)網(wǎng)絡(luò)能夠生成各種文本,從代碼到商品描述再到百科全書條目,但它也意味著生成的內(nèi)容需要謹慎驗證和審查,以確保準確性和可信度。這就是模型訓(xùn)練和模型推斷的關(guān)鍵過程,它們共同構(gòu)建了人工智能模型的能力和潛力。

第三部分:

** How do they work?

好了,讓我們換個話題,來看看這個神經(jīng)網(wǎng)絡(luò)是怎么運作的?它是如何完成下一個詞預(yù)測任務(wù)的?它內(nèi)部的運作機制是什么?這里的情況稍微復(fù)雜一些。如果我們放大神經(jīng)網(wǎng)絡(luò)的簡化圖,這有點像是神經(jīng)網(wǎng)絡(luò)的示意圖。這就是我們稱之為 Transformer 的神經(jīng)網(wǎng)絡(luò)架構(gòu),這是它的一個示意圖?,F(xiàn)在,這個神經(jīng)網(wǎng)絡(luò)的一個顯著特點是,我們對其架構(gòu)有著完整的理解。我們清楚地知道在它的各個階段會發(fā)生哪些數(shù)學(xué)運算。

但問題在于,這1000億個參數(shù)分散在整個神經(jīng)網(wǎng)絡(luò)中。因此,基本上,這上千億個參數(shù)散布在整個網(wǎng)絡(luò)中,我們所了解的只是如何逐步調(diào)整這些參數(shù),以使整個網(wǎng)絡(luò)在下一個詞預(yù)測的任務(wù)上表現(xiàn)得更好。我們知道如何優(yōu)化這些參數(shù),也知道如何隨時間調(diào)整它們以獲得更佳的下一詞預(yù)測效果,但我們并不真正清楚這些參數(shù)具體是如何工作的。我們可以觀察到它在下一個詞預(yù)測方面的進步,但并不清楚這些參數(shù)是如何協(xié)同工作以實現(xiàn)這一點的。我們手頭有些模型,可以讓我們從宏觀層面思考網(wǎng)絡(luò)可能在做的事情。

我們大致理解,它們構(gòu)建并維護了某種知識庫,但這個數(shù)據(jù)庫卻非常奇特、不完美且怪異。最近有一個廣為流傳的例子,我們稱之為“反轉(zhuǎn)詛咒”。比如,如果你和目前最先進的語言模型 GPT-4(ChatGPT 的一部分)對話,你問,誰是湯姆·克魯斯的母親?它會告訴你是瑪麗·李·菲弗,這是正確的。但如果你問,誰是瑪麗·菲弗的兒子,它會告訴你它不知道。這種知識很古怪,它似乎是單向的。這些信息并不是簡單存儲后就能從各種角度獲取,你必須從某個特定的角度去提問。

這真是既奇怪又令人困惑。歸根結(jié)底,我們實際上并不真正了解其工作原理,只能大致判斷它是否有效,以及有效的可能性有多大。簡而言之,可以將大語言模型 (LLM) 視為難以完全解讀的產(chǎn)物。它們與你可能在工程學(xué)科中建造的任何其他東西都不相似。它們不像汽車,我們了解汽車的每一個部件。

它們是這些來自長期優(yōu)化過程的神經(jīng)網(wǎng)絡(luò)。我們目前并不完全理解它們是如何工作的,盡管有一個叫做可解釋性或機械可解釋性的領(lǐng)域,正在嘗試研究并理解這些神經(jīng)網(wǎng)絡(luò)的每一個部分。目前,我們可以在一定程度上做到這一點,但還未能全面實現(xiàn)。現(xiàn)在,我們主要將它們視為基于經(jīng)驗的產(chǎn)品。我們可以給它們輸入一些數(shù)據(jù),然后測量輸出結(jié)果。我們基本上可以測量它們的行為表現(xiàn)。我們可以觀察它們在許多不同情況下生成的文本。因此,我認為這需要

相應(yīng)的復(fù)雜評估來處理這些模型,因為它們主要是基于經(jīng)驗的。

** Finetuning into an Assistant

現(xiàn)在,讓我們來看看我們?nèi)绾螌嶋H獲得一個助手模型。到目前為止,我們只談?wù)摿诉@些互聯(lián)網(wǎng)文檔生成器,對吧?這是訓(xùn)練的第一階段,我們稱之為預(yù)訓(xùn)練。我們現(xiàn)在正在進入訓(xùn)練的第二階段,我們稱之為微調(diào)。這一階段我們會獲得所謂的助手模型。因為我們實際上不僅僅需要文檔生成器,文檔生成器對許多任務(wù)幫助不大。我們希望能向某個系統(tǒng)提問,并讓它根據(jù)這些問題生成答案。所以我們真正需要的是一個助手模型。

獲得這些助手模型的過程主要如下:我們保持優(yōu)化過程相同,訓(xùn)練方式也相同。這本質(zhì)上是一個下一步工作預(yù)測的任務(wù)。但我們將更換訓(xùn)練用的數(shù)據(jù)集。原本我們是在互聯(lián)網(wǎng)文檔上進行訓(xùn)練,現(xiàn)在我們轉(zhuǎn)而使用手動收集的數(shù)據(jù)集。我們收集這些數(shù)據(jù)的方式是通過雇傭大量的人。通常,公司會雇傭人員,給他們標注指南,并要求他們提出問題,再為這些問題寫出答案。這里有一個具體示例:它很可能就是你訓(xùn)練集中的一部分。比如,有一個用戶提問,內(nèi)容可能是:“你能簡要介紹一下‘壟斷買方’這個術(shù)語在經(jīng)濟學(xué)中的相關(guān)性嗎?”

接著,有一個助手角色,同樣由人來填寫理想的回復(fù)應(yīng)當是什么。理想的回復(fù),以及如何定義它,以及它應(yīng)該是什么樣子,都是根據(jù)我們?yōu)檫@些參與者提供的標注文檔來確定的。像 OpenAI 或 Anthropic 這樣的公司的工程師會制定這些標注文檔?,F(xiàn)在,預(yù)訓(xùn)練階段主要處理大量的文本,但這些文本可能質(zhì)量不高,因為它們都是從互聯(lián)網(wǎng)上獲取的,有數(shù)十甚至數(shù)百 TB 的文本,而且并非所有的都是高質(zhì)量的。但在第二階段,我們更看重質(zhì)量而非數(shù)量。所以我們可能只有很少的文檔,比如10萬份,但這些文檔都是對話形式,并且都是非常高質(zhì)量的,由專業(yè)人士基于標注指南創(chuàng)建的。

所以我們現(xiàn)在更換數(shù)據(jù)集,轉(zhuǎn)而在這些問答形式的文檔上進行訓(xùn)練。這個過程被稱為微調(diào)。完成這些步驟后,我們就能得到所謂的助手型模型。這個助手模型現(xiàn)在遵循它新訓(xùn)練文檔的形式。舉個例子,如果你問它一個問題,比如:“你能幫我查一下這段代碼嗎?似乎有個 bug。請打印 hello world。”即使這個問題并不是訓(xùn)練集的一部分,模型在微調(diào)后理解它應(yīng)該以一個有用的助手的風(fēng)格回答這類問題。它會這樣做。它會再次逐字采樣,從左到右,從上到下,所有這些詞都是對這個問題的回復(fù)。

這是相當了不起的,也有點令人費解,還不完全被理解,這種模型能夠改變它們的格式,現(xiàn)在變成了有用的助手,因為它們在微調(diào)階段看到了很多這樣的文檔,但它們?nèi)匀荒軌蛟L問并以某種方式利用所有在第一階段(預(yù)訓(xùn)練階段)積累的知識。大致來說,預(yù)訓(xùn)練階段是在海量互聯(lián)網(wǎng)數(shù)據(jù)上進行訓(xùn)練,重點是知識積累;而微調(diào)階段則更關(guān)注對齊,它是關(guān)于給予,即將格式從互聯(lián)網(wǎng)文檔轉(zhuǎn)變?yōu)閱柎鹦问?,就像一個有用的助手一樣。

第四部分:

** Summary so far

構(gòu)建像 ChatGPT 這樣的模型包括兩個主要階段:預(yù)訓(xùn)練和微調(diào)。預(yù)訓(xùn)練階段需要從互聯(lián)網(wǎng)上搜集大量文本資料,使用GPU集群進行處理。這些高性能計算機的成本非常昂貴,通常需要幾百萬美元的投入。完成后,就得到了基礎(chǔ)模型。由于這個過程計算量巨大且成本高昂,公司通常一年或幾個月才會做一次。微調(diào)階段相對便宜,需要編寫標注指南和雇傭人員進行幫助。例如,可以通過Scale AI等公司進行文檔標注。這個階段需要收集約100,000個高質(zhì)量的問答回應(yīng)樣本,成本要低得多,可能只需一天就能完成。接下來是進行大量的評估工作,部署模型,并監(jiān)控和收集任何不當行為。對于每個不當行為,都需要修復(fù)并返回第一步重復(fù)這個過程。修復(fù)方法通常是找到錯誤回應(yīng)的對話,然后用正確的回應(yīng)替換。由于微調(diào)成本較低,可以每周或每天進行迭代,許多公司在微調(diào)階段而非預(yù)訓(xùn)練階段會更頻繁地進行迭代。

Meta發(fā)布的Llama 2系列包括基礎(chǔ)模型和助手模型?;A(chǔ)模型無法直接使用,因為它們無法直接對問題回復(fù)正確的答案,而助手模型則可以直接進行問答。Meta已經(jīng)完成了極其昂貴的預(yù)訓(xùn)練階段,提供了基礎(chǔ)模型,允許用戶基于這些結(jié)果進行自己的微調(diào)。此外,還有一個你可以選擇進行的第三階段微調(diào),即人類反饋強化學(xué)習(xí)(RLHF),主要通過使用比較標簽來提升額外性能。在OpenAI,這個過程被稱為人類反饋強化學(xué)習(xí)(RLHF),這其實是一個可選的第三階段,它能在大語言模型中提升額外性能,主要是通過使用比較標簽。例如,OpenAI的InstructGPT項目就是這樣的一個例子。

** Appendix: Comparisons, Labeling docs, RLHF, Synthetic data, Leaderboard

在第二階段提到了“和/或?qū)Ρ葮俗ⅰ?。對于人類標注員而言,比起自己撰寫答案,比較候選答案通常更為簡單。例如,對于一個要求寫關(guān)于回形針的俳句的問題,給標注員提供助手模型生成的候選俳句,讓他們挑選出更佳的一首,比自己創(chuàng)作要容易得多。這也是為什么在很多情況下,進行比較比創(chuàng)作來得容易。此外,還有一個第三階段的微調(diào)過程,可以利用這些比較結(jié)果來進一步優(yōu)化模型。在OpenAI,這個過程被稱為人類反饋強化學(xué)習(xí)(RLHF),是通過使用比較標簽來提升模型性能的可選第三階段。

關(guān)于標注文檔,盡管可能會長達幾十甚至上百頁且頗具復(fù)雜性,但其核心是要求參與者保持有幫助、真實和無害。隨著大語言模型能力的提升,人機協(xié)作在創(chuàng)建這些標簽中的作用日益增強。例如,可以讓模型先生成答案樣本,然后由人工挑選

部分形成最優(yōu)答案,或者讓模型幫助檢查工作。

在市面上領(lǐng)先的大語言模型排行榜上,例如加州大學(xué)伯克利分校管理的Chatbot Marina,使用ELO評分對不同的模型進行排名。ELO分數(shù)的計算方式與國際象棋類似,基于模型間的對比勝率。頂部的是專有模型,如OpenAI的GPT系列和Antropic的Claude系列,這些模型表現(xiàn)最佳但無法獲取其權(quán)重,只能通過網(wǎng)絡(luò)界面訪問。其次是公開權(quán)重的模型,例如Meta的Llama 2系列和法國Mistral系列的Zephyr 7B Beta??傮w上,封閉模型的表現(xiàn)更好,但無法進行微調(diào)或下載,只能通過網(wǎng)絡(luò)界面使用。然后是所有的開源模型和整個開源生態(tài)系統(tǒng),它們的性能相對較差,但可能已經(jīng)滿足某些應(yīng)用需求。目前,開源生態(tài)系統(tǒng)正在努力提升性能,試圖追趕專有生態(tài)系統(tǒng)。

第五部分:

好的,現(xiàn)在我要轉(zhuǎn)換話題,我們將討論語言模型,它們是如何改進的,以及這些改進將帶我們走向何方。首先要理解的關(guān)于大語言模型的重要概念是“規(guī)?;▌t”。事實證明,這些大語言模型在預(yù)測下一個詞的準確性方面的表現(xiàn)是一個非常平滑、規(guī)律性強,并且只有兩個變量的預(yù)測函數(shù)。一個變量是 N,即網(wǎng)絡(luò)中的參數(shù)數(shù)量;另一個變量是 D,即你用來訓(xùn)練的文本量。只要有了這兩個數(shù)據(jù),我們就能非常準確地預(yù)測你在下一詞預(yù)測任務(wù)上能達到的準確度。令人驚奇的是,這些趨勢看起來并沒有出現(xiàn)停滯或達到極限的跡象。這意味著,如果你在更多文本上訓(xùn)練更大規(guī)模的模型,我們可以非常自信地預(yù)期下一詞預(yù)測的表現(xiàn)將會提升。

因此,在算法上取得進步并非必要條件。算法進步當然是很好的加分項,但我們能夠在不增加成本的情況下獲得更強大的模型,因為我們只需要更強大的計算機。我們有理由相信這是可行的,并且我們可以在更長時間內(nèi)訓(xùn)練一個更大的模型。我們非常有信心我們將得到更好的結(jié)果。當然,在實際操作中,我們并不是真的那么關(guān)心預(yù)測下一個詞的準確度。但是,從經(jīng)驗上看,這種準確度與我們真正關(guān)心的許多評估指標是相關(guān)的。例如,你可以對這些大語言模型進行很多不同的測試。你會看到,如果你訓(xùn)練一個更大的模型更長的時間,例如,在 GPT 系列中從 3.5 提升到 4,所有這些測試的準確性都會提高。所以,當我們訓(xùn)練更大規(guī)模的模型和更多的數(shù)據(jù)時,我們自然而然地期待有性能的提升。這正是當前計算領(lǐng)域的一場淘金熱的根本驅(qū)動力,每個人都在努力獲取更強大的 GPU 集群,收集更多的數(shù)據(jù),因為人們有很大的信心,通過這樣做,可以獲得更優(yōu)秀的模型。算法的進步就像是額外的獎勵,許多機構(gòu)對此投入巨大。但從根本上說,擴大規(guī)模提供了一條通往成功的確定途徑。

**Tool Use (Browser, Calculator, Interpreter, DALL-E)**

接下來,我想通過一些具體的例子來講解這些語言模型的能力,以及它們是如何隨著時間發(fā)展的。不是泛泛而談,我會用一個具體的例子,逐步分析來說明。所以我打開 ChatGPT,給出了以下的查詢。我說,收集關(guān)于 Scale AI 及其融資輪次的信息,包括發(fā)生的時間、日期、金額和估值,并將這些信息整理成一張表。根據(jù)我們收集的大量數(shù)據(jù),ChatGPT 在微調(diào)學(xué)習(xí)階段就已經(jīng)理解,在這種類型的查詢中,ChatGPT 不會僅僅依靠自己作為一個大語言模型來直接回答問題。相反,它學(xué)會了在需要時使用一些外部工具來幫助完成任務(wù)。在這個例子中,一個很合適的工具就是瀏覽器。

假設(shè)你和我遇到同樣的問題,你可能會選擇上網(wǎng)搜索,對吧?ChatGPT 做的正是這樣的事情。它能夠發(fā)出特定的詞匯,我們可以通過這些詞匯觀察它是如何嘗試進行搜索的。在這種情況下,我們可以拿著這個查詢?nèi)?Bing 搜索,查看搜索結(jié)果。就像你我在瀏覽搜索結(jié)果一樣,我們可以把搜索到的文本反饋給語言模型,讓它基于這些文本生成回答。這個過程非常類似于我們使用瀏覽器進行研究的方式。然后,它會將這些信息整理成以下形式,并以此方式進行回應(yīng)。

所以,它收集了信息,我們得到了一張表格,上面列出了 A、B、C、D 和 E 輪融資的具體日期、籌資金額和對應(yīng)的估值。接著,它還提供了引用鏈接,你可以通過這些鏈接去核實這些信息的準確性。在底部,它表示,實際上我要道歉,我沒有找到 A 輪和 B 輪的估值數(shù)據(jù),只找到了籌集的金額。所以你可以看到表格中有一項標記為不可用。好的,我們現(xiàn)在可以繼續(xù)這種互動。我提出,讓我們嘗試基于 C 輪、D 輪和 E 輪中看到的比例,來推測或估算 A 輪和 B 輪的估值??梢钥吹?,在 C、D 和 E 輪中,籌資金額和估值之間存在一定的比例關(guān)系。那么,我們該如何解決這個問題呢?當我們嘗試推算“不可用”的數(shù)據(jù)時,并不是僅憑腦海中的計算就能解決。你不可能只是試圖在你的腦海中解決它。這樣做相當復(fù)雜,因為我們在數(shù)學(xué)方面并不特別擅長。同樣,ChatGPT 也不是通過單純“思考”就能擅長數(shù)學(xué)運算。實際上,ChatGPT 知道它應(yīng)該使用計算器來處理這類任務(wù)。因此,它會發(fā)出特定的指令,告訴程序它需要使用計算器來計算這個數(shù)值。它實際上做的是,首先計算所有的比率,然后根據(jù)這些比率來推算 A 輪和 B 輪的估值,可能是 7000 萬或者 2.83 億。所以,現(xiàn)在我們的目標是得到所有不同融資輪次的估值數(shù)據(jù)。接下來,我們將這些數(shù)據(jù)制作成一個二維圖表:橫軸表示日期,縱軸顯示 Scale AI 的估值。為了更精確地展示,我們會在縱軸上使用對數(shù)刻度,并且加上網(wǎng)格線,使圖表看起來既專業(yè)又美觀。ChatGPT 實際上可以使用工具,這次是編寫代碼,使用 Python 語言中的 Matplotlib 庫來繪制這些數(shù)據(jù)。它會進入一個 Python 解釋器,輸入所有數(shù)據(jù),然后生成圖表。這就是圖。它清晰地展示了底部的數(shù)據(jù),完全按照我們用自然語言提出的要求制作完成。

與 ChatGPT 交流就像與人交談一樣自然。現(xiàn)在我們看著這張圖表,想要進行更多的分析。比如,我們現(xiàn)在想在這個圖表上加一條線性趨勢線,并嘗試推算 Scale AI 到 2025 年底的估值。再比如,在圖表上標出今天的日期,并基于趨勢線來估算今天和 2025 年底的估值。ChatGPT 完成了所有編碼工作,雖然這些代碼沒有展示出來,但它提供了詳細的分析結(jié)果。在圖表的底部,我們可以看到日期和估值的推算結(jié)果。根據(jù)這個趨勢線的擬合結(jié)果,今天 Scale AI 的估值大約是 1500 億美元。而到了 2025 年底,這個公司預(yù)計會成長為價值高達 2 萬億美元的科技巨頭。所以,祝賀 Scale AI 團隊。但這只是 ChatGPT 擅長的分析類型之一。我想通過這個例子展示的核心點是,語言模型在工具使用方面的能力以及它們的發(fā)展趨勢。它們的功能不再局限于在大腦中處理信息和選擇詞匯。如今,它們開始利用各種工具和現(xiàn)有的計算基礎(chǔ)設(shè)施,將一切緊密聯(lián)系并用詞匯交織在一起,如果這有意義的話。

因此,工具使用已成為這些模型日益增強能力的重要一環(huán)。它們能夠編寫大量代碼、進行全面分析、從互聯(lián)網(wǎng)上檢索信息等等。再舉一個例子。根據(jù)上述信息,試圖生成一個代表 Scale AI 公司的圖像。所以,基于上面的所有內(nèi)容,依據(jù)大語言模型的上下文理解,它對 Scale AI 有深刻的了解。它可能還記得關(guān)于 Scale AI 的一些信息以及網(wǎng)絡(luò)中儲存的知識。然后它去使用另一個工具,在這種情況下這個工具是 DALL-E,這也是 OpenAI 開發(fā)的一種工具,可以根據(jù)自然語言描述生成圖像。所以在這里 DALL-E 被用作生成圖像的工具。希望這個演示能具體說明問題解決過程中大量使用工具的情況,這與人類解決很多問題的方式高度相關(guān)。我們在解決問題時不僅僅依賴思考,而是廣泛運用各種工具,比如電腦就非常有用。對于大語言模型也是如此,利用工具正逐漸成為大語言模型發(fā)展的一個重要方向。

責(zé)任編輯:郭鵬_NO4657

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
見證歷史!50萬億存款搬家, 相當于40%GDP, 錢正瘋狂流向兩大方向

見證歷史!50萬億存款搬家, 相當于40%GDP, 錢正瘋狂流向兩大方向

現(xiàn)代小青青慕慕
2026-01-12 16:43:32
2026年馬上迎來車價暴跌,會一落千丈跌到堪比廢銅爛鐵?

2026年馬上迎來車價暴跌,會一落千丈跌到堪比廢銅爛鐵?

流蘇晚晴
2026-01-18 19:19:41
比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

芳芳歷史燴
2025-12-25 20:32:52
謝賢前女友大曝戀愛私隱!三年不碰她,卻每天給她做“四哥菜芯”

謝賢前女友大曝戀愛私隱!三年不碰她,卻每天給她做“四哥菜芯”

阿纂看事
2026-01-09 10:19:00
長江十年禁漁已過半程:刀魚群歸,鰣魚無影?生態(tài)修復(fù)路在何方?

長江十年禁漁已過半程:刀魚群歸,鰣魚無影?生態(tài)修復(fù)路在何方?

向航說
2026-01-16 01:00:03
交易??怂?,火箭或迎利好,探花秀聯(lián)手文班,西部要變天了?

交易??怂?,火箭或迎利好,探花秀聯(lián)手文班,西部要變天了?

體育大朋說
2026-01-18 19:20:27
據(jù)說全球僅20例!巴西一女子在同一晚與2名男子發(fā)生了關(guān)系

據(jù)說全球僅20例!巴西一女子在同一晚與2名男子發(fā)生了關(guān)系

忠于法紀
2025-12-04 11:25:07
野心不?。∩虾k姍C學(xué)院計劃五年內(nèi)改名,新校名給力,聽著像名校

野心不??!上海電機學(xué)院計劃五年內(nèi)改名,新校名給力,聽著像名校

專注教育那些事
2026-01-18 10:48:52
有驚無險,太陽報:格伊的私人飛機降落前曾遭遇突發(fā)狀況

有驚無險,太陽報:格伊的私人飛機降落前曾遭遇突發(fā)狀況

懂球帝
2026-01-18 21:54:16
這些都是老天的暗示 你看懂了嗎?網(wǎng)友:請相信自己的直覺

這些都是老天的暗示 你看懂了嗎?網(wǎng)友:請相信自己的直覺

夜深愛雜談
2026-01-17 21:13:28
要聽勸,少帶孩子去商場

要聽勸,少帶孩子去商場

十點讀書
2026-01-16 19:05:12
羅馬諾:切爾西與雅凱談妥個人條款,雷恩要價約6500萬歐

羅馬諾:切爾西與雅凱談妥個人條款,雷恩要價約6500萬歐

懂球帝
2026-01-18 21:37:53
加拿大總理卡尼表示:“在格陵蘭問題上,加拿大和中國高度一致”

加拿大總理卡尼表示:“在格陵蘭問題上,加拿大和中國高度一致”

扶蘇聊歷史
2026-01-18 15:25:03
真不是我亂說,如今NBA的“倆王,四個二”,就是以下六位球員

真不是我亂說,如今NBA的“倆王,四個二”,就是以下六位球員

暗香暗香
2026-01-03 07:25:24
上海銀行行長選妃:腿要長,腰要細,皮膚要白,各個對其死心塌地

上海銀行行長選妃:腿要長,腰要細,皮膚要白,各個對其死心塌地

凱裕說故事
2025-01-10 10:48:42
劉曉慶舉辦活動。無修圖顯示其滿臉皺紋、大肚腩明顯,盡顯老態(tài)

劉曉慶舉辦活動。無修圖顯示其滿臉皺紋、大肚腩明顯,盡顯老態(tài)

民間平哥
2026-01-16 16:10:25
劉亦菲海邊無濾鏡照流出,肚子贅肉真實,網(wǎng)友:這才是自然美

劉亦菲海邊無濾鏡照流出,肚子贅肉真實,網(wǎng)友:這才是自然美

探長影視解說
2026-01-16 13:10:55
為何美國黑人寧愿冒生命危險,也不愿聽警察的指令?網(wǎng)友分享真相了

為何美國黑人寧愿冒生命危險,也不愿聽警察的指令?網(wǎng)友分享真相了

另子維愛讀史
2026-01-18 21:49:38
純大核太猛!Intel 10核心Bartlett Lake跑分首秀:比14核i5-14500還強

純大核太猛!Intel 10核心Bartlett Lake跑分首秀:比14核i5-14500還強

快科技
2026-01-18 22:36:06
沈騰大量照片曝光!騰訊回應(yīng)“沈騰QQ空間被盜”:鵝真的很委屈

沈騰大量照片曝光!騰訊回應(yīng)“沈騰QQ空間被盜”:鵝真的很委屈

草莓解說體育
2026-01-17 04:33:50
2026-01-19 01:28:49
齊天候 incentive-icons
齊天候
酷愛學(xué)習(xí)的候先生
459文章數(shù) 162129關(guān)注度
往期回顧 全部

科技要聞

AI大事!馬斯克:索賠9300億元

頭條要聞

歐盟"外長":特朗普的關(guān)稅威脅分裂歐美 會讓中國受益

頭條要聞

歐盟"外長":特朗普的關(guān)稅威脅分裂歐美 會讓中國受益

體育要聞

21年后,中國男足重返亞洲四強

娛樂要聞

香港武打演員梁小龍去世:享年77

財經(jīng)要聞

BBA,勢敗如山倒

汽車要聞

又一次悶聲干大事,奇瑞進入2.0 AI+時代

態(tài)度原創(chuàng)

旅游
健康
親子
藝術(shù)
房產(chǎn)

旅游要聞

受雨雪天氣影響,陜西多家景區(qū)臨時關(guān)閉

血常規(guī)3項異常,是身體警報!

親子要聞

文詠珊帶助理游曼谷,生娃3個多月瘦出“排骨胸”,不像母乳喂養(yǎng)

藝術(shù)要聞

放大看油畫,細節(jié)之美令人驚嘆不已!

房產(chǎn)要聞

真四代來了!這次,??跇鞘袑氐最嵏?!

無障礙瀏覽 進入關(guān)懷版