網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

小語言模型 VS 大語言模型

2025-11-06 08:04:54　來源: TechSugar

上海舉報(bào)

分享至

（本文編譯自Semiconductor Engineering）

邊緣人工智能的普及需要語言模型和芯片架構(gòu)做出根本性變革，才能使人工智能數(shù)據(jù)中心之外的推理和學(xué)習(xí)成為可行選擇。

小語言模型（SLM）的最初目標(biāo)是專門用于推理任務(wù)，其參數(shù)量約為100億或更少，而最大的大語言模型（LLM）的參數(shù)量則超過萬億。然而，如今小語言模型也越來越多地具備一定的學(xué)習(xí)能力。由于這類模型是為特定任務(wù)量身定制的，它們生成結(jié)果所需的時(shí)間遠(yuǎn)少于向人工智能數(shù)據(jù)中心發(fā)送查詢、指令或傳感器數(shù)據(jù)并接收響應(yīng)所需的時(shí)間。

SLM并非新生事物。EDA公司多年來一直在探索優(yōu)化計(jì)算軟件，科學(xué)家們也已將小型模型應(yīng)用于解決數(shù)學(xué)和科學(xué)問題。但2022年11月ChatGPT的推出，徹底改變了世界對(duì)人工智能的認(rèn)知，而涌入該行業(yè)的巨額投資也使得商用語言模型能夠在本地運(yùn)行得更快，同時(shí)大幅降低能耗。

在邊緣部署人工智能需要對(duì)語言模型進(jìn)行更精細(xì)的優(yōu)化。但業(yè)界期望，這些模型最終能為邊緣設(shè)備實(shí)現(xiàn)原本屬于物聯(lián)網(wǎng)的功能。盡管邊緣人工智能市場(chǎng)總規(guī)模（TAM）增長(zhǎng)的預(yù)測(cè)仍帶有推測(cè)性，但各方普遍認(rèn)為其正呈快速增長(zhǎng)趨勢(shì)。《財(cái)富商業(yè)洞察》估計(jì)，到2032年，該市場(chǎng)規(guī)模將達(dá)到2670億美元，而2024年僅為270億美元。反過來，這有望為各種芯片、芯粒以及用于優(yōu)化這些設(shè)計(jì)的工具，創(chuàng)造全新的市場(chǎng)機(jī)遇。

德勤近期的一項(xiàng)調(diào)查發(fā)現(xiàn)，2024年投資邊緣計(jì)算的公司，對(duì)邊緣人工智能的投資回報(bào)比以往更為樂觀。德勤指出，嵌入某些設(shè)備的人工智能技術(shù)可能帶來顛覆性變革，因?yàn)樗鼰o需網(wǎng)絡(luò)連接。這將對(duì)從工業(yè)和汽車到消費(fèi)電子設(shè)備（例如安防攝像頭）等一系列應(yīng)用領(lǐng)域產(chǎn)生影響。

在汽車領(lǐng)域，SLM將提升車輛功能，并提升車路協(xié)同通信質(zhì)量。在芯片制造領(lǐng)域，它們將提供實(shí)時(shí)分析服務(wù)。在客戶服務(wù)領(lǐng)域，它們將減少自動(dòng)應(yīng)答服務(wù)菜單帶來的用戶困擾。此外，它們還將推動(dòng)新型芯片架構(gòu)的發(fā)展，從采用定制處理器和更分布式控制器的多芯片組件，到預(yù)加載SLM的芯粒。

當(dāng)前的挑戰(zhàn)在于，如何將這些SLM縮小到可用規(guī)模，并開發(fā)能夠在低功耗預(yù)算內(nèi)加速算法運(yùn)行的硬件架構(gòu)，且要保證其在所用領(lǐng)域具備足夠的精度。大型人工智能公司已報(bào)告稱，通過量化技術(shù)，通過量化技術(shù)已實(shí)現(xiàn)數(shù)量級(jí)的模型壓縮，將高精度32位浮點(diǎn)數(shù)（FP32）降至4位浮點(diǎn)（FP4）。這種方法之所以有效，是因?yàn)椴⒎敲總€(gè)查詢、指令或分析都需要篩選海量數(shù)據(jù)集。如果可以將少量高度相關(guān)的數(shù)據(jù)存儲(chǔ)在本地，或者至少存儲(chǔ)在靠近終端設(shè)備的位置，那么簡(jiǎn)單的4位精度響應(yīng)可能已足夠。此外，通過使用針對(duì)特定數(shù)據(jù)類型定制的更快處理單元和更具針對(duì)性的存儲(chǔ)架構(gòu)，SLM或許能夠在不顯著降低速度或消耗電池電量的情況下使用16位浮點(diǎn)（FP16）。

ChipAgents首席執(zhí)行官William Wang表示：“很多人都在關(guān)注這些小語言模型?？蛻艏认ＭＰ湍転樘囟ㄈ蝿?wù)提供高性能，又要確保做出合理的權(quán)衡?；蛟S你可以選擇性能稍低但響應(yīng)速度更快的模型?！?/p>

這是實(shí)現(xiàn)人工智能另一種思路。“大語言模型本質(zhì)上是一種蠻力式的方法，它收集所有可用數(shù)據(jù)，通過各類向量化處理，將其壓縮到無數(shù)不同的連接中，”Cadence公司人工智能知識(shí)產(chǎn)權(quán)產(chǎn)品營(yíng)銷總監(jiān)Jayson Lawley表示，“但如果能不斷縮小模型規(guī)模并進(jìn)行壓縮，就能更高效地將 AI 功能推向邊緣側(cè)?！?/p>

英飛凌物聯(lián)網(wǎng)、消費(fèi)電子和工業(yè)微控制器高級(jí)副總裁Steve Tateosian表示：“我們可以突破喚醒詞的語言模型局限，將自然語言處理融入到問題中，再通過語言模型生成響應(yīng)。我們稱之為邊緣語言模型（ELM），而它的發(fā)展方向是從生成式人工智能到通用人工智能，這樣模型就可以用于不同的用途。你可以運(yùn)行多個(gè)ELM，訓(xùn)練一個(gè)語言模型來詢問上下文，另一個(gè)模型訓(xùn)練用于視覺識(shí)別等。然后，在所有這些模型之上，可能還會(huì)有一個(gè)智能體，利用這些模型的輸入來告知用戶一些感興趣的信息。”

圖1：數(shù)據(jù)中心LLM與ELM的能耗對(duì)比。

（圖源：英飛凌）

聚焦特定工作負(fù)載

短期內(nèi)，通用性更強(qiáng)的SLM更具合理性，因?yàn)樗鼈兛梢岳酶鞣N處理單元。語言模型幾乎處于不斷迭代的狀態(tài)，而硬件的設(shè)計(jì)、驗(yàn)證和制造需要18到24個(gè)月的時(shí)間。到那時(shí)，專為特定SLM設(shè)計(jì)的芯片可能已經(jīng)過時(shí)了。

ChipAgents公司的Wang表示：“你想從大模型中提煉基礎(chǔ)知識(shí)，并將其注入到小模型中。同時(shí)還要能修剪權(quán)重，如用8位代替16位。所有數(shù)據(jù)都會(huì)被壓縮。目前已有成熟算法可實(shí)現(xiàn)權(quán)重壓縮，同時(shí)保證一定精度水平。但語言模型和人工智能的發(fā)展速度太快，硬件協(xié)同設(shè)計(jì)難度極大。”

其他方法包括在芯片中添加一些可編程性，或使用更通用的芯片進(jìn)行一些定制配置，使其能與一個(gè)或多個(gè)聚焦特定場(chǎng)景的SLM實(shí)現(xiàn)最佳權(quán)衡。

Baya Systems首席商務(wù)官Nandan Nayampally表示：“越靠近終端設(shè)備，可變現(xiàn)的服務(wù)就越多。我們看到，許多客戶都對(duì)更具體、更定制化的模型提出了需求。LLM實(shí)際上是通用知識(shí)庫(kù)，而許多基于LLM開發(fā)的SLM更多地與推理而非訓(xùn)練相關(guān)。訓(xùn)練需求不會(huì)消失，而且從中短期來看還會(huì)增長(zhǎng)，因?yàn)闀?huì)有更多模型作為SLM的基礎(chǔ)模型。但推理環(huán)節(jié)正在從云端下移到網(wǎng)絡(luò)邊緣，甚至可能下移至終端設(shè)備，這種轉(zhuǎn)變非常有趣。”

英飛凌互聯(lián)安全系統(tǒng)事業(yè)部總裁Thomas Rosteck表示：“過去，物聯(lián)網(wǎng)更像是連接云端的接口，而現(xiàn)在它才真正成為‘萬物互聯(lián)’的形態(tài)。設(shè)備之間可以互相通信。邊緣人工智能通過提供更強(qiáng)大的智能和新的功能集，為物聯(lián)網(wǎng)設(shè)備增添了新的能力。那么，未來會(huì)有什么變革嗎？答案是肯定的，因?yàn)檫吘壴O(shè)備的功能正變得越來越強(qiáng)大。邊緣和云端之間的分工也必須進(jìn)行調(diào)整，因?yàn)樵贫朔?wù)器集群消耗大量能源，我們至少要讓數(shù)據(jù)傳輸和任務(wù)分配變得更合理?！?/p>

這并不意味著云端不再有用。模型仍需要訓(xùn)練，大規(guī)模的上下文搜索和分析對(duì)于邊緣設(shè)備來說仍然過于復(fù)雜。但是，將更多處理任務(wù)轉(zhuǎn)移到邊緣確實(shí)可以降低每次人工智能交互的成本，包括數(shù)據(jù)傳輸、云端處理，以及將數(shù)據(jù)以邊緣設(shè)備可用格式返回所需的能耗都會(huì)減少。

Arteris公司董事長(zhǎng)兼首席執(zhí)行官Charlie Janac表示：“提高效率的方法之一是減少所有這些數(shù)據(jù)傳輸?shù)哪芎?。另一種方法是改進(jìn)LLM處理數(shù)據(jù)的方式。因此，這里存在很多創(chuàng)新空間，而且這些創(chuàng)新是必要的，目前來看，所有為人工智能訓(xùn)練和推理而建的數(shù)據(jù)中心，它們的總能耗是世界迄今為止能源產(chǎn)量的三倍。這催生了小型核反應(yīng)堆的巨大市場(chǎng)，但解決問題的關(guān)鍵之一是提升整體效率，我們不能僅僅關(guān)注處理能力，而必須關(guān)注能源效率和能源利用率?！?/p>

這種效率提升不僅源于優(yōu)化運(yùn)行LLM的系統(tǒng)性能，還源于利用SLM在邊緣側(cè)處理更多數(shù)據(jù)，同時(shí)減少需要發(fā)送至云端的數(shù)據(jù)量。“關(guān)鍵在于最大限度地減少數(shù)據(jù)來回傳輸，”Synaptics無線事業(yè)部高級(jí)副總裁兼總經(jīng)理Venkat Kodavati表示，“但當(dāng)必須進(jìn)行傳輸時(shí)，也希望以高效的方式進(jìn)行，并節(jié)省電量。我們已經(jīng)看到很多小語言模型，它們擁有數(shù)億個(gè)參數(shù)，我們可以在邊緣設(shè)備上支持?jǐn)?shù)據(jù)傳輸。但未來模型將能在邊緣設(shè)備上更高效地運(yùn)行。不僅可以在邊緣側(cè)完成大量推理任務(wù)，還能進(jìn)行部分訓(xùn)練；可以在邊緣側(cè)開展定制化訓(xùn)練，再將模型更新至云端。所有這些都將在不久后成為現(xiàn)實(shí)。”

圖2：智能邊緣的應(yīng)用案例。

（圖源：Synaptics）

能本地則本地，需全局則全局

至少在短期內(nèi)，結(jié)合云端與邊緣側(cè)的混合模型將成為大多數(shù)場(chǎng)景的常態(tài)。本地處理速度更快，但設(shè)備仍需要與大型數(shù)據(jù)中心進(jìn)行通信，以進(jìn)行維護(hù)、軟件更新以及查詢無法本地存儲(chǔ)的大型數(shù)據(jù)集（例如半導(dǎo)體制造中的數(shù)據(jù)集）。事實(shí)上，SLM會(huì)增加多次測(cè)試插入過程中需要處理的數(shù)據(jù)量。

“我們還會(huì)繼續(xù)使用大語言模型一段時(shí)間，”愛德萬測(cè)試應(yīng)用研究與技術(shù)副總裁Ira Leventhal表示，“小語言模型將專注于一些真正適用的特定應(yīng)用場(chǎng)景。但從測(cè)試的角度來看，如果采用小語言模型，優(yōu)勢(shì)在于它們目標(biāo)明確。但這樣一來，測(cè)試用例的數(shù)量就會(huì)減少，從而降低測(cè)試過程中的變數(shù)，這將簡(jiǎn)化測(cè)試流程。但如果使用大量的小語言模型，就必須同時(shí)對(duì)所有這些模型進(jìn)行測(cè)試，而且必須并行測(cè)試?！?/p>

這需要跟蹤涉及多個(gè)小語言模型的所有交互和依賴關(guān)系。小語言模型需要謹(jǐn)慎地集成到復(fù)雜的流程中，如半導(dǎo)體測(cè)試或檢驗(yàn)，否則可能引發(fā)問題。

PDF Solutions首席執(zhí)行官John Kibarian表示：“我們正利用大語言模型的技術(shù)能力，但客戶希望它能與我們的系統(tǒng)高度適配，進(jìn)而與他們自身的數(shù)據(jù)精準(zhǔn)匹配并實(shí)現(xiàn)本地化部署。他們需要的是完全定制化的解決方案，能夠更好地了解他們的環(huán)境，并根據(jù)現(xiàn)有功能不斷更新。他們還希望人工智能能夠增強(qiáng)現(xiàn)有知識(shí)，以便將知識(shí)捕獲并傳承給下一代工程師。這將引領(lǐng)我們的行業(yè)邁向前所未有的高度，同時(shí)也不會(huì)遺忘過去積累的經(jīng)驗(yàn)。他們正在尋找這種小型化、本地訓(xùn)練的能力，通過學(xué)習(xí)他們過去所有的生產(chǎn)、分析、測(cè)試程序以及數(shù)據(jù)處理方式，有效地將經(jīng)驗(yàn)知識(shí)在一定程度上整合起來，從而更快地在整個(gè)組織內(nèi)推廣這種能力。”

更多功能，新的挑戰(zhàn)

SLM是一個(gè)寬泛的統(tǒng)稱，最終將細(xì)分為多個(gè)子集。例如，目前已有多模態(tài)模型、視頻SLM，隨著邊緣設(shè)備功能的增加，未來還會(huì)出現(xiàn)其他類型的SLM。但目前尚不清楚的是，這些SLM將如何交互，如何以有效的方式構(gòu)建這些交互，以及在無法構(gòu)建交互時(shí)如何最大限度地減少交互。此外，如果允許這些設(shè)備自主學(xué)習(xí)，則需要某種形式的監(jiān)管來確保其可靠性。

結(jié)語

在不久的將來，精度與性能之間的權(quán)衡仍將是邊緣側(cè)及面向邊緣側(cè)開發(fā)的SLM的核心議題。但提供邊緣AI服務(wù)的公司可以利用其在云端LLM方面積累的經(jīng)驗(yàn)，加速SLM的部署。數(shù)據(jù)傳輸距離越短，需要發(fā)送到云端的數(shù)據(jù)量越少，響應(yīng)速度就越快。而SLM的功能定義越精準(zhǔn)，其整體優(yōu)化速度也會(huì)越快。

SLM正快速興起，并在各個(gè)方向突破邊界。有些SLM將支持多模態(tài)，而有些則專注于特定模態(tài)，如視覺或自然語言音頻。無論如何，它們都將定義并重新定義人類與機(jī)器，以及機(jī)器之間的交互方式。所有這些都將發(fā)生在數(shù)據(jù)源頭附近，而這一切都將在更靠近數(shù)據(jù)源、更貼近人們工作與日常生活所用工具和設(shè)備的場(chǎng)景中發(fā)生。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.