国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

一文通關(guān)!ChatGPT等大語(yǔ)言模型33個(gè)關(guān)鍵概念全解!

0
分享至

寫(xiě)給大眾用戶(hù)的大語(yǔ)言模型通俗指南,避開(kāi)所有數(shù)學(xué)公式,直擊本質(zhì)、從基礎(chǔ)到實(shí)踐的清晰指南,你不用懂?dāng)?shù)學(xué)、不用會(huì)編程,也不用記復(fù)雜的提示詞。

什么是生成式 AI?

如今的生成式模型是十年技術(shù)積累的成果,但直到 2022 年,才讓大多數(shù)人真正感受到它的 “驚艷時(shí)刻”。生成式 AI 是機(jī)器學(xué)習(xí)(Machine Learning,ML)的一個(gè)分支,核心是讓 AI 模型學(xué)習(xí)海量真實(shí)世界數(shù)據(jù),然后生成類(lèi)似人類(lèi)創(chuàng)作的全新內(nèi)容 —— 比如文本、圖片、代碼等。

這段話(huà)可能有點(diǎn)繞,咱們先理清幾個(gè)基礎(chǔ)術(shù)語(yǔ),再深入聊大語(yǔ)言模型:

  • 人工智能(AI)是個(gè)大范疇:讓計(jì)算機(jī)完成看起來(lái)需要 “智能” 才能做到的事。
  • 機(jī)器學(xué)習(xí)(ML)屬于 AI 的子集:系統(tǒng)靠數(shù)據(jù)學(xué)習(xí)規(guī)律,而不是靠硬編碼的規(guī)則。
  • 深度學(xué)習(xí)(Deep Learning,DL)是機(jī)器學(xué)習(xí)的一種方式:讓計(jì)算機(jī)通過(guò)海量案例練習(xí),學(xué)會(huì)識(shí)別模式。
  • 自然語(yǔ)言處理(Natural Language Processing,NLP)是 AI 專(zhuān)門(mén)處理人類(lèi)語(yǔ)言的分支,就這么簡(jiǎn)單。
  • 生成式 AI 是 AI 的一個(gè)分支:專(zhuān)注于 “創(chuàng)造” 新內(nèi)容(文本、圖片、音頻、代碼等),核心是 “生成”,而不是像傳統(tǒng) AI 那樣專(zhuān)注于 “預(yù)測(cè)”。
  • 大語(yǔ)言模型(LLM)是生成式 AI 家族中的深度學(xué)習(xí)模型,專(zhuān)門(mén)負(fù)責(zé)文本生成。

記住這個(gè)關(guān)系鏈就夠了:AI → 機(jī)器學(xué)習(xí) → 深度學(xué)習(xí) →(自然語(yǔ)言處理)→ 大語(yǔ)言模型(LLM)

理清了這些標(biāo)簽,咱們就能明白大語(yǔ)言模型到底是怎么工作的了。

什么是大語(yǔ)言模型(LLM)?

大語(yǔ)言模型本質(zhì)上是個(gè)超強(qiáng)的 “自動(dòng)補(bǔ)全系統(tǒng)”。它一輩子只在重復(fù)回答一個(gè)簡(jiǎn)單問(wèn)題:“給定這段文本,下一個(gè)最可能出現(xiàn)的token是什么?”

這里的 “token”,就是文本的最小有意義單位 —— 可能是一個(gè)完整的詞(比如 “你好”)、單詞的一部分(比如 “run” 和 “ning”),也可能是標(biāo)點(diǎn)符號(hào)(比如 “?”)。

舉個(gè)例子:當(dāng)你問(wèn) ChatGPT“什么是微調(diào)(fine-tuning)?” 時(shí),它并不是 “知道” 答案,而是逐個(gè)預(yù)測(cè)下一個(gè)token:

  1. 最可能出現(xiàn)的第一個(gè)token是 “微調(diào)”;
  2. 基于第一個(gè)token,下一個(gè)最可能的是 “是”;
  3. 再接下來(lái)是 “將”;
  4. 依此類(lèi)推……

直到生成完整句子:“微調(diào)是在預(yù)訓(xùn)練模型的基礎(chǔ)上,用更小、更具體的數(shù)據(jù)集進(jìn)一步訓(xùn)練的過(guò)程?!?/p>

輸入:什么是微調(diào)?大語(yǔ)言模型的核心功能:預(yù)測(cè)序列中的下一個(gè)token,從而生成回應(yīng)。



它被稱(chēng)為 “大語(yǔ)言模型”,原因很簡(jiǎn)單:

  • 規(guī)模大(Large):擁有數(shù)十億個(gè)內(nèi)部變量(稱(chēng)為 “參數(shù)”),且訓(xùn)練數(shù)據(jù)量極其龐大;
  • 聚焦語(yǔ)言(Language):專(zhuān)門(mén)用于理解和生成人類(lèi)語(yǔ)言;
  • 本質(zhì)是模型(Model):是對(duì)所學(xué)模式的數(shù)學(xué)化表達(dá)。

所以說(shuō)到底,大語(yǔ)言模型就是個(gè)超級(jí)高級(jí)的 “猜詞機(jī)器”—— 一次次猜下一個(gè)token,直到拼湊出完整答案。

那它怎么能精準(zhǔn)猜對(duì)呢?這就離不開(kāi)它漫長(zhǎng)的 “學(xué)習(xí)過(guò)程”—— 預(yù)訓(xùn)練(pre-training)。

就像讓一個(gè)學(xué)生讀完一座巨大圖書(shū)館里的所有書(shū)(對(duì) LLM 來(lái)說(shuō),就是互聯(lián)網(wǎng)上的海量文本),它不會(huì)逐字逐句背誦,而是學(xué)習(xí)語(yǔ)言、句子和思想之間的搭配模式,直到能準(zhǔn)確預(yù)測(cè)任何句子的下一部分。GPT-5 這類(lèi)基礎(chǔ)模型(Base Model),就是這么通過(guò)預(yù)訓(xùn)練構(gòu)建出來(lái)的。

隱藏的 “黑科技”:大語(yǔ)言模型的內(nèi)部運(yùn)作

你不用搞懂 LLM 的每一個(gè) “零件”,但理解token、嵌入、參數(shù)這些核心組件,會(huì)讓它不再神秘。還能幫你看清模型的優(yōu)勢(shì)、短板,以及如何讓它給出更好的結(jié)果。

1. token

大語(yǔ)言模型本質(zhì)是個(gè)數(shù)學(xué)系統(tǒng),有個(gè)核心問(wèn)題:它只懂?dāng)?shù)字,不懂文字。那它怎么 “讀懂” 你問(wèn)的 “什么是微調(diào)?” 呢?

第一步就是把文本轉(zhuǎn)換成模型能處理的形式 —— 先將句子拆成最小有意義單位,也就是token。

這個(gè)拆分工作由 “(tokenizer)” 完成:

  • 先把句子拆成token列表:[“什么”, “是”, “微”, “調(diào)”, “?”](不同token器拆分規(guī)則略有差異,比如可能拆成 [“什么”, “是”, “微調(diào)”, “?”]);
  • 再把每個(gè)獨(dú)特的token換成對(duì)應(yīng)的 ID 數(shù)字。

最終,“什么是微調(diào)?” 會(huì)變成一串模型能理解的數(shù)字序列,比如 [1023, 318, 5621, 90177, 30]。

但token本身沒(méi)有意義,只是一串 ID,要讓模型理解,還需要另一層處理。



2. 嵌入(embeddings)

通過(guò)token化,我們把問(wèn)題變成了數(shù)字 ID 列表,但這些數(shù)字只是隨機(jī)標(biāo)簽 —— 比如 “貓” 的 ID 和 “小貓” 的 ID 毫無(wú)關(guān)聯(lián),模型根本不知道它們的意思和聯(lián)系。

這時(shí)候 “嵌入” 就派上用場(chǎng)了。嵌入是一串特殊的數(shù)字(稱(chēng)為 “向量”),專(zhuān)門(mén)用來(lái)表示token的含義。它不再是隨機(jī) ID,而是給每個(gè)token分配一組 “意義坐標(biāo)”,把它放在一個(gè)巨大的 “意義地圖” 上。

在這張地圖上,意思相近的詞(比如 “狗” 和 “小狗”)會(huì)靠得很近。模型能通過(guò)數(shù)字計(jì)算關(guān)系:比如 “國(guó)王” 到 “女王” 的坐標(biāo)變化,和 “男人” 到 “女人” 的坐標(biāo)變化是一樣的。

這也是聊天機(jī)器人和搜索引擎能理解不同表達(dá)方式的原因 —— 你搜 “汽車(chē)”,嵌入技術(shù)會(huì)讓引擎知道 “轎車(chē)”“機(jī)動(dòng)車(chē)” 相關(guān)的內(nèi)容也符合需求。

這些嵌入并不是雜亂無(wú)章的,它們都存在于一個(gè)更大的結(jié)構(gòu)里。

3. 潛空間(Latent Space)



詞嵌入通過(guò)向量差異體現(xiàn)關(guān)系 —— 就像 “狗→小狗” 和 “走→跑” 的向量變化是平行的,這就是意義的幾何編碼方式。

當(dāng)模型把問(wèn)題轉(zhuǎn)換成嵌入后,這個(gè)嵌入不會(huì)孤立存在,而是進(jìn)入 “潛在空間”—— 也就是所有嵌入所在的巨大 “意義地圖”。

它不是物理空間,而是模型構(gòu)建的數(shù)學(xué)空間。訓(xùn)練過(guò)程中,模型會(huì)在這個(gè)空間里整理各個(gè)概念的嵌入,讓它們的位置和距離能反映真實(shí)世界的關(guān)系。

比如你問(wèn) “什么是微調(diào)?”,這個(gè)問(wèn)題的嵌入會(huì)和其他關(guān)于 “訓(xùn)練方法” 的嵌入靠得很近。模型的任務(wù)很簡(jiǎn)單:在這個(gè) “鄰里區(qū)域” 里,找到最匹配的內(nèi)容。

而支撐這種能力的,是模型的內(nèi)部設(shè)置 —— 也就是參數(shù)。

4. 參數(shù)(Parameters)

ChatGPT 這類(lèi)系統(tǒng)的基礎(chǔ)模型,擁有數(shù)十億個(gè)內(nèi)部變量,這些就是 “參數(shù)”。它們不是數(shù)據(jù)庫(kù)里的條目,也不是事實(shí)列表,而是可調(diào)整的 “設(shè)置”,讓模型能捕捉語(yǔ)法、概念和模式。

你可以把參數(shù)想象成一堵巨大的 “旋鈕墻”:

  • 一開(kāi)始,所有旋鈕都是隨機(jī)設(shè)置的,毫無(wú)用處;
  • 訓(xùn)練過(guò)程中,模型會(huì)重復(fù)數(shù)萬(wàn)億次 “預(yù)測(cè)下一個(gè)token” 的游戲;
  • 每次猜錯(cuò),就微調(diào)一下這些旋鈕,讓它慢慢接近正確答案;
  • 經(jīng)過(guò)無(wú)數(shù)次微調(diào)后,最終的旋鈕設(shè)置就編碼了模型學(xué)到的一切 —— 包括語(yǔ)言模式、概念關(guān)聯(lián)和通用知識(shí)。

如果不經(jīng)過(guò)訓(xùn)練,數(shù)十億個(gè)隨機(jī)旋鈕毫無(wú)意義,只有通過(guò)漫長(zhǎng)的訓(xùn)練,它們才能承載知識(shí)。

大語(yǔ)言模型如何學(xué)習(xí):“黑科技” 的訓(xùn)練過(guò)程

5. 預(yù)訓(xùn)練(Pre-training)

把隨機(jī)參數(shù)變成 “知識(shí)庫(kù)” 的過(guò)程,就是預(yù)訓(xùn)練。

這個(gè)基礎(chǔ)階段,模型會(huì)接觸互聯(lián)網(wǎng)上的海量文本和代碼,核心目標(biāo)只有一個(gè):預(yù)測(cè)序列中的下一個(gè)token。每次預(yù)測(cè)后,它會(huì)對(duì)比真實(shí)答案,然后通過(guò)訓(xùn)練算法微調(diào)數(shù)十億個(gè)參數(shù)。經(jīng)過(guò)數(shù)萬(wàn)億次重復(fù),這些微小的調(diào)整會(huì)逐漸編碼語(yǔ)言的統(tǒng)計(jì)模式 —— 這就是 GPT-5 這類(lèi)基礎(chǔ)模型在適配實(shí)際應(yīng)用前,學(xué)習(xí)語(yǔ)法、常識(shí)和基礎(chǔ)推理能力的方式。

這個(gè)訓(xùn)練過(guò)程可以拆成兩步理解:

(1)核心任務(wù):預(yù)測(cè)下一個(gè)token

給模型一段文本片段,比如 “微調(diào)是一個(gè)____的過(guò)程”,它要猜測(cè)缺失的部分。一開(kāi)始猜測(cè)是隨機(jī)的,但每次猜錯(cuò)后,參數(shù)會(huì)微調(diào),讓下一次更可能猜到 “進(jìn)一步訓(xùn)練” 這類(lèi)正確答案。

(2)訓(xùn)練結(jié)果:一個(gè)模式識(shí)別引擎

經(jīng)過(guò)數(shù)萬(wàn)億次修正,模型會(huì)變得特別擅長(zhǎng)識(shí)別模式。它見(jiàn)過(guò)無(wú)數(shù)次 “微調(diào)是進(jìn)一步訓(xùn)練的過(guò)程” 這類(lèi)表達(dá),所以能牢牢記住這種關(guān)聯(lián) —— 但它并不是在 “理解” 或 “思考”,只是在復(fù)現(xiàn)學(xué)到的模式。

預(yù)訓(xùn)練讓模型裝滿(mǎn)了互聯(lián)網(wǎng)上的模式,但此時(shí)它還只是個(gè) “文本預(yù)測(cè)器”。要明白這為什么是個(gè)問(wèn)題,就得區(qū)分基礎(chǔ)模型和指令模型。

6. 基礎(chǔ)模型(Base Model)vs 指令模型(Instruct Model)

模型完成預(yù)訓(xùn)練后,就是 “基礎(chǔ)模型”。它雖然知識(shí)淵博,但還不是個(gè) “貼心助手”。

比如你用原始基礎(chǔ)模型問(wèn) “什么是檢索增強(qiáng)生成(RAG)?”,它可能只是機(jī)械地續(xù)寫(xiě)句子,或者給出一個(gè)籠統(tǒng)無(wú)用的定義。它擅長(zhǎng)預(yù)測(cè)文本,但沒(méi)被訓(xùn)練過(guò)遵循指令或進(jìn)行對(duì)話(huà)。

要讓它變成聊天機(jī)器人、搜索助手這類(lèi)實(shí)用工具,就需要 “指令模型”。

指令模型是基礎(chǔ)模型經(jīng)過(guò)額外訓(xùn)練后的產(chǎn)物 —— 這種訓(xùn)練叫 “微調(diào)”,用的是專(zhuān)門(mén)的 “指令 - 答案” 配對(duì)數(shù)據(jù)集。這個(gè)過(guò)程不會(huì)教模型新事實(shí),而是教它 “怎么做事”:理解用戶(hù)意圖、給出清晰解釋、結(jié)構(gòu)化呈現(xiàn)回應(yīng)。

ChatGPT 和 Claude 都是指令模型,它們從設(shè)計(jì)之初就是為了提供幫助、響應(yīng)需求,是任務(wù)導(dǎo)向型應(yīng)用的核心。

而把基礎(chǔ)模型變成指令模型的關(guān)鍵一步,就是微調(diào)。

7. 微調(diào)(Fine-tuning)

微調(diào),就是把完成預(yù)訓(xùn)練的模型,用更小、質(zhì)量更高的數(shù)據(jù)集再訓(xùn)練一次,讓它專(zhuān)門(mén)適配某個(gè)任務(wù)。



這次的數(shù)據(jù)集不再是整個(gè)互聯(lián)網(wǎng),而是幾千個(gè)和目標(biāo)場(chǎng)景高度相關(guān)的精選案例。

最典型的例子就是 GitHub Copilot:基礎(chǔ)模型能生成各種文本,通過(guò)在數(shù)十億行開(kāi)源代碼上微調(diào),它學(xué)會(huì)了寫(xiě)出、補(bǔ)全符合開(kāi)發(fā)者風(fēng)格的代碼。微調(diào)后的模型并沒(méi)有 “懂更多” 編程知識(shí),只是更貼合真實(shí)世界的代碼模式,實(shí)際使用中更可靠。

這種針對(duì)性訓(xùn)練會(huì)微調(diào)模型的參數(shù),讓它模仿特定數(shù)據(jù)集的風(fēng)格和準(zhǔn)確性。

塑造模型行為:從 “知識(shí)庫(kù)” 到 “貼心助手”

8. 對(duì)齊(Alignment)

通過(guò)微調(diào),模型能遵循指令了,但 “好答案” 的標(biāo)準(zhǔn)是什么?

一個(gè)只在互聯(lián)網(wǎng)上訓(xùn)練的原始模型,可能給出技術(shù)上正確但對(duì)新手來(lái)說(shuō)晦澀難懂的答案,甚至?xí)貜?fù)訓(xùn)練數(shù)據(jù)里的有害刻板印象。

這就是 “對(duì)齊” 要解決的核心問(wèn)題:讓大語(yǔ)言模型的行為符合人類(lèi)價(jià)值觀(guān)和意圖,具體來(lái)說(shuō)就是 “有幫助、誠(chéng)實(shí)、無(wú)害”。



比如 ChatGPT 會(huì)拒絕不安全的請(qǐng)求,會(huì)應(yīng)要求簡(jiǎn)化復(fù)雜概念,還會(huì)避免偏見(jiàn)或冒犯性語(yǔ)言。對(duì)齊的目標(biāo)不是讓模型 “更準(zhǔn)確”,而是讓它的行為實(shí)用、符合社會(huì)規(guī)范。

9. 基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)

那怎么實(shí)現(xiàn)對(duì)齊呢?總不能直接告訴模型 “要貼心” 吧?我們需要一種方式,讓它明白人類(lèi)眼中的 “優(yōu)質(zhì)” 和 “貼心” 是什么樣的 —— 這就是基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)。



它不是只靠文本訓(xùn)練,而是根據(jù)人類(lèi)偏好調(diào)整模型,具體步驟如下:

  1. 人類(lèi)評(píng)分:給模型一個(gè)問(wèn)題(比如 “什么是微調(diào)?”),讓它生成多個(gè)答案,然后由人類(lèi)評(píng)審員給這些答案排序(從好到壞);
  2. 訓(xùn)練 “裁判模型”:用這些排序數(shù)據(jù)訓(xùn)練一個(gè)單獨(dú)的 “獎(jiǎng)勵(lì)模型”,它的唯一任務(wù)就是預(yù)測(cè)人類(lèi)會(huì)如何評(píng)價(jià)某個(gè)答案;
  3. 模型向 “裁判” 學(xué)習(xí):讓語(yǔ)言模型再次生成答案,由獎(jiǎng)勵(lì)模型打分,然后微調(diào)語(yǔ)言模型的參數(shù),讓它更傾向于生成高分答案 —— 慢慢學(xué)會(huì)符合人類(lèi)偏好的回應(yīng)方式。

這個(gè)過(guò)程能讓 ChatGPT、Claude 這類(lèi)模型明白,人類(lèi)看重的是清晰、貼心、禮貌和安全,而且不用手動(dòng)編碼這些行為。

但模型只有收到輸入,才會(huì)生成回應(yīng) —— 那我們?cè)撛趺春退?“對(duì)話(huà)” 呢?

與模型對(duì)話(huà):交互層的秘密

10. 提示詞(Prompt):系統(tǒng)提示詞 vs 用戶(hù)提示詞



  • 系統(tǒng)提示詞(System Prompt):高層級(jí)指令,定義模型角色和約束,
  • 用戶(hù)提示詞(User Prompt):具體的問(wèn)題或指令,即時(shí)交互

發(fā)送給模型的完整指令和上下文,就是 “提示詞”。一個(gè)設(shè)計(jì)良好的提示詞通常包含兩部分:

  • 系統(tǒng)提示詞:設(shè)定模型的核心角色和邊界,是每次交互都生效的 “永久指南”。比如 ChatGPT 可能有個(gè)隱藏的系統(tǒng)提示詞:“你是一個(gè)貼心的助手,回答要清晰簡(jiǎn)潔,避免不安全或有偏見(jiàn)的內(nèi)容?!?/li>
  • 用戶(hù)提示詞:用戶(hù)當(dāng)下的具體問(wèn)題或指令,比如 “什么是微調(diào)?”

模型會(huì)同時(shí)處理這兩部分:系統(tǒng)提示詞告訴它 “怎么表現(xiàn)”,用戶(hù)提示詞告訴它 “做什么”。這種分離能確保模型的回應(yīng)始終貼心、不跑偏。

但對(duì)話(huà)很少只有一輪,要讓模型記住上下文,就需要 “上下文窗口”。

11. 上下文窗口(Context Window)

聊天助手要實(shí)用,必須能處理后續(xù)問(wèn)題。比如你問(wèn) “能換種方式解釋嗎?”,模型得知道 “那種方式” 指的是什么 —— 這就靠上下文窗口來(lái)管理 “記憶”。



上下文窗口是模型一次能 “看到” 并處理的最大token數(shù)量,包括系統(tǒng)提示詞、完整的對(duì)話(huà)歷史,以及它正在生成的回應(yīng)。模型看不到這個(gè)窗口之外的內(nèi)容。

這個(gè) “記憶上限” 很關(guān)鍵:如果和 ChatGPT、Claude 的對(duì)話(huà)太長(zhǎng),應(yīng)用會(huì)自動(dòng)縮短歷史記錄(通常刪掉最早的消息),避免模型忘記近期上下文。

而在這個(gè)窗口內(nèi),提示詞的結(jié)構(gòu)會(huì)直接影響單個(gè)答案的走向。

12. 零樣本學(xué)習(xí)(Zero-shot)vs 少樣本學(xué)習(xí)(Few-shot)

這兩個(gè)術(shù)語(yǔ)描述了兩種控制模型輸出的核心提示詞設(shè)計(jì)方式,選擇哪種取決于模型完成任務(wù)需要多少引導(dǎo)。

  • 零樣本提示(Zero-shot Prompting):只給指令,不給任何示例。完全依賴(lài)模型已有的能力理解并執(zhí)行命令。比如問(wèn) ChatGPT“什么是微調(diào)?”,就是零樣本請(qǐng)求 —— 相信對(duì)齊后的模型不用示例也能給出好答案。
  • 少樣本提示(Few-shot Prompting):既給指令,又在提示詞里加幾個(gè) “示例”(稱(chēng)為 “shots”),明確期望的輸出格式或風(fēng)格。比如想讓模型用三個(gè)簡(jiǎn)潔的要點(diǎn)總結(jié)文本,就可以先在提示詞里給一個(gè)這樣的總結(jié)示例,再讓它處理新文本。

少樣本提示能讓模型的輸出更可靠、格式更統(tǒng)一。

13. 推理與思維鏈(Chain-of-Thought,CoT)

有時(shí)候你會(huì)問(wèn) ChatGPT 這類(lèi)復(fù)雜問(wèn)題,需要多步推理才能回答。比如 “對(duì)比檢索增強(qiáng)生成(RAG)和微調(diào),哪種更適合解決幻覺(jué)問(wèn)題?” 如果模型直接給答案,很容易出現(xiàn)邏輯錯(cuò)誤。

這就是 “推理能力不足” 的問(wèn)題。要解決這個(gè)問(wèn)題,就可以用 “思維鏈(CoT)” 這種提示詞技巧 —— 不用只問(wèn)最終答案,而是在提示詞里加一句簡(jiǎn)單的指令:“咱們一步步想”。

這會(huì)讓模型按邏輯步驟推導(dǎo):先定義 RAG,再定義微調(diào),然后對(duì)比兩者,最后得出結(jié)論。通過(guò) “展示思考過(guò)程”,模型在復(fù)雜問(wèn)題上的推理準(zhǔn)確性會(huì)大幅提升。

現(xiàn)在一些專(zhuān)注于推理的新模型更進(jìn)一步:它們自帶 “一步步思考” 的能力,不用專(zhuān)門(mén)提示,會(huì)自動(dòng)進(jìn)行內(nèi)部思考,比如谷歌 Gemini 2.5 Pro、OpenAI GPT-5 和 Anthropic Claude Opus 4.1 這類(lèi)尖端模型,都有這種高級(jí)推理能力。

實(shí)時(shí)運(yùn)行:按下回車(chē)后發(fā)生了什么?

14. 推理(Inference)

當(dāng) ChatGPT 收到完整提示詞后,就開(kāi)始生成答案 —— 這個(gè)訓(xùn)練好的模型產(chǎn)生輸出的過(guò)程,就是 “推理”。

你看到答案逐字逐句出現(xiàn),就是推理的實(shí)時(shí)過(guò)程:模型不是一次性寫(xiě)出完整句子,而是每次只預(yù)測(cè)下一個(gè)最可能的token,把它加入序列,再重復(fù)這個(gè)過(guò)程,直到生成一個(gè)特殊的 “序列結(jié)束”token,或者達(dá)到最大輸出長(zhǎng)度。

15. 延遲(Latency)

從你提問(wèn)到收到完整答案的時(shí)間,就是 “延遲”—— 這是影響用戶(hù)體驗(yàn)的關(guān)鍵因素,延遲太高會(huì)讓 AI 顯得又慢又遲鈍。

因?yàn)橥评硎侵餿oken生成的,延遲主要看兩個(gè)指標(biāo):

  • 首token時(shí)間(Time-to-first-token,TTFT):第一個(gè)答案字符出現(xiàn)的時(shí)間,這個(gè)指標(biāo)越低越好,能讓你知道 AI 正在工作;
  • token間隔時(shí)間:后續(xù)token生成的速度,決定了模型的 “打字速度”。

一個(gè)好用的聊天機(jī)器人,這兩個(gè)延遲指標(biāo)都得低。

16. 溫度(Temperature):確定性輸出 vs 隨機(jī)性輸出

“溫度” 這個(gè)參數(shù),控制的是模型選擇token時(shí)的隨機(jī)程度。當(dāng)你多次問(wèn) ChatGPT 同一個(gè)問(wèn)題,它應(yīng)該每次都給一樣的答案嗎?這就由溫度決定。



  • 高溫(1.0):答案有創(chuàng)意、不可預(yù)測(cè),屬于 “隨機(jī)性輸出”。比如問(wèn) “巴黎是什么樣的?”,可能會(huì)得到 “啊,巴黎!這座燈光之都、浪漫之都,想象一個(gè)傍晚漫步在……” 這類(lèi)充滿(mǎn)探索性的回答;
  • 中溫(0.7):答案有輕微到中等程度的變化;
  • 低溫(0.0):每次輸出完全一樣,屬于 “確定性輸出”。比如問(wèn) “巴黎是什么?”,會(huì)得到 “巴黎是法國(guó)的首都” 這種穩(wěn)定、客觀(guān)的答案。

確定性輸出適合需要一致結(jié)果的場(chǎng)景(比如事實(shí)定義),隨機(jī)性輸出適合需要多樣化表達(dá)的場(chǎng)景(比如 “換種方式解釋”)。

架構(gòu)與擴(kuò)展:超越基礎(chǔ)模型的能力

17. 接地(Grounding)

“接地” 的核心原則是:讓大語(yǔ)言模型的輸出只基于我們提供的、可驗(yàn)證的外部真實(shí)信息。

這是緩解幻覺(jué)問(wèn)題的最直接方式之一 —— 不讓模型依賴(lài)自己龐大但不可靠的 “內(nèi)部記憶”,而是連接到可信數(shù)據(jù)源。如果沒(méi)有相關(guān)信息,接地后的系統(tǒng)會(huì)直接說(shuō) “不知道”,而不是瞎猜。

18. 檢索增強(qiáng)生成(Retrieval-Augmented Generation,RAG)

那怎么在實(shí)時(shí)場(chǎng)景中實(shí)現(xiàn)接地呢?答案就是 “檢索增強(qiáng)生成(RAG)”—— 這種架構(gòu)能在需要時(shí)連接知識(shí)庫(kù)或外部數(shù)據(jù)源,提升答案準(zhǔn)確性。

最典型的例子就是 Perplexity AI:你提問(wèn)后,它不會(huì)只靠?jī)?nèi)部記憶回答,而是先搜索網(wǎng)頁(yè)、找到相關(guān)來(lái)源,再把這些信息融入答案。RAG 的工作流程分三步:

  1. 檢索(Retrieve):系統(tǒng)先搜索可信文檔或網(wǎng)頁(yè),找到最相關(guān)的文本片段;
  2. 增強(qiáng)(Augment):把這些片段自動(dòng)加入提示詞,給模型一份 “標(biāo)準(zhǔn)答案 cheat sheet”;
  3. 生成(Generate):指示模型只基于檢索到的證據(jù)生成答案。



這樣一來(lái),每個(gè)回應(yīng)都有可驗(yàn)證的來(lái)源,既提升了準(zhǔn)確性,也讓用戶(hù)更信任輸出。

19. 工作流(Workflow)vs 智能體(Agent)

構(gòu)建具備 “行動(dòng)能力” 的 AI 系統(tǒng),主要有兩種方式,各自的控制程度和靈活性不同:

  • 工作流(Workflow):開(kāi)發(fā)者定義固定、可預(yù)測(cè)的步驟序列,LLM 只是這個(gè)過(guò)程中的一個(gè)組件。比如 Perplexity 這類(lèi) RAG 系統(tǒng),永遠(yuǎn)遵循 “檢索→增強(qiáng)→生成” 的固定流程,可靠性高、易控制;
  • 智能體(Agent):讓 LLM 充當(dāng)核心 “大腦”,自主主導(dǎo)流程。不給固定路徑,而是給它一個(gè)目標(biāo)和一套工具(比如網(wǎng)頁(yè)搜索、計(jì)算器),讓它動(dòng)態(tài)規(guī)劃該用什么工具、按什么順序用,來(lái)實(shí)現(xiàn)目標(biāo)。智能體更靈活,但可預(yù)測(cè)性較低。

20. 智能體 AI(Agentic AI)

現(xiàn)在大多數(shù)聊天機(jī)器人都是 “被動(dòng)響應(yīng)型”:等你提問(wèn),才給一個(gè)答案。而智能體 AI 要解決的核心問(wèn)題是:系統(tǒng)能自主規(guī)劃并完成多步驟任務(wù)嗎?

智能體 AI 讓 LLM 能規(guī)劃行動(dòng)、執(zhí)行任務(wù),以達(dá)成復(fù)雜目標(biāo) —— 這讓模型從 “工具” 變成了 “系統(tǒng)大腦”。

比如你不用只問(wèn) “什么是微調(diào)?”,而是可以說(shuō) “做一份關(guān)于微調(diào)的學(xué)習(xí)指南”。智能體助手會(huì)自主搜索文檔、提取核心概念、整理成結(jié)構(gòu)化總結(jié),全程不用你額外輸入。

現(xiàn)在已經(jīng)有這類(lèi)工具的早期版本了:比如 Gemini Deep Research、OpenAI Deep Research、Perplexity Deep Research,能自主搜索來(lái)源、收集見(jiàn)解、生成有條理的輸出;編碼領(lǐng)域的 Claude Code 和微軟 Copilot Agent Mode,能規(guī)劃并完成多步驟編程任務(wù),不止于研究。

模型的不同形態(tài):大語(yǔ)言模型家族與權(quán)衡

21. 專(zhuān)有模型(Proprietary)vs 開(kāi)源模型(Open-Source)

用 LLM 開(kāi)發(fā)應(yīng)用時(shí),遲早會(huì)面臨一個(gè)實(shí)際選擇:選哪種模型?

如果只是實(shí)驗(yàn),可能無(wú)所謂,大概率會(huì)從 ChatGPT 這類(lèi)專(zhuān)有 API 開(kāi)始(好用又易獲?。?。但如果要大規(guī)模部署、降低成本或定制系統(tǒng),模型類(lèi)型的選擇就至關(guān)重要了。

主要分三類(lèi),各自在成本、控制度和復(fù)雜度上有明顯權(quán)衡:

  • 專(zhuān)有模型(Proprietary Models):由公司擁有和運(yùn)營(yíng)(比如 OpenAI 的 GPT-5),通過(guò)付費(fèi)服務(wù)訪(fǎng)問(wèn),無(wú)法查看或修改內(nèi)部工作機(jī)制。很多開(kāi)發(fā)者從這里起步,因?yàn)槟芰?qiáng)、API 易集成;
  • 開(kāi)放權(quán)重模型(Open-Weight Models):公開(kāi)模型權(quán)重(比如 Meta 的 Llama 3.1、Mistral 7B、谷歌的 Gemma 2),但不算完全 “開(kāi)源”—— 訓(xùn)練數(shù)據(jù)和方法通常不公開(kāi),許可證也可能有限制。這類(lèi)模型透明度高、可自行部署,還能享受尖端性能;
  • 開(kāi)源模型(Open-Source Models):真正意義上的開(kāi)放,不僅公開(kāi)權(quán)重,還提供訓(xùn)練代碼、數(shù)據(jù)和方法,且基于寬松許可證??刂屏涂蓮?fù)現(xiàn)性最強(qiáng),但性能通常不如頂尖專(zhuān)有模型或開(kāi)放權(quán)重模型。

22. 應(yīng)用程序接口(API)

不管選哪種模型(專(zhuān)有、開(kāi)放權(quán)重、開(kāi)源),你的應(yīng)用都需要一種方式和它 “溝通”—— 大多數(shù)時(shí)候,尤其是入門(mén)階段,這種溝通是通過(guò) API 實(shí)現(xiàn)的。

API(Application Programming Interface)就是應(yīng)用和模型提供商的 “溝通橋梁”:你發(fā)送提示詞,它返回生成的文本。

可以這么理解:就像用外賣(mài)軟件點(diǎn)餐,軟件不做飯,只是把你的訂單發(fā)給餐廳,再把做好的飯送到你手上。你的代碼也不會(huì)運(yùn)行龐大的 LLM,而是通過(guò) API 向提供商的服務(wù)器發(fā)送請(qǐng)求,模型生成回應(yīng)后再返回給你。

比如你在瀏覽器里用 ChatGPT,并不是在筆記本電腦上運(yùn)行 GPT-5,而是你的消息通過(guò) API 發(fā)送到 OpenAI 的服務(wù)器,生成答案后再傳回你的屏幕。

就算是在自己設(shè)備上用開(kāi)放權(quán)重模型,通常也會(huì)通過(guò) API 調(diào)用 —— 這樣應(yīng)用的交互方式能保持一致。

23. 小型語(yǔ)言模型(SLM)

大型模型雖然強(qiáng)大,但運(yùn)行成本很高。而 “小型語(yǔ)言模型(Small Language Model,SLM)” 的出現(xiàn),提供了另一種選擇。

SLM 參數(shù)少(通常不到 150 億),專(zhuān)門(mén)優(yōu)化特定任務(wù)。小巧的體型讓它們速度快、運(yùn)行成本低,還能在筆記本電腦、智能手機(jī)這類(lèi)本地設(shè)備上運(yùn)行。

比如微軟的 Phi-3 和 Mistral 的 7B,都是能在消費(fèi)級(jí)硬件上運(yùn)行的 SLM。這意味著應(yīng)用可以提供私密聊天、離線(xiàn)助手、本地副駕駛等功能 —— 數(shù)據(jù)存在自己的手機(jī)里,不用上傳到云端,既省錢(qián)又能離線(xiàn)使用。

24. 模態(tài)(Modality)與多模態(tài)(Multimodality)

現(xiàn)在很多模型只能處理一種輸入:文本 —— 這就是 “模態(tài)”。如果你上傳一張圖表,問(wèn) “這張圖是什么意思?”,純文本模型就無(wú)能為力了。

這時(shí)候就需要 “多模態(tài)” 模型 —— 能同時(shí)處理文本、圖片、音頻等多種輸入,讓答案更貼合上下文、更實(shí)用。

現(xiàn)在已經(jīng)有這類(lèi)系統(tǒng)了:GPT-4o 和 Gemini 1.5 Pro 能同時(shí)接收文本、圖片和音頻,交互更自然。

順便說(shuō)下圖像生成:很多工具會(huì)把 LLM 和擴(kuò)散模型(diffusion model)結(jié)合 —— 擴(kuò)散模型從噪聲開(kāi)始,逐步 “去噪”,在文本引導(dǎo)下生成圖片(比如 Stable Diffusion、Midjourney、DALL?E)。還有些模型本身就是多模態(tài)的,能直接結(jié)合文本和圖像生成,不用依賴(lài)外部工具。

第一種方式模塊化、靈活;第二種更無(wú)縫,兩者在質(zhì)量、控制力、速度和成本上各有權(quán)衡。

25. 推理模型(Reasoning Models)

推理模型是一類(lèi)新型 LLM,專(zhuān)門(mén)優(yōu)化多步驟問(wèn)題解決。它們不會(huì)急于回答,而是會(huì) “先思考、記筆記”,幫助自己專(zhuān)注任務(wù)、對(duì)比選項(xiàng)、遵循規(guī)則、做簡(jiǎn)單計(jì)算,或回答 “先解釋再?zèng)Q策” 的問(wèn)題。

你可以把它們理解為自帶 “一步步思考” 功能的模型。如果任務(wù)的核心是 “思考”—— 比如整合觀(guān)點(diǎn)、權(quán)衡利弊、串聯(lián)步驟,就適合用推理模型。

當(dāng)然也有權(quán)衡:這類(lèi)模型通常運(yùn)行時(shí)間更長(zhǎng)、成本更高。而簡(jiǎn)潔的指令模型,更適合快速查定義、短文本改寫(xiě)或簡(jiǎn)單查詢(xún)。

衡量性能:怎么判斷模型好不好用?

26. 基準(zhǔn)測(cè)試(Benchmarks)

選模型時(shí)(比如 GPT-4o、Llama 3.1、Claude 3),怎么客觀(guān)對(duì)比它們的原始能力?答案是 “基準(zhǔn)測(cè)試”。

基準(zhǔn)測(cè)試是標(biāo)準(zhǔn)化的測(cè)試,用來(lái)衡量和對(duì)比不同 LLM 的能力,覆蓋多種任務(wù):常識(shí)(比如 MMLU)、編碼(比如 HumanEval)、邏輯推理(比如 BBH)等。

讓不同模型做同一套基準(zhǔn)測(cè)試,就能得到分?jǐn)?shù),進(jìn)而排名、找出它們的優(yōu)缺點(diǎn) —— 這在實(shí)際應(yīng)用前非常重要。

要注意兩點(diǎn):

  • 基準(zhǔn)測(cè)試是 “任務(wù)特定” 的:編碼能力最強(qiáng)的模型,不一定擅長(zhǎng)推理或總結(jié);
  • 新的基準(zhǔn)測(cè)試不斷出現(xiàn),隨著模型升級(jí)和任務(wù)重心變化,排名也會(huì)變動(dòng)。

兩個(gè)常用的真實(shí)世界基準(zhǔn)測(cè)試排行榜:

  • Hugging Face Open LLM Leaderboard:對(duì)比開(kāi)放權(quán)重模型在 MMLU、HumanEval、GSM8K 等任務(wù)上的表現(xiàn);
  • Chatbot Arena(由 LMSYS 推出):通過(guò)眾包方式讓用戶(hù)一對(duì)一對(duì)比 ChatGPT、Claude、Gemini 等聊天模型,按用戶(hù)偏好排名。

27. 指標(biāo)(Metrics)

基準(zhǔn)測(cè)試分?jǐn)?shù)高,說(shuō)明模型有潛力,但不代表它在你的應(yīng)用里表現(xiàn)好。就算是頂尖模型,也可能因?yàn)樘崾驹~設(shè)計(jì)差、檢索到無(wú)關(guān)文檔或輸出不清晰,給出糟糕的答案。

所以還需要 “指標(biāo)”—— 針對(duì)具體使用場(chǎng)景的質(zhì)量評(píng)估標(biāo)準(zhǔn)。比如在 RAG 類(lèi)聊天助手中,常用兩個(gè)指標(biāo):

  • 忠實(shí)度(Faithfulness):答案是否只基于檢索到的文檔?(用來(lái)衡量幻覺(jué)控制效果);
  • 答案相關(guān)性(Answer Relevance):答案是否直接回應(yīng)了用戶(hù)的問(wèn)題?(衡量檢索和接地的質(zhì)量)。

指標(biāo)能幫我們從 “這個(gè)模型總體好不好?”,聚焦到 “這個(gè)系統(tǒng)對(duì)我們的用戶(hù)好不好用?”。

28. 大語(yǔ)言模型作為評(píng)判者(LLM-as-Judge)



有了忠實(shí)度、相關(guān)性這類(lèi)指標(biāo),怎么在成千上萬(wàn)次對(duì)話(huà)中評(píng)估它們?手動(dòng)檢查每一個(gè)答案根本不現(xiàn)實(shí) —— 這就是 “大規(guī)模評(píng)估” 的難題。

解決方案是 “LLM-as-Judge”:用一個(gè)強(qiáng)大的尖端 LLM(作為 “裁判”),自動(dòng)評(píng)估另一個(gè)模型(作為 “學(xué)生”)的輸出。

具體做法:給裁判模型提供原始提示詞、學(xué)生模型的回應(yīng),以及基于指標(biāo)設(shè)計(jì)的評(píng)估標(biāo)準(zhǔn),裁判會(huì)返回分?jǐn)?shù)和評(píng)估說(shuō)明。

這讓大規(guī)??焖?、一致的評(píng)估成為可能。比如很多研究實(shí)驗(yàn)室現(xiàn)在用 GPT-5 或 Claude Opus 當(dāng) “裁判”,評(píng)估小型模型在忠實(shí)度、推理能力、風(fēng)格等方面的表現(xiàn)。

模型的短板(及修復(fù)方法)

29. 幻覺(jué)(Hallucination)

大語(yǔ)言模型的一個(gè)主要問(wèn)題是 “幻覺(jué)”—— 自信地編造虛假信息。

LLM 的目標(biāo)是預(yù)測(cè)下一個(gè)可能的詞,而不是核實(shí)事實(shí)。這導(dǎo)致它可能生成聽(tīng)起來(lái)很有道理,但完全是編造的內(nèi)容:比如偽造不存在的研究論文引用、虛構(gòu)法庭案例、編造錯(cuò)誤的人物生平。

危險(xiǎn)之處不在于錯(cuò)誤本身,而在于這些錯(cuò)誤被呈現(xiàn)得非常有說(shuō)服力,很難察覺(jué)。在醫(yī)療、金融、法律等領(lǐng)域,一次幻覺(jué)就可能造成嚴(yán)重危害。

30. 數(shù)學(xué)與邏輯推理能力薄弱

雖然 LLM 看起來(lái)語(yǔ)言流暢,但它們并不是為遵循嚴(yán)格邏輯或執(zhí)行計(jì)算而設(shè)計(jì)的。它們能模仿數(shù)學(xué)表達(dá)式,但沒(méi)有計(jì)算器或求解器那樣的可靠性。

這種短板在處理大數(shù)乘法或多步驟問(wèn)題時(shí)會(huì)暴露:可能第一步是對(duì)的,后面就跑偏了,得出矛盾的結(jié)論。比如早期 GPT 版本常犯基礎(chǔ)數(shù)學(xué)錯(cuò)誤(比如聲稱(chēng) 7×8=54),也搞不定需要細(xì)致思考的邏輯謎題。

這些錯(cuò)誤凸顯了 LLM 的本質(zhì)是 “模式匹配者”,而不是 “思考者”。因此,在金融建模、科學(xué)分析、代碼調(diào)試等任務(wù)中,除非搭配能保證步驟準(zhǔn)確性的外部工具,否則使用 LLM 風(fēng)險(xiǎn)很高。

31. 繼承偏見(jiàn)(Inherited Bias)

所有 LLM 都會(huì)從訓(xùn)練數(shù)據(jù)中繼承偏見(jiàn)?;ヂ?lián)網(wǎng)文本反映了人類(lèi)的各種觀(guān)點(diǎn),包括刻板印象和偏見(jiàn)。

這里的 “偏見(jiàn)” 指模型回應(yīng)的傾向性 —— 有些偏見(jiàn)有用,有些則有害。比如有偏見(jiàn)的模型可能會(huì)把男性和技術(shù)工作、女性和護(hù)理工作綁定。研究表明,模型在求職推薦、情感分析、圖像生成等場(chǎng)景中可能產(chǎn)生有偏見(jiàn)的結(jié)果。

這既是社會(huì)問(wèn)題,也是實(shí)際問(wèn)題:有偏見(jiàn)的輸出會(huì)侵蝕信任、加劇不平等,或損害品牌聲譽(yù)。

當(dāng)然也有積極的一面:通過(guò)刻意 “引導(dǎo)偏見(jiàn)”,可以培養(yǎng)模型的有用特質(zhì) —— 比如讓客服助手始終保持耐心、支持的語(yǔ)氣。

32. 知識(shí)截止日期(Knowledge Cutoff)

另一個(gè)結(jié)構(gòu)性局限是 “知識(shí)截止日期”。模型的訓(xùn)練數(shù)據(jù)只到某個(gè)特定日期,之后的知識(shí)它都 “不知道”—— 相當(dāng)于知識(shí)被 “凍結(jié)” 了。

比如 GPT-3.5 的知識(shí)截止到 2021 年,無(wú)法回答 2021 年后的事件(包括 ChatGPT 自身的發(fā)布)。如果你問(wèn)它上周發(fā)布的新 AI 論文,或編程語(yǔ)言的最新版本,它可能給出過(guò)時(shí)或編造的答案。

這種滯后性讓 LLM 在時(shí)事、新研究、企業(yè)專(zhuān)屬知識(shí)等快速變化的領(lǐng)域不可靠。如果沒(méi)有檢索機(jī)制或用最新數(shù)據(jù)微調(diào),它們無(wú)法彌補(bǔ)這個(gè)時(shí)間差 —— 用戶(hù)也不能把它們當(dāng)作實(shí)時(shí)信息來(lái)源。

33. 護(hù)欄 / 安全過(guò)濾器(Guardrails / Safety Filters)

就算模型答案準(zhǔn)確,也可能輸出不安全、不合適或偏離主題的內(nèi)容?!白o(hù)欄” 和安全過(guò)濾器就是為了防止這種情況而設(shè)計(jì)的系統(tǒng)。

它們會(huì)檢查用戶(hù)的輸入和模型的輸出是否符合既定規(guī)則,確保助手始終在安全、相關(guān)的范圍內(nèi)回應(yīng)。

比如有人問(wèn)聊天機(jī)器人 “怎么制造武器”,防護(hù)完善的系統(tǒng)會(huì)拒絕回答,而沒(méi)有防護(hù)的系統(tǒng)可能會(huì)提供幫助。OpenAI、Anthropic 等公司都會(huì)設(shè)置這類(lèi)過(guò)濾器,攔截暴力、自殘、隱私數(shù)據(jù)相關(guān)的回應(yīng)。

沒(méi)有這些措施,AI 應(yīng)用可能面臨聲譽(yù)損失、違反法規(guī)或損害用戶(hù)體驗(yàn)的風(fēng)險(xiǎn)。護(hù)欄是讓原始語(yǔ)言模型變成專(zhuān)業(yè)、日??捎霉ぞ叩年P(guān)鍵。

解決模型的短板

每個(gè)短板(幻覺(jué)、推理錯(cuò)誤、偏見(jiàn)、知識(shí)過(guò)時(shí)、缺乏護(hù)欄)都有對(duì)應(yīng)的技術(shù)解決方案,但沒(méi)有一種方案是萬(wàn)能的,且各有權(quán)衡:

  • 幻覺(jué):最好通過(guò) “接地” 緩解,常用檢索增強(qiáng)生成(RAG)。讓模型依賴(lài)可信文檔,而不是不可靠的內(nèi)部記憶 —— 但這需要強(qiáng)大的知識(shí)庫(kù)支撐;
  • 推理薄弱:可以給模型搭配計(jì)算器、代碼解釋器、結(jié)構(gòu)化工作流等工具。讓模型不再獨(dú)自完成所有工作,是充當(dāng) “路由器”,把子任務(wù)交給合適的工具 —— 這能提升數(shù)學(xué)、邏輯和多步驟任務(wù)的可靠性,但會(huì)增加延遲和系統(tǒng)復(fù)雜度;
  • 偏見(jiàn):通過(guò)對(duì)齊技術(shù)(如 RLHF)、精心設(shè)計(jì)的系統(tǒng)提示詞和安全護(hù)欄來(lái)管理。這些方法共同引導(dǎo)模型輸出有幫助、公平的內(nèi)容。同時(shí),偏見(jiàn)也可以被刻意引導(dǎo):比如讓支持型助手始終保持耐心、鼓勵(lì)的語(yǔ)氣;
  • 知識(shí)截止:有多種解決方式。RAG 能給舊訓(xùn)練數(shù)據(jù)補(bǔ)充私有或最新文檔;用新數(shù)據(jù)集微調(diào)能讓模型適配特定領(lǐng)域;實(shí)時(shí)網(wǎng)頁(yè)搜索能獲取最新信息。每種方式在時(shí)效性、準(zhǔn)確性、隱私性和成本上的表現(xiàn)不同,需根據(jù)場(chǎng)景選擇;
  • 護(hù)欄:作為最后的安全防線(xiàn),過(guò)濾輸入和輸出,確保范圍合規(guī),防止有害、無(wú)關(guān)或敏感內(nèi)容。有效的護(hù)欄會(huì)結(jié)合靜態(tài)規(guī)則和動(dòng)態(tài)監(jiān)控,在靈活性和安全性之間找到平衡。

實(shí)際應(yīng)用中,難點(diǎn)不在于知道這些短板或解決方案,而在于針對(duì)具體場(chǎng)景選擇合適的組合。金融助手、醫(yī)療聊天機(jī)器人、教育導(dǎo)師,各自需要的檢索、推理、對(duì)齊和護(hù)欄方案都不同。

每一個(gè)決策(準(zhǔn)確性 vs 成本、時(shí)效性 vs 安全性)都需要權(quán)衡。構(gòu)建可靠的 AI 不是消除限制,而是設(shè)計(jì)出能妥善應(yīng)對(duì)限制的系統(tǒng)。

總結(jié)

大語(yǔ)言模型是高級(jí)的模式匹配者,而不是真相來(lái)源。它們的優(yōu)勢(shì)是語(yǔ)言流暢、有一定推理能力和廣博的知識(shí),但也存在幻覺(jué)、偏見(jiàn)、知識(shí)過(guò)時(shí)等短板。

關(guān)鍵在于如何圍繞這些特點(diǎn)設(shè)計(jì)系統(tǒng):選擇合適的提示詞技巧、檢索方式、微調(diào)策略和護(hù)欄機(jī)制。

如果只能記住一點(diǎn),那就是:

了解這些基礎(chǔ)概念,能讓你更有效地使用 LLM,清晰看清它們的局限 —— 這正是區(qū)分 “把 LLM 當(dāng)作魔法或完全不可靠工具” 和 “構(gòu)建可信任系統(tǒng)” 的關(guān)鍵。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
何潤(rùn)東回應(yīng)亮相“蘇超”為何不騎馬:10年前一定騎馬,現(xiàn)在50多歲了,“一摔下來(lái)就幻滅,對(duì)項(xiàng)羽不太尊重,想給大家留下美好印象”

何潤(rùn)東回應(yīng)亮相“蘇超”為何不騎馬:10年前一定騎馬,現(xiàn)在50多歲了,“一摔下來(lái)就幻滅,對(duì)項(xiàng)羽不太尊重,想給大家留下美好印象”

揚(yáng)子晚報(bào)
2026-04-19 09:12:34
“雷軍被堵車(chē)?yán)锞S權(quán)”真相來(lái)了!小米高管放話(huà):絕不放任

“雷軍被堵車(chē)?yán)锞S權(quán)”真相來(lái)了!小米高管放話(huà):絕不放任

雷科技
2026-04-19 22:59:40
珠海家長(zhǎng):自家孩子趴桌睡,憑啥先給別人捐躺椅?官方回應(yīng)

珠海家長(zhǎng):自家孩子趴桌睡,憑啥先給別人捐躺椅?官方回應(yīng)

南方都市報(bào)
2026-04-17 15:48:13
斯諾克世錦賽:丁俊暉送大禮!吉爾伯特被罰12分逆轉(zhuǎn),僅2-3落后

斯諾克世錦賽:丁俊暉送大禮!吉爾伯特被罰12分逆轉(zhuǎn),僅2-3落后

劉姚堯的文字城堡
2026-04-19 19:17:56
綠軍123-91大勝76人!我不得不承認(rèn)5個(gè)現(xiàn)實(shí):東部冠軍懸念不大

綠軍123-91大勝76人!我不得不承認(rèn)5個(gè)現(xiàn)實(shí):東部冠軍懸念不大

毒舌NBA
2026-04-20 04:55:07
中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

看看新聞Knews
2026-04-19 08:36:10
廣西欽州一女子后悔砌墻,多次舉報(bào)自己違建,當(dāng)事人:70多歲了上下樓吃力,想在樓后加裝電梯,但因左右建了墻,根本無(wú)法施工

廣西欽州一女子后悔砌墻,多次舉報(bào)自己違建,當(dāng)事人:70多歲了上下樓吃力,想在樓后加裝電梯,但因左右建了墻,根本無(wú)法施工

觀(guān)威海
2026-04-19 14:28:11
特朗普:美軍武力攔截并控制一艘伊朗貨船

特朗普:美軍武力攔截并控制一艘伊朗貨船

新華社
2026-04-20 04:31:03
態(tài)度惡劣!事發(fā)上海腫瘤醫(yī)院門(mén)外!民警緊急截停:“你賠得起嗎?都是病人老人!”

態(tài)度惡劣!事發(fā)上海腫瘤醫(yī)院門(mén)外!民警緊急截停:“你賠得起嗎?都是病人老人!”

新浪財(cái)經(jīng)
2026-04-19 07:03:44
以軍:打死阿里·里達(dá)·阿巴斯

以軍:打死阿里·里達(dá)·阿巴斯

南方都市報(bào)
2026-04-19 21:17:31
以色列已失控?以軍炮打聯(lián)合國(guó)維和部隊(duì),法軍犧牲,馬克龍表態(tài)

以色列已失控?以軍炮打聯(lián)合國(guó)維和部隊(duì),法軍犧牲,馬克龍表態(tài)

來(lái)科點(diǎn)譜
2026-04-19 07:15:46
恒大暴雷之前,許家印為什么沒(méi)有跑?

恒大暴雷之前,許家印為什么沒(méi)有跑?

擔(dān)撲
2026-04-19 13:40:25
太缺德!門(mén)口突然添兩座墳,開(kāi)門(mén)就能見(jiàn)到,孩子晚上嚇得不敢出門(mén)

太缺德!門(mén)口突然添兩座墳,開(kāi)門(mén)就能見(jiàn)到,孩子晚上嚇得不敢出門(mén)

川渝視覺(jué)
2026-04-19 21:31:23
重磅突破!以色列科學(xué)家:吸100%純氧3個(gè)月,生理倒拔20歲

重磅突破!以色列科學(xué)家:吸100%純氧3個(gè)月,生理倒拔20歲

劉曠
2026-04-19 15:27:33
以色列麻煩了!比伊朗還狠的角色,已畫(huà)下開(kāi)戰(zhàn)紅線(xiàn)!

以色列麻煩了!比伊朗還狠的角色,已畫(huà)下開(kāi)戰(zhàn)紅線(xiàn)!

財(cái)經(jīng)要參
2026-04-19 16:54:53
這張照片絕對(duì)是李宇春最想刪掉的照片!

這張照片絕對(duì)是李宇春最想刪掉的照片!

可樂(lè)談情感
2026-04-20 03:34:03
63歲穆帥發(fā)威:率隊(duì)2-1絕殺爭(zhēng)冠勁敵,連續(xù)30輪不敗,逼近榜首

63歲穆帥發(fā)威:率隊(duì)2-1絕殺爭(zhēng)冠勁敵,連續(xù)30輪不敗,逼近榜首

側(cè)身凌空斬
2026-04-20 03:19:45
叛逃至我國(guó)級(jí)別最高的外國(guó)領(lǐng)導(dǎo)人:越南副主席黃文歡,結(jié)局如何?

叛逃至我國(guó)級(jí)別最高的外國(guó)領(lǐng)導(dǎo)人:越南副主席黃文歡,結(jié)局如何?

興趣知識(shí)
2026-04-20 01:15:11
中國(guó)人在哈薩克斯坦生活實(shí)錄:飯?zhí)?、女人太颯、聊天太上頭了!

中國(guó)人在哈薩克斯坦生活實(shí)錄:飯?zhí)?、女人太颯、聊天太上頭了!

老特有話(huà)說(shuō)
2026-04-19 15:29:16
胡錫進(jìn)以安全代言沃爾沃,是整個(gè)社會(huì)的恥辱

胡錫進(jìn)以安全代言沃爾沃,是整個(gè)社會(huì)的恥辱

黔有虎
2026-04-19 17:34:12
2026-04-20 06:36:49
一言楠盡
一言楠盡
用商業(yè)常識(shí)穿透科互聯(lián)網(wǎng)江湖
471文章數(shù) 19962關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類(lèi)紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個(gè)洞

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機(jī)艙炸出一個(gè)洞

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂(lè)要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車(chē)要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買(mǎi)?

態(tài)度原創(chuàng)

健康
時(shí)尚
教育
手機(jī)
公開(kāi)課

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

裝修“精神角落”,就是這么上癮

教育要聞

南昌縣全民閱讀活動(dòng)在斗柏路小學(xué)開(kāi)展

手機(jī)要聞

8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版