国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Kimi K2 Thinking 量化之后再量化,模型文件縮水60%,準(zhǔn)確率85%,部署教程來(lái)了

0
分享至


Kimi K2 Thinking

大家好,我是Ai學(xué)習(xí)的老章

Kimi K2 Thinking 原生 INT4 量化實(shí)現(xiàn)了2 倍快速推理,1TB參數(shù)的大模型模型文件只有594GB,但即便如此要啟動(dòng) Kimi-K2-Thinking 需要 8 個(gè) 141GB 的 H200/H20,成本還是蠻高的。前文我就提到:即便再量化,估計(jì)向下空間也不大了。已經(jīng) int4 了,還能怎樣?

這不又來(lái)整活兒了,,直接迎來(lái)了1-bit版,最低僅需247GB 內(nèi)存?。。?/p>


https://huggingface.co/unsloth/Kimi-K2-Thinking-GGUF

運(yùn)行模型需:磁盤(pán)空間 + 內(nèi)存(RAM) + 顯存(VRAM) ≥ 量化模型大小

以 1.8-bit 的UD-TQ1_0量化版本(約247GB)為例:

  • 最低要求:你的磁盤(pán)、內(nèi)存和顯存總和需要大于 247GB。llama.cpp支持磁盤(pán)卸載(mmap),所以即使內(nèi)存+顯存不足,模型也能運(yùn)行,只是速度會(huì)很慢(可能低于 1 token/s)。

  • 推薦配置:為了獲得流暢體驗(yàn)(例如 5+ tokens/s),建議內(nèi)存+顯存總和約等于模型大小。

  • GPU 玩家示例:擁有一張 24GB 顯存的 GPU(如 RTX 3090/4090),配合足夠大的內(nèi)存(如 256GB RAM),通過(guò) MoE 卸載技術(shù),可以實(shí)現(xiàn)約1-2 tokens/s的推理速度。

Unsloth 官方建議使用UD-Q2_K_XL(約360GB)版本,以在模型大小和準(zhǔn)確性之間取得最佳平衡。

有條件還是更多地上GPU吧,上面方案也僅僅是提供了可能性,幾乎不可用啊。越多顯存,才能實(shí)現(xiàn)越快的生成速度,從594到360,也大幅降低成本了。

部署教程:一共三步 第一步:編譯最新的llama.cpp

首先,需要一個(gè)支持 Kimi-K2 的最新版llama.cpp。

# 更新并安裝依賴(lài)
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y

# 克隆 llama.cpp 倉(cāng)庫(kù)
git clone https://github.com/ggml-org/llama.cpp

# 編譯(根據(jù)你的硬件選擇)
# 如果有 NVIDIA GPU
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
# 如果沒(méi)有 GPU,純 CPU 運(yùn)行
# cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=OFF -DLLAMA_CURL=ON

cmake --build llama.cpp/build --config Release -j --clean-first
cp llama.cpp/build/bin/llama-* llama.cpp
第二步:下載 Unsloth 量化模型

使用huggingface_hub腳本(推薦)這種方式更靈活,可以選擇下載特定版本。

# 安裝依賴(lài)
# pip install huggingface_hub hf_transfer

import os
# 如果下載速度慢或卡住,可以禁用 hf_transfer
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0"
from huggingface_hub import snapshot_download

# 下載模型文件
snapshot_download(
repo_id = "unsloth/Kimi-K2-Thinking-GGUF",
local_dir = "unsloth/Kimi-K2-Thinking-GGUF",
# UD-TQ1_0 是 1.8-bit (247GB) 版本
# UD-Q2_K_XL 是 2.7-bit (381GB) 版本,官方推薦
allow_patterns = ["*UD-Q2_K_XL*"],
)
第三步:運(yùn)行模型與高級(jí)技巧:MoE 卸載

這是在有限硬件上成功運(yùn)行 Kimi 的關(guān)鍵!Kimi 是一個(gè)混合專(zhuān)家模型(MoE),我們可以將部分的“專(zhuān)家層”卸載到 CPU 和內(nèi)存中,只在 GPU 中保留核心部分,從而大幅降低顯存占用。

這是通過(guò)-ot--offload-tensor參數(shù)實(shí)現(xiàn)的。

./llama.cpp/llama-cli \
--model unsloth/Kimi-K2-Thinking-GGUF/UD-Q2_K_XL/Kimi-K2-Thinking-UD-Q2_K_XL-00001-of-00008.gguf \
--n-gpu-layers 99 \
--temp 1.0 \
--min-p 0.01 \
--ctx-size 16384 \
--seed 3407 \
-ot ".ffn_.*_exps.=CPU"

MoE 卸載技巧詳解

  • -ot ".ffn_.*_exps.=CPU"卸載所有 MoE 層。這是最節(jié)省顯存的模式,大約只占用 8GB VRAM。

  • -ot ".ffn_(up|down)_exps.=CPU":卸載 MoE 的 up 和 down projection 層,需要稍多一些顯存。

  • -ot ".ffn_(up)_exps.=CPU":只卸載 up projection 層,需要更多顯存。

  • **不使用-ot**:如果你有足夠的顯存(例如 360GB+),去掉此參數(shù),將所有層加載到 GPU 以獲得最快速度。

可以用正則表達(dá)式進(jìn)行更精細(xì)的控制,例如只卸載第6層之后的 MoE 層。

還可以使用llama-server將本地模型封裝成一個(gè)與 OpenAI API 兼容的服務(wù)。

  1. 啟動(dòng)服務(wù)

    ./llama.cpp/llama-server \
    --model unsloth/Kimi-K2-Thinking-GGUF/UD-Q2_K_XL/Kimi-K2-Thinking-UD-Q2_K_XL-00001-of-00008.gguf \
    --alias "unsloth/Kimi-K2-Thinking" \
    --threads -1 \
    -fa on \
    --n-gpu-layers 999 \
    -ot ".ffn_.*_exps.=CPU" \
    --min_p 0.01 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja
  2. 使用 Python 調(diào)用

    # pip install openai
    from openai import OpenAI

    client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
    )

    completion = client.chat.completions.create(
    model = "unsloth/Kimi-K2-Thinking",
    messages = [{"role": "user", "content": "What is 2+2?"},],
    )
    print(completion.choices[0].message.content)
其他細(xì)節(jié)
  • Thinking 模型參數(shù):官方建議temperature設(shè)置為1.0,min_p設(shè)置為0.01,以減少重復(fù)并抑制低概率 token 的出現(xiàn)。

  • 看見(jiàn)模型的“思考”:Kimi-Thinking 模型有一項(xiàng)特殊能力,會(huì)生成 標(biāo)簽來(lái)展示其“思考過(guò)程”。在llama.cpp中,你需要在命令末尾添加--special標(biāo)志才能看到這些標(biāo)簽。

  • <|im_end|>結(jié)束符:你可能會(huì)在輸出末尾看到這個(gè)特殊 token,這是正常的??梢栽谀愕膽?yīng)用中將其設(shè)置為 stop string 來(lái)隱藏它。

最后推薦一個(gè)我正在學(xué)習(xí)的課程

作為一個(gè)內(nèi)容創(chuàng)作者,我對(duì)課程是很挑的。

但這門(mén)《強(qiáng)化學(xué)習(xí)快速入門(mén)與實(shí)戰(zhàn)》,我真心推。

從理論基礎(chǔ)講到代碼實(shí)戰(zhàn),還覆蓋 OpenAI Gym/Play,緊跟技術(shù)最前沿。

內(nèi)容延展 130%,六大行業(yè)實(shí)戰(zhàn),雙師帶學(xué)——你能感受到制作團(tuán)隊(duì)的用心。



現(xiàn)在雙十一活動(dòng)入手立省 70,說(shuō)是馬上漲價(jià),趁早入手。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬(wàn)噸訂單

中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬(wàn)噸訂單

愛(ài)吃醋的貓咪
2025-12-27 16:24:13
荒誕到什么地步,才會(huì)衍生出這樣騙局!

荒誕到什么地步,才會(huì)衍生出這樣騙局!

胖胖說(shuō)他不胖
2025-12-27 10:00:10
姜昆風(fēng)波事態(tài)升級(jí),具體行程被扒出,當(dāng)事人曝視頻并不是拼接

姜昆風(fēng)波事態(tài)升級(jí),具體行程被扒出,當(dāng)事人曝視頻并不是拼接

凡知
2025-12-27 17:31:13
“漲到可怕了!”有人一覺(jué)醒來(lái)賺了18萬(wàn)

“漲到可怕了!”有人一覺(jué)醒來(lái)賺了18萬(wàn)

都市快報(bào)橙柿互動(dòng)
2025-12-27 13:41:17
中新網(wǎng)報(bào)道:中國(guó)赴柬埔寨游客增長(zhǎng)43.5%,你會(huì)去俄、柬旅游嗎?

中新網(wǎng)報(bào)道:中國(guó)赴柬埔寨游客增長(zhǎng)43.5%,你會(huì)去俄、柬旅游嗎?

名人茍或
2025-12-27 06:04:21
比韓建林還硬!徐湖平大靠山,竟是江蘇“一把手”,父親的老戰(zhàn)友

比韓建林還硬!徐湖平大靠山,竟是江蘇“一把手”,父親的老戰(zhàn)友

阿天愛(ài)旅行
2025-12-28 00:49:02
法國(guó)、德國(guó)、英國(guó)、加拿大、丹麥、西班牙、意大利、荷蘭、挪威等14國(guó)發(fā)表聯(lián)合聲明

法國(guó)、德國(guó)、英國(guó)、加拿大、丹麥、西班牙、意大利、荷蘭、挪威等14國(guó)發(fā)表聯(lián)合聲明

每日經(jīng)濟(jì)新聞
2025-12-25 07:29:06
徐湖平父親和岳父身份被扒!個(gè)個(gè)不簡(jiǎn)單,難怪舉報(bào)他4次都不成功

徐湖平父親和岳父身份被扒!個(gè)個(gè)不簡(jiǎn)單,難怪舉報(bào)他4次都不成功

葉公子
2025-12-27 19:19:28
疑知名女星前夫被判無(wú)期,“涉案10余億元,已有受害人過(guò)世”

疑知名女星前夫被判無(wú)期,“涉案10余億元,已有受害人過(guò)世”

魯中晨報(bào)
2025-12-27 12:49:35
36歲銀行女經(jīng)理和丈夫先后自殺:生前花180萬(wàn)元預(yù)訂豪車(chē),身后留下兩個(gè)幼女丨紅星調(diào)查

36歲銀行女經(jīng)理和丈夫先后自殺:生前花180萬(wàn)元預(yù)訂豪車(chē),身后留下兩個(gè)幼女丨紅星調(diào)查

紅星新聞
2025-12-27 10:37:08
小米也漲價(jià)了!內(nèi)存壓力傳導(dǎo)至手機(jī)廠(chǎng)商,業(yè)界稱(chēng)終端再不漲明年必定虧損

小米也漲價(jià)了!內(nèi)存壓力傳導(dǎo)至手機(jī)廠(chǎng)商,業(yè)界稱(chēng)終端再不漲明年必定虧損

澎湃新聞
2025-12-26 20:22:27
緊急!多品牌洗發(fā)水暗含致癌物,趕緊自查你家洗漱臺(tái)有沒(méi)有!

緊急!多品牌洗發(fā)水暗含致癌物,趕緊自查你家洗漱臺(tái)有沒(méi)有!

今朝牛馬
2025-12-26 17:16:28
豆瓣8.6到9.6,今年最頂級(jí)的劇,都在這

豆瓣8.6到9.6,今年最頂級(jí)的劇,都在這

獨(dú)立魚(yú)
2025-12-26 22:29:08
全世界在看北京怎么亮劍!針?shù)h相對(duì)扣押運(yùn)走美國(guó)貨輪貨物

全世界在看北京怎么亮劍!針?shù)h相對(duì)扣押運(yùn)走美國(guó)貨輪貨物

柳扶風(fēng)
2025-12-26 09:08:54
全國(guó)無(wú)償獻(xiàn)血者達(dá)1.4億人 衛(wèi)健委呼吁各單位每年組織員工無(wú)償獻(xiàn)血

全國(guó)無(wú)償獻(xiàn)血者達(dá)1.4億人 衛(wèi)健委呼吁各單位每年組織員工無(wú)償獻(xiàn)血

中國(guó)經(jīng)營(yíng)報(bào)
2025-12-27 17:11:22
今冬最冷時(shí)間表出爐,何時(shí)最冷?2026年春節(jié)冷不冷?早看早知道

今冬最冷時(shí)間表出爐,何時(shí)最冷?2026年春節(jié)冷不冷?早看早知道

好賢觀史記
2025-12-25 10:07:03
美國(guó)頁(yè)巖油陷阱!廢水回注正在失控,或引發(fā)人類(lèi)巨大災(zāi)難

美國(guó)頁(yè)巖油陷阱!廢水回注正在失控,或引發(fā)人類(lèi)巨大災(zāi)難

新浪財(cái)經(jīng)
2025-10-07 21:58:33
港媒發(fā)布文章《徐湖平父親究竟是誰(shuí)》,沒(méi)多久遭到微博屏蔽

港媒發(fā)布文章《徐湖平父親究竟是誰(shuí)》,沒(méi)多久遭到微博屏蔽

映射生活的身影
2025-12-27 19:34:50
中方對(duì)美反制落地,合作全部叫停,美國(guó)強(qiáng)烈抗議,3句話(huà)極其無(wú)恥

中方對(duì)美反制落地,合作全部叫停,美國(guó)強(qiáng)烈抗議,3句話(huà)極其無(wú)恥

云上烏托邦
2025-12-27 19:04:16
AI大神吳恩達(dá):很多計(jì)算機(jī)專(zhuān)業(yè)應(yīng)屆生找不到工作,是因?yàn)楦咝Un程嚴(yán)重滯后

AI大神吳恩達(dá):很多計(jì)算機(jī)專(zhuān)業(yè)應(yīng)屆生找不到工作,是因?yàn)楦咝Un程嚴(yán)重滯后

爆角追蹤
2025-12-27 12:33:54
2025-12-28 03:47:00
機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
機(jī)器學(xué)習(xí)與Python社區(qū)
機(jī)器學(xué)習(xí)算法與Python
3235文章數(shù) 11081關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱(chēng)終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線(xiàn) 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線(xiàn) 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開(kāi)始拉物價(jià)了!

汽車(chē)要聞

好音響比大屏更重要?車(chē)企開(kāi)始“聽(tīng)”用戶(hù)的

態(tài)度原創(chuàng)

時(shí)尚
健康
游戲
本地
藝術(shù)

穿好雪地靴的4個(gè)訣竅,還挺有效!

這些新療法,讓化療不再那么痛苦

我真幸運(yùn):《泰拉瑞亞》1.4.5更新定檔1月份!

本地新聞

云游安徽|踏訪(fǎng)池州,讀懂山水間的萬(wàn)年史書(shū)

藝術(shù)要聞

驚艷!這件木雕美得讓人心動(dòng),絕對(duì)不容錯(cuò)過(guò)!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版