国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Qwen3.5微調(diào)教程,從零到部署全打通

0
分享至

Qwen3.5 是開源社區(qū)的香餑餑,Unsloth 第一時(shí)間跟進(jìn)了完整的微調(diào)支持

我花了兩天研究了他們的文檔和 Colab 筆記本,整理出這份從零到一的微調(diào)教程

0.8B 到 122B 全尺寸覆蓋,文本、視覺、強(qiáng)化學(xué)習(xí)三條路線全打通

Qwen3.5 微調(diào)概覽

先說(shuō)結(jié)論:Qwen3.5 + Unsloth 是目前性價(jià)比最高的開源模型微調(diào)方案。

核心優(yōu)勢(shì):

  • 訓(xùn)練速度比標(biāo)準(zhǔn) FA2快 1.5 倍

  • 顯存占用減少 50%

  • 支持 0.8B、2B、4B、9B、27B、35B-A3B、122B-A10B全系列

  • 支持文本 SFT、視覺微調(diào)、強(qiáng)化學(xué)習(xí)(GRPO)三條路線

  • 導(dǎo)出格式豐富:GGUF(Ollama)、vLLM、LoRA 適配器

  • 支持201 種語(yǔ)言的多語(yǔ)言微調(diào)

各模型 bf16 LoRA 顯存需求:

模型

顯存

0.8B

3GB

2B

5GB

4B

10GB

9B

22GB

27B

56GB

35B-A3B(MoE)

74GB


Qwen3.5 bf16 LoRA 顯存需求

重要提醒:

  • ??必須用 transformers v5,舊版不行

  • ??不建議對(duì) Qwen3.5 使用 QLoRA(4-bit)訓(xùn)練——量化差異高于正常水平

  • ?? MoE 模型(35B-A3B / 122B-A10B)推薦用 bf16 LoRA,不要用 QLoRA

方式一:Unsloth Studio(無(wú)代碼方案)

如果你不想寫一行代碼,Unsloth 新推出的開源 Web UI ——Unsloth Studio是最佳選擇。

安裝(MacOS / Linux / WSL):

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex

安裝很快,大約 1-2 分鐘。然后啟動(dòng):

unsloth studio -H 0.0.0.0 -p 8888

瀏覽器打開http://localhost:8888,首次登錄設(shè)置密碼后就能開始了。


Unsloth Studio 界面

在搜索欄搜索 Qwen3.5,選模型、選數(shù)據(jù)集、調(diào)參數(shù)、點(diǎn)開始訓(xùn)練——全程鼠標(biāo)操作:


配置訓(xùn)練參數(shù)

訓(xùn)練過(guò)程中可以實(shí)時(shí)監(jiān)控?fù)p失曲線:


訓(xùn)練過(guò)程監(jiān)控

訓(xùn)練完成后可以直接導(dǎo)出為 GGUF、safetensor 等格式:


導(dǎo)出模型 方式二:代碼微調(diào)(SFT 文本微調(diào))

對(duì)于想精細(xì)控制的同學(xué),下面是一個(gè)最小可運(yùn)行的 SFT 代碼:

from unsloth import FastLanguageModel
import torch
from datasets import load_dataset
from trl import SFTTrainer, SFTConfig

max_seq_length = 2048# 先從小開始

# 加載數(shù)據(jù)集(替換成你自己的)
url = "https://huggingface.co/datasets/laion/OIG/resolve/main/unified_chip2.jsonl"
dataset = load_dataset("json", data_files={"train": url}, split="train")

# 加載模型
model, tokenizer = FastLanguageModel.from_pretrained(
model_name = "Qwen/Qwen3.5-27B",
max_seq_length = max_seq_length,
load_in_4bit = False, # 不建議用 QLoRA
load_in_16bit = True, # bf16 LoRA
full_finetuning = False,
)

# 添加 LoRA 適配器
model = FastLanguageModel.get_peft_model(
model,
r = 16,
target_modules = [
"q_proj", "k_proj", "v_proj", "o_proj",
"gate_proj", "up_proj", "down_proj",
],
lora_alpha = 16,
lora_dropout = 0,
bias = "none",
use_gradient_checkpointing = "unsloth", # 長(zhǎng)上下文 + 更低顯存
random_state = 3407,
max_seq_length = max_seq_length,
)

# 訓(xùn)練
trainer = SFTTrainer(
model = model,
train_dataset = dataset,
tokenizer = tokenizer,
args = SFTConfig(
max_seq_length = max_seq_length,
per_device_train_batch_size = 1,
gradient_accumulation_steps = 4,
warmup_steps = 10,
max_steps = 100,
logging_steps = 1,
output_dir = "outputs_qwen35",
optim = "adamw_8bit",
seed = 3407,
dataset_num_proc = 1,
),
)

trainer.train()

關(guān)鍵參數(shù)說(shuō)明:

  • load_in_16bit = True:使用 bf16 LoRA,穩(wěn)定性最好

  • use_gradient_checkpointing = "unsloth":Unsloth 專屬的檢查點(diǎn)機(jī)制,顯存占用更低

  • r = 16:LoRA 秩,越大精度越高但越容易過(guò)擬合

  • lora_alpha = 16:建議 alpha >= r

如果遇到 OOM,把per_device_train_batch_size降到 1,或者降低max_seq_length。

MoE 模型微調(diào)(35B / 122B)

對(duì)于Qwen3.5-35B-A3B122B-A10B這樣的 MoE 模型:

from unsloth import FastModel


model, tokenizer = FastModel.from_pretrained(
model_name = "unsloth/Qwen3.5-35B-A3B",
max_seq_length = 2048,
load_in_4bit = False,
load_in_16bit = True,
full_finetuning = False,
)

Unsloth 的 MoE 訓(xùn)練內(nèi)核默認(rèn)啟用,號(hào)稱比標(biāo)準(zhǔn)方案快 12 倍、顯存減少 35%、上下文長(zhǎng)度提升 6 倍。默認(rèn)禁用路由層微調(diào)以保證穩(wěn)定性。

122B-A10B 的 bf16 LoRA 需要 256GB 顯存,多卡用戶加device_map = "balanced"

視覺微調(diào)(Qwen3.5 VLM)

Qwen3.5 本身就是一個(gè)統(tǒng)一的視覺語(yǔ)言模型,所以視覺微調(diào)非常自然:

from unsloth import FastVisionModel

model, tokenizer = FastVisionModel.from_pretrained(
"unsloth/Qwen3.5-4B",
load_in_4bit = False,
use_gradient_checkpointing = "unsloth",
)

model = FastVisionModel.get_peft_model(
model,
finetune_vision_layers = True, # 微調(diào)視覺層
finetune_language_layers = True, # 微調(diào)語(yǔ)言層
finetune_attention_modules = True, # 微調(diào)注意力層
finetune_mlp_modules = True, # 微調(diào) MLP 層
r = 16,
lora_alpha = 16,
lora_dropout = 0,
bias = "none",
random_state = 3407,
target_modules = "all-linear",
modules_to_save = ["lm_head", "embed_tokens"],
)

亮點(diǎn)在于可以精細(xì)控制微調(diào)哪些部分——你可以選擇只微調(diào)視覺層、只微調(diào)語(yǔ)言層,或者只微調(diào)注意力 / MLP 層,組合隨意。

想在免費(fèi) T4 GPU 上跑?用官方 Colab 筆記本:

  • 視覺微調(diào):https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(4B)_Vision.ipynb

強(qiáng)化學(xué)習(xí)(GRPO)

即使 vLLM 暫時(shí)還不支持 Qwen3.5,你仍然可以通過(guò)禁用 fast inference 來(lái)做 GRPO:

from unsloth import FastLanguageModel


model, tokenizer = FastLanguageModel.from_pretrained(
model_name = "unsloth/Qwen3.5-4B",
fast_inference = False, # 關(guān)鍵:禁用 fast vLLM 推理
)

如果你想保留模型的推理能力,建議訓(xùn)練數(shù)據(jù)中至少保留 75% 的推理風(fēng)格示例,其余可以用直接答案。

GGUF 量化基準(zhǔn)測(cè)試——選什么量化最靠譜?

Unsloth 做了超過(guò)150 次 KL 散度基準(zhǔn)測(cè)試,總計(jì) 9TB 的 GGUF,得出了幾條關(guān)鍵結(jié)論,這里幫你劃重點(diǎn):


KLD 基準(zhǔn)測(cè)試結(jié)果

量化選擇建議:

  1. 別碰 MXFP4——在很多張量上表現(xiàn)都很差,已從 Q2_K_XL、Q3_K_XL、Q4_K_XL 中退役。Q4_K 在幾乎所有場(chǎng)景下都比 MXFP4 好

  2. ssm_out 層別量化——Mamba 層(ssm_out)量化后 KLD 飆升,磁盤空間卻省不了多少

  3. 3-bit 是甜點(diǎn)區(qū)——ffn_up_exps 和 ffn_gate_exps 通??梢粤炕?3 位(iq3_xxs 附近),2 位就開始明顯降級(jí)了

  4. Imatrix 確實(shí)有效——能降低 KLD 和 PPL,但推理速度慢 5-10%。對(duì)低位數(shù)量化幫助更大

  5. attn_ 層高度敏感 *——對(duì)于混合架構(gòu),注意力層保持高精度很重要

Tensor 類型敏感度分析

另外一個(gè)很重要的發(fā)現(xiàn):困惑度(PPL)和 KL 散度可能具有誤導(dǎo)性。Unsloth Dynamic IQ2_XXS 在真實(shí)評(píng)估(LiveCodeBench v6、MMLU Pro)上表現(xiàn)優(yōu)于 AesSedai 的 IQ3_S,盡管體積小 11GB,但后者的 PPL 和 KLD 指標(biāo)反而更好看。所以千萬(wàn)不要只看 PPL 就下結(jié)論。


GGUF 量化選擇五大關(guān)鍵原則 導(dǎo)出與部署

微調(diào)完成后,導(dǎo)出到各種格式都很方便:

導(dǎo)出為 GGUF(給 Ollama / llama.cpp 用):

model.save_pretrained_gguf("directory", tokenizer, quantization_method="q4_k_m")
model.save_pretrained_gguf("directory", tokenizer, quantization_method="q8_0")

導(dǎo)出為 16-bit(給 vLLM 用):

model.save_pretrained_merged("finetuned_model", tokenizer, save_method="merged_16bit")

只保存 LoRA 適配器:

model.save_pretrained("finetuned_lora")
tokenizer.save_pretrained("finetuned_lora")

推到 HuggingFace:

model.push_to_hub_gguf("hf_username/model", tokenizer, quantization_method="q4_k_m")

??注意:vLLM 0.16.0 不支持 Qwen3.5,需要等 0.170 或用 Nightly 版本。如果導(dǎo)出模型在其他運(yùn)行時(shí)效果變差,大概率是聊天模板 / EOS 令牌用錯(cuò)了——必須和訓(xùn)練時(shí)保持一致。

總結(jié)

整理一下整個(gè)微調(diào)路徑:

路線

適合誰(shuí)

顯存門檻

Unsloth Studio

不想寫代碼

取決于模型

?????

SFT 代碼微調(diào)

需要精細(xì)控制

3GB(0.8B)起

?????

視覺微調(diào)

做多模態(tài)應(yīng)用

10GB(4B)起

????

GRPO 強(qiáng)化學(xué)習(xí)

提升推理能力

10GB 起

????

MoE 微調(diào)

要大模型能力

74GB 起

???


Qwen3.5 微調(diào)路徑一覽

Unsloth 在 Qwen3.5 上的支持可以說(shuō)是教科書級(jí)別的——從 Studio 無(wú)代碼方案到 Colab 免費(fèi)筆記本,再到 GGUF 量化基準(zhǔn)的深度研究,生態(tài)做得相當(dāng)完整。唯一的坑是 MoE 模型對(duì)硬件要求較高,以及 transformers v5 的硬依賴。

  • Unsloth 微調(diào)文檔:https://unsloth.ai/docs/zh/mo-xing/qwen3.5/fine-tune

  • GGUF 基準(zhǔn)測(cè)試:https://unsloth.ai/docs/zh/mo-xing/qwen3.5/gguf-benchmarks

  • Colab 視覺微調(diào)筆記本:https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(4B)_Vision.ipynb

  • Unsloth GitHub:https://github.com/unslothai/unsloth

.5

制作不易,如果這篇文章覺得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
B席:我花了很長(zhǎng)時(shí)間才做出離隊(duì)決定,我只想好好結(jié)束這旅程

B席:我花了很長(zhǎng)時(shí)間才做出離隊(duì)決定,我只想好好結(jié)束這旅程

懂球帝
2026-04-20 04:39:46
我媽93歲,獨(dú)居自理,她的長(zhǎng)壽秘訣就六個(gè)字:別老想著走動(dòng)!

我媽93歲,獨(dú)居自理,她的長(zhǎng)壽秘訣就六個(gè)字:別老想著走動(dòng)!

蟬吟槐蕊
2026-04-19 06:23:45
7中7!火箭遮羞布!可能是今夏離隊(duì)第一人

7中7!火箭遮羞布!可能是今夏離隊(duì)第一人

籃球?qū)崙?zhàn)寶典
2026-04-19 15:47:41
特朗普第一任期的白宮律師突然爆猛料:特朗普已經(jīng)撐不下去了

特朗普第一任期的白宮律師突然爆猛料:特朗普已經(jīng)撐不下去了

西樓知趣雜談
2026-04-19 21:25:23
畸形審美?這4位男演員長(zhǎng)相平平,卻總當(dāng)主角演帥哥,實(shí)在不理解

畸形審美?這4位男演員長(zhǎng)相平平,卻總當(dāng)主角演帥哥,實(shí)在不理解

史鹷的生活科普
2026-04-19 22:51:14
一個(gè)卡扣要換13萬(wàn)電池包!國(guó)產(chǎn)這種售后,到外國(guó)會(huì)罰到懷疑人生!

一個(gè)卡扣要換13萬(wàn)電池包!國(guó)產(chǎn)這種售后,到外國(guó)會(huì)罰到懷疑人生!

沙雕小琳琳
2026-04-19 12:32:36
(深入分析)特朗普已被逼到了懸崖邊上,因?yàn)橹袊?guó)擊中了其要害

(深入分析)特朗普已被逼到了懸崖邊上,因?yàn)橹袊?guó)擊中了其要害

阿胡
2025-04-12 11:30:46
1949年,解放軍打開馬鴻逵的倉(cāng)庫(kù),全都愣住:里面是1286公斤羊毛

1949年,解放軍打開馬鴻逵的倉(cāng)庫(kù),全都愣?。豪锩媸?286公斤羊毛

野史日記
2026-04-18 21:00:03
真子公主低調(diào)慶祝孩子1周歲生日,離開王室5年未回日本,比哈里狠

真子公主低調(diào)慶祝孩子1周歲生日,離開王室5年未回日本,比哈里狠

毒舌小紅帽
2026-04-19 21:42:56
14歲被送上導(dǎo)演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導(dǎo)演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

不似少年游
2026-04-17 19:31:49
一夜成名!張雪的岳父登上熱搜,被麻陽(yáng)當(dāng)?shù)仡I(lǐng)導(dǎo)邀請(qǐng)參加騎行活動(dòng)

一夜成名!張雪的岳父登上熱搜,被麻陽(yáng)當(dāng)?shù)仡I(lǐng)導(dǎo)邀請(qǐng)參加騎行活動(dòng)

火山詩(shī)話
2026-04-19 17:46:25
鹵菜店使用“四姐”二字被索賠50萬(wàn)元,店主:大家都叫我四姐,為什么告我侵權(quán)

鹵菜店使用“四姐”二字被索賠50萬(wàn)元,店主:大家都叫我四姐,為什么告我侵權(quán)

環(huán)球網(wǎng)資訊
2026-04-11 21:50:22
張柏芝三胎生父被封,coco再曝猛料謝賢名譽(yù)受損

張柏芝三胎生父被封,coco再曝猛料謝賢名譽(yù)受損

阿紵美食
2026-04-20 04:11:18
警惕:上了年紀(jì)再過(guò)性生活,最怕這2點(diǎn)!保護(hù)男性精氣,做好4點(diǎn)

警惕:上了年紀(jì)再過(guò)性生活,最怕這2點(diǎn)!保護(hù)男性精氣,做好4點(diǎn)

周哥一影視
2026-04-08 12:20:15
哈里梅根的全球身份危機(jī):這場(chǎng)高仿王室出訪,正在拖垮整個(gè)君主制

哈里梅根的全球身份危機(jī):這場(chǎng)高仿王室出訪,正在拖垮整個(gè)君主制

李Dog嗨
2026-04-19 22:51:40
別只盯著特朗普!美國(guó)為何總在制造沖突,背后是喂養(yǎng)怪物的饑渴?

別只盯著特朗普!美國(guó)為何總在制造沖突,背后是喂養(yǎng)怪物的饑渴?

星落山間
2026-04-19 12:15:00
第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

第一次對(duì)「鋁箔紙」產(chǎn)生了敬意!以為烘焙專用,沒想到是家居神器

裝修秀
2026-04-18 11:55:03
《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬(wàn)福

《八千里路云和月》朱管家想不到,算計(jì)田家泰家業(yè),卻成全了萬(wàn)福

白淺娛樂聊
2026-04-19 12:37:15
一個(gè)家庭最大的悲哀,是父母年過(guò)70了,還在做三件事

一個(gè)家庭最大的悲哀,是父母年過(guò)70了,還在做三件事

大熊歡樂坊
2026-04-02 14:23:28
演員何潤(rùn)東回應(yīng)穿項(xiàng)羽鎧甲亮相蘇超:14年后受邀過(guò)來(lái),內(nèi)心滿是感動(dòng),等下去逛項(xiàng)王故里

演員何潤(rùn)東回應(yīng)穿項(xiàng)羽鎧甲亮相蘇超:14年后受邀過(guò)來(lái),內(nèi)心滿是感動(dòng),等下去逛項(xiàng)王故里

極目新聞
2026-04-19 10:17:37
2026-04-20 05:36:49
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3334文章數(shù) 11137關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

藝術(shù)
親子
游戲
家居
時(shí)尚

藝術(shù)要聞

超模施特洛耶克寫真曝光,簡(jiǎn)直美到窒息,別錯(cuò)過(guò)!

親子要聞

孩子總打噴嚏、起疹子,時(shí)過(guò)敏嗎?

如何將ZH-1火力最大化?《戰(zhàn)艦世界》15.3版本造船廠加點(diǎn)攻略

家居要聞

法式線條 時(shí)光靜淌

裝修“精神角落”,就是這么上癮

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版