LLM微调Fine-tuning完全指南

概述#

Fine-tuning（微调）是指在大语言模型（LLM）的基础上，使用特定领域或任务的数据进行二次训练，使模型在特定场景下表现更优。

与 RAG 不同，微调是让模型真正学会新知识，而不是每次回答时从外部检索。微调适合需要模型深度理解某个领域、掌握特定行为模式的场景。

什么时候需要微调#

场景	建议	原因
需要特定的输出格式 / 风格	✅ 微调	Prompt 难以稳定约束
需要模型学习领域专有表达	✅ 微调	领域术语和习惯
需要降低推理成本	✅ 微调	小模型 + 微调替代大模型
通用问答效果不理想	❌ 优先优化 Prompt	微调成本高
数据量少（< 1 万条）	❌ 优先 RAG	微调需要足够数据
需要最新知识	❌ 优先 RAG	微调无法实时更新
快速验证想法	❌ 优先 Prompt	微调周期长

微调类型全解#

全量微调（Full Fine-tuning）#

更新模型所有参数。

项目	说明
参数量	所有参数
显存需求	非常大（A100 80G × 多卡）
数据需求	大量（通常 10 万 + 条）
效果	最好
成本	最高
风险	容易过拟合、遗忘原有能力

LoRA（Low-Rank Adaptation）#

在注意力层注入低秩矩阵。

PRTCL // PLAINTEXT

1
原理：在原始权重 W 旁边添加低秩分解 ΔW = BA
2
      训练时：只更新 A 和 B，不更新 W
3

4
W' = W + ΔW = W + BA

项目	说明
参数量	原始参数 + LoRA 参数
显存需求	中等（单卡可跑）
数据需求	中等（1 万-10 万条）
效果	接近全量微调
速度	快
可叠加	支持多个 LoRA 组合

QLoRA（量化 LoRA）#

LoRA + 量化，进一步降低显存。

PRTCL // PLAINTEXT

1
量化：模型权重从 FP16/BF16 → INT4
2
     训练时：反量化回 BF16 计算
3
     推理时：可直接用 INT4

量化方式	精度	显存节省
FP16	16 位	基准
INT8	8 位	50%
INT4	4 位	75%
NF4	4 位（NormalFloat）	75%+

QLoRA 典型配置：

基础模型：Llama-3-70B
量化：4-bit NF4
LoRA：qLoRA 配置
显存需求：~40GB（单卡 A100）

Adapter#

在 Transformer 层插入小型适配器模块。

PRTCL // PLAINTEXT

1
Transformer Layer:
2
  Input → [原始注意力] → [Adapter] → Output
3
                 ↑ 冻结        ↑ 可训练

Prefix Tuning / Prompt Tuning#

方法	原理	可训练参数
Prefix Tuning	在每层输入前加可学习前缀	很少
Prompt Tuning	只在 embedding 层加软提示	极少

对齐微调#

方法	说明	特点
RLHF	人类反馈 → Reward Model → PPO	效果好，复杂
DPO	直接优化偏好，无需 Reward	简单高效
ORPO	联合训练偏好和生成	新方法

微调流程详解#

阶段 1：数据准备#

数据格式：

PRTCL // JSON

1
// 格式 1：Alpaca 格式
2
{
3
  "instruction": "将以下中文翻译成英文",
4
  "input": "今天天气真好",
5
  "output": "The weather is really nice today."
6
}
7

8
// 格式 2：ChatML 格式
9
{
10
  "messages": [
11
    {"role": "system", "content": "你是一个翻译助手"},
12
    {"role": "user", "content": "翻译：Hello"},
13
    {"role": "assistant", "content": "你好"}
14
  ]
15
}
16

17
// 格式 3：ShareGPT 格式
18
{
19
  "conversations": [
20
    {"from": "human", "value": "问题..."},
21
    {"from": "gpt", "value": "回答..."}
22
  ]
23
}

数据质量原则：

原则	说明
质量 > 数量	1000 条高质量 > 10000 条噪音
多样性	覆盖不同场景和表达
格式一致	统一的数据格式
去重	去除重复样本
平衡	类别分布均衡

数据清洗：

PRTCL // PYTHON

1
# 常见清洗步骤
2
1. 去除 HTML 标签和特殊字符
3
2. 去除过短或过长的样本
4
3. 去除重复内容
5
4. 去除个人隐私信息
6
5. 过滤低质量内容（可以用 Reward Model）

阶段 2：训练配置#

关键超参数：

参数	说明	建议值
learning_rate	学习率	1e-4 ~ 3e-4（LoRA），1e-5（微调）
batch_size	批次大小	4-16（根据显存）
epochs	训练轮数	1-5（防止过拟合）
warmup_steps	预热步数	总步数的 5-10%
lr_scheduler	学习率调度	cosine
max_seq_length	最大序列长度	2048/4096
gradient_accumulation	梯度累积	4-8

LoRA 特定参数：

PRTCL // PYTHON

1
lora_config = {
2
    "r": 8,              # 秩，越大参数量越多
3
    "lora_alpha": 16,    # 缩放因子
4
    "lora_dropout": 0.05,
5
    "target_modules": [  # 目标模块
6
        "q_proj", "k_proj", "v_proj", "o_proj",
7
        "gate_proj", "up_proj", "down_proj"
8
    ]
9
}

阶段 3：训练执行#

PRTCL // PYTHON

1
from transformers import Trainer, TrainingArguments
2
from peft import LoraConfig, get_peft_model
3

4
# 配置 LoRA
5
lora_config = LoraConfig(
6
    r=8,
7
    lora_alpha=16,
8
    target_modules=["q_proj", "v_proj"],
9
    lora_dropout=0.05,
10
    task_type="CAUSAL_LM"
11
)
12

13
# 应用 LoRA
14
model = get_peft_model(base_model, lora_config)
15
model.print_trainable_parameters()
16
# trainable params: 8,388,608 || all params: 6,738,415,616 || trainable%: 0.124%
17

18
# 训练
19
trainer = Trainer(
20
    model=model,
21
    train_dataset=train_dataset,
22
    args=training_args,
23
)
24
trainer.train()

阶段 4：评估与测试#

评估维度：

维度	指标	说明
任务性能	Accuracy/F1/BLEU	与基座模型对比
幻觉	事实性错误率	越低越好
风格一致性	格式遵循度	是否符合预期
安全性	有害内容率	越低越好

阶段 5：合并与导出#

PRTCL // PYTHON

1
# 合并 LoRA 权重到基座
2
from peft import PeftModel
3
merged_model = model.merge_and_unload()
4

5
# 量化导出（可选）
6
quantized = merged_model.quantize(4)  # INT4
7

8
# 保存
9
merged_model.save_pretrained("output")

常用工具#

工具	说明	特点
LLaMA-Factory	主流微调框架	WebUI 友好，支持多种模型
Axolotl	社区流行	配置灵活
TRL	HuggingFace 官方	与 Transformers 集成
unsloth	加速微调	2x 速度提升，50% 显存减少
Fireworks.ai	云端服务	无需 GPU
ExLab	云端平台	简化流程

常见问题与解决#

问题	原因	解决方案
过拟合	数据太少 / 训练太长	增加数据 / 减少 epochs
灾难性遗忘	微调后通用能力下降	使用 LoRA + 适量原始数据混合
训练不稳定	学习率太高	降低学习率，增加 warmup
输出质量差	数据质量差	清洗数据，提高质量
显存不足	模型太大	使用 QLoRA，减小 batch_size

总结#

微调是让通用模型变成领域专家的重要手段。对于大多数场景，LoRA + QLoRA 是性价比最高的选择。但微调并非万能，优先考虑 Prompt 优化和 RAG，在确实需要深度定制时才选择微调。

关于我#

项目	内容
编辑	echowang
来源	echospace
邮箱	echohaoran@gmail.com
简介	AI 爱好者，专注于大语言模型应用与智能体开发，分享技术与实践心得
社交	欢迎交流讨论，共同成长

LLM微调Fine-tuning完全指南

概述#

什么时候需要微调#

微调类型全解#

全量微调（Full Fine-tuning）#

LoRA（Low-Rank Adaptation）#

QLoRA（量化 LoRA）#

Adapter#

Prefix Tuning / Prompt Tuning#

对齐微调#

微调流程详解#

阶段 1：数据准备#

阶段 2：训练配置#

阶段 3：训练执行#

阶段 4：评估与测试#

阶段 5：合并与导出#

常用工具#

常见问题与解决#

总结#

关于我#

Related Posts

Comments