大语言模型LLM技术完全指南

概述#

LLM（Large Language Model，大语言模型）是一类基于深度学习的大规模预训练语言模型，能够理解和生成人类语言文本。它是当前人工智能领域最核心、最受关注的技术之一。

2017 年，Google 在论文《Attention Is All You Need》中提出了 Transformer 架构，奠定了现代 NLP 的根基。此后，OpenAI 沿着「规模越大、能力越强」的 Scaling Law 路线，于 2020 年推出 GPT-3（1750 亿参数），首次展示了令人震惊的「涌现能力」（Emergent Abilities）。2022 年 ChatGPT 发布，2023 年 GPT-4 到来，大语言模型正式走入千家万户。

技术演进路线#

PRTCL // PLAINTEXT

1
2017  Transformer 诞生（Google）
2
2018  BERT（双向理解）、GPT-1
3
2019  GPT-2（开源，15 亿参数）
4
2020  GPT-3（1750 亿参数，涌现能力初现）
5
2022  ChatGPT（RLHF）、InstructGPT
6
2023  GPT-4（多模态）、Claude 2、Llama 2（开源爆发）、国产模型元年
7
2024  GPT-4o、Gemini 1.5（100 万上下文）、Claude 3.5、Llama 3
8
2025  GPT-o1/o3 推理模型、Gemini 2.0、国产全面追赶
9
2026  AGI 探索持续深入，长程推理、具身智能成为新方向

Transformer 架构详解#

Transformer 是 LLM 的技术基石，其核心组件包括：

输入处理：Tokenization#

LLM 处理文本的第一步是将文本切分为 Token：

Tokenizer 类型	代表	特点
BPE（Byte Pair Encoding）	GPT-2/ChatGPT	子词级别，平衡词边界和词表大小
WordPiece	BERT	基于词频的子词切分
SentencePiece	多语言模型	无需预分词，支持多语言
Unigram	Llama	概率模型，更灵活

PRTCL // PLAINTEXT

1
示例：「人工智能」可能被切分为：
2
["人", "工", "智能"] 或 ["人工", "智能"] 或整词
3
取决于词表训练时的统计规律

位置编码（Positional Encoding）#

Transformer 本身不感知词序，位置编码为每个 Token 添加位置信号：

类型	说明	优缺点
绝对位置编码	每个位置有唯一向量	简单直接，外推性差
相对位置编码	编码词之间的相对距离	外推性好，计算量大
RoPE	旋转位置编码（Llama 采用）	外推性强，高效
ALiBi	线性偏置（Mistral 采用）	外推性最强

自注意力机制（Self-Attention）#

自注意力是 Transformer 的核心创新，允许每个 Token 关注序列中所有其他 Token：

数学原理：

PRTCL // PLAINTEXT

1
Attention(Q, K, V) = softmax(QK^T / √d) × V
2

3
其中：
4
- Q（Query）：当前位置"在问什么"
5
- K（Key）：每个位置的"特征标签"
6
- V（Value）：每个位置的实际信息
7
- √d：缩放因子，防止点积过大导致梯度消失

计算过程：

PRTCL // PLAINTEXT

1
输入序列：[Token1, Token2, Token3, ...]
2
    ↓
3
分别投影为 Q, K, V 三个向量
4
    ↓
5
计算 Q × K^T 获取所有位置之间的相关性分数
6
    ↓
7
通过 softmax 归一化为注意力权重
8
    ↓
9
用权重对 V 加权求和，得到融合了全局信息的输出

多头注意力（Multi-Head Attention）#

不是用一组 QKV，而是并行计算多组注意力：

PRTCL // PLAINTEXT

1
MultiHead = Concat(Head_1, Head_2, ..., Head_h) × W^O
2

3
每个 Head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)
4

5
典型配置：
6
- BERT-Large：16 heads，每 head 64 维
7
- GPT-3：96 heads，每 head 128 维
8
- Llama-3：32 heads，每 head 128 维

多头注意力的价值：不同 head 关注不同层面的语义关系

Head 1：语法结构（主谓宾）
Head 2：语义相似性（同义词）
Head 3：指代关系（他 / 她 / 它）
Head 4：逻辑推理（因为 / 所以）

前馈网络（FFN）#

注意力层之后，每个 Token 会通过一个前馈网络：

PRTCL // PYTHON

1
FFN(x) = GELU(W_1 x + b_1) × W_2 + b_2
2

3
# GELU: Gaussian Error Linear Unit
4
# 近似公式: 0.5 * x * (1 + tanh(sqrt(2/π) * (x + 0.044715 * x^3)))

FFN 通常占据模型参数的约 2/3，是存储知识的主要场所（知识神经元假说）。

残差连接与层归一化#

PRTCL // PLAINTEXT

1
x' = LayerNorm(x + Sublayer(x))

残差连接：缓解深层网络的梯度消失问题，使信息直接传递
层归一化：稳定训练，加速收敛

混合专家（MoE）#

GPT-4 和 Mistral 等模型采用 MoE 架构，大幅提升参数量同时控制推理成本：

组件	说明
专家（Expert）	多个独立的 FFN 网络
路由器（Router）	决定每个 Token 由哪个专家处理
稀疏激活	每个 Token 只激活少数专家（如 2/8）

PRTCL // PLAINTEXT

1
示例：Mixtral 8×7B
2
- 总参数量：8 × 7B = 46.7B
3
- 活跃参数：2 × 7B = 14B（与 7B 模型相近）
4
- 推理成本：与 14B 模型相当

预训练（Pre-training）#

自监督学习#

预训练采用自监督学习，无需人工标注，利用文本自身结构作为监督信号：

GPT 系列：Next Token Prediction（下一个词预测）

PRTCL // PLAINTEXT

1
输入：今天天气真
2
输出：好
3
训练目标：最大化 P( 好|今天天气真 )

BERT：Masked Language Model（掩码语言模型）

PRTCL // PLAINTEXT

1
输入：今天天气[MASK]好
2
输出：[MASK] = 真
3
训练目标：预测被掩码的词

对比：GPT 的单向 vs BERT 的双向

GPT：只看左边，只能学习前缀上下文
BERT：看左右，能获取完整上下文

训练数据#

数据来源	占比	内容特点
网页文本（Common Crawl）	~60%	量大但噪音多
书籍（Books）	~15%	质量高，长文本
Wikipedia	~5%	结构化知识
代码（GitHub）	~5%	逻辑性强
学术论文（ArXiv）	~5%	专业术语
对话数据	~5%	交互模式
其他	~5%	新闻等

数据质量处理：

去重：去除重复的段落和文档
过滤：去除低质量内容（广告、机器翻译等）
安全过滤：去除有害内容
去隐私：移除个人身份信息（PII）
质量评分：用分类器对内容打分，优先使用高质量数据

Scaling Law（缩放定律）#

OpenAI 2020 年论文《Scaling Laws for Neural Language Models》揭示了模型规模与性能的关系：

核心发现：

模型性能（困惑度）与：参数数量 (N)、数据集大小 (D)、计算量 (C) 呈幂律关系
三个因素同等重要，需要按比例缩放
更大的模型样本效率更高，达到同等性能需要的训练数据更少

GPT-4 的规模估计：

参数量：~1.8 万亿（未经官方确认）
训练数据：~13 万亿 Token
训练计算量：~2.15×10^25 FLOPs

涌现能力（Emergent Abilities）#

当模型规模超过某个临界点时，会突然出现之前没有的能力：

能力	出现规模
简单问答	~1 亿参数
基础推理	~10 亿参数
思维链推理	~100 亿参数
上下文学习（ICL）	~670 亿参数（GPT-3）
链式推理（CoT）	~1000 亿参数
代码生成 / 数学	~1000 亿 + 参数
多步规划	~GPT-4 级别

注意：有研究（如「Switch Transformer」）认为涌现可能是评估指标选择的人为效应，而非真实质变。

指令微调（Instruction Fine-tuning）#

预训练模型擅长「续写」，但不一定「听话」。指令微调让模型学会按照人类指令行动。

SFT（监督微调）#

使用人工标注的指令-响应对进行有监督训练：

PRTCL // PLAINTEXT

1
格式示例（Alpaca 格式）：
2
{
3
  "instruction": "把以下句子翻译成英文",
4
  "input": "今天天气很好",
5
  "output": "The weather is nice today."
6
}

人类反馈强化学习（RLHF）#

让模型学习人类偏好，分三步：

PRTCL // PLAINTEXT

1
Step 1: 收集人类偏好数据
2
        人类对同一问题的多个回答打分 / 排序
3

4
Step 2: 训练 Reward Model
5
        学习预测人类偏好打分
6

7
Step 3: PPO 强化学习优化
8
        用 Reward Model 的信号更新 LLM

RLHF 的价值：

使模型输出更有帮助（Helpful）
使模型输出更诚实（Honest）
使模型输出更无害（Harmless）

替代方案：

DPO（Direct Preference Optimization）：绕过 Reward Model，直接用偏好数据优化
RLAIF：用 AI 反馈替代人类反馈，降低标注成本

注意力机制的工程优化#

KV Cache#

推理时保存已计算的 Key 和 Value，避免重复计算：

PRTCL // PYTHON

1
# 推理优化前：每次生成都重新计算所有历史
2
logits = model(input_ids)  # O(n²) 复杂度
3

4
# 推理优化后：缓存 KV，每次只计算新 Token
5
cache_k, cache_v = cache.get()
6
new_k, new_v = compute_new_tokens()
7
cache.update(new_k, new_v)
8
logits = model(new_token, cache_k, cache_v)  # O(n) 复杂度

注意力近似方法#

标准注意力 O(n²) 复杂度在长序列上不可行，需要近似：

方法	原理	特点
Flash Attention	IO 感知分块计算	工业级标准，无精度损失
MHA→MQA	多头→多查询	减少 K/V 头数
MQA→GQA	组查询注意力	平衡效率和效果
Sparse Attention	只关注部分位置	可能损失信息
Linear Attention	线性复杂度	理论优美，实践效果一般

Llama 3 采用 GQA（Grouped Query Attention）：

8 个 Key-Value 组
大幅减少 KV 缓存，延长上下文

主要能力详解#

文本生成#

任务	说明	质量评估
续写	补全文本	流畅度、逻辑连贯性
翻译	跨语言转换	BLEU、语义保真度
摘要	压缩长文本	ROUGE、信息保留率
改写	风格 / 语气转换	风格一致性
创意写作	故事 / 诗歌 / 剧本	创意性、逻辑性

知识问答#

事实性问答：基于训练知识回答
常识推理：结合世界知识进行推理
开放域问答：需要广泛知识储备的问题
局限：知识截止于训练时间，依赖模型容量

推理分析#

推理类型	说明	当前水平
演绎推理	从一般到特殊	强
归纳推理	从特殊到一般	中
溯因推理	解释现象的原因	中
数学推理	符号推理与计算	GPT-o1/o3 大幅提升
代码推理	算法与逻辑	强，尤其是 GPT-4

思维链（Chain of Thought）：要求模型展示推理过程能显著提升复杂推理任务的表现。

代码生成#

维度	能力	代表模型
代码补全	根据上下文续写	Copilot
函数生成	根据描述生成	GPT-4
代码调试	发现并修复 bug	GPT-4
代码重构	优化代码结构	GPT-4
代码解释	注释和文档生成	GPT-4
算法设计	复杂问题求解	GPT-4（部分）

多模态能力#

现代 LLM 已不仅限于文本：

模态	能力	代表
图像理解	看图说话、图表分析	GPT-4V、Claude 3.5
语音处理	语音识别、合成	Whisper, GPT-4o
视频理解	视频内容分析	Gemini 1.5 Pro
文档处理	PDF、表格理解	Claude 3.5 Sonnet
工具使用	调用外部 API/ 代码	GPT-4, Claude 3

主流模型生态#

国际主流#

模型	开发商	上下文	多模态	API 费用 ( 参考 )
GPT-4o	OpenAI	128K	✅	$5/1M 输入
GPT-o1	OpenAI	128K	✅	$15/1M 输入
GPT-o3	OpenAI	128K	✅	$15/1M 输入
Claude 3.5 Sonnet	Anthropic	200K	✅	$3/1M 输入
Claude 3.7 Sonnet	Anthropic	200K	✅	$3/1M 输入
Gemini 2.0 Flash	Google	1M	✅	免费（部分）
Llama 3.1 405B	Meta	128K	❌	开源免费
Grok 2	xAI	131K	✅	API 可访问

国产主流#

模型	开发商	上下文	特点
通义千问（Qwen）	阿里云	32K-128K	开源生态好，中文能力强
文心一言 4.0	百度	32K	中文理解强，搜索整合
豆包	字节跳动	32K	端侧部署领先
GLM-4	智谱	128K	国产开源先驱
DeepSeek V3/R1	深度求索	64K	推理能力强，开源可商用
Kimi	月之暗面	200K	长上下文领先

局限性#

问题	说明	应对策略
幻觉（Hallucination）	生成看似合理但实际错误的内容	RAG、事实核查、多模型验证、置信度提示
时效性	知识截止于训练数据的时间点	实时搜索、插件、RAG
上下文窗口	受限于单次输入的最大 token 数量	摘要压缩、滑动窗口、RAG
推理成本	大模型推理需要大量算力	模型量化、蒸馏、路由、小模型替代
安全风险	可能生成有害内容	RLHF、对齐训练、内容过滤、安全边界
偏见	训练数据中的偏见会被模型学习	对齐微调、偏见检测
隐私	可能泄露训练数据中的隐私信息	数据脱敏、差分隐私
推理不透明	思维过程不可解释	CoT 可解释性、RTL 可解释性研究
长程依赖	超长上下文中早期信息容易遗忘	Recurrent Memory、ICL 优化

评估方法#

基准	说明	覆盖能力
MMLU	多任务语言理解	57 个学科知识
HumanEval	代码生成	Python 编程
GSM8K	数学应用题	初等数学推理
MATH	数学竞赛题	高级数学
BBH	BIG-Bench Hard	复杂推理
HellaSwag	常识推理	日常推理
TruthfulQA	真实性	避免幻觉
MT-Bench	多轮对话	复杂交互

总结#

LLM 是当前 AI 领域的核心技术之一，其强大的语言理解和生成能力正在重塑人机交互方式。理解 LLM 的基本原理，有助于更好地应用和驾驭这一工具。掌握 LLM 的能力边界和局限性，是在实际项目中合理选型和规避风险的关键。

关于我#

项目	内容
编辑	echowang
来源	echospace
邮箱	echohaoran@gmail.com
简介	AI 爱好者，专注于大语言模型应用与智能体开发，分享技术与实践心得
社交	欢迎交流讨论，共同成长

大语言模型LLM技术完全指南

概述#

技术演进路线#

Transformer 架构详解#

输入处理：Tokenization#

位置编码（Positional Encoding）#

自注意力机制（Self-Attention）#

多头注意力（Multi-Head Attention）#

前馈网络（FFN）#

残差连接与层归一化#

混合专家（MoE）#

预训练（Pre-training）#

自监督学习#

训练数据#

Scaling Law（缩放定律）#

涌现能力（Emergent Abilities）#

指令微调（Instruction Fine-tuning）#

SFT（监督微调）#

人类反馈强化学习（RLHF）#

注意力机制的工程优化#

KV Cache#

注意力近似方法#

主要能力详解#

文本生成#

知识问答#

推理分析#

代码生成#

多模态能力#

主流模型生态#

国际主流#

国产主流#

局限性#

评估方法#

总结#

关于我#

Related Posts

Comments