概述
LLM(Large Language Model,大语言模型)是一类基于深度学习的大规模预训练语言模型,能够理解和生成人类语言文本。它是当前人工智能领域最核心、最受关注的技术之一。
2017 年,Google 在论文《Attention Is All You Need》中提出了 Transformer 架构,奠定了现代 NLP 的根基。此后,OpenAI 沿着「规模越大、能力越强」的 Scaling Law 路线,于 2020 年推出 GPT-3(1750 亿参数),首次展示了令人震惊的「涌现能力」(Emergent Abilities)。2022 年 ChatGPT 发布,2023 年 GPT-4 到来,大语言模型正式走入千家万户。
技术演进路线
2017 Transformer 诞生(Google)2018 BERT(双向理解)、GPT-12019 GPT-2(开源,15 亿参数)2020 GPT-3(1750 亿参数,涌现能力初现)2022 ChatGPT(RLHF)、InstructGPT2023 GPT-4(多模态)、Claude 2、Llama 2(开源爆发)、国产模型元年2024 GPT-4o、Gemini 1.5(100 万上下文)、Claude 3.5、Llama 32025 GPT-o1/o3 推理模型、Gemini 2.0、国产全面追赶2026 AGI 探索持续深入,长程推理、具身智能成为新方向Transformer 架构详解
Transformer 是 LLM 的技术基石,其核心组件包括:
输入处理:Tokenization
LLM 处理文本的第一步是将文本切分为 Token:
| Tokenizer 类型 | 代表 | 特点 |
|---|---|---|
| BPE(Byte Pair Encoding) | GPT-2/ChatGPT | 子词级别,平衡词边界和词表大小 |
| WordPiece | BERT | 基于词频的子词切分 |
| SentencePiece | 多语言模型 | 无需预分词,支持多语言 |
| Unigram | Llama | 概率模型,更灵活 |
示例:「人工智能」可能被切分为:["人", "工", "智能"] 或 ["人工", "智能"] 或整词取决于词表训练时的统计规律位置编码(Positional Encoding)
Transformer 本身不感知词序,位置编码为每个 Token 添加位置信号:
| 类型 | 说明 | 优缺点 |
|---|---|---|
| 绝对位置编码 | 每个位置有唯一向量 | 简单直接,外推性差 |
| 相对位置编码 | 编码词之间的相对距离 | 外推性好,计算量大 |
| RoPE | 旋转位置编码(Llama 采用) | 外推性强,高效 |
| ALiBi | 线性偏置(Mistral 采用) | 外推性最强 |
自注意力机制(Self-Attention)
自注意力是 Transformer 的核心创新,允许每个 Token 关注序列中所有其他 Token:
数学原理:
Attention(Q, K, V) = softmax(QK^T / √d) × V
其中:- Q(Query):当前位置"在问什么"- K(Key):每个位置的"特征标签"- V(Value):每个位置的实际信息- √d:缩放因子,防止点积过大导致梯度消失计算过程:
输入序列:[Token1, Token2, Token3, ...] ↓分别投影为 Q, K, V 三个向量 ↓计算 Q × K^T 获取所有位置之间的相关性分数 ↓通过 softmax 归一化为注意力权重 ↓用权重对 V 加权求和,得到融合了全局信息的输出多头注意力(Multi-Head Attention)
不是用一组 QKV,而是并行计算多组注意力:
MultiHead = Concat(Head_1, Head_2, ..., Head_h) × W^O
每个 Head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)
典型配置:- BERT-Large:16 heads,每 head 64 维- GPT-3:96 heads,每 head 128 维- Llama-3:32 heads,每 head 128 维多头注意力的价值:不同 head 关注不同层面的语义关系
- Head 1:语法结构(主谓宾)
- Head 2:语义相似性(同义词)
- Head 3:指代关系(他 / 她 / 它)
- Head 4:逻辑推理(因为 / 所以)
前馈网络(FFN)
注意力层之后,每个 Token 会通过一个前馈网络:
FFN(x) = GELU(W_1 x + b_1) × W_2 + b_2
# GELU: Gaussian Error Linear Unit# 近似公式: 0.5 * x * (1 + tanh(sqrt(2/π) * (x + 0.044715 * x^3)))FFN 通常占据模型参数的约 2/3,是存储知识的主要场所(知识神经元假说)。
残差连接与层归一化
x' = LayerNorm(x + Sublayer(x))- 残差连接:缓解深层网络的梯度消失问题,使信息直接传递
- 层归一化:稳定训练,加速收敛
混合专家(MoE)
GPT-4 和 Mistral 等模型采用 MoE 架构,大幅提升参数量同时控制推理成本:
| 组件 | 说明 |
|---|---|
| 专家(Expert) | 多个独立的 FFN 网络 |
| 路由器(Router) | 决定每个 Token 由哪个专家处理 |
| 稀疏激活 | 每个 Token 只激活少数专家(如 2/8) |
示例:Mixtral 8×7B- 总参数量:8 × 7B = 46.7B- 活跃参数:2 × 7B = 14B(与 7B 模型相近)- 推理成本:与 14B 模型相当预训练(Pre-training)
自监督学习
预训练采用自监督学习,无需人工标注,利用文本自身结构作为监督信号:
GPT 系列:Next Token Prediction(下一个词预测)
输入:今天天气真输出:好训练目标:最大化 P( 好|今天天气真 )BERT:Masked Language Model(掩码语言模型)
输入:今天天气[MASK]好输出:[MASK] = 真训练目标:预测被掩码的词对比:GPT 的单向 vs BERT 的双向
- GPT:只看左边,只能学习前缀上下文
- BERT:看左右,能获取完整上下文
训练数据
| 数据来源 | 占比 | 内容特点 |
|---|---|---|
| 网页文本(Common Crawl) | ~60% | 量大但噪音多 |
| 书籍(Books) | ~15% | 质量高,长文本 |
| Wikipedia | ~5% | 结构化知识 |
| 代码(GitHub) | ~5% | 逻辑性强 |
| 学术论文(ArXiv) | ~5% | 专业术语 |
| 对话数据 | ~5% | 交互模式 |
| 其他 | ~5% | 新闻等 |
数据质量处理:
- 去重:去除重复的段落和文档
- 过滤:去除低质量内容(广告、机器翻译等)
- 安全过滤:去除有害内容
- 去隐私:移除个人身份信息(PII)
- 质量评分:用分类器对内容打分,优先使用高质量数据
Scaling Law(缩放定律)
OpenAI 2020 年论文《Scaling Laws for Neural Language Models》揭示了模型规模与性能的关系:
核心发现:
- 模型性能(困惑度)与:参数数量 (N)、数据集大小 (D)、计算量 (C) 呈幂律关系
- 三个因素同等重要,需要按比例缩放
- 更大的模型样本效率更高,达到同等性能需要的训练数据更少
GPT-4 的规模估计:
- 参数量:~1.8 万亿(未经官方确认)
- 训练数据:~13 万亿 Token
- 训练计算量:~2.15×10^25 FLOPs
涌现能力(Emergent Abilities)
当模型规模超过某个临界点时,会突然出现之前没有的能力:
| 能力 | 出现规模 |
|---|---|
| 简单问答 | ~1 亿参数 |
| 基础推理 | ~10 亿参数 |
| 思维链推理 | ~100 亿参数 |
| 上下文学习(ICL) | ~670 亿参数(GPT-3) |
| 链式推理(CoT) | ~1000 亿参数 |
| 代码生成 / 数学 | ~1000 亿 + 参数 |
| 多步规划 | ~GPT-4 级别 |
注意:有研究(如「Switch Transformer」)认为涌现可能是评估指标选择的人为效应,而非真实质变。
指令微调(Instruction Fine-tuning)
预训练模型擅长「续写」,但不一定「听话」。指令微调让模型学会按照人类指令行动。
SFT(监督微调)
使用人工标注的指令-响应对进行有监督训练:
格式示例(Alpaca 格式):{ "instruction": "把以下句子翻译成英文", "input": "今天天气很好", "output": "The weather is nice today."}人类反馈强化学习(RLHF)
让模型学习人类偏好,分三步:
Step 1: 收集人类偏好数据 人类对同一问题的多个回答打分 / 排序
Step 2: 训练 Reward Model 学习预测人类偏好打分
Step 3: PPO 强化学习优化 用 Reward Model 的信号更新 LLMRLHF 的价值:
- 使模型输出更有帮助(Helpful)
- 使模型输出更诚实(Honest)
- 使模型输出更无害(Harmless)
替代方案:
- DPO(Direct Preference Optimization):绕过 Reward Model,直接用偏好数据优化
- RLAIF:用 AI 反馈替代人类反馈,降低标注成本
注意力机制的工程优化
KV Cache
推理时保存已计算的 Key 和 Value,避免重复计算:
# 推理优化前:每次生成都重新计算所有历史logits = model(input_ids) # O(n²) 复杂度
# 推理优化后:缓存 KV,每次只计算新 Tokencache_k, cache_v = cache.get()new_k, new_v = compute_new_tokens()cache.update(new_k, new_v)logits = model(new_token, cache_k, cache_v) # O(n) 复杂度注意力近似方法
标准注意力 O(n²) 复杂度在长序列上不可行,需要近似:
| 方法 | 原理 | 特点 |
|---|---|---|
| Flash Attention | IO 感知分块计算 | 工业级标准,无精度损失 |
| MHA→MQA | 多头→多查询 | 减少 K/V 头数 |
| MQA→GQA | 组查询注意力 | 平衡效率和效果 |
| Sparse Attention | 只关注部分位置 | 可能损失信息 |
| Linear Attention | 线性复杂度 | 理论优美,实践效果一般 |
Llama 3 采用 GQA(Grouped Query Attention):
- 8 个 Key-Value 组
- 大幅减少 KV 缓存,延长上下文
主要能力详解
文本生成
| 任务 | 说明 | 质量评估 |
|---|---|---|
| 续写 | 补全文本 | 流畅度、逻辑连贯性 |
| 翻译 | 跨语言转换 | BLEU、语义保真度 |
| 摘要 | 压缩长文本 | ROUGE、信息保留率 |
| 改写 | 风格 / 语气转换 | 风格一致性 |
| 创意写作 | 故事 / 诗歌 / 剧本 | 创意性、逻辑性 |
知识问答
- 事实性问答:基于训练知识回答
- 常识推理:结合世界知识进行推理
- 开放域问答:需要广泛知识储备的问题
- 局限:知识截止于训练时间,依赖模型容量
推理分析
| 推理类型 | 说明 | 当前水平 |
|---|---|---|
| 演绎推理 | 从一般到特殊 | 强 |
| 归纳推理 | 从特殊到一般 | 中 |
| 溯因推理 | 解释现象的原因 | 中 |
| 数学推理 | 符号推理与计算 | GPT-o1/o3 大幅提升 |
| 代码推理 | 算法与逻辑 | 强,尤其是 GPT-4 |
思维链(Chain of Thought):要求模型展示推理过程能显著提升复杂推理任务的表现。
代码生成
| 维度 | 能力 | 代表模型 |
|---|---|---|
| 代码补全 | 根据上下文续写 | Copilot |
| 函数生成 | 根据描述生成 | GPT-4 |
| 代码调试 | 发现并修复 bug | GPT-4 |
| 代码重构 | 优化代码结构 | GPT-4 |
| 代码解释 | 注释和文档生成 | GPT-4 |
| 算法设计 | 复杂问题求解 | GPT-4(部分) |
多模态能力
现代 LLM 已不仅限于文本:
| 模态 | 能力 | 代表 |
|---|---|---|
| 图像理解 | 看图说话、图表分析 | GPT-4V、Claude 3.5 |
| 语音处理 | 语音识别、合成 | Whisper, GPT-4o |
| 视频理解 | 视频内容分析 | Gemini 1.5 Pro |
| 文档处理 | PDF、表格理解 | Claude 3.5 Sonnet |
| 工具使用 | 调用外部 API/ 代码 | GPT-4, Claude 3 |
主流模型生态
国际主流
| 模型 | 开发商 | 上下文 | 多模态 | API 费用 ( 参考 ) |
|---|---|---|---|---|
| GPT-4o | OpenAI | 128K | ✅ | $5/1M 输入 |
| GPT-o1 | OpenAI | 128K | ✅ | $15/1M 输入 |
| GPT-o3 | OpenAI | 128K | ✅ | $15/1M 输入 |
| Claude 3.5 Sonnet | Anthropic | 200K | ✅ | $3/1M 输入 |
| Claude 3.7 Sonnet | Anthropic | 200K | ✅ | $3/1M 输入 |
| Gemini 2.0 Flash | 1M | ✅ | 免费(部分) | |
| Llama 3.1 405B | Meta | 128K | ❌ | 开源免费 |
| Grok 2 | xAI | 131K | ✅ | API 可访问 |
国产主流
| 模型 | 开发商 | 上下文 | 特点 |
|---|---|---|---|
| 通义千问(Qwen) | 阿里云 | 32K-128K | 开源生态好,中文能力强 |
| 文心一言 4.0 | 百度 | 32K | 中文理解强,搜索整合 |
| 豆包 | 字节跳动 | 32K | 端侧部署领先 |
| GLM-4 | 智谱 | 128K | 国产开源先驱 |
| DeepSeek V3/R1 | 深度求索 | 64K | 推理能力强,开源可商用 |
| Kimi | 月之暗面 | 200K | 长上下文领先 |
局限性
| 问题 | 说明 | 应对策略 |
|---|---|---|
| 幻觉(Hallucination) | 生成看似合理但实际错误的内容 | RAG、事实核查、多模型验证、置信度提示 |
| 时效性 | 知识截止于训练数据的时间点 | 实时搜索、插件、RAG |
| 上下文窗口 | 受限于单次输入的最大 token 数量 | 摘要压缩、滑动窗口、RAG |
| 推理成本 | 大模型推理需要大量算力 | 模型量化、蒸馏、路由、小模型替代 |
| 安全风险 | 可能生成有害内容 | RLHF、对齐训练、内容过滤、安全边界 |
| 偏见 | 训练数据中的偏见会被模型学习 | 对齐微调、偏见检测 |
| 隐私 | 可能泄露训练数据中的隐私信息 | 数据脱敏、差分隐私 |
| 推理不透明 | 思维过程不可解释 | CoT 可解释性、RTL 可解释性研究 |
| 长程依赖 | 超长上下文中早期信息容易遗忘 | Recurrent Memory、ICL 优化 |
评估方法
| 基准 | 说明 | 覆盖能力 |
|---|---|---|
| MMLU | 多任务语言理解 | 57 个学科知识 |
| HumanEval | 代码生成 | Python 编程 |
| GSM8K | 数学应用题 | 初等数学推理 |
| MATH | 数学竞赛题 | 高级数学 |
| BBH | BIG-Bench Hard | 复杂推理 |
| HellaSwag | 常识推理 | 日常推理 |
| TruthfulQA | 真实性 | 避免幻觉 |
| MT-Bench | 多轮对话 | 复杂交互 |
总结
LLM 是当前 AI 领域的核心技术之一,其强大的语言理解和生成能力正在重塑人机交互方式。理解 LLM 的基本原理,有助于更好地应用和驾驭这一工具。掌握 LLM 的能力边界和局限性,是在实际项目中合理选型和规避风险的关键。
关于我
| 项目 | 内容 |
|---|---|
| 编辑 | echowang |
| 来源 | echospace |
| 邮箱 | echohaoran@gmail.com |
| 简介 | AI 爱好者,专注于大语言模型应用与智能体开发,分享技术与实践心得 |
| 社交 | 欢迎交流讨论,共同成长 |
Auth_Verified: 2026.03.21
