复制成功
请遵守本站许可
REPORT
Chapter_Post // Field_Report

Post_Ref: RL-大语言模型LLM

2026.03.21

大语言模型LLM技术完全指南

Echo HaoRan
Echo HaoRan
#技术手册
ANALYSIS

概述#

LLM(Large Language Model,大语言模型)是一类基于深度学习的大规模预训练语言模型,能够理解和生成人类语言文本。它是当前人工智能领域最核心、最受关注的技术之一。

2017 年,Google 在论文《Attention Is All You Need》中提出了 Transformer 架构,奠定了现代 NLP 的根基。此后,OpenAI 沿着「规模越大、能力越强」的 Scaling Law 路线,于 2020 年推出 GPT-3(1750 亿参数),首次展示了令人震惊的「涌现能力」(Emergent Abilities)。2022 年 ChatGPT 发布,2023 年 GPT-4 到来,大语言模型正式走入千家万户。

技术演进路线#

PRTCL // PLAINTEXT
2017 Transformer 诞生(Google)
2018 BERT(双向理解)、GPT-1
2019 GPT-2(开源,15 亿参数)
2020 GPT-3(1750 亿参数,涌现能力初现)
2022 ChatGPT(RLHF)、InstructGPT
2023 GPT-4(多模态)、Claude 2、Llama 2(开源爆发)、国产模型元年
2024 GPT-4o、Gemini 1.5(100 万上下文)、Claude 3.5、Llama 3
2025 GPT-o1/o3 推理模型、Gemini 2.0、国产全面追赶
2026 AGI 探索持续深入,长程推理、具身智能成为新方向

Transformer 架构详解#

Transformer 是 LLM 的技术基石,其核心组件包括:

输入处理:Tokenization#

LLM 处理文本的第一步是将文本切分为 Token:

Tokenizer 类型代表特点
BPE(Byte Pair Encoding)GPT-2/ChatGPT子词级别,平衡词边界和词表大小
WordPieceBERT基于词频的子词切分
SentencePiece多语言模型无需预分词,支持多语言
UnigramLlama概率模型,更灵活
PRTCL // PLAINTEXT
示例:「人工智能」可能被切分为:
["人", "工", "智能"] 或 ["人工", "智能"] 或整词
取决于词表训练时的统计规律

位置编码(Positional Encoding)#

Transformer 本身不感知词序,位置编码为每个 Token 添加位置信号:

类型说明优缺点
绝对位置编码每个位置有唯一向量简单直接,外推性差
相对位置编码编码词之间的相对距离外推性好,计算量大
RoPE旋转位置编码(Llama 采用)外推性强,高效
ALiBi线性偏置(Mistral 采用)外推性最强

自注意力机制(Self-Attention)#

自注意力是 Transformer 的核心创新,允许每个 Token 关注序列中所有其他 Token:

数学原理:

PRTCL // PLAINTEXT
Attention(Q, K, V) = softmax(QK^T / √d) × V
其中:
- Q(Query):当前位置"在问什么"
- K(Key):每个位置的"特征标签"
- V(Value):每个位置的实际信息
- √d:缩放因子,防止点积过大导致梯度消失

计算过程:

PRTCL // PLAINTEXT
输入序列:[Token1, Token2, Token3, ...]
分别投影为 Q, K, V 三个向量
计算 Q × K^T 获取所有位置之间的相关性分数
通过 softmax 归一化为注意力权重
用权重对 V 加权求和,得到融合了全局信息的输出

多头注意力(Multi-Head Attention)#

不是用一组 QKV,而是并行计算多组注意力:

PRTCL // PLAINTEXT
MultiHead = Concat(Head_1, Head_2, ..., Head_h) × W^O
每个 Head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)
典型配置:
- BERT-Large:16 heads,每 head 64 维
- GPT-3:96 heads,每 head 128 维
- Llama-3:32 heads,每 head 128 维

多头注意力的价值:不同 head 关注不同层面的语义关系

  • Head 1:语法结构(主谓宾)
  • Head 2:语义相似性(同义词)
  • Head 3:指代关系(他 / 她 / 它)
  • Head 4:逻辑推理(因为 / 所以)

前馈网络(FFN)#

注意力层之后,每个 Token 会通过一个前馈网络:

PRTCL // PYTHON
FFN(x) = GELU(W_1 x + b_1) × W_2 + b_2
# GELU: Gaussian Error Linear Unit
# 近似公式: 0.5 * x * (1 + tanh(sqrt(2/π) * (x + 0.044715 * x^3)))

FFN 通常占据模型参数的约 2/3,是存储知识的主要场所(知识神经元假说)。

残差连接与层归一化#

PRTCL // PLAINTEXT
x' = LayerNorm(x + Sublayer(x))
  • 残差连接:缓解深层网络的梯度消失问题,使信息直接传递
  • 层归一化:稳定训练,加速收敛

混合专家(MoE)#

GPT-4 和 Mistral 等模型采用 MoE 架构,大幅提升参数量同时控制推理成本:

组件说明
专家(Expert)多个独立的 FFN 网络
路由器(Router)决定每个 Token 由哪个专家处理
稀疏激活每个 Token 只激活少数专家(如 2/8)
PRTCL // PLAINTEXT
示例:Mixtral 8×7B
- 总参数量:8 × 7B = 46.7B
- 活跃参数:2 × 7B = 14B(与 7B 模型相近)
- 推理成本:与 14B 模型相当

预训练(Pre-training)#

自监督学习#

预训练采用自监督学习,无需人工标注,利用文本自身结构作为监督信号:

GPT 系列:Next Token Prediction(下一个词预测)

PRTCL // PLAINTEXT
输入:今天天气真
输出:好
训练目标:最大化 P( 好|今天天气真 )

BERT:Masked Language Model(掩码语言模型)

PRTCL // PLAINTEXT
输入:今天天气[MASK]好
输出:[MASK] = 真
训练目标:预测被掩码的词

对比:GPT 的单向 vs BERT 的双向

  • GPT:只看左边,只能学习前缀上下文
  • BERT:看左右,能获取完整上下文

训练数据#

数据来源占比内容特点
网页文本(Common Crawl)~60%量大但噪音多
书籍(Books)~15%质量高,长文本
Wikipedia~5%结构化知识
代码(GitHub)~5%逻辑性强
学术论文(ArXiv)~5%专业术语
对话数据~5%交互模式
其他~5%新闻等

数据质量处理:

  1. 去重:去除重复的段落和文档
  2. 过滤:去除低质量内容(广告、机器翻译等)
  3. 安全过滤:去除有害内容
  4. 去隐私:移除个人身份信息(PII)
  5. 质量评分:用分类器对内容打分,优先使用高质量数据

Scaling Law(缩放定律)#

OpenAI 2020 年论文《Scaling Laws for Neural Language Models》揭示了模型规模与性能的关系:

核心发现:

  • 模型性能(困惑度)与:参数数量 (N)、数据集大小 (D)、计算量 (C) 呈幂律关系
  • 三个因素同等重要,需要按比例缩放
  • 更大的模型样本效率更高,达到同等性能需要的训练数据更少

GPT-4 的规模估计:

  • 参数量:~1.8 万亿(未经官方确认)
  • 训练数据:~13 万亿 Token
  • 训练计算量:~2.15×10^25 FLOPs

涌现能力(Emergent Abilities)#

当模型规模超过某个临界点时,会突然出现之前没有的能力:

能力出现规模
简单问答~1 亿参数
基础推理~10 亿参数
思维链推理~100 亿参数
上下文学习(ICL)~670 亿参数(GPT-3)
链式推理(CoT)~1000 亿参数
代码生成 / 数学~1000 亿 + 参数
多步规划~GPT-4 级别

注意:有研究(如「Switch Transformer」)认为涌现可能是评估指标选择的人为效应,而非真实质变。

指令微调(Instruction Fine-tuning)#

预训练模型擅长「续写」,但不一定「听话」。指令微调让模型学会按照人类指令行动。

SFT(监督微调)#

使用人工标注的指令-响应对进行有监督训练:

PRTCL // PLAINTEXT
格式示例(Alpaca 格式):
{
"instruction": "把以下句子翻译成英文",
"input": "今天天气很好",
"output": "The weather is nice today."
}

人类反馈强化学习(RLHF)#

让模型学习人类偏好,分三步:

PRTCL // PLAINTEXT
Step 1: 收集人类偏好数据
人类对同一问题的多个回答打分 / 排序
Step 2: 训练 Reward Model
学习预测人类偏好打分
Step 3: PPO 强化学习优化
用 Reward Model 的信号更新 LLM

RLHF 的价值:

  • 使模型输出更有帮助(Helpful)
  • 使模型输出更诚实(Honest)
  • 使模型输出更无害(Harmless)

替代方案:

  • DPO(Direct Preference Optimization):绕过 Reward Model,直接用偏好数据优化
  • RLAIF:用 AI 反馈替代人类反馈,降低标注成本

注意力机制的工程优化#

KV Cache#

推理时保存已计算的 Key 和 Value,避免重复计算:

PRTCL // PYTHON
# 推理优化前:每次生成都重新计算所有历史
logits = model(input_ids) # O(n²) 复杂度
# 推理优化后:缓存 KV,每次只计算新 Token
cache_k, cache_v = cache.get()
new_k, new_v = compute_new_tokens()
cache.update(new_k, new_v)
logits = model(new_token, cache_k, cache_v) # O(n) 复杂度

注意力近似方法#

标准注意力 O(n²) 复杂度在长序列上不可行,需要近似:

方法原理特点
Flash AttentionIO 感知分块计算工业级标准,无精度损失
MHA→MQA多头→多查询减少 K/V 头数
MQA→GQA组查询注意力平衡效率和效果
Sparse Attention只关注部分位置可能损失信息
Linear Attention线性复杂度理论优美,实践效果一般

Llama 3 采用 GQA(Grouped Query Attention):

  • 8 个 Key-Value 组
  • 大幅减少 KV 缓存,延长上下文

主要能力详解#

文本生成#

任务说明质量评估
续写补全文本流畅度、逻辑连贯性
翻译跨语言转换BLEU、语义保真度
摘要压缩长文本ROUGE、信息保留率
改写风格 / 语气转换风格一致性
创意写作故事 / 诗歌 / 剧本创意性、逻辑性

知识问答#

  • 事实性问答:基于训练知识回答
  • 常识推理:结合世界知识进行推理
  • 开放域问答:需要广泛知识储备的问题
  • 局限:知识截止于训练时间,依赖模型容量

推理分析#

推理类型说明当前水平
演绎推理从一般到特殊
归纳推理从特殊到一般
溯因推理解释现象的原因
数学推理符号推理与计算GPT-o1/o3 大幅提升
代码推理算法与逻辑强,尤其是 GPT-4

思维链(Chain of Thought):要求模型展示推理过程能显著提升复杂推理任务的表现。

代码生成#

维度能力代表模型
代码补全根据上下文续写Copilot
函数生成根据描述生成GPT-4
代码调试发现并修复 bugGPT-4
代码重构优化代码结构GPT-4
代码解释注释和文档生成GPT-4
算法设计复杂问题求解GPT-4(部分)

多模态能力#

现代 LLM 已不仅限于文本:

模态能力代表
图像理解看图说话、图表分析GPT-4V、Claude 3.5
语音处理语音识别、合成Whisper, GPT-4o
视频理解视频内容分析Gemini 1.5 Pro
文档处理PDF、表格理解Claude 3.5 Sonnet
工具使用调用外部 API/ 代码GPT-4, Claude 3

主流模型生态#

国际主流#

模型开发商上下文多模态API 费用 ( 参考 )
GPT-4oOpenAI128K$5/1M 输入
GPT-o1OpenAI128K$15/1M 输入
GPT-o3OpenAI128K$15/1M 输入
Claude 3.5 SonnetAnthropic200K$3/1M 输入
Claude 3.7 SonnetAnthropic200K$3/1M 输入
Gemini 2.0 FlashGoogle1M免费(部分)
Llama 3.1 405BMeta128K开源免费
Grok 2xAI131KAPI 可访问

国产主流#

模型开发商上下文特点
通义千问(Qwen)阿里云32K-128K开源生态好,中文能力强
文心一言 4.0百度32K中文理解强,搜索整合
豆包字节跳动32K端侧部署领先
GLM-4智谱128K国产开源先驱
DeepSeek V3/R1深度求索64K推理能力强,开源可商用
Kimi月之暗面200K长上下文领先

局限性#

问题说明应对策略
幻觉(Hallucination)生成看似合理但实际错误的内容RAG、事实核查、多模型验证、置信度提示
时效性知识截止于训练数据的时间点实时搜索、插件、RAG
上下文窗口受限于单次输入的最大 token 数量摘要压缩、滑动窗口、RAG
推理成本大模型推理需要大量算力模型量化、蒸馏、路由、小模型替代
安全风险可能生成有害内容RLHF、对齐训练、内容过滤、安全边界
偏见训练数据中的偏见会被模型学习对齐微调、偏见检测
隐私可能泄露训练数据中的隐私信息数据脱敏、差分隐私
推理不透明思维过程不可解释CoT 可解释性、RTL 可解释性研究
长程依赖超长上下文中早期信息容易遗忘Recurrent Memory、ICL 优化

评估方法#

基准说明覆盖能力
MMLU多任务语言理解57 个学科知识
HumanEval代码生成Python 编程
GSM8K数学应用题初等数学推理
MATH数学竞赛题高级数学
BBHBIG-Bench Hard复杂推理
HellaSwag常识推理日常推理
TruthfulQA真实性避免幻觉
MT-Bench多轮对话复杂交互

总结#

LLM 是当前 AI 领域的核心技术之一,其强大的语言理解和生成能力正在重塑人机交互方式。理解 LLM 的基本原理,有助于更好地应用和驾驭这一工具。掌握 LLM 的能力边界和局限性,是在实际项目中合理选型和规避风险的关键。


关于我#

项目内容
编辑echowang
来源echospace
邮箱echohaoran@gmail.com
简介AI 爱好者,专注于大语言模型应用与智能体开发,分享技术与实践心得
社交欢迎交流讨论,共同成长
R P
Rhine Lab Pioneer Division
Auth_Verified: 2026.03.21
// END OF POST

订阅

通过 RSS 订阅本站,新文章发布时第一时间收到通知。

Follow
Classified
Chapter_06
Protocol_Ref: CC-BY-NC-SA-4.0

大语言模型LLM技术完全指南

Author: CHONGXIReleased: 2026.03.21

Licensed under CC BY-NC-SA 4.0

评论

© 2025-2026 EchoSpace
Powered by Astro & echohaoran Non-Collaborative_Entity // Protocol_V.4.21