第1章 绪论
1.1 大语言模型的基本概念
1.2 大语言模型的发展历程
1.3 大语言模型的构建流程
1.4 本书的内容安排
第2章 大语言模型基础
2.1 Transformer结构
2.1.1 嵌入表示层
2.1.2 注意力层
2.1.3 前馈层
2.1.4 残差连接与层归一化
2.1.5 编码器和解码器结构
2.2 生成式预训练语言模型GPT
2.2.1 自监督预训练
2.2.2 有监督下游任务微调
2.2.3 预训练语言模型实践
2.3 大语言模型的结构
2.3.1 LLaMA的模型结构
2.3.2 注意力机制优化
2.4 混合专家模型
2.4.1 稀疏混合专家模型
2.4.2 稠密混合专家模型
2.4.3 软混合专家模型
2.5 实践思考
第3章 大语言模型预训练数据
3.1 数据来源
3.1.1 通用数据
3.1.2 领域数据
3.2 数据处理
3.2.1 质量过滤
3.2.2 冗余去除
3.2.3 隐私消除
3.2.4 词元切分
3.3 数据影响分析
3.3.1 数据规模
3.3.2 数据质量
3.3.3 数据多样性
3.4 开源数据集
3.4.1 Pile
3.4.2 ROOTS
3.4.3 RefinedWeb
3.4.4 CulturaX
3.4.5 SlimPajama
3.5 实践思考
第4章 分布式训练
4.1 分布式训练概述
4.2 分布式训练的并行策略
4.2.1 数据并行
4.2.2 模型并行
4.2.3 混合并行
4.2.4 计算设备内存优化
4.3 分布式训练的集群架构
4.3.1 高性能计算集群的典型硬件组成
4.3.2 参数服务器架构
4.3.3 去中心化架构
4.4 DeepSpeed实践
4.4.1 基础概念
4.4.2 LLaMA分布式训练实践
4.5 实践思考
第5章 指令微调
5.1 指令微调训练
5.1.1 指令微调数据
5.1.2 指令微调数据构建方法
……
第6章 强化学习
第7章 多模态大语言模型
第8章 大模型智能体
第9章 检索增强生成
第10章 大语言模型效率优化
第11章 大语言模型评估
第12章 大语言模型应用开发
参考文献
索引
展开