信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书围绕大语言模型构建的四个阶段：预训练、指令微调、奖励建模和强化学习，详述各阶段所使用的算法、数据、难点及实践经验。在此基础上，进一步探讨了增强大语言模型能力、提升效率及如何将大语言模型落地应用的实践经验，涵盖多模态、智能体等热门方向，全面展现了大语言模型研究的最新进展。本书适合对深入研究大语言模型内在机制和实现方法感兴趣的读者阅读，也可作为高年级本科生和研究生自然语言处理课程中相关部分的补充教材。

展开

精彩书评

展开

精彩书摘

展开

第1章绪论
1.1 大语言模型的基本概念
1.2 大语言模型的发展历程
1.3 大语言模型的构建流程
1.4 本书的内容安排
第2章大语言模型基础
2.1 Transformer结构
2.1.1 嵌入表示层
2.1.2 注意力层
2.1.3 前馈层
2.1.4 残差连接与层归一化
2.1.5 编码器和解码器结构
2.2 生成式预训练语言模型GPT
2.2.1 自监督预训练
2.2.2 有监督下游任务微调
2.2.3 预训练语言模型实践
2.3 大语言模型的结构
2.3.1 LLaMA的模型结构
2.3.2 注意力机制优化
2.4 混合专家模型
2.4.1 稀疏混合专家模型
2.4.2 稠密混合专家模型
2.4.3 软混合专家模型
2.5 实践思考
第3章大语言模型预训练数据
3.1 数据来源
3.1.1 通用数据
3.1.2 领域数据
3.2 数据处理
3.2.1 质量过滤
3.2.2 冗余去除
3.2.3 隐私消除
3.2.4 词元切分
3.3 数据影响分析
3.3.1 数据规模
3.3.2 数据质量
3.3.3 数据多样性
3.4 开源数据集
3.4.1 Pile
3.4.2 ROOTS
3.4.3 RefinedWeb
3.4.4 CulturaX
3.4.5 SlimPajama
3.5 实践思考
第4章分布式训练
4.1 分布式训练概述
4.2 分布式训练的并行策略
4.2.1 数据并行
4.2.2 模型并行
4.2.3 混合并行
4.2.4 计算设备内存优化
4.3 分布式训练的集群架构
4.3.1 高性能计算集群的典型硬件组成
4.3.2 参数服务器架构
4.3.3 去中心化架构
4.4 DeepSpeed实践
4.4.1 基础概念
4.4.2 LLaMA分布式训练实践
4.5 实践思考
第5章指令微调
5.1 指令微调训练
5.1.1 指令微调数据
5.1.2 指令微调数据构建方法
……
第6章强化学习
第7章多模态大语言模型
第8章大模型智能体
第9章检索增强生成
第10章大语言模型效率优化
第11章大语言模型评估
第12章大语言模型应用开发
参考文献
索引

展开