第1章 欢迎来到这场大模型竞赛
1.1 模型规模带来的挑战
1.2 数据规模带来的挑战
1.3 模型规模与数据增长的应对方法
第2章 深度学习必备的硬件知识
2.1 CPU与内存
2.1.1 内存
2.1.2 CPU
2.2 硬盘
2.3 GPU
2.3.1 CPU的局限性
2.3.2 GPU的硬件结构
2.3.3 GPU编程模型及其硬件对应
2.3.4 GPU的关键性能指标
2.3.5 显存与内存间的数据传输
2.4 分布式系统
2.4.1 单机多卡的通信
2.4.2 多机多卡的通信
2.4.3 分布式系统的数据存储
第3章 深度学习必备的PyTorch知识
3.1 PyTorch的张量数据结构
3.1.1 张量的基本属性及创建
3.1.2 访问张量的数据
3.1.3 张量的存储方式
3.1.4 张量的视图
3.2 PyTorch中的算子
3.2.1 PyTorch的算子库
3.2.2 PyTorch算子的内存分配
3.2.3 算子的调用过程
3.3 PyTorch的动态图机制
3.4 PyTorch的自动微分系统
3.4.1 什么是自动微分
3.4.2 自动微分的实现
3.4.3 Autograd扩展自定义算子
3.5 PyTorch的异步执行机制
第4章 定位性能瓶颈的工具和方法
4.1 配置性能分析所需的软硬件环境
4.1.1 减少无关程序的干扰
4.1.2 提升PyTorch程序的可重复性
4.1.3 控制GPU频率
4.1.4 控制CPU的性能状态和工作频率
4.2 精确测量程序运行时间
4.2.1 计量CPU程序的运行时间
4.2.2 程序预热和多次运行取平均
4.2.3 计量GPU程序的运行时间
4.2.4 精确计量GPU的运行时间
4.3 PyTorch性能分析器
4.3.1 性能分析
4.3.2 显存分析
4.3.3 可视化性能图谱
4.3.4 如何定位性能瓶颈
4.4 GPU 专业分析工具
4.4.1 Nsight Systems
4.4.2 Nsight Compute
4.5 CPU 性能分析工具
4.5.1 Py-Spy
4.5.2 strace
4.6 本章小结
第5章 数据加载和预处理专题
5.1 数据接入的准备阶段
5.2 数据集的获取和预处理
5.2.1 获取原始数据
5.2.2 原始数据的清洗
5.2.3 数据的离线预处理
5.2.4 数据的存储
5.2.5 PyTorch与第三方库的交互
5.3 数据集的加载和使用
5.3.1 PyTorch的Dataset封装
5.3.2 PyTorch的DataLoader封装
5.4 数据加载性能分析
5.4.1 充分利用CPU的多核资源
5.4.2 优化CPU上的计算负载
5.4.3 减少不必要的CPU线程
5.4.4 提升磁盘效率
5.5 本章小结
第6章 单卡性能优化专题
6.1 提高数据任务的并行度
6.1.1 增加数据预处理的并行度
6.1.2 使用异步接口提交数据传输任务
6.1.3 数据传输与GPU计算任务并行
6.2 提高GPU计算任务的效率
6.2.1 增大BatchSize
6.2.2 使用融合算子
6.3 减少CPU和GPU间的同步
6.4 降低程序中的额外开销
6.4.1 避免张量的创建开销
6.4.2 关闭不必要的梯度计算
6.5 有代价的性能优化
6.5.1 使用低精度数据进行设备间拷贝
6.5.2 使用性能特化的优化器实现
6.6 本章小结
第7章 单卡显存优化专题
7.1 PyTorch的显存管理机制
7.2 显存的分析方法
7.2.1 使用PyTorch API查询当前显存状态
7.2.2 使用PyTorch的显存分析器
7.3 训练过程中的显存占用
7.4 通用显存复用方法
7.4.1 使用原位操作算子
7.4.2 使用共享存储的操作
7.5 有代价的显存优化技巧
7.5.1 跨批次梯度累加
7.5.2 即时重算前向张量
7.5.3 将GPU显存下放至CPU内存
7.5.4 降低优化器的显存占用
7.6 优化Python代码以减少显存占用
7.6.1 Python垃圾回收机制
7.6.2 避免出现循环依赖
7.6.3 谨慎使用全局作用域
7.7 本章小结
第8章 分布式训练专题
8.1 分布式策略概述
8.2 集合通信原语
8.3 应对数据增长的并行策略
8.3.1 数据并行策略
8.3.2 手动实现数据并行算法
8.3.3 PyTorch的DDP封装
8.3.4 数据并行的性价比
8.3.5 其他数据维度的切分
8.4 应对模型增长的并行策略
8.4.1 静态显存切分
8.4.2 动态显存切分
8.5 本章小结
第9章 高级优化方法专题
9.1 自动混合精度训练
9.1.1 浮点数的表示方法
9.1.2 使用低精度数据类型的优缺点
9.1.3 PyTorch自动混合精度训练
9.2 自定义高性能算子
9.2.1 自定义算子的封装流程
9.2.2 自定义算子的后端代码实现
9.2.3 自定义算子导入Python
9.2.4 自定义算子导入PyTorch
9.2.5 在Python中使用自定义算子
9.3 基于计算图的性能优化
9.3.1 torch.compile的使用方法
9.3.2 计算图的提取
9.3.3 图的优化和后端代码生成
9.4 本章小结
第10章 GP
展开