信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书深度探讨了当今科技领域最引人注目的大规模语言模型相关技术，内容主要围绕大规模语言模型构建、评估和应用展开，分为以下四部分：第1～5章主要介绍大规模语言模型的发展历程及其训练相关内容，包括语言模型的基本架构、大规模语言模型的高效微调技术、人类反馈强化学习和模型的分布式训练；第6和7章主要介绍大规模语言模型的推理优化技术、推理加速框架和模型的评估；第8～10章主要介绍大规模语言模型扩展和应用，包括大规模语言模型和知识的融合、多模态大规模语言模型的技术介绍和其智能体扩展应用，以及大规模语言模型的垂直领域应用；第11章主要介绍大规模语言模型研究的困难、挑战和未来潜在研究方向。本书面向技术爱好者、从业者、学术研究者和一般读者。它提供大规模语言模型相关的全面介绍，帮助从业人员和专业人士了解大规模语言模型的应用及技术原理，支持学术界研究前沿技术，并以通俗的语言帮助读者理解这一技术及其对生活的影响。

展开

精彩书评

展开

精彩书摘

展开

第1章大规模语言模型的背景介绍
1.1 语言建模的发展阶段
1.2 大规模语言模型带来的机遇
第2章从统计语言模型到预训练语言模型
2.1 统计语言模型
2.2 神经网络语言模型
2.2.1 前馈神经网络语言模型
2.2.2 循环神经网络语言模型
2.2.3 长短期记忆神经网络语言模型
2.2.4 Word2Vec词向量表示模型
2.3 预训练语言模型
2.3.1 ELMo
2.3.2 Transformer
2.3.3 BERT
2.3.4 ELECTRA
2.3.5 GPT 1-3
2.3.6 BART
2.3.7 T5
第3章大规模语言模型的框架结构
3.1 编码器结构
3.2 编码器-解码器结构
3.2.1 GLM
3.2.2 UL2
3.3 解码器结构
3.3.1 PaLM
3.3.2 BLOOM
3.3.3 InstructGPT
3.4 LLaMA家族
3.4.1 预训练数据
3.4.2 模型架构
3.4.3 中文LLaMA
3.4.4 中文Alpaca
第4章大规模语言模型的训练方法
4.1 模型的训练成本
4.1.1 算力估算
4.1.2 费用和能耗
4.2 有监督微调
4.2.1 提示学习
4.2.2 上下文学习
4.2.3 指令微调
4.3 参数高效微调
4.3.1 部分参数的高效微调
4.3.2 参数增加的高效微调
4.3.3 重参数化的高效微调
4.3.4 混合高效微调系列
4.4 人类反馈强化学习
4.4.1 强化学习
4.4.2 近端策略优化
4.4.3 人类反馈对齐
4.5 大模型灾难性遗忘
第5章大模型分布式并行技术
5.1 分布式系统
5.2 数据并行
5.2.1 输入数据切分
5.2.2 模型参数同步
5.2.3 数据并行优化
5.3 模型并行
5.3.1 张量并行
5.3.2 流水线并行
5.3.3 优化器相关并行
5.4 其他并行
5.4.1 异构系统并行
5.4.2 专家并行
5.4.3 多维混合并行
5.4.4 自动并行
5.5 并行训练框架
5.5.1 Megatron-LM
5.5.2 DeepSpeed
5.5.3 Colossal-AI
第6章大规模语言模型解码推理优化相关技术
6.1 解码方法
6.1.1 基于搜索的解码方法
6.1.2 基于采样的解码方法
6.2 推理优化方法
6.2.1 推理原理
6.2.2 推理加速
6.3 模型压缩技术
6.3.1 量化
6.3.2 剪枝
6.3.3 蒸馏
6.4 显存优化技术
6.4.1 键值缓存
6.4.2 注意力优化
6.5 算子优化技术
6.5.1 算子融合
6.5.2 高性能算子
6.6 推理加速框架
6.6.1 HuggingFace TGI
6.6.2 vLLM
6.6.3 LightLLM
第7章大规模语言模型的评估
7.1 评估概述
7.2 评估体系
7.2.1 知识与能力
7.2.2 伦理与安全
7.3 评估方法
7.3.1 自动评估
7.3.2 人工评估
7.3.3 其他评估
7.4 评估领域
7.4.1 通用领域
7.4.2 特定领域
7.4.3 综合评测
7.5 评估挑战
第8章大规模语言模型与知识的结合
8.1 知识和知识表示
8.2 知识图谱简介
8.3 大规模语言模型和知识图谱的结合
8.4 知识图谱增强大规模语言模型
8.4.1 LLM预训练阶段
8.4.2 LLM评估阶段
8.4.3 LLM推理阶段
8.5 大规模语言模型增强知识图谱
8.5.1 知识图谱嵌入
8.5.2 知识图谱补全
8.5.3 知识图谱构建
8.5.4 知识图谱到文本生成
8.5.5 知识图谱问答
8.6 大规模语言模型和知识图谱协同
8.6.1 知识表示
8.6.2 知识推理
8.7 知识检索增强大规模语言模型工程应用
8.7.1 结构化数据
8.7.2 结构化和非结构化数据
8.7.3 向量数据库
8.7.4 LangChain知识库问答
8.8 未来的发展方向
第9章多模态大规模语言模型技术应用
9.1 多模态指令调节
9.1.1 模态对齐
9.1.2 数据收集
9.1.3 模态桥接
9.1.4 模型评估
9.2 多模态上下文学习
9.3 多模态思维链
9.3.1 模态连接
9.3.2 学习范式
9.3.3 链的配置和形式
9.4 LLM辅助视觉推理
9.4.1 训练范式
9.4.2 功能角色
9.4.3 模型评估
9.5 LLM扩展智能体
9.5.1 智能体
9.5.2 记忆模块
9.5.3 任务规划
9.5.4 动作模块
9.5.5 评估策略
9.6 多模态语言模型挑战
9.6.1 技术问题
9.6.2 成本问题
9.6.3 社会问题
第10章大规模语言模型应用
10.1 法律领域
10.1.1 法律提示研究
10.1.2 法律综合评估
10.2 教育领域
10.2.1 能力评估
10.2.2 伦理问题
10.2.3 问答应用
10.3 金融领域
10.3.1 智能应用场景
10.3.2 困难和挑战
10.4 生物医疗
10.4.1 潜力和价值
10.4.2 应用的场景
10.4.3 困难和挑战
10.5 代码生成
10.5.1 代码生成问题

展开