序
前言
第1章 早期的神经语言模型
1.1 神经网络模型之前的时代
1.1.1 基于规则的方法面临的困难
1.1.2 借助统计方法的力量
1.1.3 朴素统计模型的极限
1.2 神经网络如何理解语言
1.2.1 化解统计方法的维度灾难
1.2.2 神经网络模型如何学习
1.2.3 困惑度——量化评估语言模型的预测能力
1.2.4 词嵌入——从词汇到可计算的数值向量
第2章 深度学习时代的自然语言处理
2.1 擅长处理文本序列的循环神经网络
2.1.1 保持记忆的循环连接
2.1.2 控制记忆的门控单元
2.1.3 自然语言的编码器和解码器
2.2 Transformer“只需要注意力”
2.2.1 注意力机制的起源
2.2.2 “只需要注意力”
2.2.3 像检索数据库一样查看记忆
2.2.4 使用Transformer对语言进行编码和解码
第3章 预训练语言模型的兴起
3.1 通过预训练提升语言模型能力
3.1.1 预训练——视觉深度学习模型的成熟经验
3.1.2 第一代GPT模型
3.1.3 GPT和BERT——选择不同道路
3.2 语言模型如何胜任多种任务
3.2.1 多任务模型先驱的启示
3.2.2 GPT-2模型
3.2.3 适用于多种语言的字节对编码
3.2.4 高质量的WebText数据集
第4章 大语言模型能力涌现
4.1 学会如何学习——元学习和语境学习能力
4.1.1 GPT-3模型
4.1.2 稀疏注意力——大模型的高效注意力机制
4.1.3 语境学习能力显现
4.2 模型规模和能力的缩放定律
4.2.1 龙猫法则
4.2.2 能力涌现现象
4.3 大语言模型学会写代码
4.3.1 Codex模型——程序员的智能助手
4.3.2 检验语言模型的编程能力
第5章 服从指令的大语言模型
5.1 InstructGPT——更听话的语言模型
5.1.1 从人类反馈中学习
5.1.2 近端策略优化算法
5.2 指令微调方法
5.3 拒绝采样——蒸馏提纯符合人类偏好的模型
5.4 从AI反馈中学习
第6章 开源大语言模型
6.1 GPT-J和GPT-Neo——开源社区的率先探索
6.2 Pile开源大语言模型训练数据集
6.3 开源“羊驼”LLaMA模型
6.3.1 SwiGLU——改进神经网络激活函数
6.3.2 适合更长文本的RoPE
6.3.3 分组查询注意力
6.3.4 评估数据污染问题
6.3.5 更听话的Llama2模型
6.4 ChatGLM——国产大语言模型的开源先锋
6.4.1 研发历程
6.4.2 语言模型的架构选择
6.4.3 GLM-130B模型
6.4.4 悟道语料库
第7章 探秘大语言模型的并行训练
7.1 并行训练一瞥
7.2 GPipe流水线
7.3 PipeDream流水线
7.3.1 高吞吐率的PipeDream-2BW流水线
7.3.2 节省内存的PipeDream-Flush流水线
第8章 大语言模型应用
8.1 常见应用场景
8.2 利用外部知识库打败“幻觉”
8.2.1 检索增强生成
8.2.2 句子编码器模型——编码知识库
8.2.3 小世界模型——实现快速知识检索
8.2.4 混合检索——重拾传统检索技术
8.3 思维链——思维过程的草稿纸
8.4 使用工具拓展能力范围
8.4.1 学习如何使用外部工具
8.4.2 ReAct——连续自主行动的智能体
8.5 定制专属的智能体
第9章 大语言模型前沿展望
9.1 多模态大模型——有眼睛和耳朵的大语言模型
9.1.1 视觉语言模型——从CLIP模型到火烈鸟模型
9.1.2 Llama3模型的语音输入输出能力
9.2 关于安全和隐私的挑战
9.2.1 不同类型的安全和隐私问题
9.2.2 如何应对安全和隐私风险
9.3 大语言模型距离强人工智能还有多远
9.3.1 世界模拟器——Sora视频生成模型
9.3.2 JEPA——世界模型
9.3.3 草莓模型o1——学会“深思熟虑”
中英文对照表
参考文献
展开