搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
大语言模型极速入门:技术与应用
0.00     定价 ¥ 79.00
图书来源: 浙江图书馆(由JD配书)
  • 配送范围:
    浙江省内
  • ISBN:
    9787111783541
  • 作      者:
    董政
  • 出 版 社 :
    机械工业出版社
  • 出版日期:
    2025-07-01
收藏
编辑推荐
目 录

前言
第 1 章 早期的神经语言模型  1
1.1 神经网络模型之前的时代  2
1.1.1 基于规则的方法面临的困难 5
1.1.2 借助统计方法的力量   6
1.1.3 朴素统计模型的极限   8
1.2 神经网络如何理解语言   10
1.2.1 化解统计方法的维度灾难 11
1.2.2 神经网络模型如何学习  13
1.2.3 困惑度——量化评估语言模型的预测能力17
1.2.4 词嵌入——从词汇到可计算的数值向量 19
第 2 章 深度学习时代的自然语言处理  25
2.1 擅长处理文本序列的循环神经网络 27
2.1.1 保持记忆的循环连接  28
2.1.2 控制记忆的门控单元  29
2.1.3 自然语言的编码器和解码器 33
2.2 Transformer“只需要注意力”  40
2.2.1 注意力机制的起源   42
2.2.2 “只需要注意力”   44
2.2.3 像检索数据库一样查看记忆 46
2.2.4 使用 Transformer 对语言进行编码和解码49
第 3 章 预训练语言模型的兴起   53
3.1 通过预训练提升语言模型能力 54
3.1.1 预训练——视觉深度学习模型的成熟经验54
VIII
3.1.2 第一代 GPT 模型   56
3.1.3 GPT 和 BERT——选择不同道路 60
3.2 语言模型如何胜任多种任务  67
3.2.1 多任务模型先驱的启示  68
3.2.2 GPT-2 模型   71
3.2.3 适用于多种语言的字节对编码 75
3.2.4 高质量的 WebText 数据集  80
第 4 章 大语言模型能力涌现   87
4.1 学会如何学习——元学习和语境学习能力88
4.1.1 GPT-3 模型   92
4.1.2 稀疏注意力——大模型的高效注意力机制94
4.1.3 语境学习能力显现   98
4.2 模型规模和能力的缩放定律 109
4.2.1 龙猫法则    114
4.2.2 能力涌现现象   115
4.3 大语言模型学会写代码  117
4.3.1 Codex 模型——程序员的智能助手 120
4.3.2 检验语言模型的编程能力  123
第 5 章 服从指令的大语言模型  128
5.1 InstructGPT——更听话的语言模型 129
5.1.1 从人类反馈中学习   134
5.1.2 近端策略优化算法   138
5.2 指令微调方法    143
5.3 拒绝采样——蒸馏提纯符合人类偏好的模型    146
5.4 从 AI 反馈中学习   147
第 6 章 开源大语言模型   151
6.1 GPT-J 和 GPT-Neo——开源社区的率先探索    152
6.2 Pile 开源大语言模型训练数据集 154
6.3 开源“羊驼”LLaMA 模型 156
6.3.1 SwiGLU——改进神经网络激活函数 158
IX
6.3.2 适合更长文本的 RoPE  160
6.3.3 分组查询注意力   163
6.3.4 评估数据污染问题   165
6.3.5 更听话的 Llama 2 模型 167
6.4 ChatGLM——国产大语言模型的开源先锋169
6.4.1 研发历程    169
6.4.2 语言模型的架构选择  170
6.4.3 GLM-130B 模型   172
6.4.4 悟道语料库   176
第 7 章 探秘大语言模型的并行训练178
7.1 并行训练一瞥    178
7.2 GPipe 流水线    180
7.3 PipeDream 流水线  182
7.3.1 高吞吐率的 PipeDream-2BW 流水线 184
7.3.2 节省内存的 PipeDream-Flush 流水线     184
第 8 章 大语言模型应用   186
8.1 常见应用场景    186
8.2 利用外部知识库打败“幻觉”  187
8.2.1 检索增强生成   188
8.2.2 句子编码器模型——编码知识库 190
8.2.3 小世界模型——实现快速知识检索    196
8.2.4 混合检索——重拾传统检索技术 201
8.3 思维链——思维过程的草稿纸  204
8.4 使用工具拓展能力范围  206
8.4.1 学习如何使用外部工具  207
8.4.2 ReAct——连续自主行动的智能体209
8.5 定制专属的智能体   212
第 9 章 大语言模型前沿展望   215
9.1 多模态大模型——有眼睛和耳朵的大语言模型    215
9.1.1 视觉语言模型——从 CLIP 模型到火烈鸟模型    216
X
9.1.2 Llama 3 模型的语音输入输出能力    221
9.2 关于安全和隐私的挑战  223
9.2.1 不同类型的安全和隐私问题  224
9.2.2 如何应对安全和隐私风险  227
9.3 大语言模型距离强人工智能还有多远     228
9.3.1 世界模拟器——Sora 视频生成模型 229
9.3.2 JEPA——世界模型  231
9.3.3 草莓模型 o1——学会“深思熟虑” 233
中英文对照表     238
参考文献    241
展开
作者简介
前 言
科技日新月异,变革不断。二十多年前,我国的个人计算机刚刚普及,上网还需要通
过电话线拨号连接。那时,大学新生中还有不少人并不熟悉基本的计算机操作。在计算机
专业的课堂上,自然语言处理的授课内容以传统方法为主。作为课程实践作业,学生们常
常选择金庸和古龙的武侠小说作为语料进行统计分析,发现两位大师的文字风格各有特点,
比如金庸的平均句子长度比古龙短一些,古龙使用疑问句比金庸多一些。
十年前,深度学习开始进入我国大学的实验室和课题组,使用显卡优化并行计算成为
当时新兴的选修课程。那时,发表基于传统人工智能方法的学术论文,常常面临审稿人要
求与深度学习做对比研究的诘难。业界也开始采用神经网络方法处理文本,后来重塑自然
语言处理领域的 Transformer 模型在当时尚未面世。构建智能客服机器人仍需要采集很多
问题样本进行手工标注,而且最终效果以今天的眼光来看完全不够“智能”。
如今,大语言模型的出现带来了颠覆性的技术变革。2022 年底,ChatGPT 横空出世,
标志着大语言模型技术的崛起,掀起了全球范围内人工智能研究和应用的新一轮热潮。基
于大语言模型的智能对话助手展现出了令人惊叹的能力。它能够进行自然流畅的对话交互,
涉猎广泛的知识领域,并且胜任写作、翻译、编程等复杂任务。人工智能技术再次跨越了学
术圈的边界,进入大众视野,产生了广泛而深远的影响。
大语言模型带来的技术进步,不断颠覆着我们的认知和生活方式。作为亲历者,我有
幸见证了这场变革的全过程,并愿意将自己所知与读者分享,共同探索大语言模型的发展
历程、技术原理、应用方法和前景展望。我们将从 20 世纪中叶计算机的发明开始,回顾自
然语言处理的研究历史,了解研究人员如何一步步开发出神经网络和深度学习模型,直至
大规模生成式预训练模型占据统治地位。技术演进过程可以帮助我们理解隐藏在背后的原
理和推动力,向我们展示大语言模型如何获得惊人的能力,如何进入各种应用场景,未来
又将把人工智能技术引向何方。
在回顾大语言模型技术的发展历程时,我不禁感慨万千,原来这些革命性的成果早在
数十年前就已经开始酝酿。从最初的基础研究,到如今的应用突破,无数研究人员不懈努
力,铺就了通往技术巅峰的道路。2023 年,具有视觉理解能力的 GPT-4 问世,模型能够
“看图”解答中学物理题,令人叹为观止。然而,仔细追溯会发现,这种视觉模型和语言模
型的技术融合,早在数年前就已经开始了相关研究。再往前追溯,光学字符识别 (Optical
Character Recognition, OCR) 技术在二十年前就已经有了成熟应用。作为技术先驱的卷积
神经网络模型,更是可以追溯到 20 世纪 80 年代末,最早的应用场景是识别信封上手写的
邮政编码。这些看似新兴的技术,其实都有着悠久的历史积淀。面对浩如烟海的研究成果,
我们很难一一发现哪些是具有颠覆性潜力的突破。但正是这些默默无闻的研究积累,最终
成就了我们今天所见证的技术变革。回顾技术发展历程,我们可以揭开大语言模型的神秘
面纱,了解推动技术进步的力量。
大语言模型是一个活跃的研究领域,正处于蓬勃发展时期,新模型层出不穷,在规模、
能力、原理和应用等方面不断取得突破性进展。这个变革的时代要求我们时刻保持学习的
态度,与时俱进。我衷心希望与读者携手共同探索这个充满机遇与挑战的领域,共同见证
人工智能的未来发展。让我们一起踏上这段精彩纷呈的学习之旅,共同开启探索知识海洋
的新篇章。
展开
内容介绍
目 录

前言
第 1 章 早期的神经语言模型  1
1.1 神经网络模型之前的时代  2
1.1.1 基于规则的方法面临的困难 5
1.1.2 借助统计方法的力量   6
1.1.3 朴素统计模型的极限   8
1.2 神经网络如何理解语言   10
1.2.1 化解统计方法的维度灾难 11
1.2.2 神经网络模型如何学习  13
1.2.3 困惑度——量化评估语言模型的预测能力17
1.2.4 词嵌入——从词汇到可计算的数值向量 19
第 2 章 深度学习时代的自然语言处理  25
2.1 擅长处理文本序列的循环神经网络 27
2.1.1 保持记忆的循环连接  28
2.1.2 控制记忆的门控单元  29
2.1.3 自然语言的编码器和解码器 33
2.2 Transformer“只需要注意力”  40
2.2.1 注意力机制的起源   42
2.2.2 “只需要注意力”   44
2.2.3 像检索数据库一样查看记忆 46
2.2.4 使用 Transformer 对语言进行编码和解码49
第 3 章 预训练语言模型的兴起   53
3.1 通过预训练提升语言模型能力 54
3.1.1 预训练——视觉深度学习模型的成熟经验54
VIII
3.1.2 第一代 GPT 模型   56
3.1.3 GPT 和 BERT——选择不同道路 60
3.2 语言模型如何胜任多种任务  67
3.2.1 多任务模型先驱的启示  68
3.2.2 GPT-2 模型   71
3.2.3 适用于多种语言的字节对编码 75
3.2.4 高质量的 WebText 数据集  80
第 4 章 大语言模型能力涌现   87
4.1 学会如何学习——元学习和语境学习能力88
4.1.1 GPT-3 模型   92
4.1.2 稀疏注意力——大模型的高效注意力机制94
4.1.3 语境学习能力显现   98
4.2 模型规模和能力的缩放定律 109
4.2.1 龙猫法则    114
4.2.2 能力涌现现象   115
4.3 大语言模型学会写代码  117
4.3.1 Codex 模型——程序员的智能助手 120
4.3.2 检验语言模型的编程能力  123
第 5 章 服从指令的大语言模型  128
5.1 InstructGPT——更听话的语言模型 129
5.1.1 从人类反馈中学习   134
5.1.2 近端策略优化算法   138
5.2 指令微调方法    143
5.3 拒绝采样——蒸馏提纯符合人类偏好的模型    146
5.4 从 AI 反馈中学习   147
第 6 章 开源大语言模型   151
6.1 GPT-J 和 GPT-Neo——开源社区的率先探索    152
6.2 Pile 开源大语言模型训练数据集 154
6.3 开源“羊驼”LLaMA 模型 156
6.3.1 SwiGLU——改进神经网络激活函数 158
IX
6.3.2 适合更长文本的 RoPE  160
6.3.3 分组查询注意力   163
6.3.4 评估数据污染问题   165
6.3.5 更听话的 Llama 2 模型 167
6.4 ChatGLM——国产大语言模型的开源先锋169
6.4.1 研发历程    169
6.4.2 语言模型的架构选择  170
6.4.3 GLM-130B 模型   172
6.4.4 悟道语料库   176
第 7 章 探秘大语言模型的并行训练178
7.1 并行训练一瞥    178
7.2 GPipe 流水线    180
7.3 PipeDream 流水线  182
7.3.1 高吞吐率的 PipeDream-2BW 流水线 184
7.3.2 节省内存的 PipeDream-Flush 流水线     184
第 8 章 大语言模型应用   186
8.1 常见应用场景    186
8.2 利用外部知识库打败“幻觉”  187
8.2.1 检索增强生成   188
8.2.2 句子编码器模型——编码知识库 190
8.2.3 小世界模型——实现快速知识检索    196
8.2.4 混合检索——重拾传统检索技术 201
8.3 思维链——思维过程的草稿纸  204
8.4 使用工具拓展能力范围  206
8.4.1 学习如何使用外部工具  207
8.4.2 ReAct——连续自主行动的智能体209
8.5 定制专属的智能体   212
第 9 章 大语言模型前沿展望   215
9.1 多模态大模型——有眼睛和耳朵的大语言模型    215
9.1.1 视觉语言模型——从 CLIP 模型到火烈鸟模型    216
X
9.1.2 Llama 3 模型的语音输入输出能力    221
9.2 关于安全和隐私的挑战  223
9.2.1 不同类型的安全和隐私问题  224
9.2.2 如何应对安全和隐私风险  227
9.3 大语言模型距离强人工智能还有多远     228
9.3.1 世界模拟器——Sora 视频生成模型 229
9.3.2 JEPA——世界模型  231
9.3.3 草莓模型 o1——学会“深思熟虑” 233
中英文对照表     238
参考文献    241
展开
精彩书评
本书适合对人工智能充满兴趣的初学者,以及希望深入了解大语言模型技术的从业者阅读,可以引导读者从大语言模型技术这个分支入门,逐步探索人工智能更加广阔的领域。
展开
精彩书摘
董政,计算机软件与理论专业博士,2016年毕业于复旦大学。研究生期间,师从人工智能学者危辉教授,在上海市智能信息处理重点实验室的认知模型与算法课题组从事研究工作,研究方向包括视觉的脑神经机制和计算机建模,以及图像中的物体形状识别和定位等,研究成果发表于认知计算和神经网络等领域的期刊。毕业后,进入微软亚太科技有限公司云计算与人工智能事业部,担任资深软件工程师,将专家系统、机器学习算法、大语言模型智能体等人工智能技术应用于云服务运维优化,深耕人工智能理论研究和工程实践。
展开
目录
董政,计算机软件与理论专业博士,2016年毕业于复旦大学。研究生期间,师从人工智能学者危辉教授,在上海市智能信息处理重点实验室的认知模型与算法课题组从事研究工作,研究方向包括视觉的脑神经机制和计算机建模,以及图像中的物体形状识别和定位等,研究成果发表于认知计算和神经网络等领域的期刊。毕业后,进入微软亚太科技有限公司云计算与人工智能事业部,担任资深软件工程师,将专家系统、机器学习算法、大语言模型智能体等人工智能技术应用于云服务运维优化,深耕人工智能理论研究和工程实践。
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证