自然语言处理是研究人机之间用自然语言通信的理论和方法,是人工智能领域的一个重要分支,有着非常广泛的应用空间。
本书结合作者多年学习和从事自然语言处理相关工作的经验,力图用生动形象的方式深入浅出地介绍自然语言处理的理论、方法和技术。本书抛弃繁琐的证明,提取出算法的核心,帮助读者尽快地掌握自然语言处理所必备的知识和技能。
通过本书,你将学习和理解:
★ 概率论、信息论、贝叶斯法则等基础知识;
★ 机器学习和深度学习的热门话题;
★ 程序优化的方法;
★ PageRank和相似度计算的原理;
★ 搜索引擎的原理、架构和核心模块;
★ 各种推荐算法的原理和工作机制;
★ 自然语言处理和对话系统等技术难题。
非常赞的一本书。既适合没有很多背景的初学者入门,也适合相关方向的工程师进阶。基础概念的来龙去脉讲得十分清楚,很多知识点也指出了相关的论文。这本书适合做教材,其中融入了作者对NLP的深刻理解。在深度学习/人工智能被过分炒作的今天,只有多思考问题的本质,也就是像书中所说的那样,“只有脚踏实地,在现有技术和数据形态下结合产品设计解决好用户需求”,才能达到“无招胜有招”的境界。
——网友supersuper
有幸阅读到这本书,尽管目前只读完了前几章的内容,但是感觉收获非常大,让我的学习思路更为清晰,尤其在优化问题这个概念上,本书更为深刻地介绍背后的原理,而不仅仅是强调某些算法模型。再次感谢作者给我带来的帮助与启发!
——网友Liang Zachary
这本书令人印象非常深刻,知识点很全面,又深入浅出(特别喜欢里面举的例子)。
——网友Yujun Wu
本书结合作者多年学习和从事自然语言处理相关工作的经验,力图用生动形象的方式深入浅出地介绍自然语言处理的理论、方法和技术。本书抛弃掉繁琐的证明,提取出算法的核心,帮助读者尽快地掌握自然语言处理所必备的知识和技能。本书主要分两大部分。第一部分是理论篇,包含前3章内容,主要介绍一些基础的数学知识、优化理论知识和一些机器学习的相关知识。第二部分是应用篇,包含第4章到第8章,分别针对计算性能、文本处理的术语、相似度计算、搜索引擎、推荐系统、自然语言处理和对话系统等主题展开介绍和讨论。本书适合从事自然语言处理相关研究和工作的读者参考,尤其适合想要了解和掌握机器学习或者自然语言处理技术的读者阅读。
理 论 篇
第1章 你必须知道的一些基础知识………………………………………3
1.1 概率论 ……………………………………………………………3
1.2 信息论 ……………………………………………………………4
1.3 贝叶斯法则 ………………………………………………………7
1.4 问题与思考 ………………………………………………………10
第2章 我们生活在一个寻求最优解的世界里……………………………11
2.1 最优化问题 ………………………………………………………11
2.2 最大似然估计/最大后验估计 …………………………………15
2.3 梯度下降法 ………………………………………………………17
2.4 问题与思考 ………………………………………………………22
第3章 让机器可以像人一样学习…………………………………………23
3.1 何谓机器学习 ……………………………………………………23
3.2 逻辑回归/因子分解机 …………………………………………29
3.3 最大熵模型/条件随机场 ………………………………………34
3.4 主题模型 …………………………………………………………40
3.5 深度学习 …………………………………………………………50
3.6 其他模型 …………………………………………………………88
3.7 问题与思考 ………………………………………………………97
应 用 篇
第4章 如何计算得更快…………………………………………………101
4.1 程序优化 ………………………………………………………101
4.2 分布式系统 ……………………………………………………105
4.3 Hadoop …………………………………………………………107
4.4 问题与思考 ……………………………………………………114
第5章 你要知道的一些术语……………………………………………115
5.1 tf/df/idf …………………………………………………………115
5.2 IG/CHI/MI ………………………………………………………116
5.3 PageRank ………………………………………………………118
5.4 相似度计算 ……………………………………………………119
5.5 问题与思考 ……………………………………………………125
第6章 搜索引擎是什么玩意儿…………………………………………126
6.1 搜索引擎原理 …………………………………………………126
6.2 搜索引擎架构 …………………………………………………129
6.3 搜索引擎核心模块 ……………………………………………130
6.4 搜索广告 ………………………………………………………148
6.5 问题与思考 ……………………………………………………153
第7章 如何让机器猜得更准……………………………………………155
7.1 基于协同过滤的推荐算法 ……………………………………156
7.2 基于内容的推荐算法 …………………………………………158
7.3 混合推荐算法 …………………………………………………159
7.4 问题与思考 ……………………………………………………163
第8章 理解语言有多难…………………………………………………164
8.1 自然语言处理 …………………………………………………164
8.2 对话系统 ………………………………………………………176
8.3 语言的特殊性 …………………………………………………186
8.4 问题与思考 ……………………………………………………190
结语…………………………………………………………………………191
参考文献……………………………………………………………………193