第1章自然语言处理技术概述
1.1自然语言处理介绍
1.1.1自然语言处理的定义及其在实际工作中的定位
1.1.2自然语言处理的经典应用场景
1.2自然语言处理的技能要求和职业发展路径
1.2.1大数据部门组织架构和自然语言处理职位所处位置
1.2.2自然语言处理的职位介绍和技能要求
1.2.3自然语言处理的职业生涯规划和发展路径
1.2.4自然语言处理的市场平均薪资水平
第2章中文分词
2.1中文分词原理
2.2规则分词
2.2.1正向最大匹配法
2.2.2逆向最大匹配法
2.2.3双向最大匹配法
2.3机器学习统计分词
2.3.1隐马尔可夫模型分词
2.3.2感知器分词
2.3.3CRF分词
2.4分词工具实战
2.4.1CRF++工具包实战
2.4.2Python的Jieba分词
2.4.3Java的HanLP分词
2.4.4Java的IK分词
2.4.5Java的mmseg4j分词
第3章词性标注
3.1词性标注原理
3.1.1词性介绍
3.1.2HMM词性标注
3.1.3感知器词性标注
3.1.4CRF词性标注
3.2词性标注工具实战
3.2.1Python的Jieba词性标注
3.2.2Java的HanLP词性标注
第4章命名实体识别
4.1命名实体识别原理
4.2基于HMM角色标注的命名实体识别
4.2.1中国人名识别
4.2.2地名识别
4.2.3机构公司名识别
4.3基于线性模型的命名实体识别
4.3.1感知器命名实体识别
4.3.2CRF命名实体识别
第5章依存句法分析
5.1依存句法分析原理
5.2HanLP基于神经网络依存句法分析器
第6章语义角色标注
6.1语义角色标注原理
6.2语义角色标注的设计框架
6.2.1生成语义生成树
6.2.2剪枝
6.2.3角色识别
6.2.4角色分类
第7章文本相似度算法
7.1字符串编辑距离
7.1.1算法原理
7.1.2Java代码实现
7.1.3Python代码实现
7.2余弦相似度
7.2.1算法原理
7.2.2Java代码实现
7.2.3Python代码实现
第8章语义相似度计算
8.1《同义词词林》
8.1.1算法原理
8.1.2代码实战
8.2基于深度学习的语义相似度
8.2.1DSSM
8.2.2CNNDSSM
8.2.3LSTMDSSM
第9章词频逆文档频率
9.1TFIDF算法原理
9.2Java代码实现TFIDF
9.3TFIDF的Python代码实现
第10章条件随机场
10.1算法原理
10.2开源工具实战
第11章新词发现与短语提取
11.1新词发现
11.2短语提取
第12章搜索引擎Solr Cloud和Elasticsearch
12.1全文搜索引擎介绍及原理
12.2Lucene搜索引擎
12.3Solr Cloud
12.3.1Solr Cloud介绍及原理
12.3.2Solr Cloud实战
12.4Elasticsearch
12.4.1Elasticsearch介绍及原理
12.4.2Elasticsearch实战
第13章Word2Vec词向量模型
13.1Word2Vec词向量模型介绍及原理
13.2Word2Vec词向量模型实战
13.2.1Spark分布式实现Word2Vec词向量模型
13.2.2谷歌开源Word2Vec工具
第14章文本分类
14.1文本分类介绍及相关算法
14.2朴素贝叶斯算法
14.2.1算法原理
14.2.2源码实战
14.3支持向量机
14.3.1算法原理
14.3.2源码实战
14.4Python开源快速文本分类器FastText
14.4.1FastText框架核心原理
14.4.2FastText和Word2Vec的区别
14.4.3FastText实战
14.5BERT文本分类
14.5.1BERT模型介绍及原理
14.5.2BERT中文文本分类实战