信阅平台

内容介绍

　　由于网上的信息载体主要是文本，所以信息抽取技术对于那些把互联网当成是知识来源的人来说是至关重要的.信息抽取系统可以看成是把信息从不同文档中转换成结构化数据系统。因此，成功的信息抽取系统将把互联网变成巨大的数据库。信息抽取技术是近十年来发展起来的新领域，遇到许多新的机遇和挑战.全书分两篇（原理篇共11章、应用篇共7章）。原理篇主要讨论了信息抽取（IE）概念、任务、挑战和评测方法；基于NLP、统计、认知的信息抽取方法；命名实体识别、共指消解、模板填充、Web信息抽取等。应用篇介绍了两个开发工具（GATE和WHISK），分析了IE在人机接口、电子交易、智能交通、竞争情报、问答系统、自动文摘等领域的应用。《中文信息抽取原理及应用》可作为本科高年级数据挖掘课程的参考书或研究生自然语言处理课程的教材，也可作为智能应用系统开发的参考资料。

展开

精彩书摘

　　随着计算机的普及以及互联网的迅速发展，大量的信息以电子文档的形式出现在人们面前。信息的过量增长带来一定负面影响：面对巨量的信息，由于目前Web上存在的信息格式具有很大的异构性，信息之间的关联描述较少，用户通过直接浏览的方式获取所需的信息十分困难，用户不知道如何确切表达对真正想要的网上资源的需求（资源迷向），难以消化已经下载的信息（信息过载）。如何将大量无序的信息及时准确地进行抽取、过滤、归类组织成便于查询检索的形式’已成为研究开发的焦点。迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息，信息抽取（informationextraction，IE）研究正是在这种背景下产生的。具体来讲就是：
　　（1）互联网已经成为一个巨大的隐式信息源。
　　（2）垂直搜索发展迅速。
　　（3）传统信息检索（informationretrival，IR）方法已无法满足现代社会发展的需求。
　　（4）大量信息需要结构化。
　　（5）传统的基于HTML的抽取方法应用受限。
　　（6）中文自然语言处理技术的发展带来契机。
　　信息抽取的目标是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。信息抽取系统的输入是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。信息以统一的形式集成在一起的好处是方便检索和比较，如比较不同的招聘和商品信息。还有一个好处是能对数据进行自动化处理，如用数据挖掘方法发现和解释数据模型。
　　信息抽取技术并不试图全面理解整篇文档，而只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的，那将由系统设计时定下的领域范围而定。
　　信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上，同一主题的信息通常分散存放在不同网站上，表现的形式也各不相同。若能将这些信息收集在一起，用结构化形式储存，那将是有益的。
　　……

展开

前言
原理篇
第1章绪论
1.1 信息抽取产生的背景
1.2 信息抽取概念
1.3 信息抽取任务
1.4 信息抽取和相关概念之间的关系
1.5 信息抽取的意义
1.6 信息抽取的研究现状
1.6.1 国外研究现状
1.6.2 国内研究现状
1.7 存在的问题及解决策略
1.8 信息抽取的挑战和趋势

第2章信息抽取评估
2.1 信息抽取评估一般原则
2.2 国际测评会议
2.2.1 MUC测评会议
2.2.2 ACE测评会议
2.2.3 MET测评会议
2.2.4 DUC测评会议

第3章信息抽取原理
3.1 信息抽取系统体系结构
3.2 信息抽取方法分类
3.3 文本表示
3.3.1 向量空间模型
3.3.2 N-gram模型
3.3.3 类短语串模型
3.3.4 概念模型
3.3.5 事件模型
3.3.6 图模型
3.4 词法分析
3.4.1 自动分词
3.4.2 词性标注
3.5 语义标注及其角色
3.5.1 语义标注
3.5.2 语义角色精细等级
3.5.3 框架网及其语义角色
3.5.4 命题库及其语义角色
3.5.5 中文网库及其语义角色
3.5.6 问句问点的语义角色
3.5.7 语义标注方法及步骤
3.6 语料库建设
3.6.1 语料库在信息抽取研究中的地位
3.6.2 大型现代汉语语料库简介
3.6.3 语料库系统
3.6.4 语料库标注

第4章基于NLP的信息抽取
4.1 经典系统
4.2 相关技术

第5章基于规则的信息抽取
5.1 原理
5.2 规则的建立
5.3 规则抽取系统
5.4 自由文本规则抽取系统讨论
5.5 规则抽取系统比较
5.6 规则抽取的困难

第6章基于统计模型的信息抽取
6.1 原理
6.2 N元模型
6.2.1 基本思想
6.2.2 数据平滑方法
6.3 基于隐马尔可夫模型的信息抽取
6.3.1 马尔可夫模型
6.3.2 隐马尔可夫模型
6.3.3 隐马尔可夫模型的三个基本问题
6.3.4 基于隐马尔可夫模型的信息抽取
6.4 最大熵模型
6.4.1 形式化描述
6.4.2 模型求解
6.5 条件随机场模型
6.5.1 形式化描述
6.5.2.参数估计
6.5.3 特征选择
6.6 支持向量机模型
6.6.1 线性SVM
6.6.2 线性SVM构造
6.6.3 非线性SVM
6.6.4 非线性SVM构造
6.6.5 SVM学习算法
6.7 统计模型的局限性

第7章基于认知模型的信息抽取
7.1 原理
7.2 基于本体的信息抽取
7.2.1 本体的概念
7.2.2 本体建模
7.2.3 本体描述
7.2.4 基于本体的信息抽取逻辑结构
7.2.5 应用实例
7.3 基于知网的信息抽取
7.3.1 引言
7.3.2 义原
7.3.3 概念表示
7.3.4 基于知网的中文信息结构抽取研究
7.4 基于HNC理论的信息抽取
7.4.1 HNC理论的研究目标和研究内容
7.4.2 HNC理论的语言概念空间
7.4.3 HNC理论的概念表述模式
7.4.4 HNC理论的语句表述模式
7.4.5 语句相似度计算
7.4.6 基于HNC的语境框架抽取
7.5 基于混合模型的信息抽取

第8章中文命名实体识别
8.1 命名实体
8.2 中文人名识别
8.2.1 中文姓名用字特点
8.2.2 中文姓名前后文规律
8.2.3 基于规则的识别模型
8.2.4 基于统计的识别模型
8.3 中文地名识别
8.3.1 地名识别知识库的建造
8.3.N地名识别规则库建造
8.3.3 地名识别推理机制
8.3.4 地名自动识别系统的实现
8.3.5 示例和实验结果
8.4 中文机构名识别
8.4.1 机构名特点
8.4.2 模型概述
8.4.3 标注体系
8.4.4 后界判断
8.4.5 前部标注
8.4.6 机构名识别过程
8.5 数量结构识别
8.5.1 数量结构的类型及自动识别的意义
8.5.2 程序的算法设计及总流程

第9章共指消解
9.1 指代的解析
9.2 歧义问题
9.3 测评标准
9.4 相关技术
9.4.1 国外的相关技术
9.4.2 国内的相关技术
9.5 中文的共指消解

第10章信息抽取模板
10.1 模板的定义和结构
10.2 信息结构抽取
10.3 事件探测
10.4 模板生成
10.4.1 模板元素(TE)的构建
10.4.2 模板关系(TR)的构建
10.4.3 场景模板(ST)的产生
10.5 模板填充
……
第11章 Web信息抽取

应用篇
第12章信息抽取工具GATE
第13章信息抽取工具WHISK
第14章 IE在自然语言查询接口中的应用
第15章 IE在国民经济中的应用
第16章基于自然语言处理的研究主题抽取
第17章 IE在自动文摘中的应用
第18章 IE在问答系统中的应用
参考文献
结束语

展开