信阅平台

内容介绍

　　《固定短语的自动提取研究》以固定短语自动提取为研究目标，围绕结合紧密、使用稳定原则，采取统计与规则相结合的算法，并通过历时考察*终取得固定短语。《固定短语的自动提取研究》主要内容包括：领域高频种子词提取、通过统计量对短语的考察、通过句法规则对短语的考察、通过语义对短语的考察、历时分析对短语的考察。《固定短语的自动提取研究》适合高校语言学与应用语言学专业、计算语言学专业读者阅读，也可作为计算机专业学生的参考用书。

展开

精彩书摘

　　《固定短语的自动提取研究》：
　　3.不同统计量和阈值设置对结合紧密的影响
　　在自然语言处理中，判断字词之间的搭配和同现离不开各种统计量。通过查阅文献，我们发现统计量各有优势和缺陷，只能在一定程度上反映字词的搭配和组合。我们选取其中的一些统计量对短语的结合紧密特性进行考察，并设定阈值进行筛选。具体内容包括计算提取字串的互信息值和熵值，设定频次、互信息、熵等这些统计量的阈值。
　　4.句法规则对短语候选串的提取和语义规则对短语合法性的检验
　　统计方法对于完成我们的提取任务很有帮助，但是由于统计方法自身的局限性，不可能取代规则完全确定固定短语的结合紧密特性。借助规则的方法，可以从另一个角度考察固定短语的结合紧密特性。目前，在自然语言处理领域，基于规则的方法虽然不占统治地位，但是统计加规则的方法是一个比较全面和有效的方法。因此，我们选择句法规则对短语的结合紧密特性做进一步量度。具体内容如下，借助分词软件给出的词性标记，通过产生式原则确定基本短语类型。根据詹卫东（2000）给出的短语内部结构限制规则，用产生式不断扩大短语的长度，并进行短语词性序列统计，选取高频出现的词性序列并考察合法的类联接模式。根据考察确定的类联接模式，自动提取与类联接模式相对应的具体词语组合，并进行分析。
　　根据句法模式对固定短语提取完成后，我们对提取出的固定短语候选串从语义角度进行验证。通过对现有资源的比较，我们选取知网作为考察语义的资源，从语义层面确保提取的固定短语候选串的合理性。具体内容包括对固定短语候选串组成部分在知网中的查找和语义模式的确定。
　　5.固定短语候选串历时考察
　　这个环节的工作是对固定短语的使用稳定特征进行考察和度量。结合紧密的固定短语在使用稳定方面的一个最基本的表现就是在时间上稳定，或者说它们在一定时间长度内能稳定出现。基于此种认识，我们选择了历时的方法对所提取的固定短语进行考察。具体内容包括选取语料、分年提取固定短语候选串，并在时间轴上进行考察。
　　在实际操作中，分词软件已经收录的成语、简称缩略、组织机构名、人名、地名，“的”字短语不是我们研究的内容。
　　1.5研究意义
　　1.5.1对中文信息处理领域的意义
　　我们提取的固定短语对分词软件中词和语的界限判定有帮助。进一步对浅层句法分析、自动文摘、信息抽取、机器翻译任务都有一定的意义，它可以使处理对象颗粒度更大，尤其是对基于串对齐的机器翻译系统可以有效提高系统的准确率。对于机器翻译而言，固定短语的重要性不仅体现在成语，而且更加突出表现在术语、习语、习惯搭配。在其他领域，如多语言信息检索系统，机助语言学习系统、信息处理领域中的中文词语的歧义消解、中文文本自动分类、搜索引擎等方面，我们提取的固定短语都有一定的作用。
　　……

展开

《智能科学技术著作丛书》序
序
序二
前言

第一章绪论
1．1 问题的提出
1．2 固定短语的界定
1．3 研究目标
1．4 研究内容和研究重点
1．5 研究意义
1．5．1 对中文信息处理领域的意义
1．5．2 对语言资源监测领域的意义
1．5．3 对汉语语言学领域的意义
1．5．4 对词典编纂领域的意义
1．5．5 对对外汉语教学领域的意义
1．5．6 对舆情分析领域的意义
1．6 创新点
参考文献

第二章短语提取相关研究综述
2．1 国内语言学界对固定短语的研究
2．1．1 国内语言学界对固定短语的定义
2．1．2 国内语言学界对固定短语的研究方法和现状
2．2 信息处理界对短语的研究综述
2．2．1 国内外短语识别基本方法
2．2．2 术语提取基本方法和技术
2．2．3 国内对于短语研究所做的重要的工作
2．2．4 搭配的度量指标——搭配强度、搭配离散度、搭配尖峰
2．3 国外短语提取的最新进展
2．3．1 多字词表达的定义
2．3．2 多字词表达的复杂特性
2．3．3 多字词表达的提取
2．3．4 多字词表达研究的代表性工作
2．4 本章小结
参考文献

第三章固定短语提取的基础平台
3．1 基础数据资源-DCC语料库
3．1．1 语料库和语料库语言学
3．1．2 动态知识更新理论与动态流通语料库
3．1．3 基于动态流通语料库的主要研究
3．2 工具简介
3．3 基础数据资源加工——语料的准备和预处理
3．3．1 语料的选择标准
3．3．2 语料库的存储模式
3．3．3 语料库的语料量
3．3．4 原始语料格式转换
3．3．5 文本分类
3．3．6 文本分词
3．4 本章小结
参考文献

第四章利用特定领域的高频种子词提取固定短语候选串
4．1 教育领域高频种子词提取
4．2 面向特定领域的固定短语提取长度的确定
4．2．1 已有的研究成果
4．2．2 实验步骤和实验数据
4．2．3 实验结果及分析
4．2．4 结论
4．3 固定短语候选串提取
4．4 本章小结
参考文献

第五章固定短语候选串的定量考察与分析
第六章固定短语候选串的句法角度考察与分析
第七章固定短语候选串语义角度考察与分析
第八章固定短语候选串的历时考察
第九章结语
附录
后记

展开