《固定短语的自动提取研究》:
3.不同统计量和阈值设置对结合紧密的影响
在自然语言处理中,判断字词之间的搭配和同现离不开各种统计量。通过查阅文献,我们发现统计量各有优势和缺陷,只能在一定程度上反映字词的搭配和组合。我们选取其中的一些统计量对短语的结合紧密特性进行考察,并设定阈值进行筛选。具体内容包括计算提取字串的互信息值和熵值,设定频次、互信息、熵等这些统计量的阈值。
4.句法规则对短语候选串的提取和语义规则对短语合法性的检验
统计方法对于完成我们的提取任务很有帮助,但是由于统计方法自身的局限性,不可能取代规则完全确定固定短语的结合紧密特性。借助规则的方法,可以从另一个角度考察固定短语的结合紧密特性。目前,在自然语言处理领域,基于规则的方法虽然不占统治地位,但是统计加规则的方法是一个比较全面和有效的方法。因此,我们选择句法规则对短语的结合紧密特性做进一步量度。具体内容如下,借助分词软件给出的词性标记,通过产生式原则确定基本短语类型。根据詹卫东(2000)给出的短语内部结构限制规则,用产生式不断扩大短语的长度,并进行短语词性序列统计,选取高频出现的词性序列并考察合法的类联接模式。根据考察确定的类联接模式,自动提取与类联接模式相对应的具体词语组合,并进行分析。
根据句法模式对固定短语提取完成后,我们对提取出的固定短语候选串从语义角度进行验证。通过对现有资源的比较,我们选取知网作为考察语义的资源,从语义层面确保提取的固定短语候选串的合理性。具体内容包括对固定短语候选串组成部分在知网中的查找和语义模式的确定。
5.固定短语候选串历时考察
这个环节的工作是对固定短语的使用稳定特征进行考察和度量。结合紧密的固定短语在使用稳定方面的一个最基本的表现就是在时间上稳定,或者说它们在一定时间长度内能稳定出现。基于此种认识,我们选择了历时的方法对所提取的固定短语进行考察。具体内容包括选取语料、分年提取固定短语候选串,并在时间轴上进行考察。
在实际操作中,分词软件已经收录的成语、简称缩略、组织机构名、人名、地名,“的”字短语不是我们研究的内容。
1.5研究意义
1.5.1对中文信息处理领域的意义
我们提取的固定短语对分词软件中词和语的界限判定有帮助。进一步对浅层句法分析、自动文摘、信息抽取、机器翻译任务都有一定的意义,它可以使处理对象颗粒度更大,尤其是对基于串对齐的机器翻译系统可以有效提高系统的准确率。对于机器翻译而言,固定短语的重要性不仅体现在成语,而且更加突出表现在术语、习语、习惯搭配。在其他领域,如多语言信息检索系统,机助语言学习系统、信息处理领域中的中文词语的歧义消解、中文文本自动分类、搜索引擎等方面,我们提取的固定短语都有一定的作用。
……
展开