《面向中文信息处理的现代汉语动名组合问题研究》:
上述三种操作都属于简单操作,下面一种是复杂操作。
4.抑制、激活和提升操作。这其实是附加类中的一种特殊的情况。当动语素的语义因子和名语素的语义因子矛盾的时候,我们应该如何求解组合体的意义呢?例如:“木头人”有时是人,有时不是人;“雷锋”是男性,而且早已去世,但我们经常看到“女雷锋”“活雷锋”“雷锋出国”之类的说法,这种情况我们应该如何处理?为了解决这些问题,我们定义了一些特殊的操作,就是先抑制掉两个语素中矛盾的特征,再激活其他特征。雷锋的定义性别为“男”,但是前面的修饰成分是“女”,所以性别特征应该被抑制,代入“女”。又因为雷锋的定义特征已经改变,所以,这里“雷锋”不能再取外延义,因此激活了最显著的内涵特征“乐于助人”,“雷锋”向上提升了一个层次,指“具有乐于助人特征的人”或者是“具有雷锋精神的人”,“女雷锋”的意义即为“女性中具有乐于助人特征的人”。类似的还有“真雷锋”“假雷锋”等。这是对复合词中的名语素进行提升操作的例子,在某些情况下我们也需要对动语素进行提升操作。
3.2.2计算机理解未登录词的目标和步骤
对于计算机来说,理解未登录词的过程,其实就是一个利用已知条件进行推理的过程。计算机遇到未登录词时,总是先把它们分割为单个的汉字,处理的首要目的就是要判断单字是否能够重新组合。如果能组合,再进一步判断其性质,求解出词义。正确理解未登录词,需要下列信息作为基础:(1)每个单字的意义和语法性质;(2)每个单字的构词模式;(3)不同单字对与之组合的另一个单字在语法性质上的要求;(4)不同单字对与之组合的另一个单字在意义上的选择;(5)上下文对该空位的要求。
例如,遇到未登录词“AB”,计算机首先把“AB”分为A、B两个单字,然后判断A、B是否有组合的可能。先要查词典,了解是否有“A”和“B”这样的词语模存在,然后看A是否符合词语模“B”中B对空位的要求,看B是否符合词语模“A”中A对空位的要求。要求包括两个方面,既有语法性质方面的,也有意义方面的。如果前面几个条件都符合的话,就可以初步判断,A、B有组合的可能,再进一步求解出该单位的性质和意义,最后放到上下文中进行验证。
上述信息中,第一点词典中一般直接给出。第二点、第三点、第四点需要我们对词典中的已登录词进行分析、归纳,获得相关知识以后,再把它作为已知信息登录在机用词典中,这正是本章工作的重点。最后一点是对上下文进行分析的结果。由于汉语中词的多功能性,上下文对某个空位的要求在很多时候并不是唯一的,所以它只能起一个验证的作用。理解未登录词,最主要的依据是前几种信息。通过前四个已知条件,计算机进行推理,判断剩余的单字(分词碎片)是否能够合成词,如果可以,就进一步求解其意义和词性。
有一点我们应该明确,计算机理解未登录词,并不是说它可以理解出和人一模一样的结果,这在目前来说是不可能的,因为计算机的储备知识远远少于人的知识。《面向中文信息处理的现代汉语动名组合问题研究》也只是采取一些技术手段,形式化地表示出入理解新词时的思维过程和相关的知识,供计算机借鉴。但人类通过长时间的认知积累起来的背景知识暂时不可能全部采用形式化的方法表示出来。计算机是否理解一个词,应该与计算机处理语言的需要做比较,只要满足了应用的需要,就应该认为是成功地达到了理解的要求。因此,即使计算机只求出人类理解内容的70%-80%,也可以看作是理解了这个未登录词。而且,有的时候,当我们看到一个孤立的新词,如果不借助于语言环境也难以推测词义,甚至有时候.即使有一部分上下文,缺乏相关知识,也依然不能理解,在这种情况下,我们更不应该强求计算机能完全理解这个新词。
沈家煊(2004)指出,语言学这门学科研究对象的性质决定了语言学能对事情做出充分的解释,但不能做到完全的预测……可以做到不完全的弱预测,预测的是一种倾向性……做到弱预测,这本身已经是一件十分有意义有价值的工作。从某种意义上来说,我们对于未登录词所做的工作也是一种不完全的弱预测工作。
本章下面的分析将按照以下几个步骤进行:
1.收集义项,填写模型。收集各语言词典中对例词的释义,通过不同词典之间的比照以及语料的验证进行总结,填写出模型,力求模型有一定的概括性。
……
展开