“异类”同“异质”不一样,因为有同类而异质的现象。这里先不管这个问题。大家都承认“异类”和“兼类”有实质性区别,我们还要指出在计算机处理中把这种区别表现出来是有好处的。把“村里死了一口猪”的“死”和“这个办法太死”的“死”看成同一个词,就是认为这类词具有这样的语法功能:既能带宾语,又能受程度副词修饰。给它一个标记,比如V&A,就能把这种性质表现出来。从事语言工程研究的人可以看到具有V8LA标记的词还有哪些特点,比如对于语境有什么样的选择,对整句的功能有什么影响,等等,从而帮助人编纂机器用的词典,归纳机器用的规则。计算机可以把V&A标记作为一种特征,用机器学习的方法发现这种特征在各种应用中的作用。如果将这类词的词例分开来标,有些标V,有些标A,那么在标V(标A)的局部的语境中,这类词和其他标V(标A)的词的区别就被掩盖了,人无法得到更深入的语言知识,计算机把普通的V(A)与“死”类词看成是同质的,在机器学习中会把普通V(A)的某些功能表现推广到“死”类词上,反过来把“死”类词的某些功能表现推广到普通的V(A)上。这显然会带来负面的效果。
“降低……困难”的代价是失去了已经发现的信息(发现“死”与一般的动词、形容词不一样)。
对词例标词性的处理方法在实施上也有很大困难。比如,“武装”有时候做主语:“塔利班武装今天占领了……”,有时候做宾语:“解除武装”,有时候做谓语:“用科学技术武装农民”,于是前两个“武装”标名词,第三个标动词。但是“武装反抗政府”“武装集团”中的“武装”标什么呢?这两个“武装”好像分别是状语和定语,而副词专做状语,形容词和动词都有相当大的比例做状语,有些名词也可以做状语(掌声欢迎、协议离婚);名词、动词、形容词都有很大比例做定语。有什么依据去确定状语和定语位置(以及一些分不清状语和定语的位置)上“武装”的词性呢?
展开