每类词的典型成员的语法表现来选定一组分布特征,并给其中的每个特征一个分值,其中有正分(即加分),也有负分(即扣分)。然后,计总分,典型成员应该得100分或接近100分,非典型成员则小于100分,但一般大于60分,负分一律归一化为0分。最后,折合成介于区间[0,1]中的不同的值来描写词类归属模糊的词对于有关词类的隶属度(degree of merhbership),从而从量上确定这些词的词类归属。比如,假如某个词相对于某种词类的隶属度越趋近于1,那么就判定它越趋近于该词类的典型成员。我们曾经调查和分析了上万个词类归属比较明确的常用词的分布情况,以设定不同词类的有关分布特征的权值。接着,调查和分析了上千个词类归属不明的常用词的分布情况,以此作为对先前设定的分布权值的校验;然后用校验过的权值来计算它们相对于有关词类的得分情况,最终确定这些词对于有关词类的隶属度。判定的原则是:如果某词相对于甲种词类的隶属度高于其他词类,那么可以把它归入甲种词类;如果某词相对于甲乙两种词类的隶属度相同并且高于其他词类,那么可以把它处理为兼属甲乙两种词类。最终,使这种经过反复校验和调试的分布权值具有普遍适用性,基本上可用以对现代汉语所有的词进行词类判定。按照这种操作步骤,基本上可以把词类属性模糊的词分别归入不同的词类,并且给出这些词相对于有关词类的隶属度,从而精确地表示出这些词属于相关词类的程度到底有多高,跟相关的典型成员的差别有多大。袁毓林(2003)根据每类词的典型成员的语法表现来选定一组分布特征,按照这些不同的分布特征对于该词类的重要性,根据经验给其中的每个特征设定权值;再用每类词的非典型成员的语法表现作校验,做成一套可用以对汉语词类进行模糊划分和隶属度计算的量表。希望借此可以使得现代汉语中的每一个词不仅能被划归到某一个或几个词类之中(即词有定类),而且能显示出它从属于这一个或几个词类的程度到底有多大(即类中有别)。详见袁毓林(2005a、b),这两篇文献是袁毓林(2003)的删节本。最后,我们还以《现代汉语词典》(2002年增补本)为样本(约6万个词条),依据我们的词类量表来对其中每一个词的每一个义项标注词类,从中寻找和发现问题,回过头来调整量表中的有关分布特征及其权值。
展开