信阅平台

内容介绍

本书面向语言工程，对现有汉语词类体系和词性标注工作展开调查，梳理总结汉语词类体系和词性标注中存在的主要问题，并以英汉语对比为基础，揭示汉语词类体系与词性标注的主要特点，为汉语本体研究和语料库加工提供参考。本书还开展了词性自动标注模型研究，在隐马尔科夫模型的基础上，建立了多观察和多状态搭接的COV模型，并将该模型运用到词性标注任务中，获得了较好的标注效果。本书适合语言学研究者和学习者以及对语言工程感兴趣的读者参阅。

展开

精彩书摘

第1章绪论
　　1.1 研究背景
　　汉语词的研究无论对于语言本体研究，还是对于语言工程实践不仅是一个重点，更是一个难点。重点是因为词这一级语言单位负载了稳定的意义，在语言交际中可以独立运用，把词的使用规律研究清楚，对于整个语句的组织、生成、理解、处理都有重要意义。难点是因为汉语的词研究面临的困难比印欧语等形态丰富的语言都要多，汉语首先遇到的是词的定界问题，如何划分词与语素、词与词组的界限是较为困难的事情，词的单位不清楚，分类对象就不明确，分类工作就难以顺利进行；其次，汉语缺乏形态特征和形态变化，难以从词形本身为词找到分类依据；此外，汉语词的使用灵活，尤其是大部分实词可以承担多种句法功能，能较为自由地占据不同句法位置，且在不同句法位置上其形态不发生变化，这更加大了利用形式条件划分词类的困难。尽管困难重重，但词类问题依然吸引了近代百年以来众多语法学家的关注，并针对汉语是否存在词类、如何划分词类等问题展开一轮又一轮的热烈讨论，虽仍未取得统一的结论，但还是取得了许多可喜的研究成果，既包括理论上的创新，也包括实践中的开拓，并且其中一些研究成果已经被应用到语言教学与语言工程之中，发挥了重要作用。
　　看到成绩的同时，也必须清醒地意识到汉语词类问题远未得到解决，尤其是当面对大规模真实文本的时候，当需要为几百万、上千万词次的语料标注上每个词例的词性的时候，当需要把面向人的词类知识转移给计算机使用时，汉语的词类问题就更加凸显出来。对于这些问题有很多先行者进行了卓有成就的开拓，例如，北京大学研制开发出《现代汉语语法信息词典》（以下简称《语法信息词典》)，对八万多词条进行细致的语法属性描写，同时还为2000年的《人民日报》语料库（以下简称《人民日报》）标注了词性，语料量达到近2700万字，其工作对汉语语言信息处理产生重要影响，也为深入研究词类问题提供了重要资源。本书在这些成果基础上，
　　对汉语词类问题进行考察，从语言工程的角度回答，汉语词类理论和词性标注存在哪些问题、造成这些问题的深层原因是什么，进而回答汉语词类的本质是什么、是否应当像英语一样标注词性、是否应当动用大量的人力物力开展大规模语料的词性标注工作等问题，并*终为汉语语言本体研究和语言资源建设提供有价值的建议和对策，以促进汉语语言信息处理工作的发展。
　　本书的根本出发点是语言工程的需要。语言工程的工具是计算机，处理对象是真实文本，目的是分析和提取意义，满足各种应用对语言的要求，应用包括机器翻译、信息检索、自动答问、文本分类、自动摘要、信息过滤等。这样的工作十分困难、复杂，不得不分步进行，并且计算机只能应对有限个对象，当对象无限多时，就需要确定有限个基本对象，其余对象用基本对象的复合来表示。对于汉语文本来说，这种基本对象就是词。因为字的意义不确定性太大，而短语、句子、段落、篇章则是无穷的。理论上说词也是无穷的，但在数词和人名、地名、机构名各自合类的前提下，数万到数十万个词就可以或粗或精地满足一般的语言处理需求了。对于这些词，计算机需要掌握它们的知识，包括它们的意义、用法以及它们在复合结构中的作用等。这些知识也必须用有限个对象表示，这种对象就是词的属性，由属性按不同的方式可以组合成各种类别，以便机器按类处理。
　　词的属性需要人传递给计算机，传递的方法目前大致有三种：①词的知识库，标注词的固有属性或者说静态属性；②语料库，标注词的语境属性或者说动态属性；③基于词和词属性的规则库，描述词的组合规律，说明如何由组合关系排歧，如何从词和词的各自属性获得组合之后构成的复合结构的属性。
　　第一种知识主要靠人为获取和加工。第二种知识也是靠人为取得，但计算机可以辅助人做许多工作，比如人标注较小的语料库，计算机“学习” 后标注较大的语料库，人再校对修改。第三种知识有相当一部分可以让计算机从语料库中自动获取。计算机从语料库中获取的知识中有相当一部分是人无法直接通过规则传递给计算机的，因为这些知识太微细且数量庞大，超出了人的归纳能力。但是，也有一些知识是计算机难以从语料库中自动获取的，因为它们太宏观，超出了计算机的归纳能力。
　　在语言工程中，比较自然的方法是首先对词例进行属性标注，以此为基础再进行后续的分析理解。这样分阶段地处理可以降低处理难度，但也带来一个重要问题，即如果词例的属性标注体系不当或者标注不准确，就会对后面的工作带来重大影响。显然标注体系带来的影响是根本性的，即使标注体系合理有效，标注精度不够高也会非常麻烦。假如词例标注正确率为95%，即平均每20个词错标1个，又假定平均句长是10个词，于是平均每两句又有一句发生词例标注错误，这一句在后续的处理中很难再被处理正确，从而以句子为单位的整体处理正确率*高不会超过50%。这就是从语言工程的角度要对词的属性体系和词性标注给予重点关注的原因。
　　此外，从语言资源建设的角度看，当前我们国家和一些相关机构都在大规模地开展语料库的加工和建设，而通常语料库建设的一个重要内容就是进行词性标注，因此投入大量的人力、物力、财力对大规模语料标注词性。这样的工作在语料库建设初期是有意义的，因为通过标注实践能够更好地帮助认识汉语词类问题的特点，为更深入地研究提供较为丰富的研究资源，但当这样的工作进行到一定阶段，达到一定规模的时候，需要暂停一下，客观地从汉语自身实际来考察汉语的词类体系和词性标注问题，回答汉语在词类问题上有什么独*之处、如何看待汉语的这些特点、汉语是否能够和需要像英语等形态丰富的语言那样标注词性等问题。通过这些理论层面的思考来更好地把握汉语词的特点，开展适合汉语特点、满足汉语语言信息处理需求的语言加工工作，更好地指导汉语语言资源建设工作，避免资源浪费。
　　在词一级的语言处理工作中，除了建立较为科学合理的词的属性体系外，另外一项重要工作就是要实现词的属性自动标注，开展标注模型和标注算法的研究。模型和算法研究是语言工程区别于语言本体研究的重要方面，使得语言工程不仅要关注典型词的属性特征，还要关心非典型词的属性特征，不仅要在理论上能够自圆其说，还要在实践中得到落实和检验。
　　词语属性的标注工作在工程实践上一般有两个步骤：第一步是要以一定的标注理论为指导，制定较为明确合理的标注规范，以机器为辅助，人工实现对较大规模语料的标注加工工作；第二步是以标注语料作为训练语料，开发或应用某种适合的机器学习方法，训练出拟合效果较好的标注模型，形成自动标注工具，高效率、高准确性地完成自动标注任务。在这项工作中，语言规律研究与语言任务二者有机地结合成一体，互相影响，互相促进。
　　基于以上考虑，本书选择了汉语的词类体系和词性自动标注作为研究对象，希望能够在较大规模的调查分析基础上对汉语词类问题有一个更加深入的认识，同时也希望能够通过自动标注的实践促进对汉语词类本质的认识，而对汉语词类本质的深入探究也会促进自动标注模型和算法的改进，提高标注模型的标注效率和准确性。
　　1.2 研究目标与内容
　　1.2.1 研究目标
　　以汉语语言事实为依据，利用已有的研究成果，较为全面深入地调查汉语词类的理论体系和标注实践，并将汉语与英语词类问题进行对比分析，从不同的语言视角寻找汉语自身的特点，从而希望能够对汉语的词类问题有一个较为客观深入的分析，回答汉语词类体系存在哪些问题、问题的原因是什么、汉语词类的本质特点是什么、是否应该在大规模的语料上标注词性等问题，进而提出汉语词的属性描写方法及分类原则，为汉语语言资源加工提供建议，提高汉语语言资源的建设质量。
　　在语言调查及模型分析的基础上，提出高效准确的标注模型，即基于状态和观察双重搭接约束的COV模型（Context Overlapping)，利用该模型完成特定的语言处理任务，并将其与其他模型，如HMM模型（Hidden Markov Model)、*大熵模型、CRF 模型（Conditional Random Field) 等进行对比，分析COV模型的优点与不足，利用标注模型初步实现语义侧面排歧的任务。
　　1.2.2 研究内容
　　1)汉语词类属性及词性标注调查
　　以《语法信息词典》为基础，调查分析汉语词的词类属性及其分布情况；以2000年《人民日报》标注语料为基础，调查分析在大规模真实语料中汉语词性标注的总体情况，并以兼类词为主要对象，调查汉语词性标注中出现的主要问题。
　　2)汉语词类问题的总结分析
　　总结汉语词的特点并分析这些特点与汉语词类问题之间的关系；对英语与汉语的词类问题进行对比分析;提出解决汉语词类问题的对策和方向，指出汉语语言资源词语层面加工的内容和原则。
　　3)标注模型研究
　　改进HMM模型，构建语境相关的COV模型，设计并实现基于COV 模型的符号解码与数值解码算法；利用COV模型完成英汉语词性自动标注任务，并与其他统计模型进行比较分析；使用COV模型实现汉语语义侧面的自动排歧。
　　1.3 本书结构
　　本书第一部分首先从语言学理论研究和语言工程实践两个角度对有关词类的研究进行概述，进而对汉语词类问题予以介绍，指出汉语词类问题的复杂性，及其在语言信息处理研究中的重要地位与作用，提出本书的主要研究思路、方法和目标。第二部分着重进行现有汉语词类体系和标注语料的调查，在调查基础上，对现有汉语词类体系进行描述和分析，并总结汉语词的特点及其与词类研究的关系，此外还通过英汉语之间的词类对比分析，进一步明确汉语词类的主要特点，进而为汉语语言资源加工提供有针对性的建议和对策，该部分还从语义侧面描写的角度初步给出汉语实词兼类词的描写框架和方法。第三部分重点论述COV模型，分析该模型的主要原理与算法，利用该模型进行词性标注实验，并与其他模型的标注性能进行比较，说明COV模型的主要优点与不足，以及词性体系对于词性标注的影响，并提出改进方法与方向。*后一部分对全书工作进行了总结，提出汉语词类体系与词性标注未来需要开展的主要工作。
　　第2章词类研究概述
　　2.1 国际上词类研究概述
　　词类是语言学研究的重点，国际上有关词类的理论研究主要是从跨语言的视角考察人类语言中是否普遍存在同一个词类体系，如果存在这样的体系，那么如何给出对各种语言都普遍适用的词类定义。跨语言的词类理论虽然是语言学家非常关心的研究对象，但并非本书的主要研究方向，因此本节只是择要对其介绍，目的是扩展研究视野，以期为汉语自身的词类研究提供一个更宏观的背景。
　　“词类” （Word Class或Parts of Speech)作为语法范畴*早起源于希腊语的语法研究，Dionysios Thrax就已经在其Art of Grammar 一书中提出按照语义及形态等标准将词划分为8大类，分别是：名词、动词、代词、介词、副词、连接词、分词和冠词（Bisang，2008)。尽管更早的学者（如Aristotle和Stoics)也各自提出了词的分类体系，但Thrax的 8种词类划分体系成为其后两千年来希腊语、拉丁语和大多数欧洲语言词类描写基础，甚至在欧洲之外的其他语言的词类研究中也基本采用了 Thrax的词类框架，只不过不同语言在具体的词类数目和划分标准上有所差异而已（Manning & Schutze， 1999)。
　　研究者对于词类的理论研究主要集中在两个问题上：①是否存在跨语言的词类，即在不同的语言中是否存在有同一套词类体系；②如果存在这样的词类体系，如何对各个词类定义，使其能够具有普适性。
　　根据Bisang (2008)的总结，不同的语言学家对于同一种语言中是否存在名词与动词的区分有不同意见，例如，S

展开

目录
第1章绪论 1
1.1 研究背景 1
1.2 研究目标与内容 4
1.3 本书结构 5
第2章词类研究概述 6
2.1 国际上词类研究概述 6
2.2 汉语词类研究概述 11
2.3 面向语言信息处理的汉语词类研究 13
第3章词性标注研究概述 16
3.1 词性标注与语料库加工 16
3.2 主要的英语语料库介绍 19
3.3 主要的汉语语料库介绍 20
3.4 有关汉语词性标注的评测活动 22
3.5 语言工程中的自动标注方法研究 23
第4章词类属性调查 28
4.1 调查目的及方法 28
4.2 词类及其兼类的总体分布 30
4.3 主要词类属性调查 39
4.4 另类词分布统计 45
第5章词性标注调查 47
5.1 相关术语及定义 47
5.2 语料标注调查的必要性 50
5.3 词性标注的调查原则 52
5.4 调查目的及方法 58
5.5 标注语料的总体情况 61
5.6实词兼类调查 62
5.7 虚词兼类调查 97
5.8语料标注调查结果分析 107
第6章汉语词类与词性标注问题分析 115
6.1汉语词类体系的分析 115
6.2 汉语词性标注分析 143
6.3 汉语词类问题的总结及相关对策 154
第7章英汉语词类问题的比较 159
7.1 句法约束与词类之间的关系比较 159
7.2 词类属性与句法实现之间的比较 162
7.3 词性标注过程的比较 163
7.4 英汉语词类特点的总结 166
第8章 COV模型与词性标注 167
8.1 标注模型概述 168
8.2 COV模型的形式化描述及与HMM模型的对比分析 170
8.3 参数估计及稀疏数据处理 173
8.4 算法描述 175
8.5 评价方法 177
8.6 实验设计及结果分析 177
8.7 COV模型在英文词性标注中的应用 189
8.8 COV模型讨论 191
第9章汉语词性标注体系与自动标注错误的关系分析 195
9.1 自动标注错误原因 195
9.2 兼类词词性调查分类 196
9.3 主要评价指标 197
9.4 实验结果及分析 198
9.5 主要结论和启示 205
第10章总结与展望 207
10.1 主要工作 207
10.2 未来展望 208
参考文献 210
附录词性标注调查词（词频）表 216

展开