第1章 绪 论
1.1 研究背景
汉语词的研究无论对于语言本体研究,还是对于语言工程实践不仅是 一个重点,更是一个难点。重点是因为词这一级语言单位负载了稳定的意 义,在语言交际中可以独立运用,把词的使用规律研究清楚,对于整个语 句的组织、生成、理解、处理都有重要意义。难点是因为汉语的词研究面 临的困难比印欧语等形态丰富的语言都要多,汉语首先遇到的是词的定界 问题,如何划分词与语素、词与词组的界限是较为困难的事情,词的单位 不清楚,分类对象就不明确,分类工作就难以顺利进行;其次,汉语缺乏 形态特征和形态变化,难以从词形本身为词找到分类依据;此外,汉语词 的使用灵活,尤其是大部分实词可以承担多种句法功能,能较为自由地占 据不同句法位置,且在不同句法位置上其形态不发生变化,这更加大了利 用形式条件划分词类的困难。尽管困难重重,但词类问题依然吸引了近代 百年以来众多语法学家的关注,并针对汉语是否存在词类、如何划分词类 等问题展开一轮又一轮的热烈讨论,虽仍未取得统一的结论,但还是取得 了许多可喜的研究成果,既包括理论上的创新,也包括实践中的开拓,并 且其中一些研究成果已经被应用到语言教学与语言工程之中,发挥了重要 作用。
看到成绩的同时,也必须清醒地意识到汉语词类问题远未得到解决, 尤其是当面对大规模真实文本的时候,当需要为几百万、上千万词次的语 料标注上每个词例的词性的时候,当需要把面向人的词类知识转移给计算 机使用时,汉语的词类问题就更加凸显出来。对于这些问题有很多先行者 进行了卓有成就的开拓,例如,北京大学研制开发出《现代汉语语法信息 词典》(以下简称《语法信息词典》),对八万多词条进行细致的语法属性描 写,同时还为2000年的《人民日报》语料库(以下简称《人民日报》)标 注了词性,语料量达到近2700万字,其工作对汉语语言信息处理产生重要 影响,也为深入研究词类问题提供了重要资源。本书在这些成果基础上,
对汉语词类问题进行考察,从语言工程的角度回答,汉语词类理论和词性 标注存在哪些问题、造成这些问题的深层原因是什么,进而回答汉语词类 的本质是什么、是否应当像英语一样标注词性、是否应当动用大量的人力 物力开展大规模语料的词性标注工作等问题,并*终为汉语语言本体研究 和语言资源建设提供有价值的建议和对策,以促进汉语语言信息处理工作 的发展。
本书的根本出发点是语言工程的需要。语言工程的工具是计算机,处 理对象是真实文本,目的是分析和提取意义,满足各种应用对语言的要求, 应用包括机器翻译、信息检索、自动答问、文本分类、自动摘要、信息过 滤等。这样的工作十分困难、复杂,不得不分步进行,并且计算机只能应 对有限个对象,当对象无限多时,就需要确定有限个基本对象,其余对象 用基本对象的复合来表示。对于汉语文本来说,这种基本对象就是词。因 为字的意义不确定性太大,而短语、句子、段落、篇章则是无穷的。理论 上说词也是无穷的,但在数词和人名、地名、机构名各自合类的前提下, 数万到数十万个词就可以或粗或精地满足一般的语言处理需求了。对于这 些词,计算机需要掌握它们的知识,包括它们的意义、用法以及它们在复 合结构中的作用等。这些知识也必须用有限个对象表示,这种对象就是词 的属性,由属性按不同的方式可以组合成各种类别,以便机器按类处理。
词的属性需要人传递给计算机,传递的方法目前大致有三种:①词的 知识库,标注词的固有属性或者说静态属性;②语料库,标注词的语境属 性或者说动态属性;③基于词和词属性的规则库,描述词的组合规律,说 明如何由组合关系排歧,如何从词和词的各自属性获得组合之后构成的复 合结构的属性。
第一种知识主要靠人为获取和加工。第二种知识也是靠人为取得,但 计算机可以辅助人做许多工作,比如人标注较小的语料库,计算机“学习” 后标注较大的语料库,人再校对修改。第三种知识有相当一部分可以让计 算机从语料库中自动获取。计算机从语料库中获取的知识中有相当一部分 是人无法直接通过规则传递给计算机的,因为这些知识太微细且数量庞大, 超出了人的归纳能力。但是,也有一些知识是计算机难以从语料库中自动 获取的,因为它们太宏观,超出了计算机的归纳能力。
在语言工程中,比较自然的方法是首先对词例进行属性标注,以此为 基础再进行后续的分析理解。这样分阶段地处理可以降低处理难度,但也 带来一个重要问题,即如果词例的属性标注体系不当或者标注不准确,就 会对后面的工作带来重大影响。显然标注体系带来的影响是根本性的,即 使标注体系合理有效,标注精度不够高也会非常麻烦。假如词例标注正确 率为95%,即平均每20个词错标1个,又假定平均句长是10个词,于是 平均每两句又有一句发生词例标注错误,这一句在后续的处理中很难再被 处理正确,从而以句子为单位的整体处理正确率*高不会超过50%。这就 是从语言工程的角度要对词的属性体系和词性标注给予重点关注的原因。
此外,从语言资源建设的角度看,当前我们国家和一些相关机构都在 大规模地开展语料库的加工和建设,而通常语料库建设的一个重要内容就 是进行词性标注,因此投入大量的人力、物力、财力对大规模语料标注词 性。这样的工作在语料库建设初期是有意义的,因为通过标注实践能够更 好地帮助认识汉语词类问题的特点,为更深入地研究提供较为丰富的研究 资源,但当这样的工作进行到一定阶段,达到一定规模的时候,需要暂停 一下,客观地从汉语自身实际来考察汉语的词类体系和词性标注问题,回 答汉语在词类问题上有什么独*之处、如何看待汉语的这些特点、汉语是 否能够和需要像英语等形态丰富的语言那样标注词性等问题。通过这些理 论层面的思考来更好地把握汉语词的特点,开展适合汉语特点、满足汉语 语言信息处理需求的语言加工工作,更好地指导汉语语言资源建设工作, 避免资源浪费。
在词一级的语言处理工作中,除了建立较为科学合理的词的属性体系 外,另外一项重要工作就是要实现词的属性自动标注,开展标注模型和标 注算法的研究。模型和算法研究是语言工程区别于语言本体研究的重要方 面,使得语言工程不仅要关注典型词的属性特征,还要关心非典型词的属 性特征,不仅要在理论上能够自圆其说,还要在实践中得到落实和检验。
词语属性的标注工作在工程实践上一般有两个步骤:第一步是要以一 定的标注理论为指导,制定较为明确合理的标注规范,以机器为辅助,人 工实现对较大规模语料的标注加工工作;第二步是以标注语料作为训练语 料,开发或应用某种适合的机器学习方法,训练出拟合效果较好的标注模 型,形成自动标注工具,高效率、高准确性地完成自动标注任务。在这项 工作中,语言规律研究与语言任务二者有机地结合成一体,互相影响,互 相促进。
基于以上考虑,本书选择了汉语的词类体系和词性自动标注作为研究 对象,希望能够在较大规模的调查分析基础上对汉语词类问题有一个更加 深入的认识,同时也希望能够通过自动标注的实践促进对汉语词类本质的 认识,而对汉语词类本质的深入探究也会促进自动标注模型和算法的改进, 提高标注模型的标注效率和准确性。
1.2 研究目标与内容
1.2.1 研究目标
以汉语语言事实为依据,利用已有的研究成果,较为全面深入地调查 汉语词类的理论体系和标注实践,并将汉语与英语词类问题进行对比分析, 从不同的语言视角寻找汉语自身的特点,从而希望能够对汉语的词类问题 有一个较为客观深入的分析,回答汉语词类体系存在哪些问题、问题的原 因是什么、汉语词类的本质特点是什么、是否应该在大规模的语料上标注 词性等问题,进而提出汉语词的属性描写方法及分类原则,为汉语语言资 源加工提供建议,提高汉语语言资源的建设质量。
在语言调查及模型分析的基础上,提出高效准确的标注模型,即基于 状态和观察双重搭接约束的COV模型(Context Overlapping),利用该模型 完成特定的语言处理任务,并将其与其他模型,如HMM模型(Hidden Markov Model)、*大熵模型、CRF 模型(Conditional Random Field) 等进行对比,分析COV模型的优点与不足,利用标注模型初步实现语 义侧面排歧的任务。
1.2.2 研究内容
1)汉语词类属性及词性标注调查
以《语法信息词典》为基础,调查分析汉语词的词类属性及其分布情 况;以2000年《人民日报》标注语料为基础,调查分析在大规模真实语料 中汉语词性标注的总体情况,并以兼类词为主要对象,调查汉语词性标注 中出现的主要问题。
2)汉语词类问题的总结分析
总结汉语词的特点并分析这些特点与汉语词类问题之间的关系;对英 语与汉语的词类问题进行对比分析;提出解决汉语词类问题的对策和方向, 指出汉语语言资源词语层面加工的内容和原则。
3)标注模型研究
改进HMM模型,构建语境相关的COV模型,设计并实现基于COV 模型的符号解码与数值解码算法;利用COV模型完成英汉语词性自动标 注任务,并与其他统计模型进行比较分析;使用COV模型实现汉语语义 侧面的自动排歧。
1.3 本书结构
本书第一部分首先从语言学理论研究和语言工程实践两个角度对有关 词类的研究进行概述,进而对汉语词类问题予以介绍,指出汉语词类问题 的复杂性,及其在语言信息处理研究中的重要地位与作用,提出本书的主 要研究思路、方法和目标。第二部分着重进行现有汉语词类体系和标注语 料的调查,在调查基础上,对现有汉语词类体系进行描述和分析,并总结 汉语词的特点及其与词类研究的关系,此外还通过英汉语之间的词类对比 分析,进一步明确汉语词类的主要特点,进而为汉语语言资源加工提供有 针对性的建议和对策,该部分还从语义侧面描写的角度初步给出汉语实词 兼类词的描写框架和方法。第三部分重点论述COV模型,分析该模型的 主要原理与算法,利用该模型进行词性标注实验,并与其他模型的标注性 能进行比较,说明COV模型的主要优点与不足,以及词性体系对于词性 标注的影响,并提出改进方法与方向。*后一部分对全书工作进行了总结, 提出汉语词类体系与词性标注未来需要开展的主要工作。
第2章 词类研究概述
2.1 国际上词类研究概述
词类是语言学研究的重点,国际上有关词类的理论研究主要是从跨语 言的视角考察人类语言中是否普遍存在同一个词类体系,如果存在这样的 体系,那么如何给出对各种语言都普遍适用的词类定义。跨语言的词类理 论虽然是语言学家非常关心的研究对象,但并非本书的主要研究方向,因 此本节只是择要对其介绍,目的是扩展研究视野,以期为汉语自身的词类 研究提供一个更宏观的背景。
“词类” (Word Class或Parts of Speech)作为语法范畴*早起源 于希腊语的语法研究,Dionysios Thrax就已经在其Art of Grammar 一书 中提出按照语义及形态等标准将词划分为8大类,分别是:名词、动词、 代词、介词、副词、连接词、分词和冠词(Bisang,2008)。尽管更早的 学者(如Aristotle和Stoics)也各自提出了词的分类体系,但Thrax的 8种词类划分体系成为其后两千年来希腊语、拉丁语和大多数欧洲语言 词类描写基础,甚至在欧洲之外的其他语言的词类研究中也基本采用了 Thrax的词类框架,只不过不同语言在具体的词类数目和划分标准上有 所差异而已(Manning & Schutze, 1999)。
研究者对于词类的理论研究主要集中在两个问题上:①是否存在跨语 言的词类,即在不同的语言中是否存在有同一套词类体系;②如果存在这 样的词类体系,如何对各个词类定义,使其能够具有普适性。
根据Bisang (2008)的总结,不同的语言学家对于同一种语言中是否 存在名词与动词的区分有不同意见,例如,S
展开