第一章 研究背景:“小句中枢理论”与复句信息工程
引言
本章介绍全书的研究背景——“小句中枢理论”与复句信息工程。主要包括两节:第一节“‘小句中枢理论,在中文信息处理中的应用”,从词语的自动切分和标注、短语的识别和标注、歧义的消解、语法实体复杂特征集的描写四个方面讨论“小句中枢理论”在中文信息处理领域的应用;第二节“‘小句中枢理论’与复句信息工程”,讨论复句信息工程的研究内容、研究目标以及“汉语复句语料库”的建设和利用等问题。
第一节 “小句中枢理论”在中文信息处理中的应用
“小句中枢理论”的核心内容是“句管控”,“句管控”思想在解决中文信息处理面临的一些难题中可以发挥作用。“小句中枢理论”中的“小三角”研究思路实际上是人们全面认识和描述事物的一种方法,从信息论的角度来说是一种全信息表示法,它和当前自然语言处理倡导的“复杂特征集”的描写在本质上是相通的。在中文信息处理中,小句中枢理论可以应用于以下几个方面。
一、应用于词语的自动切分和标注
词语的自动切分和标注是进行汉语句法分析的前提。目前,汉语的自动分词和词性标注基本上达到了能够实际应用的水平,但准确率还有待提高。未登录词的识辨和歧义切分字段的处理是自动分词研究中遇到的两个主要困难,不能识别未登录词或者错误的识别都会导致不正确的标注。汉语中,词的兼类现象特别是活用现象大量存在,增加了分词系统中词库的建设难度。即使在词库中确定了形形色色的兼类词,也难以确定兼类词的具体词性,因为兼类词处于此句法环境中可能是甲类词,而处于彼句法环境中可能是乙类词。活用的现象更复杂,什么词可以活用,可以活用为什么词,都很难把握。然而,兼类也好,活用也好,任何词进入到具体的句子之中,就一定会受到句子的约束和管控。正因如此,“句管控”思想在理论与实践上具有不言而喻的价值。
展开