依存关系计量研究
第一章 依存距离和依存方向
第一节 依存关系的基本概念
依存语法的基本要素是依存关系(刘海涛,2009; Tesnière,1959; Hudson,2010)。(句法)依存关系具有以下基本属性:
(1)它是两个词之间的二元关系;
(2)它通常是不对称的,在构成依存关系的两个词中,一个是支配词,另一个是从属词;
(3)它是有标记的。
基于这三种属性,我们可以构建一个句法依存树或有向依存图来表示句子的句法结构。在本书中,我们一般使用有向非循环图来表示句子的依存结构。图1-1为汉语句子“他有三本书”的依存句法分析。
图1-1 句子“他有三本书”的依存句法结构有向图
从图1-1可以看出,句子中的所有单词都由句法依存关系连接在了一起。例如,在这个句子中,“他”(代词,r)通过 subj(主语)和“有”(动词,v)形成一个依存关系,“有”也与“书”(名词, n)形成了 obj(宾语)的依存关系。构成依存关系的两个词之间用带有箭头的弧线连接,连接弧从支配词指向从属词。在一个句子中,只有一个词没有支配词,其他词都有支配词。
主语和宾语依存于主动词,而介词(图1-1中没有举例说明)依存于它们所修饰的名词或动词。在每对连接的词语中,一个被称为从属词,另一个被称为支配词。标记弧从支配词指向从属词。
为了便于计算机处理图1-1中的句法信息,我们一般将依存句法图或树转换成表1-1的形式。
表1-1 句子“他有三本书”的句法分析
在表1-1中,每一行都清楚地表示了一个依存关系的构成要素,包括从属词、支配词、依存类型,以及词语在句中的位置信息。
值得注意的是,与传统的依存结构表示不同,图1-1、表1-1均包含词语在句子中的位置信息。这样做的原因主要是传统依存句法结构图大多是作为一种句子理解的结果而存在的,而现代的依存句法图除具备原有的表征功能之外,也是计算机处理自然语言的重要知识源,因此,需要更多有关词语位置的信息,以便获得更可靠的句子理解模型。
从依存结构图作为自然语言处理知识源的角度看,只有一个句子显然是不够的。因此,从20世纪90年代开始,世界上许多国家都兴起了采用依存句法标注自然语料的热潮。Witkam(2005:93)把这种现象称为“Francaj arboj revivas, usonaj seki.as”(法国树正在重生,美国树正在干枯)。从短语结构转向依存结构的原因,可能是“ PSG(短语结构—笔者注)树好比牛顿的经典力学, DG(依存结构—笔者注)图好比爱因斯坦的相对论。后者涵盖并升华了前者”(李维、郭进,2020:120)。
如果一个经过句法分析或标注的句子会形成一个如图1-1的图(树),那么多个句子就会形成多个图(树)。一个含有成千上万个句子的语料库,经过句法标注,就会形成一个句法结构树的仓库,这就是“树库”(treebank)这个词的由来。树库是现代计算语言学研究中的重要语言资源。例如,由全世界众多语言学家与自然语言处理研究者联合推出的 UD语言资源项目的昀新版本(2.9版本)(Nivre et al.,2016,2020)已包括122种语言的217个依存句法标注树库。
当然,这些资源理论上也有益于语言学家从真实的语料中发现语言系统的运作规律,有助于应对语言研究从“花园”走向“灌木丛”时遇到的昀大挑战—人类语言的概率性问题。但是,开展数据驱动的语言研究只有数据是不够的,我们首先需要寻找可以用数据解决的语言学问题,并需要可以用来解决这些问题的可操作与可计量的指标,还需要挖掘这些指标与人类语言结构模式与演化规律之间的联系。只有这样,我们所发现的语言规律和有关语言的知识才会更可靠,也才能更好地服务于那些需要语言规律的学科,进而构拟21世纪的语言理论。
为了方便后续讨论,我们先对依存结构图进行一个简要的形式描述。
一、依存结构图的形式化和随机语言
语言 L中的一个句子 S可以看作是若干个词语的有序序列。设句子的长度(即句子中包含的词语个数)为 n(n.1),则句子 S可以表示为一个 n元组:
其中, x(1. in)表示句子的第 i个词语;相应地, i被称为词语 xi在句子S中的词序。
对句子 S进行依存句法分析后,可以得到如图1-1的依存句法结构图。句子S的依存结构图与三个因素有关:①每一个位置上的词语;②词语类型(Part of Speech,POS);③词语之间的依存关系,包括支配词、从属词和依存关系。前两个因素可视为关于词序的函数,后一个因素可视为关于词序的二元有序对的函数。在语言 L中,当给定一种依存句法体系之后,该语言的词语表、词语类型表和依存关系表都随之固定了,并不会随着所分析句子的不同而变化。每当给定一个句子 S xx 12.xn,句子中的各个词语及其相对位置便确定了,于是词语可以看作是词序的一元函数:
经过词法分析可以得到该句子的词语类型序列(POS 1,POS 2,.,POSn),于是词语类型也可以看作是词序的一元函数:
词语之间的依存关系则可以归结为若干个具有如下形式的有序三元组:
<支配词序号 i,从属词序号 j,依存关系的名称 rnameij>。
其中,依存关系的名称 rnameij完全可以由支配词序号 i和从属词序号 j来确定。因此,依存关系的名称可被认为是关于二元有序对<支配词序号 i,从属词序号 j>的一元函数:
基于此,我们可以给出语言 L中句子的依存结构图的形式描述。在语言 L中给定一个长度为的句子 S,它的依存结构图是一个满足一定条件的有向图DVEf(,,word ftag frelation ):
其中,集合W、T和R只与语言 L及其依存句法体系有关,与具体句子无关,因此,它们不是依存结构图的构成要素。如果我们的目的只是考察依存结构图的形式特征,那么,唯一需要考察的就是哪些位置上的词语之间存在依存关系,这只需要在集合 V上来考察其边集 E的性质即可。 D是依存结构图,当且仅当其边集 E满足如下条件(1)~(4)(Mel’cuk,1988;Nivre,2006)。
(1)单支配词(single-governor):
即每一个词的支配词至多有一个且不能是自身。
(2)单根(single-root):
即一个句子的依存结构图有且只有一个根。我们把满足这个条件的唯一的 x记为
展开