正是由于基于问卷调查的研究方法存在着以上不足,自20世纪80年代以来,研究者开始尝试运用存储于计算机内的大量实际语料对语言现象进行考察,涌现出大量基于语料库(corpus)的研究成果。这一方面是由于计算机技术日新月异,硬件性能不断提高,海量存储设备逐渐普及,软件在易用性方面也取得了长足进步,在很大程度上降低了研究者进入的门槛。另一方面也是由于人们对于实际语料的价值有了新的认识。
这些研究的共同之处在于,它们都是在大量现有的出版物或口语素材中检索包含某种语言现象的实例。通过进一步的观察、分析和统计,总结出其中蕴含的客观规律。因此,从本质上看,都属于实证性研究方法。近年来,基于语料库的实证性研究已经产生了许多成果,在语法、词汇以及句法等各个领域奠定了自己稳固的地位。
对于这种建立在观察分析自然语言现象基础上的实证性研究来说,语料库是不可或缺的研究基础。实证性研究方法在语言学研究的各个领域广受推崇也使得语料库的重要性不断提高,逐渐成为研究者不可或缺的工具之一。
语料库一词来源于拉丁语Corpus,意为“资料的总体”。英语中的corpus一词继承了拉丁语的原意。但我们现在所说的语料库显然不再是简单的资料的集合,它被赋予了新的意义。
Crystal(1991)认为,语料库是语言资料的集合,其资料来源既可以是书面语篇,也可以是话语的记录脚本。Sinclair(1991)将语料库定义为对自然发生的语篇的收集,目的在于描述一种状态或某种语言中的变化。Bmer(1998)认为语料库是对自然语篇大宗的、有原则的收集。顾日国(1998)则将语料库定义为放置语言材料的仓库,存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本。
展开