第一章 引论<br> 1.1 语料库与词典编纂<br> 语料库的英文形式corpus来自于拉丁语,在拉丁语中的意思是“身体”、“正文”、“文集”(body)等。在语言学领域,语料库具有特殊的含义,先看下面的几条关于语料库的定义:<br> 定义一:语料库是一些书面语文本或口语听抄稿的集合,能为语言分析和描写提供帮助。(A corpus is a body of written text or transcribed speech which can serve as a basis of linguistic analysis and description.)(Ken—nedy,2000:1) <br> 定义二:语料库是对文本进行系统收集的产物,它记录了语言变体和用法方面的特征。(A corpus is a systematic collection of texts which docu—ments the usage features of a language or language variety.)(Hartmann and James,2000:30)<br> 定义三:在当代语言学领域,语料库不能简单理解为任意话语的集合,它是依据科学的抽样原则而选择的有限话语集,语料库要以计算机可处理的形式储存,要具有代表性,而且要最大限度地反映研究对象的特点。(McEnery,Wilson,2001:32)<br> 以上3个定义代表了3类不同的语料库:任意文本的集合(定义一);经过选择的文本的集合(定义二);经过科学抽样、精心选择的可供机器处理的文本的集合(定义三)。<br> ……
展开