在建立由研究项目而定的特定语料库或者普遍语料库时,认知语言学家的具体分类标准会引起一些问题。语言学属性来自语言学家对语言的研究,研究过程中有各种观点和认识,例如从词的定义到词类的确定,一直还没有统一的意见。人们检索语料时的目的也各不相同,其关注点包括词汇问题、语法现象以及语言信息处理的应用问题等。因此语料库建立的过程中,语料标注的标准非常重要。语料库经过标注后更具有语言研究价值,但是要对哪些语言特征进行标注,标注的程度如何主要取决于具体的研究对象。因而语言学家通常根据具体的研究来决定他们的分类标准和在数据库中标注哪些语言特征。这些决定通常是根据不同的具体研究而设定的,因此,在不同的分类标准互相之间比较难以比较,使得建成的语料库较难推广开来。
2.许多语料库材料语境缺失
无论是对话还是文本,在进入语料库后都无法继续保留语言使用时的场景,丢失即席话语中的很多鲜活的内容(如情景语境和文化语境等)。因此语料库是不能反映语言的使用过程的。语料库在界定时包含了“自然语言”和“真实文本”这样的概念,但多数语料库所记录的都是文本的或少量的声音信息。现在由大规模的多媒体数据构成的语料信息还很少见。一则是数据收集的工作量巨大;更重要的是在实际操作中,一旦进行录像,就难免会引起受调查者主观上的注意,从而影响语料的信度和效度。因此在使用语料库法时要认识到语料收集的局限和现有语料的先天不足。就此许家金(2003)指出,面对已有的语料,要想真正研究语言的本质和实际运作,还需借助诸如句法学、话语分析、语用学、社会学、人类学、民俗学等其他理论手段,对语言使用的真实状态进行描写,接近其本质特征。语料库的这一特点给语言的认知研究特别是认知语用研究的开展造成了一定的困难。
……
展开