Boguraev &Briscoe(1989:2)认为;“虽然我们的工作并不是编纂词典,但有一点是明确的,无论从组织结构还是从表述方式来看,机读词典与普通词典是大不一样的,计算词典学的研究范围还应包括利用计算机技术开发供人使用的词典数据。”Lender(1991:48)认为,计算词典学与计算语言学的直接关系在于“词典也是一种专家系统”,因为“它或者包含了某一种语言一般词汇的知识,或者包含了某一专科领域词汇的知识”。在自然语言处理领域,为提高系统的处理能力需要更加丰富的词汇信息,计算词典学的目标就是好好利用已有的机读词典,使其成为自动化语言处理系统潜在的词汇知识源泉。
Atkins&2ampolll(1994)认为,计算词典学负责自然语言处理中的电子词典的设计、编纂和使用。另一方面,它还包括词典编纂的技术和辅助工具的设计,包括从各种语言资源中提取例证用数据库的形式来存储相关的语言信息,词典条目的编纂和编辑,以及辞书产品的发行或传播等。
Badia&Sauri(2000)认为,计算词典学的主要任务之一是为自然语言处理构建具有信息性、连贯性和经济性的词库。这种资源需求是因为所谓的语料库语言学的出现,它把大量的原始语料作为自然语言处理的输入,而最后又不得不放弃这种“玩具式工具(toytools)的构想”。然而,从头开始构建计算机词库是一件既费时又费力的事情,那么在计算词典学的框架下利用现有的词典资源来建设词库便是一个不错的选择。因此,自20世纪80年代开始人们便开始利用机读词典自动提取词汇知识信息。
Hanks(1998)认为,计算词典学的一个核心问题是语词的意义能否通过使用实例来验证。语料分析使我们坚信了这样一个观点,每一个词的常规用法都可以在语料中得到检验,这些使用常规可以与词的意义常规和信念(belief)结合起来。不过他也认为,现在还没有统一的标准来判断什么是常规用法、什么是拓展用法(如修辞或比喻用法、语义框架等)(Hanks2009)。从上述的专家观点来看,计算词典学与计算语言学、计算词汇学有着密切联系,有些研究内容相互交织,难以明确分隔,因为他们研究的主要对象——词汇及其语言属性都是一样的,只是研究的角度、方法、重点和目的略有不同。从形成历史来看,计算词典学的任务首先是解决自然语言处理所需的机读词典问题;接着是纸质词典内容的“电子化”和“机读性”问题;其三是研究词典数据库的建设,以及数据的统计分析、自动存取、自动识别、自动转换成各类词典的问题;其四是研究如何使用计算机辅助词典的编纂、编辑和修订,力争在不远的将来达到词典编纂和修订半自动化的目标,最终向基本自动化的方向发展;其五是对现有的大型商业词典进行电子化改造,实现大型词典的发行无纸化,或设计编纂专门供人阅读的电子词典或网络词典。在词典数据处理和编纂数字化方面,除众所周知的计算机辅助词典编纂之外,还有真实连续文本的分析以及词汇索引和提取。通过索引的方法调查和分析有关语词在自然话语中的分布,以便考察词的语法、语义和语用等特征,获取词项的功能和用法信息,同时获取语词义项分布或划分的根据。当然,词汇索引也是词典配例的可靠资源。目前,也有人尝试利用语料库建立词典数据库,在微观数据结构的基础上生成词典。总的来说,计算词典学研究如何实现词典语料处理电子化,词典编纂半自动化或自动化,词典编排形式化,词典信息数字化和词典查检智能化,以及词典信息表述多媒体化。研究的主要内容是:语料的搜集与处理、义项划分的数据支持(词频统计、语义统计、词的配价结构统计)、综合语义分析、例句的提取、辅助词典编纂、词典数据库及其标引、语料库和数据库的管理、词典信息统计、词典编纂管理、词典导出接口等。
……
展开