机器翻译的实质在于输入的源语与目标语通过后台平行语料库建立对应关系,包括词汇和结构的对应。从这个角度看,决定机器翻译质量最重要的两个因素是:一、后台语料库内容的丰富与否。简单地说,就是语料库里有没有源语与目标语的对应,这将决定机器能否顺利翻译。二、在后台的若干对应中,能不能选择出合适的对应,这个因素决定了翻译是否正确、到位。因此,从原理上来讲,应该建立大型的双语平行语料库,使得需要翻译的句子在语料库中能够检索到相同或相近的句子并自动生成翻译产品或翻译的粗产品(余国良,2009)。
在这方面,已经有学者开始考虑同时利用两种语言的信息来进行研究,穗志方等(1998)提出,基于实例的汉英机器翻译系统,应该在比较两句整体结构相似的基础上进行语句相似度计算,除了利用骨架依存分析法,识别汉语谓词中心词,还根据汉英例句集中英语例句的谓语中心词来识别相应的汉语例句的谓语中心词,实验对3000个汉语单句进行谓语中心词的自动识别,正确率达到87.3%。
但是,随着研究的深入,人们发现基于平行语料库的翻译信息获取,对于机器翻译等有以下的不足:(1)获取的翻译信息的质量一定程度上依赖于平行语料的质量,即译文的质量;(2)新出现的词往往超前于平行语料库,从平行语料库中难以获取新词及其译词,而对于新词(未登录词)的处理能力对机器翻译却十分重要,尤其在专业领域,单词术语和多词术语的获取对机器翻译尤其重要。
……
展开