《计算机科学丛书·多语自然语言处理:从原理到实践》:
为了处理口语间语言动态切换的多语言输入,可以根据单语语料对语言模型进行分别建模,使用了这些模型的系统(例如一个基于语音的报摊或基于电话的对话系统)可以基于第一步的语言识别结果来选择语言模型,或者基于在初始处理之后产生最高分数的语言模型(在语音识别中有时会结合发音模型)来进行动态选择。
Fugen等表明如何通过上下文无关文法将几个单语语言模型合并成一个多语语言模型,其中文法的非终结符包含语言信息,终结符状态与单语n元模型一致。使用明确的文法规则来对现有状态进行扩展(只用匹配语言中的理元组),以避免不合时机的语言切换。构建单个多语语言模型的可选方法是在包含多个单语语料的数据池中训练一个单独多语言模型或训练多个单语语言模型,然后以插值方式来使用。第一种技术降低了系统性能,特别是语料大小不平衡的时候。第二种技术则有轻微的提高,但仍然比不上前面提到基于文法的方法。
……
展开