20世纪20年代,刘钩仁与臧励和等人在前人的基础上分别编撰的《中国地名大辞典》和《中国古今地名大辞典》,是当代我国历史地名方面的两大工具书,对中国历史地理学和其他学科的研究曾发挥了很大作用。然而前者仅2万余条,后者也不到4万条,仍有大量地名为历史文献所涉及而书中未能收录;即使是已收录的历史地名,其中不少释文如今有明显错误,加上二书编撰距今已半个多世纪,行改区划已有很大变化,其释文多与现实不符。
新中国成立以来,随着社会经济和文化的飞速发展以及科学研究和教学的深入,广大社会科学工作者,包括文物考古、古籍整理、地名普查、方志编修等工作人员,以及大专院校师生、文史爱好者等,迫切期待能有一部全面、精确而又实用的大型历史地名工具书作为参考。《中国历史地名大辞典》一书的编写适应了广大读者的这种需要。凡历史文献所涉及之县级以上政区、唐代方镇、明代卫所以及重要山川岛屿、城镇堡寨、关津桥梁、道路驿站、乡村墟集、街市坊巷、宫殿园圃、亭榭台阁、寺观陵墓、水利工程和矿冶遗址等,都广泛作了收录,力求条目齐全。本研究以此为基础,构建历史地名表,辅助校勘。
另外,借鉴现代汉语机构名、人名和地名的识别技术,从农业古籍全文库中广泛收集词汇,对以上各词表加以补充。现代汉语机构名、人名和地名的识别主要是基于语料库,利用分词技术,融合了规则、统计和机器学习的方法进行识别。此处运用N元语法对农业古籍全文进行分词处理,然后统计词频信息,再由人工审核筛选出古代官名、人名和地名。这种方法简单易行,但是人工干预较多。如何研究出有效识别古代官名、人名和地名的算法,乃至于古汉语词语的识别算法,仍然是一个需要不断努力探索的问题。
……
展开