我国关于利用计算机进行自动标点的研究与国外研究基本上处于同一时期。1997年,北京大学计算语言研究所和北京大学古文献研究所合作开发的以《全宋诗》为对象的古诗研究取得阶段性成果。该系统通过选取任一诗作的第一句和偶句的尾字与系统中储存的韵书和押韵规则相匹配,自动判断诗作的押韵状况与韵脚,这实际上就是对诗作自动断句标点的先声。
中国台湾陈郁夫先生在主持《古今图书集成》项目时,便想开始探索自动标点的可行性。虽难度较高,但已能对句法严整,兼有押韵的收录诗文辞赋的“艺文”和名句佳对选的“选句”,约1700余万字的韵文,进行自动标点。2000年11月在信息网络时代中日韩语文现代化国际学术研讨会上,陈先生递交的论文详细论述了古籍诗、词、赋标点的构思与技术,并演示了部分程序。
除上述两项成果外,还有多位学者提出了自动断句标点的设想和思路。
实际上关于利用计算机进行古籍标点的构想,并不一帆风顺,至今还存在着争论。北京大学李铎博士曾提出要自动标点《四库全书》,香港迪志公司和书同文公司邀请专家对自动标点构想进行认证,结论是:“不可能……人还不能够完全正确标点,计算机怎么可能呢?”但是,李铎博士坚持自己的看法,认为计算机并不按人的思维方式(在读懂一句话的意思之后再行标点)运行。众所周知,IBM的“深蓝电脑”能够战胜国际象棋大师,但是程序设计员却并不是国际象棋大师级高手。
……
展开