一、先秦文献信息处理的研究目标
“中国古典文献学是综合运用版本、校勘、目录、注释、考证、辨伪、辑佚、编纂、检索等方面的理论与方法,科学地分析、整理、研究中国古代文献,进而探讨古代文献的产生、分布、交流和利用的规律,并总结对古代文献进行分析、整理、研究工作的规律与方法的学科。”
古典文献信息处理并不是要取代古典文献学。它的首要任务是要为古典文献学提供数字化处理的技术手段。中国古典文献有几千年的历史积累,卷帙浩繁,熟悉文献而又能融会贯通的专家不多,仅凭人力实在难以完成对古典文献的分析、整理和研究工作。电子计算机的问世以及汉字在计算机上的输入输出的实现,给古典文献处理带来了福音。例如,以现在的眼光来看,给文献编制逐字索引是一件很简单的事情,一部电子版的《左传》几秒钟即可完成索引。如果用以前抄卡片的方法编制逐字索引,一个人需要做好几年,还容易出错。
如果仅仅是为古典文献处理提供现代化的技术手段,古典文献信息处理还不足以成为一门学科。作为一门学科,它必须有自己的理论、方法和研究目标。作为语言信息处理(具体到中文信息处理)的一个分支,古典文献信息处理的理论基础是信息论和概率论,基本的研究方法是语料库统计,基本的工具是语言计算模型。它的研究目标也与古典文献学有所区别:
第一,古典文献学主要关注文献内容,古典文献信息处理除了关注文献内容之外,还应该特别关注文献的语言形式。先秦汉语是汉语发展的源头,先秦文献信息处理的一个重要的研究目标就是要从先秦文献中探寻这个源头的基本面貌,包括先秦汉语的语音、词汇和语法面貌,为汉语史的研究提供可靠的统计数据。鉴于课题的性质,我们主要是做了先秦汉语的词汇处理:对25种先秦文献全面地进行了词语切分和词性标注,在此基础上自动生成了先秦汉语词表,以先秦文献为参照考察了成语来源以及古今字和通假字的分布。(见第五章“古今字、通假字资源建设”,第六章“词汇概貌”)第二,古典文献学对文献内容的关注,主要体现在对文献真实性的关注,包括文献产生的时间、作者或编者、整篇或某一部分是否系后人伪托而成、各个版本之间的关系等等。古典文献信息处理对文献内容的关注,除了上述方面之外,还可体现为基于内容的计算。拿先秦文献信息处理来说,可以做《左传》和《国语》的事件抽取、人物关系抽取、先秦诸子思想比较等等。我们的检索系统不仅可以做字词检索,还可以检索《左传》中的人物、地理实体和事件,并以可视化界面展示社会网络分析的结果。(见第十章“《左传》中的春秋社会网络分析”)
二、先秦文献信息处理的任务
先秦文献信息处理的首要任务是文献数字化,数字化的基本含义是把文献变成机器可读的文本。方正超大字符集有6万多汉字,Unicode5.0及其以上版本有7万多汉字,已经基本够用。目前急需的是:(一)能支持超大字符集的各种方便快捷的汉字输入法:拼音输入(音韵学家使用)、字形输入(以笔画或部首为码元)、手写输入①。(二)能尽量避免图形操作的造字工具。理想的造字工具应该是,用户只需输入若干字根以及字形的结构类型(上下结构、左右结构等),即可完成造字过程。(三)能支持繁体直排版的字符识别软件。对于古籍而言,理想的字符识别软件应能得到不同字号和字体的输出(区分正文和注释),保留专名标记,甚至嵌入造字模块。
现在从网上下载的先秦文献电子文本存在许多问题:录入较早的是GB2312-80编码的简体文本,繁体文本不多。有些繁体文本是从简体文本自动转换过来的,简繁转换错误未经校对。冷僻字通常用两个汉字组合表示。此外还有脱字、讹字等等。这些电子文本大多是热心网友的无私奉献,应该好好加以利用。人工校对是不可避免的,但应该研究辅助校对工具,尽量减少人工劳动。辅助校对工具应能运用本校法(对于篇幅较大的文献)和他校法(对于有多个版本的文献)自动发现可能的错误。
……
展开