信息化理念已经被很多人所熟悉,人们越来越追求一种有力的、简洁的、准确无误的信息交流手段。由于人们日常生活中接收到的绝大多数信息是以图像的形式进行传递的,尤其是依托互联网的数字图书馆和远程教育的兴起,使得图像信息自动识别技术有着广泛的应用前景和重要的研究价值。中文印刷体文档识别技术就是一个典型的针对含有中文字符图像的信息自动识别技术。<br> 1.1 中文印刷体文档识别基本原理<br> 现有的文字识别技术一般采用光学的方式将文字图像信息采集到计算机中,因此,该类技术常被称为光学字符识别(optiCal character recognition,OCR)技术。经过近一个世纪的发展,OCR已经成为当今模式识别领域中最活跃的研究内容之一。它综合了数字图像处理、计算机图形学和人工智能等多方面的知识,并在计算机及其相关领域中得到了广泛应用。按照识别方法,OCR识别方法可以分为如下三类:统计特征字符识别技术、结构特征字符识别技术和基于人工神经网络的字符识别技术。<br> 作为OCR技术的一个重要研究方向,印刷体文档识别主要针对比较正式、规范的书籍、报刊和杂志的图像信息进行采集和识别。与一般文档图像相比,印刷体文档图像存在前景信息与背景信息色差显著,文字信息形式规范等特点,这都为印刷体文档的信息处理和识别创造了便利条件。然而,各类印刷体文档中除了包含文字信息以外,还常有公式、表格以及各种各样的图形等信息,因此,若将印刷体文档中包含的所有信息都完整地识别出来,也不是一件易事。
展开