浅谈OCR技术的发展及应用
二、中文OCR
我国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究;70年代末开始进行汉字识别的研究;到1986年汉字识别的研究进入一个实质性阶段,取得了较大的成果。当年,国家863计划信息领域课题组织了清华大学、北京信息工程学院、沈阳自动化所三家单位联合进行中文OCR软件的开发工作。至1989年,清华大学率先推出了国内第一套中文OCR软件--清华文通TH-OCR1.0版,至此中文OCR正式从实验室走向了市场。清华OCR印刷体汉字识别软件其后又推出了TH-OCR92高性能实用简/繁体、多字体、多功能印刷汉字识别系统,使印刷体汉字识别技术又取得重大进展。到1994年推出的TH-OCR94高性能汉英混排印刷文本识别系统,则被专家鉴定为“是国内外首次推出的汉英混排印刷文本识别系统,总体上居国际领先水平”。上个世纪90年代中后期,清华大学电子工程系提出并进行了汉字识别综合研究,使汉字识别技术在印刷体文本、联机手写汉字识别、脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果。具有代表性的成果是TH-OCR97综合集成汉字识别系统,它可以完成多文种(汉、英、日)印刷文本、联机手写汉字、脱机手写汉字和手写数字的识别输入。
从中文OCR技术的发展来看,其研发与应用经历了如下几个阶段:
1、印刷体单字体识别,支持国标一级汉字3755字、繁体5401字,简繁体和字体由用户指明,识别率在95%左右;
2、印刷体多字体识别,支持国标一级汉字3755字,繁体5401字,简繁体由用户指明,宋仿楷黑四体混合识别,识别率在95%左右,对质量较差的印刷文稿的识别率会明显下降,印刷体表格的识别系统开始出现;
3、多字体大字符集简繁混排、中英文混排识别,支持国标二级汉字6763字、繁体5401字、香港常用字等1万多字,识别字体扩充到常见的十多种字体,识别率在99%左右,对质量较差的印刷文稿的识别率有较强的适应性,脱机手写数字识别和印刷体表格识别系统进入实用化阶段;
4、各种应用系统开始推出,如名片识别系统、身份证银行卡识别系统、车牌识别系统、银行票据识别系统、增值税发票识别认证系统等。
三、OCR的基本原理
简单地说,OCR的基本原理就是通过扫描仪将一份文稿的图像输入给计算机,然后由计算机取出每个文字的图像,并将其转换成汉字的编码。其具体工作过程是,扫描仪将汉字文稿通过电荷耦合器件CCD将文稿的光信号转换为电信号,经过模拟/数字转换器转化为数字信号传输给计算机。计算机接受的是文稿的数字图像,其图像上的汉字可能是印刷汉字,也可能是手写汉字,然后对这些图像中的汉字进行识别。对于印刷体字符,首先采用光学的方式将文档资料转换成原始黑白点阵的图像文件,再通过识别软件将图像中的文字转换成文本格式,以便文字处理软件的进一步加工。其中文字识别是OCR的重要技术。
四、市场成熟的OCR产品
目前市场上较为成熟的OCR产品有:证件识别SDK、车牌识别SDK、文档识别SDK、银行卡识别SDK、表格识别SDK、票据识别SDK、名片识别SDK、护照识别SDK、身份证识别SDK。目前,银行、保险、金融、税务、海关、公安、边检、物流、电信工商管理、图书馆、户籍管理、审计等很多行业都已经应用了OCR技术。OCR技术让大家减少了设备配置,降低了人力成本,提高了工作效率。
返回搜狐,查看更多