OCR文字识别在生活中的应用实例
原标题:OCR文字识别在生活中的应用实例随着人工智能的日益红火,OCR文字识别也从幕后来到了台前。其实说到OCR文字识别,他已经发展了好几十年,技术已相对成熟。比如微软Office2003中配装了中安未来科技的OCR文字识别产品。在互联网的冲击下,智能化办公已经成了企业提升工作效率和行业竞争力的重要手段。文字识别的发展为企业提高工作效率、为无纸化、智能化办公提供了技术支持。
中安未来文字识别办公数字化转型的重要工具
OCR文字识别可以代替人工录入,将图片上的文字识别出来,将图片上的文字变为可编辑的文本。在工作生活中这都是一个可以大大提高效率的工具。例如图书馆、资料室,古籍管理等,对纸质文字一拍即可变成可编辑的文字,便于检索分类;省去操作耗时,错误率较高的人工,避免对珍贵的史料造成损坏,文字识别对纸质材料的数字化转型有重要的意义。文字识别不仅可以代替人工提高效率,还可以识别视频中的文字,对互联网视频内容进行识别审核、监控,筛除掉违规的视频、广告等。
中安未来顺应移动互联发展推出API接口
在移动互联逐渐占据主导地位之时,中安未来推出OCRAPI接口,使信息智能化采集在移动设备就能完成,中安未来OCRAPI的发展应用使识别更加简单便捷,为企业提供信息电子化升级的技术支持。
中安未来OCR结合市场需求推出多款识别产品
根据市场的实际需求,中安未来科技相继推出了身份证识别、名片识别、银行卡识别、护照识别、表格票据识别等切实帮助人们工作生活的应用。为汽车金融、保险、理财、金融等行业提供了众多解决方案。
使用名片识别,完善人脉资源
中安未来科技是专注于OCR文字识别的公司,提供多种文字识别解决方案,切实帮助各个行业,实现文字准确提取的功能。近日,中安未来科技名片识别,又成功应用于多家公司,解决名片文字录入难的问题。
众所周知,名片的种类多样,名片上的文字格式更是数不胜数,所以,要将名片上的信息提取出来,相当困难。中安未来科技通过不断地研发,获取技术核心,帮助企业用户实现名片识别。
中安未来科技名片识别可以透过摄像头的拍摄识别或者扫描纸质名片上的二维码,通过社交的服务链,与沟通者进行直接的名片交换,它在上面展示了你的电话号码、Email地址、工作信息等内容,不仅沟通更便捷,在进行信息扩散的时候也非常快和有效,为大众提供更便捷快速的个人信息交换方式。
名片识别,可以高效地整理名片上的信息,尤其是手机号,不用在手动录入一个个数字,这样就可以节约很多时间,尤其是在认识新朋友的时候,名片识别,还可以快速地将名片信息发送出去。通过调研,市场上只存在少量的名片识别公司,其中,还含有注册需要费用、识别需要联网、识别速度慢等等各种问题。这些技术核心难以突破。中安未来花费大量时间,解决了上述名片识别的问题,帮助企业/个人提取名片信息,完善人脉资源库。返回搜狐,查看更多
责任编辑:【研究】图像识别及应用
1图像识别是什么?
2图像识别的应用场景有哪些?
什么是图像识别
图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。根据观测到的图像,对其中的物体分辨其类别,做出有意义的判断。利用现代信息处理与计算技术来模拟和完成人类的认识、理解过程。一般而言,一个图像识别系统主要由三个部分组成,分别是:图像分割、图像特征提取以及分类器的识别分类。
其中,图像分割将图像划分为多个有意义的区域,然后将每个区域的图像进行特征提取,最后分类器根据提取的图像特征对图像进行相对应的分类。实际上,图像识别和图像分割并不存在严格的界限。从某种意义上,图像分割的过程就是图像识别的过程。图像分割着重于对象和背景的关系,研究的是对象在特定背景下所表现出来的整体属性,而图像识别则着重于对象本身的属性。图像分割以及识别技术在航天、医学、通信、工业自动化、机器人及军事等领域均有着广泛的应用。
图为图像识别系统图
图像识别的国内外研究现状
图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别。
▷文字识别的研究是从1950年开始的,一般是识别字母、数字和符号,从印刷文字识别到手写文字识别,应用非常广泛。
▷数字图像处理和识别的研究开始于1965年。数字图像与模拟图像相比具有存储,传输方便可压缩、传输过程中不易失真、处理方便等巨大优势,这些都为图像识别技术的发展提供了强大的动力。
▷物体识别主要指的是对三维世界的客体及环境的感知和认识,属于高级的计算机视觉范畴。它是以数字图像处理与识别为基础的结合人工智能、系统学等学科的研究方向,其研究成果被广泛应用在各种工业及探测机器人上。
图像识别作为计算视觉技术体系中的重要一环,一直备受重视。微软在两年前就公布了一项里程碑式的成果:它的图像系统识别图片的错误率比人类还要低。如今,图像识别技术又发展到一个新高度。这有赖于更多数据的开放、更多基础工具的开源、产业链的更新迭代,以及高性能的AI计算芯片、深度摄像头和优秀的深度学习算法等的进步,这些都为图像识别技术向更深处发展提供了源源不断的动力。
其实对于图像识别技术,大家已经不陌生,人脸识别、虹膜识别、指纹识别等都属于这个范畴,但是图像识别远不只如此,它涵盖了生物识别、物体与场景识别、视频识别三大类。发展至今,尽管与理想还相距甚远,但日渐成熟的图像识别技术已开始探索在各类行业的应用。
1、智能家居
在智能家居领域,通过摄像头获取到图像,然后通过图像识别技术识别出图像的内容,从而做出不同的响应。举个例子,我们在门口安装了摄像头,当有物体出现在摄像头范围内的时候,摄像头自动拍摄下图像进行识别,如果发现是可疑的人或物体,就可以及时报警给户主。如果图像和主人的面部匹配,则会主动为主人开门。还有家庭用的智能机器人,通过图像识别技术可以对物体进行识别,并且实现对人的跟随,搭配上人工智能系统,它能分辨出你是它的哪个主人,并且能你进行一些简单的互动,比如检测到是家里的老人,它可能会为你测一测血压,如果是小孩子,它可能给你讲个故事。
2、电商购物
网购时消费者使用的“相似款(拍照识别/扫描识别)”搜索功能,就是基于图像识别技术,当消费者将鼠标停留在感兴趣的商品上后,就可以选择查看相似的款式;同时通过调整算法,还能够更好的猜测消费者的意图,搜素结果即使不能提供完全匹配的商品,也会为消费者推荐最为相关的商品,尽量满足消费者的购物需求。这对于商家来说,也是一种从外界导流和提高移动端用户黏度的方式之一。
3、金融
在金融领域,身份识别和智能支付将提高身份安全性与支付的效率和质量。比如,在传统金融中,用户在申请银行贷款或证券开户时,均必须到实体门店上做身份信息核实,完成面签。如今,通过人脸识别技术,用户只需要打开手机摄像头,自拍一张照片,系统将会做一个活体检测,并进行一系列的验证、匹配和判定,最终会判断这个照片是否是用户本人操作,完成身份核实。
4、安防
图像识别在安防领域应用较多,未来在软硬件铺设到后端软件管理平台的建设转型中,图像识别系统将成为打造智慧城市的核心环节。比如,人脸识别是智能安防时代视频监控中不可或缺的一部分,能直接帮助用户从视频画面中提取出“人”的信息,这大大提升了监控系统的价值,让监控系统不再是“呆板”的去录像,而且让它去“认人”。
5、医疗
未来,将图像识别技术应用到医疗领域,可以更精准更快速地分辨X光片、MRI和CT扫描图片,上至诊断预防癌症,下至加速发现治病救命的新药。一个放射科医生一生可能会看上万张扫描图像,但是,一台计算机可能会看上千万张。让计算机来解决图像的问题,这听起来并不疯狂。
6、交通系统
近年来,伴随着城市的飞速发展,城市内人口急剧增加,汽车拥有量持续提高,由此引发了一系列的交通安全和交通拥堵问题。因此,近年来,图像识别技术被广泛应用于交通运输领域,交通违章监测、交通拥堵检测、信号灯识别以提高交通管理者的工作效率,更好的解决城市交通问题。
此外,在机器人、无人家、自动驾驶、军事、工业化生产线、食品检测、教育、古玩、地质勘探等行业中,图像识别也有不同程度的应用。
文字识别(一)
文字识别是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的重要组成部分,本文将以上图为主要线索,简要阐述在文字识别领域中的各个组成部分(更侧重传统非深度学习端到端方案)。
一,文字识别简介
计算机文字识别,俗称光学字符识别,英文全称是OpticalCharacterRecognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。
在OCR技术中,印刷体文字识别是开展最早,技术上最为成熟的一个。早在1929年德国科学家Taushek就取得了一项光学字符识别(OpticalCharacterRecognition,简称OCR)的专利131。欧美国家为了将浩如烟海、与日俱增的大量报刊杂志、文件资料和单据报表等文字材料输入计算机进行信息处理,从上世纪50年代就开始了西文OCR技术的研究,以便代替人工键盘输入。经过40多年的不断发展和完善,并随着计算机技术的飞速发展,西文OCR技术现已广泛应用于各个领域,使得大量的文字资料能够快速、方便、省时省力和及时地输入到计算机中,实现了信息处理的“电子化”。
与印刷体西文OCR相比,印刷体汉文OCR技术的研究是在印刷体数字识别和印刷体英文识别的基础上发展起来的,最早可以追溯到上世纪60年代。1966年,BIM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法,识别了1000个印刷体汉字。从上世纪70年代以来,日本学者在汉文OCR方面做了许多研究工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个单体印刷汉字的识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷体汉字识别系统。这些系统在方法上,大都采用基于K-L数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,所以并没有得到广泛应用。
与国外相比,我国的印刷体汉字识别研究是从上世纪70年代末起步的,至今己有近三十年的发展历史,大致可以分成如下三个阶段:
1)探索阶段(1979一1985)
在对数字、英文、符号识别研究的基础上,自上世纪70年代末,国内就有少数单位的研究人员对汉字识别方法进行了探索,发表了一些论文,研制了少量模拟识别软件和系统。这个阶段漫长,成果不多,但是却孕育了下一个阶段的丰硕果实。
2)研制阶段(1986~1988)
1986年初到1988年底,这三年是汉字识别技术研究的高潮期,也是印刷体汉字识别技术研究的丰收期。总共有11个单位进行了14次印刷体汉字识别的成果鉴定,这些系统对样张识别能达到高指标:可以识别宋体、仿宋体、黑体、楷体,识别的字数最多可达6763个,字号从3号到5号,识别率高达99.5%以上,识别速度在286微机条件下能够达到10~14字/秒,但对真实文本识别率大大下降,这是由于以上系统对印刷体文字形状变化(如文字模糊、笔划粘连、断笔、黑白不均、纸质质量差、油墨反透等等)的适应性和抗干扰性比较差造成的。但是这三年研制的识别系统为印刷体汉字识别系统的实用化打下了基础,是识别系统从研制到实用化必经的过程。
3)实用阶段(1989一至今)
印刷体汉字识别自1986年掀起高潮以来,清华大学电子工程系、中国科学院计算所智能中心、北京信息工程学院、沈阳自动化研究所等多家单位分别研制并开发出了实用化的印刷体汉字识别系统。尤其是由清华大学电子工程系研制的清华TH一OCR产品和由汉王集团开发的尚书OCR产品,它们始终都处于技术发展的最前沿,并占据着最大的市场份额,代表着印刷体汉字识别技术的发展潮流。目前,印刷体汉字识别技术的研究热点已经从单纯的文字识别转移到了表格的自动识别与录入,图文混排和多语种混排的版面分析、版面理解和版面恢复,名片识别,金融票据识别和古籍识别等内容上。并且出现了许多相关的识别系统,如:紫光文通推出的名片识别系统(e一card)、身份证识别系统(e验通)和“慧视”屏幕文字图像识别系统等等。这些新的识别系统的出现,标志着印刷体汉字识别技术的应用领域得到了广阔的扩展。
国家高技术研究发展“863”计划、国家重点科技攻关计划、国家自然科学基金和军事基础研究基金都对印刷体汉字识别这一研究课题予以极大的重视和大力的支持。目前,印刷体汉字识别和联机手写汉字识别走向实用化,其技术水平和当前世界最高水平并驾齐驱。
这篇文章将对OCR技术进行分类描述,并介绍一些在OCR领域中较常使用的算法,由于个人主要参与的项目实践与印刷体识别较为相关,所以对于其他领域的描述若有不当之处,请大家指正,希望本文的介绍会让大家对OCR的整个流程有一个简要的概念。
二,印刷体文字识别
OCR技术的兴起便是从印刷体识别开始的,印刷体识别的成功为后来手写体的发展奠定了坚实的基础。印刷体识别的主要流程大致分为以下几个部分:图像预处理;版面处理;图像切分;特征提取、匹配及模型训练、匹配;识别后处理。
2.1图像预处理
输入文本经过扫描仪进入计算机后,由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前,所以被称为预处理。预处理一般包括灰度化、二值化,倾斜检测与校正,行、字切分,平滑,规范化等等。
2.1.1灰度化
通过外设采集的图像通常为彩色图像,彩色图像会夹杂一些干扰信息,灰度化处理的主要目的就是滤除这些信息,灰度化的实质其实就是将原本由三维描述的像素点,映射为一维描述的像素点。转换的方式和规则有很多,在这里不详细介绍。
2.1.2二值化
经过灰度处理的彩色图像还需经过二值化处理将文字与背景进一步分离开,所谓二值化,就是将灰度值(或者彩色值)图像信号转化成只有黑(l)和白(0)的二值图像信号。二值化效果的好坏,会直接影响灰度文本图像的识别率。二值化方法大致可以分为局部阈值二值化和整体阈值二值化。目前使用较多的日本学者大津提出的“大津法”
2.1.3倾斜校正
印刷体文本资料大多是由平行于页面边缘的水平(或者垂直)的文本行(或者列)组成的,即倾斜角度为零度。然而在文本页面扫描过程中,不论是手工扫描还是机器扫描,都不可避免地会出现图像倾斜现象。而倾斜的文档图像对后期的字符分割、识别和图像压缩等工作将产生很大影响。为了保证后续处理的正确性,对文本图像进行倾斜检测和校正是十分必要的。
文本图像的倾斜校正分为手动校正和自动校正两种。手动校正,是指识别系统提供某种人机交互手段,实现文本图像的倾斜校正。自动校正,是指由计算机自动分析文本图像的版面特征,估计图像的倾斜角度,并根据倾斜角度对文本图像进行校正。
目前,文本图像的倾斜检测方法有许多种,主要可以划分为以下五类:基于投影图的方法,基于Hough变换的方法,基于交叉相关性的方法,基于Fourier变换的方法和基于最近邻聚类方法。
最简单的基于投影图的方法是将文本图像沿不同方向进行投影。当投影方向和文字行方向一致时,文字行在投影图上的峰值最大,并且投影图存在明显的峰谷,此时的投影方向就是倾斜角度。
Huogh变换也是一种最常用的倾斜检测方法,它是利用Hough变换的特性,将图像中的前景像素映射到极坐标空间,通过统计极坐标空间各点的累加值得到文档图像的倾斜角度。
Fourier变换的方法是利用页面倾角对应于使Fourier空间密度最大的方向角的特性,将文档图像的所有像素点进行Fourier变换。这种方法的计算量非常大,目前很少采用。
基于最近邻聚类方法,取文本图像的某个子区域中字符连通域的中心点作为特征点,利用基线上的点的连续性,计算出对应的文本行的方向角,从而得到整个页面的倾斜角。
2.1.4规范化
规范化操作就是将输入的任意尺寸的文字都处理成统一尺寸的标准文字,以便与己经预先存储在字典中的参考模板相匹配。规范化操作包括1211:位置规范化、大小规范化以及笔划粗细规范化。在本节只讨论位置规范化和大小规范化。
为了消除文字点阵位置上的偏差,需要把整个文字点阵图移动到规定的位置上,这个过程被称为位置规范化。常用的位置规范化操作有两种,一种是基于质心的位置规范化,另一种是基于文字外边框的位置规范化。基于文字外边框的位置规范化需要首先计算文字的外边框,并找出中心,然后把文字中心移动到指定的位置上来。基于质心的位置规范化方法抗干扰能力比基于文字外边框的位置规范化方法要强。
使用基于文字外边框的位置规范化方法对文字进行位置规范化的操作结果,如下图所示。
对不同大小的文字做变换,使之成为同一尺寸大小,这个过程被称为大小规范化。很多已有的多字号印刷体识别系统都是通过大小规范化来识别不同字号的文字。常用的大小规范化操作也有两种,一种是将文字的外边框按比例线性放大或缩小成规定尺寸的文字,另一种是根据水平和垂直两个方向上文字黑像素的分布情况进行大小规范化。
使用根据水平和垂直两个方向上文字黑像素的分布情况方法对文字进行大小规范化操作的效果,如下图所示。
2.1.5图像平滑
文本图像经过平滑处理之后,能够去掉笔划上的孤立白点和笔划外部的孤立黑点,以及笔划边缘的凹凸点,使得笔划边缘变得平滑。一种简单的平滑处理方法如下。采用NxN窗口(N一般为3,如图2-1所示是一个3X3窗口),依次在二值文字点阵中进行扫描,根据窗口中黑白像素的分布情况,使处于窗口中心的被平滑像素X,从“0”变成“1”或者从“l”变成“0”。
该方法是按以下规则对文字轮廓边缘进行平滑的。
规则1如果满足图2-2中(a),(b),(c),(d)四种情况中的任何一种,则中心点应该由“0”变成“l”。
规则2如果满足图2-2中(e),(f),(g),(h)四种情况中的任何一种,则中心点应该由“1”变成“0”。
2.2版面处理
通常版面处理分为三个主要部分,版面分析、版面理解、版面重构。
2.2.1版面分析
将文本图像分割为不同部分,并标定各部分属性,如:文本、图像、表格。目前在版面分析方面的工作核心思想都是基于连通域分析法,后衍生出的基于神经网络的版面分析法等也都是以连通域为基础进行的。连通域是指将图像经过二值化后转为的二值矩阵中任选一个像素点,若包围其的所有像素点中存在相同像素值的像素点则视为两点连通,以此类推,这样的像素点构成的一个集合在图像中所在的区域即一个连通域。根据连通域大小或像素点分布等特征可以将连通域的属性标记出来,用作进一步处理的依据。
2.2.2版面理解
获取文章逻辑结构,包括各区域的逻辑属性、文章的层次关系和阅读顺序。根据版面分析时记载的连通域位置信息,确定连通域归属序列。
2.2.3版面重构
根据版面分析和OCR的结果,重构出包含文字信息和版面信息的电子文档。
2.3图像切分
图像切分大致可以分为两个个主要类别,行(列)切分和字切分。经过切分处理后,才能方便对单个文字进行识别处理。如下图所示。
2.3.1行列切分
由于印刷体文字图像行列间距.、字间距大致相等,且几乎不存在粘连现象,所以可以采用投影法对图像进行切分,得到每列(行)在坐标轴的像素值投影曲线是一个不平滑的曲线,通过高斯平滑后的曲线在每个波谷位置间的区域即为要的一行(列)。
2.3.2字切分
字切分对于不同的文种存在着比较明显的差异,通常意义下,字切分是指将整行或整列文字切分成独立的一个个文字,而实际上根据文种差异,可能还需需要将单个文字进行进一步切分。而因为文种不同,构词法或钩字法也有所不同,所以切分方法的难度差别也是天壤之别。例如将汉字“屋”切分开的难度和将英文“house”切分开的难度差别就很大,因此在识别模式上,也会根据文种特性,设计不同的识别方法。
2.4特征提取与模型训练
在深度学习广泛应用于图像识别领域之前,模板匹配是较为常见的一种识别方式,之后由于神经网络的复苏,基于反馈的神经网络给OCR领域带来了又一春。现在随着计算机硬件算力的提升,利用大批数据训练深度神经网络在图像识别方面取得了傲人的成绩。
2.4.1特征提取及匹配
特征提取是从单个字符图像上提取统计特征或结构特征的过程。所提取的特征的稳定性及有效性,决定了识别的性能。对于统计特征的提取,可利用统计模式识别中的特征提取方法,而对结构特征的提取,应根据具体文字所确定的识别基元确定相应的特征提取方法。在相当长的文字识别的研究过程中,是利用人们的经验知识,指导文字特征的提取。例如边缘特征、变换特征、穿透特征、网格特征、特征点特征、方向线素特征等等。
特征匹配是从已有的特征库中找到与待识别文字相似度最高的文字的过程。当待识别文字提取完特征之后,不管使用的是统计特征,还是结构特征,都需要有一个特征库来进行比对,特征库中应包含欲识别字符集中所有文字的特征。特征匹配的方法有很多,比较常用的有:欧式空间的比对法、松弛比对法、动态程序比对法以及HMM(HiddneMarkovModel)法等等。在神经网络出现之前以及之后很长一段时间,在汉字OCR领域,一直采用的就是这种模板匹配的方法。
2.4.2模型训练
人工神经网络经过一段时间的发展在OCR中主要充当了分类器的作用,网络的输入为文字特征向量,输出是类编码,在识别类型较少且结构区分较为明显的文字识别中,特征向量通常为字符图像像素点的矩阵,这样特征提取相当于是一个黑盒的操作,对于原理的解释有很多,这里不做详细介绍。深度学习已经成功应用于OCR领域,深度学习的发展替代了繁重的特征工程,从大量标记预料中自动学习出图像的特征,其中CNN(卷积神经网络)尤为抢眼,除了省去人工特征提取的流程外,共享权值的方式也减少了权值数量,大幅减少了计算开销,它的两大优势使得CNN在OCR领域表现十分卓越。
2.4.3识别方式
随着用户数量及需求的增加,识别效率也成为OCR工程化的一项重要指标。传统方法,会对服务器性能要求较高,这样使得投入成本较高且不易扩展;在Hadoop出现之后,该问题得到了较好的改善,通过MapReduce编程框架,使得企业需要为之投入的硬件成本大幅减少,对OCR的发展提供了有力的推动作用。
2.5识别后处理
识别后处理主要应用于两个方面分别是版面恢复及识别校正。版面恢复在版面处理章节已经讲过,这里不再赘述。识别校正,主要方式是在识别结果基础上根据语种的语言模型进行,当然在单文种识别中相对容易一些,而在多语种则较为复杂。
三,手写体文字识别
手写体识别较印刷体识别难度较高,而在手写体识别中脱机手写体识别难度又比联机手写体识别高。这也是脱机手写体识别还未成功应用的主要原因。
联机手写体文字识别(on-linehandwrittencharacterrecognition)又被称为实时(或者在线)手写体识别,即:人在书写文字的同时,机器根据所书写文字的笔划、笔顺等特征进行识别。联机手写体文字识别是依靠电磁式或压电式等手写输入板来完成的,当用户使用光笔在输入板上写字的时候,光笔在板上的运动轨迹(板上的坐标)会被转化为一系列的电信号,这些电信号能够串行地输入到计算机中,从这些电信号我们可以比较容易地抽取笔划和笔顺的信息,从而进行文字识别。从上世纪90年代以来,联机手写体文字识别正逐步走向实用。中国的科研工作者推出了多个联机手写体汉字识别系统,国外的一些大公司也开始进入这一市场。这一技术也迎合了PDA(PersonalDigitalAssistant)的发展潮流。
脱机手写体文字识别(off-linehandwrittencharacterrecognition)又被称为离线手写体文字识别:由书写者预先将文字写在纸上,然后通过扫描仪转换成文字图像,再由计算机识别成相应文字。由于每个人书写习惯的不同,所以脱机手写体文字的类型是多种多样的,而且既便同一个人在不同情况下写出来的文字也会有变化,这些都给脱机手写体文字识别带来了巨大的困难。对于脱机手写体文字识别而言,如果对文字的书写不加以任何限制(即自由手写体文字),则识别难度相当大。
对于脱机手写体文字识别处理流程和技术手段大致和印刷体识别相似,但是由于手写体随意性较大,因此对文字图像的行列切分、字切分带来了较大的困难,根据文种不同,切分的方法也有所不同,例如:在手写体蒙古文字中内蒙古大学的研究学者采用了一种基于字符外接多边形的寻找切分点的字切分算法,取得了不错的切分效果。
对于联机手写体识别的处理流程,主要是利用笔划顺序作为序列模型,加上字符结构特征、笔顺方向特征、笔画数量特征作为空间模型,的组合式模型,完成识别任务。
四,应用案例
4.1印刷体识别应用
印刷体识别引用扩展较多,且技术发展较为成熟,无论在识别准确率方面还是在识别效率方面,都达到了较高的标准。
4.1.1车牌识别
车牌识别系统是OCR工业化应用较早而且成功的典型案例,如今从停车场到小区门禁,车牌识别技术已走进生活的各个角落。车牌识别的成功,归结为以下几个原因;
1、识别内容是封闭集合,且集合较小
2、文字字体、大小较为规范
3、文字间距均匀,噪音较少
4.1.2Tesseract
Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。
数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。
Tesseract目前已作为开源项目发布在GoogleProject,其最新版本3.0已经支持中文OCR,并提供了一个命令行工具。
4.1.3验证码识别
验证码的主要目的是强制人机交互来抵御机器自动化攻击的。验证码作为一种辅助安全手段在Web安全中有着特殊的地位,验证码安全和web应用中的众多漏洞相比似乎微不足道,但是千里之堤毁于蚁穴,有些时候如果能绕过验证码,则可以把手动变为自动,对于Web安全检测有很大的帮助。
全自动区分计算机和人类的图灵测试(英语:CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart,简称CAPTCHA),俗称验证码,是一种区分用户是计算机和人的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。
对于文字识别技术只适用于字符型验证码识别工作,除此之外还需要对不同验证码设计相应的去噪算法等。
4.2手写体识别应用
4.2.1文通笔(联机手写)
笔顺和连笔是影响联机手写汉字识别系统识别率的两个主要因素。前面讲过,解决笔顺问题的方法有二:一是对使用者提出严格的要求,希望他们按“标准”的笔顺、一笔一画地写字。这种要求,实际上很难做到。这是因为,事实上我国还没有统一的笔顺标准或规定;即使有一种标准,每个人的受教育程度和习惯不尽相同,要求做到都按标准笔顺写字,实际上几乎是不可能的。另一种办法是:对于容易出现笔顺不同的每一个汉字,设置若干标准模板。例如“女”字,有的人先写“く”笔,有的人则先写“一”笔,这个字就可能有两种不同的笔顺。在“字典”中可设置两个模板,它们的笔画相同,而笔顺不一样,但都代表“女”字。这样做会使字典的容量大大增加。在集成电路规模还不够大、速度也不够高的年代,这种办法不容易推广应用。
连笔是一个更为困难的问题,实际上也很难解决。人们为了提高书写速度,写字时往往是一笔呵成。要求他们一笔一画、按部就班地书写,也几乎是不可能的。这个问题比笔顺问题更不易处理,这是目前市场上出售的笔式输入装置的识别率尚难进一步提高的主要原因。
近几年投入市场的“文通笔”在解决上述笔顺和连笔的两个问题上做了一些努力,取得了一些成果,并在全国评测中获得较好的评价。取得这些进展的原因,一方面是由于计算机技术的迅速发展,机器资源已经不是制约识别算法的主要矛盾,设计者不必过分担心计算机的容量和速度的问题,可以更大胆地设计一些具有较高的抗干扰能力的算法;另一方面,在识别算法上,文通笔的研制者提出了一种富有创造性的结构法与统计法相结合的新技术,较好地解决了单纯的结构识别方法难以适应手写汉字字形及笔顺变化的问题。下面扼要介绍这种算法的要点。
上面讲过,结构模式识别比较充分地描述被识别对象的结构信息。但是这种方法也有不少缺点:
①模式的描述是基于符号而不是基于数值,抗干扰能力差。
②描述基元关系的语法规则一般需由人工编写,难以利用机器自学习方法获得。
③句法分析较为复杂,运算量大。
针对上述问题,文通笔在汉字字形建模方面做了一些创新性工作,包括:
①在比较严格的概率基础上建立了一种模式统计模型,可用于描述联机手写字形的空间信息,并易于用统计方法进行训练,建立手写汉字的二维模型。
②对隐马可夫模型(HMM)做了改进,提出控制状态转移路径的概念,使模型较适用于联机手写汉字的描述,较好地反映手写汉字的时间信息,还给出了这种模型的路径搜索算法及参数训练方法。
③将上述两种模型结合起来,用于联机手写汉字识别,在很大程度上解决了连笔和笔顺变化对识别系统性能的影响,使系统具有较高的鲁棒性。
采用上述方法研制成功的“文通笔”,在近年两次“863计划”智能机主题专家组组织的评测会上名列前茅。系统可识别6763个简体汉字和5401个繁体汉字,对于书写比较工整的字,识别率在95%~99%之间;书写比较潦草的字也可达到87%~93%,前十位累加识别率仍达98%~99%;采用主流微机的识别速度大于3字/秒,能满足实际应用要求。
4.2.2古籍识别(脱机手写体识别)
目前脱机手写体识别的主要应用方向在于古籍识别,在印刷术发明之前,古人传承书籍的方式主要依靠抄写,在印刷术发明之后,使用人力抄写的书籍数量减少,但信件、奏折类的包含大量手写体文字的载体依然不少。而使用人力来完成这些书信的电子化转储工作十分费力,因此,针对古籍中文字进行识别的科研需求应运而生。
但是,由于古籍在保存中难免会遭到人为或非人为的损坏,导致字迹不清、残损的情况屡见不鲜,加之,手写体自身可能存在的较大差异性,使得古籍文字识别的工作难上加难。因此,对于脱机手写体识别的应用尚未出现未成功的案例。
中文OCR技术的研究与应用
一、OCR的历史
OCR(OpticalCharacterRecognition)的概念诞生于1929年,由德国的科学家Tausheck首先提出,并且申请了专利。几年后,美国科学家Handel也提出了对文字进行识别的想法,但这种梦想直到计算机诞生后才变成为现实。现在这一技术已经由计算机来实现,OCR的意思也就演变成为利用光学技术对文字和字符进行扫描识别,并将其转化为计算机内码。
根据资料记载,第一个OCR软件是在1957年开发的ERA(ElectricReadingAutomation)。它是基于窥视孔方法实现的,识别的速度是每秒120个英文字母。在此以后,世界范围内广泛地进行着OCR技术的研究和开发工作。从OCR技术的发展历程来看,可分为三个阶段:
第一阶段:第一代OCR产品出现于60年代初期,NCR公司、Farrington公司、IBM公司分别研制出了自己的OCR软件。最早的OCR产品应该是IBM公司的IBM1418。它只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。60年代末,日立公司和富士通公司也分别研制出各自的OCR产品。
第二阶段:第二代OCR产品是基于手写体字符的识别,前期只限于手写体数字的识别,从时间上来看,是60年代中期到70年代初期。IBM公司于1965年便在“纽约世界博览会”上展出了其OCR产品-IBM1287。第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后NEC公司也推出了同样的系统。到1974年,信函的分拣率达到92%~93%,并且广泛地应用在现实生活中,发挥着较好的作用。
第三阶段:第三代OCR产品主要解决的技术问题就是对于质量较差的文档及大字符集的识别,例如汉字的识别。最先投入汉字识别研究的日本东芝公司,于1983年发布了其识别印刷体日文汉字的OCR系统-OCR-V595,其识别速度为每秒70~100个汉字,最高识别率达到99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作,经过不断改进,针对手写印刷体日文汉字的识别现在已经达到实际应用水平。
我国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究;70年代末开始进行汉字识别的研究;到1986年汉字识别的研究进入一个实质性阶段,取得了较大的成果。
二、中文OCR
进入信息社会后,计算机已经渗透到人们生活的方方面面,如何将大量的纸制文字信息快速准确地输入到计算机是我国实现信息化的一个技术"瓶颈",中文OCR系统使中文输入工作高速化、自动化及高准确度,为建立各种信息库提供了基础条件。我国政府从七五科技攻关计划开始到现在的863计划一直长期支持中文OCR的研发,是中文OCR技术进步的最重要推动力。从80年代中期开始,国内开始了中文OCR的研究热潮,到90年代中期,国内外共有10多家单位(包括汉王公司、国外的IBM、HP公司)相继推出了各自的中文OCR系统,达到可初步实用化的水平。
从中文OCR技术的发展来看,其研发与应用经历了如下几个阶段:
⑴印刷体单字体识别,支持国标一级汉字3755字、繁体5401字,简繁体和字体由用户指明,识别率在95%左右;
⑵印刷体多字体识别,支持国标一级汉字3755字,繁体5401字,简繁体由用户指明,宋仿楷黑四体混合识别,识别率在95%左右,对质量较差的印刷文稿的识别率会明显下降,印刷体表格的识别系统开始出现;
⑶多字体大字符集简繁混排、中英文混排识别,支持国标二级汉字6763字、繁体5401字、香港常用字等1万多字,识别字体扩充到常见的十多种字体,识别率在99%左右,对质量较差的印刷文稿的识别率有较强的适应性,脱机手写数字识别和印刷体表格识别系统进入实用化阶段;
⑷各种应用系统开始推出,如名片识别系统、汉王文本王、银行票据识别系统、增值税发票识别认证系统等。
但由于新世纪初中文OCR的识别率偏低,用户满意度低,几乎没有OCR的行业应用项目,随着国内信息化建设的进展,市场迫切需要解决多字体大字符集、中英文混排、简繁混排、表格识别的识别率和识别速度问题,版面的理解与还原问题,识别系统对各种应用需求的适应性问题以及用户使用的方便性问题。
三、汉王中文OCR
1、技术研究的总体思路
汉王中文OCR技术研究的总体思路是先突破关键技术,并采用软硬结合的方式,推进光电设备向专业应用发展,然后在零售市场、行业应用、技术授权方面面向用户推出实用化的应用系统。
(1)聚焦核心,突破关键技术
– 超大类字符集识别
从识别特征选择与变换、分类器设计及集成等方面解决汉字多字体、大字符集的识别问题;
基于SVM的语言分类器区分中英文;
高精度脱机手写体汉字、数字识别;
– 表格识别与还原
采用模糊直线拟合技术解决虚线、断线等问题。
– 复杂背景、复杂版面分析的理解与还原
报纸、杂志、票据、名片、证照、信封等;
视频图像中复杂背景下文字搜索与识别;
– 嵌入式OCR
克服空间小、CPU速度慢等条件的限制,实现在手机等移动终端中的应用。
(2)软硬结合,推进光电设备向专业应用发展
– 用于增值税发票识别、银行票据识别等的高速扫描仪
– 用于证照识别、名片识别等的专用小型扫描仪
– 用于车牌号码识别的嵌入式摄像设备
– 用于智能手机名片识别的摄像头改进
(3)多方推进,零售市场、行业应用、技术授权并举
– 零售市场
文本王、名片通、OCR录入工厂(海量文献自动录入系统)
– 行业应用
增值税发票识别、证照识别、银行票据识别、邮政地址识别、车牌号码识别、工业系统中OCR如:硅晶片OCR
– 技术授权
OCRSDK、扫描仪OCR捆绑版、智能手机嵌入式OCR识别
2、应用系统
在上述核心技术取得突破的基础上,汉王针对不同的用户需求在零售市场、行业应用、技术授权方面开发了实用化的应用系统。
"汉王OCR表格文字识别系统":该系统是汉王OCR为扫描仪捆绑销售定制的普及版本,市面上70%以上的扫描仪都配有该版本,比较常见的子版本有“汉王OCR5.0”、“汉王OCR6.0”、“尚书五号”、“尚书六号”、“尚书七号”,能识别简体二级字、繁体5401字和英文,可以处理彩色、灰度、二值图像,对普通的文档有很高的识别率,还具有版面还原功能,能满足普通办公与家庭用户的非专业录入需求。
“汉王名片通5.0”:精选掌上名片扫描仪,应用汉王OCR先进的版面分析、中英文识别技术,并采用基于几何结构知识以及语义知识加权组合的综合决策机制来理解名片信息项。系统能够自动扫描、识别、理解出名片中各条信息项,并将之输入到相应数据库中,输入速度可达每分钟10-15张名片。“汉王名片通5.0”同时还可以将名片资料发送到Outlook、OutlookExpress等现有的名片管理软件中,并可以将名片信息发送到商务通、名人、快译通、Palm、WinCE等掌上电脑中。专家鉴定委员会认为:“汉王名片通”识别率高、使用方便、功能丰富实用,整体技术水平为国际领先,同意通过鉴定。新推出的“汉王名片通6.0”增加了名片多级目录的管理功能,并提高了英文名片信息理解的准确率。
“汉王复杂表格理解软件系统”:包括表格模板定义模块和表格识别模块,表格模板定义模块提供了灵活方便的界面,方便用户自定义各种表格模板;表格识别模块通过识别找到图像中的模板区域,按照模板的设置识别表格的填充内容,并将最终识别结果按照模板的设置有机地组织起来,便于进一步使用。表格模板定义模块和表格识别模块相互独立,通过模板文件互相关联。系统可以处理黑白、灰度、彩色图像文件,可以识别印刷体数字、印刷体汉字、自由手写体数字、大写金融数字、条形码等各种类型的内容。系统采用了模糊直线拟合技术,可以有效解决虚线、断线等问题;在表格识别算法中,利用表格线段的拓扑关系处理不同印刷批次之间的表格差异;在色彩提取时,采用色彩聚类法处理印刷或扫描造成的色彩偏差;在识别内容的预处理时,采用底纹分析法去除各种噪音的干扰;在手写金融数字的切分识别中,引入语义信息来指导切分,并针对手写体和印刷体分别采用不同的特征组合方法,集成多个核心来提高字符识别率和识别的可信度。此系统衍生出面向银行的“汉王银行票据识别系统”、面向金税工程的“汉王增值税发票识别认证系统”和面向金盾工程的“汉王OCR证照识别系统”,得到了很好的应用。
“汉王增值税发票识别认证系统”:1998年项目组了解到国家金税工程中防伪税控认证工作费时费力后,经过多方面的考证与分析,率先提出了通过高速扫描仪扫描并识别税票的各项要素的识别方案,从而能自动完成税票的解密(通过金税卡)和比对工作,大幅度提高认证的速度和效率。经过采集大量的现场税票票据进行分析后,项目组克服了实际票据倾斜、噪声污染、位置偏差较大及部分发票发淡等困难,设计实现了增值税票内文字的提取算法和强噪声条件下小字符集高识别率识别核心,并在此技术上开发出“汉王增值税发票识别认证系统”。该系统能够适应市面上的几乎所有高速扫描仪和平板扫描仪扫描的税票图像,经实际测试对票面良好的增值税发票整张识别率在90%以上(每张发票上均有160个字符需要识别,整张识别率是指发票上160个字符全部识别正确的比率),识别速度2秒/张,能够满足大量票据的自动准确录入需求;2001年“汉王增值税发票识别认证系统”和汉王高速扫描仪中标国税总局24省市金税招标项目,到目前为止项目实施情况良好,每年录入发票超过亿张,目前面向企业应用的版本的销量也已超过1万套。
“汉王文本王”:2002年开发成功“汉王文本王2.0”,利用汉王OCR先进的版面分析、版面还原技术和中英文识别技术,率先实现了“一键OK识别输出到WORD”的全自动识别模式,2004开发成功“多字体大字符集汉字、表格识别方法与系统(汉王文本王4.5版)”,系统在解决中英文混排、简繁混排、表格分析等问题上的创新主要反映在:⑴采用多特征组合优化和多识别内核集成方法,在多字体大字符集汉字识别的识别率和速度方面取得了突破性进展;⑵实现了一种基于SVM的语言分类器,有效地支持了中英文混排识别;⑶提出了一种实用的表格分析方案,有效地解决了表格线粘连及断线等问题。经鉴定委员会专家测试组测试得出:系统对多字体、多字号、大字符集、简繁混排、中英文混排的识别率为99.57%。鉴定委员会一致认为,该系统在识别方法和技术上有创新和突破,识别率高,识别速度快,实用性强,有效解决了中英文混排、多字体混排识别问题,在中文印刷体的识别率和识别速度等主要性能指标上达到国际领先水平,并一致同意通过成果鉴定。
“汉王OCR录入工厂系统软件”:是结合强大的网络功能实现流水线方式的数据加工系统,由客户端程序和服务器端管理程序两部分组成,客户端程序按照扫描、图像预处理、版面分析、识别、纵校、横校和版面还原保存七道工序进行操作;服务器端管理程序自动给各岗位分配任务、进行任务协调,并加入了科学的质量控制、岗位管理功能,使各客户端的任务既相互独立又形成完整、高效的生产流程。实际应用表明,流水线平均每人每班次生产10万字以上,整体差错量控制在万分之一以内,比手工录入的速度提高了5-8倍,录入质量和效率同步大幅度增长,为信息化建设提供了强大的数据加工方案。专家鉴定委员会一致认为:“汉王OCR录入工厂系统软件”是比较完善的信息资源加工工具,对图书、文献等信息资料的数字化建设,具有十分重要的意义,“汉王OCR录入工厂系统软件”生产效率高,实用性好,整体技术水平达到国际领先,同意通过鉴定。
"汉王邮政地址识别系统":由于国内邮政编码使用不规范,基于邮政编码的信函分拣技术在国内遇到了很大的困难,该系统实现了结合邮政编码识别和地址识别的信函分拣解决方案,包括按照预处理,手写信函与印刷体信函分类,版面分析,邮政编码识别,地址行分割与单字切分,单字识别,地址与邮编校对几个步骤。采用基于概率子空间的两类分类器区分手写信函与印刷体信函,采用聚类法进行行分割,采用动态规划方法进行单字分割,采用多分类器集成的单字识别方法,采用统计语言模型提高地址识别正确率。
“汉王嵌入式OCR系统”:该系统采用曲线拟合的非线性归一化方法,然后融合梯度方向特征和外轮廓差分特征,在此基础上采用两层分类结构。第一层分类采用部分特征分类方法,第二层分类采用LVQ4方法来做识别模板类中心的微调。识别字符集为国标GB2312-1980的二级6763汉字、繁体5401汉字、香港常用汉字,数字和英文字符,识别字体包括宋体、仿宋体、楷体、黑体、圆体、隶书、隶变、魏碑、行楷、综艺等常见字体。识别核心占用空间1兆字节,识别率在98%以上,在100兆主频的CPU上,每秒钟能识别40-50个字符,基本解决了嵌入式系统中识别字典和识别速度所受到的限制问题。在此基础上,成功的开发了利用手机、数码相机等信息终端系统实现对文本的识别输入和名片的识别管理等功能。
3、实施效果
汉王经过多年艰苦的自主创新,在光学文字识别多项关键技术取得突破的同时,成功开发出多个面向行业及通用市场的产品,这些产品都成为名牌产品,市场份额均居领先地位,在办公自动化、银行、税务、数字图书馆、邮政分拣等行业得到了广泛应用,同时带动了扫描仪、智能手机等相关行业的发展。
汉王OCR的项目成果使我国的OCR技术及应用走到了世界的前列,尽管IBM、HP、日立、东芝、夏普、NEC、理光等国外公司曾经巨额投入该领域,但是汉王的技术领先性迫使他们退出了竞争。
汉王OCR的技术路线是先突破关键技术,同时重视软硬件的有机结合,然后面向用户推出实用化的应用系统。从实施效果来看,这种思路非常适合现阶段我国软件产业的现状,并为推动我国自主知识产权软件的发展壮大做了有益的探索。
四、汉王OCR与当前国内外同类技术的比较
目前从事汉字识别技术研究的单位主要在中国大陆和台湾、新加坡、美国等地,公司主要有汉王科技、北京文通、台湾蒙恬、台湾力新和新加坡热卡公司。汉王公司率先推出多字体大字符集简繁混识的识别核心,能够识别常见的十几种字体及其变体,识别字符集包括简体中文6763字、繁体中文5401字、香港常用字等1万多字,各种字体的识别率都在99%以上。
在2000年CHIP新电脑杂志组织的6款中文OCR的横向测试评比中“汉王OCR新世纪版”获得14个单项中的11项第一名、3项第二名和总分第一名的优异成绩,同时参加评测的还有市场上所有中文OCR。
2001年开发成功的“汉王名片通5.0”支持简繁混排的中文名片识别,同期其它中文名片识别系统(如蒙恬名片王、维优名片管家)不支持简繁混排识别。
汉王OCR的行业应用系统"汉王银行票据识别系统"、"汉王增值税发票识别认证系统"、"汉王OCR录入工厂软件系统"、“汉王OCR证照识别系统”,都在应用部门的技术评测中得到认可。
在嵌入式OCR研究中,简繁混识的多字体大字符集汉字识别核心的识别字典已能压缩至2M字节,2004年经过Nokia公司组织的竞争测试后赢得技术合作合同,参加测试的还有国内另一家公司和新加坡热卡公司。汉王嵌入式OCR技术在2005年又取得了新的突破,多字体大字符集汉字识别字典已能压缩至1M字节,并与Nokia签定了长达7年的合作合同,同时,采用汉王嵌入式OCR技术的LG手机也已开始上市销售。
汉王OCR技术的项目成果已累计实现销售收入近3亿元,汉王公司已成为国内外文字识别系统零售产品、行业应用和技术授权的主要提供商。