博舍

一文读懂|图片文字识别的技术核心OCR是怎么回事 文字识别技术原理

一文读懂|图片文字识别的技术核心OCR是怎么回事

识别文字前,我们要对原始图片进行预处理,以便后续的特征提取和学习。这个过程通常包含:灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤。每一个步骤都涉及了不同的算法。

灰度化(grayprocessing):说通俗一点,就是将一张彩色图片变为黑白图片。在RGB模型中,如果R=G=B时,则彩色表示一种灰度颜色,其中R=G=B的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值),灰度范围为0-255。灰度化一般有分量法、最大值法、平均值法、加权平均法四种方法对彩色图像进行灰度化。二值化(binaryzation):一幅图像包括目标物体、背景还有噪声,要想从多值的数字图像中直接提取出目标物体,最常用的方法就是设定一个阈值T,用T将图像的数据分成两部分:大于T的像素群和小于T的像素群。这是研究灰度变换的最特殊的方法,称为图像的二值化。二值化的黑白图片不包含灰色,只有纯白和纯黑两种颜色。二值化里最重要的就是阈值的选取,一般分为固定阈值和自适应阈值。比较常用的二值化方法则有:双峰法、P参数法、迭代法和OTSU法等。图像降噪(ImageDenoising):图像中噪声的来源有许多种,这些噪声来源于图像采集、传输、压缩等各个方面,会极大干扰到我们程序对于图片的切割和识别,因此我们需要降噪处理。噪声的种类也各不相同,比如椒盐噪声、高斯噪声等,针对不同的噪声有不同的处理算法,降噪算法的好坏对特征提取的影响很大。图像降噪的方法一般有均值滤波器、自适应维纳滤波器、中值滤波器、形态学噪声滤除器、小波去噪等。倾斜矫正:对于用户而言,拍照的时候不可能绝对的水平,所以需要通过程序将图像做旋转处理,来找一个认为最可能水平的位置,这样切出来的图才有可能是最好的一个效果。倾斜矫正最常用的方法是霍夫变换,其原理是将图片进行膨胀处理,将断续的文字连成一条直线便于直线检测,计算出直线的角度后就可以利用旋转算法,将倾斜图片矫正到水平位置。文字切分:对于一段多行文本来讲,文字切分包含了行切分与字符切分两个步骤,倾斜矫正是文字切分的前提。将倾斜矫正后的文字投影到Y轴,并将所有值累加,这样就能得到一个在y轴上的直方图。直方图的谷底就是背景,峰值则是前景(文字)所在的区域,于是我们就将每行文字的位置给识别出来了。字符切分和行切分类似,只是这次要将每行文字投影到X轴。

图片预处理完毕后,就到了文字识别的阶段。

特征提取和降维:特征是用来识别文字的关键信息,每个不同的文字都能通过特征来和其他文字进行区分。在确定了使用何种特征后,还有可能要进行特征降维,这种情况下,如果特征的维数太高,分类器的效率会受到很大的影响,为了提高识别速率,往往就要进行降维。这个过程也很重要,既要降低特征维数,又得使得减少维数后的特征向量还保留了足够的信息量(以区分不同的文字)。分类器设计、训练:对一个文字图像,提取出特征给分类器,分类器就对其进行分类,告诉你这个特征该识别成哪个文字。分类器的设计方法一般有:模板匹配法、判别函数法、神经网络分类法、基于规则推理法等。在进行实际识别前,往往还要对分类器进行训练,这是一个监督学习的过程。成熟的分类器也有很多,有SVM、CNN等。后处理:其实就是对于分类器的分类结果进行优化,这一般就要涉及自然语言理解的范畴了。举个例子,“分”和“兮”形近,但是如果遇到“分数”这个词语,就不应该识别为“兮数”,因为“分数”才是一个正常词语。这需要通过语言模型来进行纠正。

OCR的发展

针对这种简单的识别场景,我们首先考虑的识别策略当然是最为简单和暴力的模板匹配法。模板匹配法只限于一些很简单的场景,但对于稍微复杂的场景,那就不太实用了。针对传统OCR解决方案的不足,学界业界纷纷拥抱基于深度学习的OCR。

以深度学习兴起的时间为分割点,基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈(如文字定位、二值化和文字分割等),并已在工业界得到广泛应用。深度学习的出现,让OCR技术焕发第二春。

在深度学习时代,文字识别框架也逐渐简化,目前主流的方案主要有两种,一种是文本行检测与文字识别的两阶段方案,另一种是端到端的文字识别方案。

两阶段文字识别方案:主要思路是先定位文本行位置,然后再对已经定位的文本行内容进行识别。文本行检测从方法角度主要分为基于文本框回归的方法,基于分割或实例分割的方法,以及基于回归、分割混合的方法,从检测能力上也由开始的多向矩形框发展到多边形文本,现在的热点在于解决任意形状的文本行检测问题。文本识别从单字检测识别发展到文本序列识别,目前序列识别主要又分为基于CTC的方法和基于Attention的方法。

两阶段文字识别方案:主要思路是先定位文本行位置,然后再对已经定位的文本行内容进行识别。文本行检测从方法角度主要分为基于文本框回归的方法,基于分割或实例分割的方法,以及基于回归、分割混合的方法,从检测能力上也由开始的多向矩形框发展到多边形文本,现在的热点在于解决任意形状的文本行检测问题。文本识别从单字检测识别发展到文本序列识别,目前序列识别主要又分为基于CTC的方法和基于Attention的方法。

端到端文字识别方案:使用文字检测加文字识别两步法虽然可以实现场景文字的识别,但融合两个步骤的结果时仍需使用大量的手工知识,且会增加时间的消耗。而端对端文字识别能够同时完成检测和识别任务,极大的提高了文字识别的实时性。通过一个模型同时完成文本行检测和文本识别的任务,既可以提高文本识别的实时性,同时因为两个任务在同一个模型中联合训练,两部分任务可以互相促进效果。

端到端文字识别方案:使用文字检测加文字识别两步法虽然可以实现场景文字的识别,但融合两个步骤的结果时仍需使用大量的手工知识,且会增加时间的消耗。而端对端文字识别能够同时完成检测和识别任务,极大的提高了文字识别的实时性。通过一个模型同时完成文本行检测和文本识别的任务,既可以提高文本识别的实时性,同时因为两个任务在同一个模型中联合训练,两部分任务可以互相促进效果。

OCR文字识别还主要可以分为:印刷体文字识别和手写体文字识别。OCR技术的兴起便是从印刷体识别开始的,印刷体识别的成功为后来手写体的发展奠定了坚实的基础。

我国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究,70年代末开始进行汉字识别的研究,到1986年汉字识别的研究进入一个实质性的阶段。

中文OCR有普及版和专业版之分,现在市场上扫描仪捆绑的OCR软件均为普及版。目前印刷体OCR的识别技术已经达到可以实用的程度,即使对印刷质量较差的文字的识别率也达到95%以上。由于手写体OCR技术的限制,专业型OCR系统的产品多是面向特定的行业,即适用于每天需处理大量表格信息录入的部门,如邮政、税务、海关、统计等等。

这种面向特定行业的专业型OCR系统信息格式较为固定,识别的字符集相对小,经常与专用的输入设备结合使用,因此具有速度快、效率高等特点。在国外已经被广泛地应用,充分发挥着作用。在我国随着计算机应用的深入,这方面的需求已经出现。专业版OCR有批处理功能,性能更加优化,识别率也不同于普通版OCR。国家的"863计划"对OCR技术的研究给予了很大的资助,促进了OCR的重大成果的取得。

OCR技术的难点

OCR技术正在改变着我们的生活:比如一个手机APP就能帮忙扫描名片、身份证,并识别出里面的信息;汽车进入停车场、收费站都不需要人工登记了,都是用车牌识别技术;我们看书时看到不懂的题,拿个手机一扫,APP就能在网上帮你找到这题的答案。太多太多的应用了,OCR的应用在当今时代百花齐放、百家争鸣。

身份证识可以说是目前最火的识别项目。现在的技术发展到把身份证插到一个读卡器里,它会把这个身份证信息发到身份数据库里面把照片返还回来,并通过摄像头拍摄脸部信息,将拍摄信息与身份证直接对比。目前这项技术在住店、乘坐高铁等,安保人证票合一等场景里已经应用得越来越多。OCR文字识别技术的应用领域和价值:

智慧医疗

pdf文档转换为Word

无人驾驶

无纸化办公、稿件编辑校对

物流分拣

舆情监控

文档检索

字幕识别

文献资料检索等

智慧医疗

pdf文档转换为Word

无人驾驶

无纸化办公、稿件编辑校对

物流分拣

舆情监控

文档检索

字幕识别

文献资料检索等

车牌识别服务应用范围也比较广。一方面是停车,还有在高速进出口以及交通管理车辆的识别也采用了车牌OCR的识别。车牌OCR的识别主要的难点在于场景多样化以及前端采集设备的不可控,如果设备不是高清的设备放大之后会出现模糊的情况。

另外,驾驶证、行驶证两个证件的识别。OCR在这类证件服务领域最大的难点在于证件的反光,这类证件本身它会有一层膜,拍照的时候可能会有反光。预处理会成为OCR识别重要的模块,这种预处理方式一般都是为这种问题单独开发的,它需要高动态、标准的归一化过程,需要将识别部分归一成比较一致的图像。

银行卡也是OCR比较常见的服务,银行卡的字体相对比较简单,位置也相对固定,但有的时候字体会变得不好识别,尤其在不同的磨损条件下。发票OCR相对格式比较固定,问题在于发票种类多、发票的字体有时会打印的非常的不清楚,这些问题需要解决。类似的还有,医院里打出来的血检单,文字间距非常小同时字也小,同时识别的时候还会产生透视畸变。

在一些简单环境下OCR的准确度已经比较高了(比如电子文档),但是在一些复杂环境下的字符识别,在当今还没有人敢说自己能做的很好。现在大家都很少会把目光还放在如何对电子文档的文字识别该怎么进一步提高准确率了,因为他们把目光放在更有挑战性的领域。

OCR传统方法在应对复杂图文场景的文字识别显得力不从心,越来越多人把精力都放在研究如何把文字在复杂场景读出来,并且读得准确作为研究课题,用学界术语来说,就是场景文本识别(文字检测+文字识别)。返回搜狐,查看更多

ocr文字识别在线功能特点有哪些ocr识别技术的原理是什么

ocr文字识别优势有哪些?ocr文字识别工具哪款靠谱?

企业要求职员提高办公效率,那么对于大家来说,就要学会利用办公软件,比如ocr识别软件,这样就不用再打字输入文件资料,ocr识别软件分分钟把文件转换成电子档,接下来小编具体给大家讲讲ocr文字识别优势有哪些,ocr文字识别工具哪款靠谱。ocr文字识别优势有哪些?1.高精度将来OCR文字识别,可识别中文、

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇