图片识别文字
大家在使用本工具的时候,有没有怀疑过,计算机为什么能把一张图片的文字识别出来呢?结果准不准确的?背后的原理是什么呢?接下来让我们一起来了解一下吧!
这里的识别图片中的文字,主要运用了计算机文字识别技术,俗称光学字符识别,英文名称是OpticalCharacterRecognition(就是大家常见的OCR)。这个“黑科技”利用了光学技术和计算机技术把印在或写在纸上的文字读取出来,(在本工具上就是带有文字的图片,所以大家在使用本工具的时候,上传的图片是需要带有文字的喔,不然会报错的),并转换成一种计算机能够接受、人又可以理解的格式,及我们所看到识别之后的结果文字了。
大概步骤如下:
第一步:图文输入。即将纸质文档通过输入设备输入到计算机中,实现数字化,一般的输入设备有扫描仪、相机等。在这个步骤中,输入的内容的清晰程度、文字特征的真实程度是识别结果正确的关键。在日常工作中,我们可以直接通过上传图片进行识别,因为图片已经是“数字化载体”了。如果需要把纸质版文字输入到电脑修改的话,可以通过拍照的方式,再通过本工具把图片的文字识别出来。
第二步:预处理。预处理是指图像识别之前的一些准备工作。因为在第一步得到的图片可能会模糊、失真、多杂质,因此预处理的目的是让图片或扫描的结果变得更加“清晰”。一般预处理的操作有:灰度化、二值化,规范化,平滑,倾斜检测与校正,行与列的切分。这里提到的行、列切分,即把每个字都提取出来以及标点符号的分检(但是还没开始识别具体哪个字)。所以大家会看到识别结果是按行输出的。
第三步:单字识别。单字识别是OCR的核心了。其实该过程是让计算机模拟人脑去区分哪个字是哪个字的过程。事先需要把所有文字的结构特征点、笔画、点的区域分布等基本信息(就是文字长什么样)存储在计算机中(就像小时候学写字一样,哈哈哈)。但是具体要存储哪些信息和怎么存、以及怎么获取这些信息和还原文字,这是一个非常复杂的过程。
至此,大家是否对文字识别技术有初步的了解呢?