文字检测识别的现状研究
随着文本检测应用性的增强,越来越多的公司加入了这方面的研宄,其中具有代表性的公司有:微软研究院、谷歌、三星通信电子研究院、百度、阿里、腾讯、商汤科技、海康威视、今日头条等。微软研究院人类数字记忆项目中的一个研究方向是对图像的智能处理,将图像中的人名、地点、时间以及发生的事件信息提取,以便能够达到快速检索的目的,实现了对数据的智能化管理。谷歌提出了一种在安卓系统中对文本快读检测识别的算法。互联网公司如百度深度学习研宄院、阿里巴巴、腾讯等注重对图像、视频智能化的处理,给用户更好地体验,也纷纷加入了文本检测识别领域的研宄。商汤科技、海康威视、今日头条等新兴的人工智能公司把文本检测加入到重点研究的项目课题中,并且在参加的国际计算机视觉竞赛中获得优异的成绩,排名名列前茅。[3]
三、采用的相关技术
自然场景文本检测方法其核心思想是:通过MSCRS与MSERS两种算法提取候选字符区域,并根据区域几何信息初步剔除部分背景区域;然后根据字符区域的纹理特征,训练字符分类器对候选字符区域进行分类,从而得到字符区域;最后利用区域彩色信息和几何邻接关系将字符进行合并,得到最终的文本区域。[5]
基于笔画宽度的文本检测方法是基于连通域的文本检测方法中的一个主流方法。Epshtein等人在2010年首次提出了基于字符笔画宽度变换(StrokeWidthTransform,SWT)的文本检测算法,此算法在基于连通域的文本检测方法领域中具有里程碑式的重要意义。研究人员通过对图像中文本结构的分析,在笔画宽度变换的基础上提出了很多文本检测算法,并在国际公开数据集中取得了非常好的效果。Epshtein等人参考道路中平行线检测的方法提出了基于字符笔画宽度变换的自然场景文本检测算法。[3]
文本检测算法。我们首先定义笔画的概念,然后解描边宽度转换,以及它如何用于将像素分组为字母候选。最后,我们描述了将字母分组为更大的单词和线条构造的机制,使其能够进一步进行过滤。[4]
深度学习的概念来源于人工神经网络的研究。多层隐层感知器是一种深层次的学习结构。深入学习中,通过将低级特征组合在一起,形成了更抽象的属性类别或特征的高层次表示。2006年,韩丁提出了深入学习的概念。提出了一种基于深置信网络的无监督训练算法,为解决深部结构优化问题带来了希望。此外,还提出了卷积神经网络。它是第一个真正的多层结构学习算法,它利用空间相关关系减少参数个数,提高训练性能。深入学习是一种新的机器学习领域,研究的动机是建立和模拟人脑分析神经网络学习机制,它模仿人脑对图像、声音和文本等数据进行解释。[6]
四、对于未来设计的发展和建议
随着科技、互联网技术的发展,个人移动通讯设备已经覆盖了我们生活的各个方面,人们互相之间的交流对其依赖愈加明显。而与此同时,手机的普及也给各种形式的敏感多媒体信息的传播提供了便利。在反恐形势严峻的今天,对网络中包含敏感内容的多媒体文件进行快速检测与过滤显得越来越重要。本项目的研宄开发成果对于我国社会稳定将发挥重要作用。从技术角度来看,对该项目涉及的关键技术进行深入地探索、研究与开发,并实现自主创新。从国家安全、社会稳定的角度来看,本项目具有广阔的应用前景,将为国家经济社会建设做出贡献,并带来明显的社会和经济效益。
本项目的知识产权成果极具推广性,其产业化也将具有重大的社会效益和良好的经济效益。从公安部计算机信息系统安全产品质量监督检验中心检验的产品看,网络多媒体内容监控类产品的需求在逐年加大,这也反映了市场对网络安全管控类产品的需求在日益增大。项目的潜在用户除了中国移动以外,还可定位在国家安全部门、广电、媒体、互联网、政府、出版等重要领域等。为了更好地对本项目的知识产权成果进行推广应用,项目将力争做好在中国移动平台上示范应用。以此来展示本项目的先进技术成果,进一步推进本项目的推广应用。[1]
多种方法融合。场景文本检测方法是一个系统性工程,其中涉及了多个环节,只要一个环节没有达到要求,就极有可能使得整体性能受到影响。今后的研究中,研宄人员需要考虑场景文本的特点,如文本字符的颜色一致性、笔画宽度一致性、场景字符的排列方式等,同时又要充分吸收计算机视觉、机器学习等领域的最新发展,如以卷积神经网络为框架的深度学习方法等。因此如何将多种方法合理地结合,使每一个环节的性能得到提高,进而得到最优的文本检测性能是今后研宄的一个方向。[4]
五、总结
互联网的高速发展使得人们能够接触到越来越多的图像和视频信息,而图像和视频中的文本信息一定程度上代表着图像和视频中的内容,对于计算机自动理解图像和视频的高层语义信息十分重要。自然场景图像中的文本检测技术在图像检索、图像理解、人机交互、智能交通和工业自动化等诸多领域具有广泛的应用前景,因此场景中的文本检测具有十分重要的研宄价值和意义。然而,自然场景图像中的文本受到大小、字体、语言等主观因素和光照、遮挡、噪声等客观因素的影响,使得自然场景图像中的文本检测面临着巨大的挑战。[3]
复杂场景图像中的文本提取与识别对于我们的日常生活具有广泛的实际应用价值,目前已有许多学者对该领域进行了大量的研究,但是由于自然场景的复杂性,很难提出一种通用性较强的算法来应对各种情况。在对现有算法进行研究分析的基础上,提出了一种将多特征融合和SVM分类器模型结合起来的文本定位算法,同时对后续的文本分割以及OCR识别进行了研究。[2]
五、参考文献
[1]自然场景中文本检测识别系统的设计与实现师军北京交通大学
[2]复杂自然场景图像中的文本检测与识别技术研究_熊海朋2017.6
[3]自然场景图像中文本检测技术研究_郑阳2017.12
[4]DetectingTextinNaturalSceneswithStrokeWidthTransformBorisEpshteinEyalOfekYonatanWexler978-1-4244-6985-7/10/$26.00©2010IEEEwww.biyezuopin.vip
[5]结合MSCRs与MSERs的自然场景文本检测_易尧华2016.10
[6]ResearchonTextDetectionofNetworkAdvertisingImagesBasedonDeepLearningPokwai2017返回搜狐,查看更多