博舍

新一代人工智能的发展与展望 人工智能发展的现状和意义是什么

新一代人工智能的发展与展望

    随着大数据、云计算等技术的飞速发展,人们生产生活的数据基础和信息环境得到了大幅提升,人工智能(AI)正在从专用智能迈向通用智能,进入了全新的发展阶段。国务院印发的《新一代人工智能发展规划》指出新一代人工智能相关学科发展、理论建模、技术创新、软硬件升级等整体推进,正在引发链式突破,推动经济社会各领域从数字化、网络化向智能化加速跃升。在4月10日“吴文俊人工智能科学技术奖”十周年颁奖盛典中,作为我国不确定性人工智能领域的主要开拓者、中国人工智能学会名誉理事长李德毅院士荣获“吴文俊人工智能最高成就奖”,并在大会上作题为《探索什么叫新一代人工智能》的报告,探讨了新一代人工智能的内涵和路径,引领着新一代人工智能的发展与展望。

    人工智能这一概念诞生于1956年在美国达特茅斯学院举行的“人工智能夏季研讨会”,随后在20世纪50年代末和80年代初先后两次步入发展高峰,但因为技术瓶颈、应用成本等局限性而均掉入低谷。在信息技术的引领下,数据信息快速积累,运算能力大幅提升,人工智能发展环境发生了巨大变化,跨媒体智能、群体智能成为新的发展方向,以2006年深度学习模型的提出为标志,人工智能第三次站在了科技发展的浪潮之巅。

    当前,随着移动互联网、物联网、大数据、云计算和人工智能等新一代信息技术的加速迭代演进,人类社会与物理世界的二元结构正在进阶到人类社会、信息空间和物理世界的三元结构,人与人、机器与机器、人与机器的交流互动愈加频繁。在多源数据、多元应用和超算能力、算法模型的共同驱动下,传统以计算机智能为基础的、依赖于算力算法和数据的人工智能,强调通用学习和大规模训练集的机器学习,正逐渐朝着以开放性智能为基础、依赖于交互学习和记忆、基于推理和知识驱动的以混合认知模型为中心的新一代人工智能方向迈进。应该说,新一代人工智能的内核是“会学习”,相较于当下只是代码的重复简单执行,新一代人工智能则需要能够在学习过程中解决新的问题。其中,学习的条件是认知,学习的客体是知识,学习的形态是交互,学习的核心是理解,学习的结果是记忆……因此,学习是新一代人工智能解释解决现实问题的基础,记忆智能是新一代人工智能中多领域、多情景可计算智能的边界和约束。进而当人类进入和智能机器互动的时代,新一代人工智能需要与时俱进地持续学习,不断检视解决新的问题,帮助人机加深、加快从对态势的全息感知递进到对世界的多维认知。

    事实上,基于数据驱动型的传统人工智能,大多建立在“数据中立、算法公正和程序正义”三要素基础之上,而新一代人工智能更关注于交互能力,旨在通过设计“记忆”模块来模仿人脑,解决更灵活多变的实际问题,真正成为“不断学习、与时俱进”的人工智能。特别是人机交互支撑实现人机交叉融合与协同互动,目前已在多个领域取得了卓越成果,形成了多方面、多种类、多层次的应用。例如,在线客服可以实现全天候不间断服务,轻松解决用户咨询等问题,也可将棘手问题转交人工客服处理,降低了企业的管理成本;在智慧医疗领域,人工智能可以通过神经影像实现辅助智能诊断,帮助医生阅片,目前准确率已达95%以上,节省了大量的人力;2020年,在抗击疫情的过程中,新一代人工智能技术加速与交通、医疗、教育、应急等事务协作联动,在科技战“疫”中大显身手,助力疫情防控取得显著成效。

    未来已来,随着人工智能逐渐融入居民生活的方方面面,将继续在智慧医疗、自动驾驶、工业制造智能化等领域崭露头角。一是基于新一代人工智能的智慧医疗,将助力医院更好记录、存储和分析患者的健康信息,提供更加精准化和个性化的健康服务,显著提升医院的临床诊断精确度。二是通过将新一代人工智能运用于自动驾驶系统的感知、预测和决策等方面,重点解决车道协同、多车调度、传感器定位等问题,重新定义城市生活中人们的出行方式。三是由于我国工业向大型化、高速化、精细化、自主化发展,对高端大规模可编程自动化系统提出迫切需求,新一代人工智能将推动基于工业4.0发展纲领,以高度自动化的智能感知为核心,主动排除生产障碍,发展具备有适应性、资源效率、人机协同工程的智能工厂应运而生。总之,如何展望人工智能通过交互学习和记忆理解实现自编程和自成长,提升自主学习和人机交互的效率,将是未来研究着力发展的硬核领域,并加速新一代信息技术与智能制造深度融合,推动数字化转型走深走实,有信心、有能力去迎接下一场深刻产业变革的到来。

中国人工智能发展的现状

中国人工智能发展现状:多项技术领先整体水平与发达国家仍有较大差距

全球人工智能还处于发展初期,并且人工智能已经上升至国家战略层面,关于我国人工智能发展现状来看,我国多项技术处于世界领先地位,创新创业也是日益活跃,但是整体水平与发达国家仍有较大差距。

新年伊始,让我们把目光投向人工智能——刚刚过去的2017年,基础研究领域的硬件、算法提升,与结合产业发展的技术应用,让人工智能发展迎来又一轮高潮。“机器能像人一样思考和行动”拓展了整个社会的想象力边界。

十九大报告提出,“推动互联网、大数据、人工智能和实体经济深度融合”。当前我国人工智能的发展水平处于什么阶段,在行业领域的应用进展如何?本版就此策划了一组“聚焦高质量发展·关注人工智能”系列报道,从行业专家、资深从业者、普通消费者的角度,向读者全方位展示快速发展中的中国人工智能图景。

2017年是中国人工智能领域发展的关键之年。无论是《政府工作报告》还是10月的十九大报告,都将人工智能作为一项发展内容明确提出,这意味着人工智能上升至国家战略层面。

随后,《新一代人工智能发展规划》《促进新一代人工智能产业发展三年行动计划(2018—2020年)》等一系列政策规划的推出更是让人工智能的发展有了明确的时间表和路线图。

如今,中国人工智能领域正在顶层设计与实践落实两个方面努力发展,抓住机遇,蓄势待发,开启新一轮的冲刺。

全球人工智能还处于发展初期

什么是人工智能?

1956年,在美国达特茅斯学院一次特殊的夏季言谈会上,麻省理工学院教授约翰·麦卡锡第一次提出了人工智能概念。此后,人工智能迅速成为一个热门话题。

尽管概念界定众多,但科学界对人工智能学科的基本思想和基本内容达成的共识是:研究人类智能活动的规律,从而让机器来模拟,使其拥有学习能力,甚至能够像人类一样去思考、工作。

在人工智能研究早期,有些科学家非常乐观地认为,随着计算机的普及和CPU计算能力的提高,实现人工智能指日可待。但后来事实证明,人工智能的发展并没有预期的那么美好。

20世纪50年代至70年代,人工智能力图模拟人类智慧,但是受过分简单的算法、匮乏得难以应对不确定环境的理论以及计算能力的限制,这一热潮逐渐冷却;20世纪80年代,人工智能的关键应用——基于规则的专家系统得以发展,但是数据较少,难以捕捉专家的隐性知识,加之计算能力依然有限,使得其不被重视,人工智能研究进入低潮期。

直到进入20世纪90年代,神经网络、深度学习等人工智能算法以及大数据、云计算和高性能计算等信息通信技术快速发展,人工智能才迎来了春天。

“大约在10年前,一种被称为深度学习的新的机器学习方法,让人工智能的算法更智能。”中国科学院自动化研究所研究员易建强说:“它是一种通过多层表示来对数据之间的复杂关系进行建模的算法。深度学习模仿人脑结构,具有更强的建模和推理能力,能够更有效地解决多类复杂的智能问题。”

中国科学院院士谭铁牛说:“当前,面向特定领域的专用人工智能技术取得突破性进展,甚至可以在单点突破、局部智能水平的单项测试中超越人类智能。”

这其中,比较著名的事件包括1997年“深蓝”战胜国际象棋世界冠军,2011年IBM超级计算机沃森在美国电视答题节目中战胜两位人类冠军,以及2016年和2017年阿尔法狗战胜人类围棋高手。

在不少人工智能专家看来,尽管经过近60年的发展,人工智能已经取得了巨大的进步,但总体上还处于发展初期。

我国多项技术处于世界领先地位

采访中,诸多业内人士认为,我国人工智能技术攻关和产业应用虽然起步较晚,但在国家多项政策和科研基金的支持与鼓励下,近年来发展势头迅猛。

在基础研究方面,我国已拥有人工智能研发队伍和国家重点实验室等设施齐全的研发机构,并先后设立了各种与人工智能相关的研究课题,研发产出数量和质量也有了很大提升,已取得许多突出成果。

科技部高新司司长秦勇说:“我国在语音识别、视觉识别、机器翻译、中文信息处理等技术方面处于世界领先地位。中国科学院自动化研究所谭铁牛团队全面突破虹膜识别领域的成像装置、图像处理、特征抽取、识别检索、安全防伪等一系列关键技术,建立了虹膜识别比较系统的计算理论和方法体系,还建成目前国际上最大规模的共享虹膜图像库。”

智能芯片技术也实现了突破。中科院计算所发布了全球首款深度学习专用处理器,清华大学研制出可重构神经网络的计算芯片,比现有的GPU效能提升了3个数量级。

与此同时,我国在人工智能领域的论文数量快速增长。据统计,2007年—2016年,全球人工智能领域论文中,我国占近20%,仅次于美国;深度学习领域的论文总量和引用量均居世界第一。此外,人工智能相关发明专利授权量已居世界第二。

人工智能创新创业日益活跃

当前,伴随着人工智能研究热潮,我国人工智能产业化应用也蓬勃发展。

智能产品和应用大量涌现。人工智能产品在医疗、商业、通信、城市管理等方面得到快速应用。目前已有1.5亿支付宝用户使用过“刷脸”功能,华为首次在全球将人工智能移动芯片用于手机。

人工智能创新创业也日益活跃,一批龙头骨干企业快速成长。据统计,当前中国的人工智能企业数量、专利申请数量以及融资规模均仅次于美国,位列全球第二。全球最值得关注的100家人工智能企业中我国有27家,其中,腾讯、阿里云、百度、科大讯飞等成为全球人工智能领域的佼佼者,也成为建设国家新一代人工智能开放创新平台的领头羊。

2017年7月5日,百度首次发布人工智能开放平台的整体战略、技术和解决方案。这也是百度AI技术首次整体亮相。其中,对话式人工智能系统,可让用户以自然语言对话的交互方式,实现诸多功能;Apollo自动驾驶技术平台,可帮助汽车行业及自动驾驶领域的合作伙伴快速搭建一套属于自己的完整的自动驾驶系统,是全球领先的自动驾驶生态。

2017年8月3日,腾讯公司正式发布了人工智能医学影像产品——腾讯觅影。同时,还宣布发起成立了人工智能医学影像联合实验室。

2017年10月11日,阿里巴巴首席技术官张建锋宣布成立全球研究院——达摩院。达摩院的成立,代表着阿里巴巴正式迈入全球人工智能等前沿科技的竞争行列。

此外,科大讯飞在智能语音技术上处于国际领先水平;依图科技搭建了全球首个十亿级人像对比系统,在2017年美国国家标准与技术研究院组织的人脸识别技术测试中,成为第一个获得冠军的中国团队。

“加速积累的技术能力与海量的数据资源、巨大的应用需求、开放的市场环境有机结合,形成了我国人工智能发展的独特优势。”秦勇说。

整体水平与发达国家仍有较大差距

尽管我国在一些人工智能关键技术尤其是核心算法方面与发达国家水平相当,但我国人工智能整体发展水平与发达国家相比仍有较大差距,比如在高精尖零部件、技术工业、工业设计、大型智能系统、大规模应用系统以及基础平台等方面。专家们还指出,我国人工智能技术发展还面临着体制机制、创新人才、基础设施等方面的挑战。

易建强说:“与人工智能发展成熟且处于前列的美国等相比,虽然中国在人工智能的论文数量方面超过美国,但中国学者的研究影响力尚不及美国或英国同行。”

这背后的一个重要原因就是人才短缺。据统计,美国半数以上的数据科学家拥有10年以上的工作经验,而在中国,超过40%的数据科学家工作经验尚不足5年。还有,在中国只有不到30所大学的研究实验室专注于人工智能,输出人才的数量远远无法满足人工智能企业的用人需求。此外,中国的人工智能科学家大多集中于计算机视觉和语音识别等领域,其他领域的人才相对匮乏。

在产业应用方面,人工智能技术成果虽然已经在我国越来越多的领域应用,但专家表示也还存在一些问题。比如,除少数垂直领域凭借多年大数据积累和业务流程优化经验,催生出营销、风控、智能投顾、安防等人工智能技术可直接落地的应用场景外,大多数传统行业的业务需求与人工智能的前沿科技成果之间尚存在不小差距。面向普通消费者的移动互联网应用与人工智能技术之间的结合尚处在探索阶段。

“在人工智能生态系统方面,美国也更为完善和活跃,创业公司数量远超中国。而且由研究机构、大学及私营企业共同组成的生态系统庞大、创新且多元。”易建强说。

专家建议,应建设开放共享的人工智能创新发展平台,重视和加强人工智能前瞻性基础研究,加大人才培养力度,在深化人工智能技术推广应用、市场准入等方面建立更加宽松的政策环境,不断提升信息化水平来支撑智能化发展,并积极引进培养更多有国际影响力的领军人才。

人工智能最新研究发展方向——OCR文字识别简述

1研究背景

人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学,研究目的是促使智能机器会听(语音识别、机器翻译等)、会看(图像识别、文字识别等)、会说(语音合成、人机对话等)、会思考(人机对弈、定理证明等)、会学习(机器学习、知识表示等)、会行动(机器人、自动驾驶汽车等)。人工智能充满未知的探索道路曲折起伏。如何描述人工智能自1956年以来60余年的发展历程,学术界可谓仁者见仁、智者见智。通过查阅资料将人工智能的发展历程划分为以下6个阶段:一是起步发展期:1956年—20世纪60年代初。人工智能概念提出后,相继取得了一批令人瞩目的研究成果,如机器定理证明、跳棋程序等,掀起人工智能发展的第一个高潮。二是反思发展期:20世纪60年代—70年代初。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望,人们开始尝试更具挑战性的任务,并提出了一些不切实际的研发目标。然而,接二连三的失败和预期目标的落空(例如,无法用机器证明两个连续函数之和还是连续函数、机器翻译闹出笑话等),使人工智能的发展走入低谷。三是应用发展期:20世纪70年代初—80年代中。20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题,实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功,推动人工智能走入应用发展的新高潮。四是低迷发展期:20世纪80年代中—90年代中。随着人工智能的应用规模不断扩大,专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。五是稳步发展期:20世纪90年代中—2010年。由于网络技术特别是互联网技术的发展,加速了人工智能的创新研究,促使人工智能技术进一步走向实用化。1997年国际商业机器公司(简称IBM)深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫,2008年IBM提出“智慧地球”的概念。以上都是这一时期的标志性事件。六是蓬勃发展期:2011年至今。随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展,大幅跨越了科学与应用之间的“技术鸿沟”,诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了从“不能用、不好用”到“可以用”的技术突破,迎来爆发式增长的新高潮。

2OCR文字识别2.1什么是OCR?

图自然场景OCR文字识别OCR英文全称是OpticalCharacterRecognition,中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。文字识别是计算机视觉研究领域的分支之一,而且这个课题已经是比较成熟了,并且在商业中已经有很多落地项目了。比如汉王OCR,百度OCR,阿里OCR等等,很多企业都有能力都是拿OCR技术开始挣钱了。其实我们自己也能感受到,OCR技术确实也在改变着我们的生活:比如一个手机APP就能帮忙扫描名片、身份证,并识别出里面的信息;汽车进入停车场、收费站都不需要人工登记了,都是用车牌识别技术;我们看书时看到不懂的题,拿个手机一扫,APP就能在网上帮你找到这题的答案。太多太多的应用了,OCR的应用在当今时代确实是百花齐放。

2.2OCR的分类

如果要给OCR进行分类分为两类:手写体识别和印刷体识别。这两个可以认为是OCR领域两个大主题了,当然印刷体识别较手写体识别要简单得多,也能从直观上理解,印刷体大多都是规则的字体,因为这些字体都是计算机自己生成再通过打印技术印刷到纸上。在印刷体的识别上有其独特的干扰:在印刷过程中字体很可能变得断裂或者墨水粘连,使得OCR识别异常困难。当然这些都可以通过一些图像处理的技术帮他尽可能的还原,进而提高识别率。总的来说,单纯的印刷体识别在业界已经能做到很不错了,但说100%识别是肯定不可能的,但是说识别得不错那是没毛病。

图手写字体展示印刷体已经识别得不错了,那么手写体呢?手写体识别一直是OCR界一直想攻克的难关,但是时至今天,感觉这个难关还没攻破,还有很多学者和公司在研究。为什么手写体识别的难度在于因为人类手写的字往往带有个人特色,每个人写字的风格基本不一样,印刷体一般都比较规则,字体都基本就那几十种,机器学习这几十种字体并不是一件难事,但是手写体,每个人都有一种字体的话,那机器该学习大量字体,这就是难度所在。

2.3OCR流程

假如输入系统的图像是一页文本,那么识别时的第一件事情是判断页面上的文本朝向,因为得到的这页文档往往都不是很完美的,很可能带有倾斜或者污渍,那么要做的第一件事就是进行图像预处理,做角度矫正和去噪。然后要对文档版面进行分析,进每一行进行行分割,把每一行的文字切割下来,最后再对每一行文本进行列分割,切割出每个字符,将该字符送入训练好的OCR识别模型进行字符识别,得到结果。但是模型识别结果往往是不太准确的,需要对其进行识别结果的矫正和优化,比如可以设计一个语法检测器,去检测字符的组合逻辑是否合理。比如,考虑单词Because,设计的识别模型把它识别为8ecause,那么就可以用语法检测器去纠正这种拼写错误,并用B代替8并完成识别矫正。这样子,整个OCR流程就走完了。从大的模块总结而言,一套OCR流程可以分为:

从上面的流程图可以看出,要做字符识别并不是单纯一个OCR模块就能实现的(如果单纯的OCR模块,识别率相当低),都要各个模块的组合来保证较高的识别率。上面的流程分的比较粗,每个模块下还是有很多更细节的操作,每个操作都关系着最终识别结果的准确性。做过OCR的童鞋都知道,送入OCR模块的图像越清晰(即预处理做的越好),识别效果往往就越好。那现在对这流程中最为重要的字符识别技术做一个总结。

2.4OCR的简单应用

图瓶盖的生产日期识别在一些简单环境下OCR的准确度已经比较高了(比如电子文档),但是在一些复杂环境下的字符识别,在当今还没有人敢说自己能做的很好。现在大家都很少会把目光还放在如何对电子文档的文字识别该怎么进一步提高准确率了,因为他们把目光放在更有挑战性的领域。OCR传统方法在应对复杂图文场景的文字识别显得力不从心,越来越多人把精力都放在研究如何把文字在复杂场景读出来,并且读得准确作为研究课题,用学界术语来说,就是场景文本识别(文字检测+文字识别)。

图人工智能课本识别图

3文本检测CTPN

2016年出了一篇很有名的文本检测的论文:《DetectingTextinNaturalImagewithConnectionistTextProposalNetwork》,这个深度神经网络叫做CTPN,直到今天这个网络框架一直是OCR系统中做文本检测的一个常用网络,极大地影响了后面文本检测算法的方向。回顾一下FasterRCNN做目标检测的一个缺点就是,没有考虑带文本自身的特点。文本行一般以水平长矩形的形式存在,而且文本行中每个字都有间隔。针对这个特点,CTPN剔除一个新奇的想法,把文本检测的任务拆分,第一步检测文本框中的一部分,判断它是不是一个文本的一部分,当对一幅图里所有小文本框都检测之后,将属于同一个文本框的小文本框合并,合并之后得到一个完整的、大的文本框了,也就完成了文本的检测任务。这个想法很有创造性,有点像“分治法”,先检测大物体的一小部分,等所有小部分都检测出来,大物体也就可以检测出来了。图RPN和CTPN对比如图所示,左边的图是直接使用FasterRCNN中的RPN来进行候选框提取,可以看出,这种候选框太粗糙了,效果并不好。而右图是利用许多小候选框来合并成一个大文本预测框,可以看出这个算法的效果非常不错,需要说明的是,红色框表示这个小候选框的置信度比较高,而其他颜色的候选框的置信度比较低,可以看到,一个大文本的边界都是比较难预测的,那怎么解决这个边界预测不准的问题呢?后面会提到。刚提到CTPN的其中一个闪光点,即检测小框代替直接检测大文本框。除了这个新意,CTPN还提出了在文本检测中应加入RNN来进一步提升效果。为什么要用RNN来提升检测效果?文本具有很强的连续字符,其中连续的上下文信息对于做出可靠决策来说很重要。RNN常用于序列模型,比如事件序列,语言序列等等,那CTPN算法中,把一个完整的文本框拆分成多个小文本框集合,其实这也是一个序列模型,可以利用过去或未来的信息来学习和预测,所以同样可以使用RNN模型。而且,在CTPN中,用的还是BiLSTM(双向LSTM),因为一个小文本框,对于它的预测,不仅与其左边的小文本框有关系,而且还与其右边的小文本框有关系!这个解释就很有说服力了,如果仅仅根据一个文本框的信息区预测该框内含不含有文字其实是很草率的,应该多参考这个框的左边和右边的小框的信息后(尤其是与其紧挨着的框)再做预测准确率会大大提升。

图CTPN候选框如上图所示,如果单纯依靠1号框内的信息来直接预测1号框中否存在文字(或者说是不是文本的一部分),其实难度相当大,因为1号框只包含文字的很小一部分。但是如果把2号框和3号框的信息都用上,来预测1号框是否存在文字,那么就会有比较大的把握来预测1号框确实有文字。还可以看看为什么边缘的文本框的置信度会较中间的低呢?个人认为很大一部分原因就在于因为这些框都位于总文本的边缘,没有办法充分利用左右相邻序列的信息做预测(比如位于最左的文本框丢失了其右边的信息)。这就是双向LSTM的作用,把左右两个方向的序列信息都加入到学习的过程中去。CTPN借助了FasterRCNN中anchor回归机制,使得RPN能有效地用单一尺寸的滑动窗口来检测多尺寸的物体。当然CTPN根据文本检测的特点做了比较多的创新。比如RPN中anchor机制是直接回归预测物体的四个参数(x,y,w,h),但是CTPN采取之回归两个参数(y,h),即anchor的纵向偏移以及该anchor的文本框的高度,因为每个候选框的宽度w已经规定为16个像素,不需要再学习,而x坐标直接使用anchor的x坐标,也不用学习,所以CTPN的思路就是只学习y和h这两个参数来完成小候选框的检测!跟RPN相类似,CTPN中对于每个候选框都使用了K个不同的anchors(k在这里默认是10),但是与RPN不同的是,这里的anchors的width是固定的16个像素,而height的高度范围为11~273(每次对输入图像的height除以0.7,一共K个高度)。当然CTPN中还是保留了RPN大多数的思路,比如还是需要预测候选框的分数score(该候选框有文本和无文本的得分)。文本行构建很简单,通过将那些text/no-textscore>0.7的连续的textproposals相连接即可。文本行的构建如下。首先,为一个proposalBi定义一个邻居(Bj):Bj−>Bi,其中,Bj在水平距离上离Bi最近,该距离小于50pixels它们的垂直重叠(verticaloverlap)>0.7,另外,如果同时满足Bj−>Bi和Bi−>Bj,会将两个proposals被聚集成一个pair。接着,一个文本行会通过连续将具有相同proposal的pairs来进行连接来构建。

图CTPN网络架构首先CTPN的基础网络使用了VGG16用于特征提取,在VGG的最后一个卷积层CONV5,CTPN用了3×3的卷积核来对该featuremap做卷积,这个CVON5特征图的尺寸由输入图像来决定,而卷积时的步长却限定为16,感受野被固定为228个像素。卷积后的特征将送入BLSTM继续学习,最后接上一层全连接层FC输出要预测的参数:2K个纵向坐标y,2k个分数,k个x的水平偏移量。看到这里大家可能有个疑问,这个x的偏移到底是什么,为什么需要回归这个参数?如果需要X的参数,为什么不在候选框参数回归时直接预测成(x,y,h)三个参数呢,而要多此一举把该参数单独预测,这个X的作用作者提到这也是他们论文的一大亮点,称之为Side-refinement,可以理解为文本框边缘优化。回顾一下上面提到的一个问题,文本框检测中边缘部分的预测并不准确。那么改咋办,CTPN就是用这个X的偏移量来精修边缘问题。这个X是指文本框在水平方向的左边界和右边界,通过回归这个左边界和右边界参数进而可以使得对文本框的检测更为精准。在这里想举个例子说明一下回归这个x参数的重要性。通过观察下图,第一幅图张看到有很多小候选框,位于左边的候选框我标记为1、2、3、4号框,1号框和2号框为蓝色,表明得分不高就不把这两个框合并到大文本框内,对于3号框和4号框那就比较尴尬了,如果取3号框作为文本框的边缘框,那么显然左边边缘留白太多,精准度不够,但如果去掉3号框而使用4号框作为左边缘框,则有些字体区域没有检测出来,同样检测精度不足。这种情况其实非常容易出现,所以CTPN采取了Side-refinement思路进一步优化边缘位置的预测即引入回归X参数,X参数直接标定了完整文本框的左右边界,做到精确的边界预测。第二幅图中的红色框就是经过Side-refinement后的检测结果,可以看出检测准确率有了很大的提升。side-refinement确实可以进一步提升位置准确率,在SWT的Multi-Lingualdatasets上产生2%的效果提升。再看多几幅图,体验一下Side-refinement后的效果。

最后总结一下CTPN这个流行的文本检测框架的三个闪光点:

将文本检测任务转化为一连串小尺度文本框的检测;引入RNN提升文本检测效果;Side-refinement(边界优化)提升文本框边界预测精准度。

当然,CTPN也有一个很明显的缺点:对于非水平的文本的检测效果并不好。CTPN论文中给出的文本检测效果图都是文本位于水平方向的,显然CTPN并没有针对多方向的文本检测有深入的探讨。

4总结

通过查阅相关资料学习什么是OCR并且查阅了如何实现OCR文字识别中的文字检测,并且通过理论实现流程并且用代码对CPTN文字检测进行复现。通过对文字数据预处理并且进行文字字符分割,看似简单,做起来其实很难做得很好,我们也对此查阅了很多论文,发现其实很多论文也谈到了,汉字确实很那做到一个高正确率的分割,直至现在还没有一统江湖的解决方案。汉字切割的失败,就会直接导致了后面OCR识别的失败,这也是当前很多一些很厉害的OCR公司都没法把汉字做到100%识别的一个原因。所以这个问题就必须得到很好的解决。最后我们解决汉字切割的较好方法是,在OCR识别中再把它修正。并且通过文字分割后对数据进行数据增强生成了大量数据防止模型的过拟合。并且通过学习CPTN论文,学习到了思路上的创新,在检测水平上的文字置信度很高,但是也有一些弊端对于非水平的文本检测效果并不好。

5引用文献

[1]DetectingTextinNaturalImagewithConnectionistTextProposalNetwork.作者:ZhiTian;WeilinHuang;TongHe;PanHe;YuQiao0001[2]基于深度学习的汉字识别方法研究[D].任凤丽.东华大学.2021[3]基于深度学习的光学字符识别技术研究[D].冯亚南.南京邮电大学2020[4]基于卷积神经网络的手写数字识别研究与设计[D].刘辰雨.成都理工大学2018[5]基于CRNN的中文手写识别方法研究[J].石鑫,董宝良,王俊丰.信息技术.2019(11)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇