博舍

基于深度学习的手写书法字体识别算法 机器人书法将取代手写书法

基于深度学习的手写书法字体识别算法

1引言1.1手写书法字体识别研究背景

汉字是传承中华文化的重要载体,而书法展现了中国汉字独特的书写艺术,是中华传统文化的瑰宝.然而古代书法作品大多数采用繁体汉字进行书写[1],且不同的书法风格导致字体形态复杂多变,提高了人们阅读和理解书法作品的门槛.尤其是篆书风格的书法作品,由于其汉字形态保留了古代象形文字的特点,未经过专业学习的人士很难熟练地将各个篆体汉字准确辨别出来.因此利用计算机实现识别书法字体可为书法学习者提供鉴赏指导,同时有利于降低大众鉴赏书法的难度,向大众传播优秀书法文化.

目前造成书法字体识别困难的原因主要有3个方面.第一,汉字数量繁多且字体结构复杂.据统计中国汉字字符数量超过80000[2],字体结构与数字和字母相比更加复杂,同时还不乏字形相似的汉字,使得识别汉字字形的难度大大增加.

第二,书法汉字的字体风格多样化.从古至今各书法名家创造了多种书体风格,同一个汉字使用不同书体风格书写将展现不同的形态且差异较大,例如楷体、隶书、篆书等.

第三,不同书法作者具有不同的书写习惯,因此书法手写体的呈现形态和排布方式会因人而异.比如楷书的字体风格又分成颜体、柳体等,它们同为楷书却都有各自的特点.与此同时古代书法作品与现今汉字印刷体的排布方式有着较大的差异,因此汉字印刷体的识别方法不适用于书法字体识别.

1.2研究现状

在图像识别和模式识别领域中,汉字识别是重要的研究课题之一.日常的汉字手写体识别经过多年的研究,如今识别率已经达到了90%以上甚至更高[3].然而目前针对书法汉字的识别技术发展比较滞后,但也已经有了许多研究成果.

浙江大学硕士研究生顾刚的学位论文《汉字识别关键算法研究与应用》[2]中提出了基于卷积神经网络的书法字识别方法:首先利用计算机系统中的标准字库和汉字图书字库训练卷积神经网络模型,使之能够判断出待识别图像的书体风格,然后使用MQDF算法在对应字体下的特征库进行识别.经过实验分析可知卷积神经网络能有效提取图像的深度特征,在识别书法字体的速度和正确率等方面具有很大的优势.此外西安理工大学张福成的硕士学位论文《基于卷积神经网络的书法风格识别的研究》[4]和温佩芝等的期刊论文《基于卷积神经网络的石刻书法字识别方法》[5]也提供了针对书法风格和字体的识别方法.然而这些研究成果都是针对计算机中的标准书法字库或石刻书法图像进行识别,未解决识别手写书法字体问题.

2014年浙江大学硕士研究生林媛的学位论文《中国书法字识别算法研究及应用》[6]中提出了基于检索的书法字识别,能够高效识别楷书、篆书、行书等书法风格的单个手写书法字体图片.这些研究成果为书法字体识别的技术实现提供了很多理论依据,但都未提出识别完整手写书法作品图像的解决方法,目前识别手写书法作品图片面临着诸多挑战.因此本文算法结合图像处理方法和深度学习技术实现完整手写书法作品图像的书体风格和内容识别,为大众学习和欣赏书法提供解读参考.

2书法字体识别算法描述

本文算法对输入图像进行预处理和识别,最终输出包含书法风格和字体内容的识别结果,算法描述流程如图1所示.首先对待识别图像进行预处理,消除图片噪声并去除框线;然后进行目标分割,对书法作品中的单字进行定位并分割出目标单字;随后利用GoogLeNetInception-v3模型[7]和ResNet-50残差网络[8]分别实现书体风格和单字字形的识别,在判断出书法作品图像的书法风格后选择对应书体的单字字形识别模型进行识别,最后输出书法作品中的书体风格和汉字识别结果.

图1Fig.1图1书法字体识别算法流程框架图3图像预处理3.1图像去噪声和二值化

由于部分书法作品年代久远,拍摄得到的图片中可能会有噪点.本文方法采用图像形态学的方法,使用开运算腐蚀图像中的噪点,可在不影响书法字体的情况下达到去噪效果.

随后对待识别图像进行二值化处理,图像二值化是指将像素值分为黑白两种元素的集合,以黑色像素作为前景,白色像素作为背景,以达到区分目标和背景像素的目的.由于书法作品形式多样,不同作品图像的对比度各异[9],为了降低图像对比度带来的影响,采用最大类间方差法[10]对图像进行二值化处理.

取多个分割阈值T区分图像中的前景与背景,设前景像素点占比为m0,其平均灰度为n0;背景像素点占比为m1,其平均灰度为n1,计算图像前景和背景的类间方差g,如下所示:

$g={m_0} imes{m_1} imes{({n_0}-{n_1})^2}$(1)

类间方差越大说明类间差异越大,因此最后以类间方差计算结果最大的阈值来区分图像前景与背景.

3.2去除文档边框线

部分书法作品可能具有文档边框线,将会对后续的单字分割和识别产生影响,因此需要去除文档边框线.本文算法使用矩形结构化元素分别得到图像水平边框线和垂直边框线后,融合获取图像中所有多余边框线,再利用帧差法去除边框线.设原图像为f1(x,y),边框线图像为f2(x,y),进行求差得到差分图像F(x,y),即去除文档边框线后的书法作品图像,计算公式如下所示:

$Fleft({x,y} ight)=left|{{f_1}left({x,y} ight)-left.{{f_2}left({x,y} ight)} ight|} ight.$(2)4书法汉字的定位与分割

书法汉字的定位与分割是书法单字识别前的重要处理步骤,如图2所示,一共分为4个步骤:列分割、行分割、单字轮廓提取及切割和扩大画布.

图2Fig.2图2书法汉字的定位与分割流程4.1列分割

对图像进行垂直投影[11],由于书法作品一般从上至下进行书写,列与列之间较少有黏连,可依据竖直方向上背景点的数量获取竖直切割线的位置,同时得出列的平均宽度,若待切割的某列的列宽度大于平均宽度的两倍,表示列与列之间存在黏连,需对该列再次进行切割.列分割效果如图3所示.

图3Fig.3图3列分割效果4.2行分割

对切割好的列图像进行水平投影,由于汉字结构中存在上下结构的字形,进行行切割时有可能将上下结构的字体分割开[12].因此对初次行分割后得到的图像进行检测,若分割后的图像宽度小于平均宽度1/3,对该图像的相邻分割图像重新进行检测,若均小于1/3,则说明已将单字分割开,需要进行图像合并[13].行分割效果如图4所示.

图4Fig.4图4行分割效果4.3单字轮廓提取及切割

切割后的单字图像可能还会存在细小的噪点,因此需利用OpenCV的findContours函数提取单字图像的轮廓并进行再一次切割,能够有效消除噪声并切除多余的背景像素.

4.4扩大画布

对画布上、下、左、右4个方向上分别进行20%的背景像素填充,使得识别目标处于图片正中心后,统一将单字图片处理成144×144的尺寸,便于进行后续的数据增强处理.

5书法作品的风格识别

书体识别是对图像中的书法风格进行识别.书体识别模型是字形识别模型的前置模型,用户输入待识别图片后,经书体识别模型处理后得出此作品所用书体并根据书体识别结果调用对应字形识别模型,因此书体识别模型对后续的字形识别至关重要.

本文算法利用GoogLeNetInception-v3模型[7]实现书体识别,该模型以稀疏连接的方式扩增网络的深度与宽度,能够在扩大网络规模的同时,节约参数数量,防止网络计算量过大.GoogLeNetInception-v3网络主要由多个Inception-v3模块组成,模块内部结构如图5所示,GoogLeNetInception-v3网络整体结构如图6所示.

原始Inception模块使用多个不同大小的卷积核,对输入图像执行并行的卷积操作以及最大池化操作,以提取出抽象的书法风格特征.随后将该模块的卷积输出拼接起来,并输入至下一个网络模块中.Inception-v3模块对原始的Inception模块作出改进,利用1×1卷积操作对图片进行降维,随后将原始Inception模块中较大的二维卷积核拆分成两个较小的一维卷积核,尺寸分别是1×n和n×1,以达到节约参数和加速网络运算的目的.与此同时Inception-v3仍然保留了4个卷积分支的设置,使得卷积神经网络保持一定的宽度,能更高效地提取书法作品风格的抽象信息.

损失函数使用多分类交叉熵,设yi为模型预测目标x属于第i类的概率,符号ti标记目标样本x是否属于第i个类别,即:

${t_i}=left{egin{array}{l}1,;;;;x{ ext{属于第}}i{ ext{类}}\0,;;;;x{ ext{不属于第}}i{ ext{类}}end{array} ight.$(3)

那么,损失函数可按照下列公式进行计算:

$E=-sumlimits_{i=1}^n{{t_i}log({y_i})}$(4)

书体识别模型通过随机梯度下降的方式来进行迭代训练,模型训练时将学习率设置成0.01,迭代次数设置10000并保存具有最优测试结果的模型参数.

图5Fig.5图5Inception-v3模块结构图图6Fig.6图6GoogLeNetInception-v3网络结构图6书法汉字的字形识别6.1数据增强

深度神经网络拥有大量的参数,其数量级可达到数百万以上.如果训练数据不充足,将可能会出现数据过拟合的现象.因此需要在原有数据集基础上进行数据增强,对图像数据进行旋转、裁剪、移位等操作,制作出更丰富的数据,从而使得网络模型具有更好的泛化能力和鲁棒性.考虑到书法作品图像的特点,本文采用的数据增强方法有以下4种:对目标单字进行上下左右4个方向上0~20%以内的随机平移、任意角度旋转、高斯模糊.经过数据增强后每个书法单字有500张图像,大大增加了训练数据量.

6.2书法字形识别模型

由于书法单字分类具有三千多种,网络模型需要有足够的深度才能满足目标识别效果.然而网络深度到达一定程度之后,单纯叠加神经网络层数可能会出现网络退化的问题[8],导致模型检测效果比浅层网络更差.因此本文算法选择ResNet-50网络模型来实现书法单字字形识别功能,残差网络能够在网络通过增加残差块来解决梯度爆炸的问题[8].ResNet-50网络主要由残差学习模块和卷积模块组成,这两个模块均会对输入特征图进行卷积和拼接处理,提取图像中的书法单字字形特征,其模块内部结构如图7所示,网络整体结构如图8所示.

图7Fig.7图7残差学习模块和卷积模块内部结构图图8Fig.8图8ResNet-50网络整体结构图

残差学习模块有两个分支,其中一条分支通过短路连接来学习残差来进行优化,另一分支中的两个1×1卷积核的作用是分别对特征图进行降维和升维,模块的输出可定义为:

$y=Fleft({x,left{{{W_i}} ight}} ight)+x$(5)

其中,x表示输入特征图,y表示输出特征图,F(x,{Wi})表示对x进行多层卷积.残差学习模块的作用是在网络训练过程中,当低层网络提取的特征已经足够成熟时,更深层网络在训练时能通过中间隐层推导实现恒等映射,因而避免了网络退化的问题.

另外,卷积模块的输出可定义为:

$y=Fleft({x,left{{{W_i}} ight}} ight)+{W_s}x$(6)

其中,Ws表示1×1卷积操作,目的是调整特征图x的通道数,使其与隐层计算结果的维度相匹配,能有效减少参数规模.

字形识别模型的损失函数仍然选择多分类交叉熵,形式与式(3)、式(4)相同.模型训练时学习率设置为0.0001,并按照指数衰减法逐步减小学习率,迭代次数为14000.

7实验结果与分析

本次实验利用分布式爬虫技术,针对书法字典网站中的楷书和篆书类别,获取常用3500字对应的单字图片以及各书法家整幅作品集图片,作为训练模型和测试效果的数据,数据规模如表1所示.

表1(Table1)表1数据集规模表书体作品图片总数预处理后单字种类数量切割后单字图片数(张)楷书58723479116340篆书4470270034828表1数据集规模表

将数据集按照7:3的比例划分训练集和测试集,进行数据增强并实现书体识别和字型识别模型,在测试集上的测试效果如表2、表3所示.实验结果显示本文方法针对图像书法风格的识别率能达到85.53%,对楷书和篆书单字的识别率分别达到91.57%和81.70%.能够准确识别出大部分图像的书法风格以及字形,并且识别一幅书法作品图片的平均时间为2.5s.

为了进一步说明本文提出的算法在字形识别任务中的有效性,我们将本文算法与SIFT-MQDF方法[2]进行对比,结果如表4所示.从表4可以看到,与SIFT-MQDF方法相比,本文算法的楷书字体识别率略低(相差0.23%),但本文算法的篆书识别率远高于SIFT-MQDF方法的79.10%(相差2.60%).值得注意的是,SIFT-MQDF方法所用的数据集为CADAL数字图书馆汉字图书子库[2],字符背景单一,噪声少,而本文所采用的数据集为自建数据集,图片从各网站收集而来,样本数据存在噪声较多、图片分辨率低、背景复杂等问题,对算法的挑战度更大.因此,测试结果的数据表明,本文算法更能有效地提取书法字体特征,有利于提高识别的性能.

表2(Table2)表2书法风格识别测试结果统计表识别风格种类测试集数量正确识别数量错误识别数量识别率(%)楷书3255569485.53篆书325表2书法风格识别测试结果统计表表3(Table3)表3字形识别测试结果统计表单字风格测试集数量正确识别数量错误识别数量识别率(%)楷书5935435091.57篆书82671581.70表3字形识别测试结果统计表表4(Table4)表4字形识别测试结果对比(%)识别方法楷书单字识别率篆书单字识别率SIFT-MQDF[2]91.8079.10本文算法91.5781.70表4字形识别测试结果对比(%)8结束语

本文针对手写书法字体识别困难的问题提出了书法字体识别算法,利用图像处理方法与深度神经网络技术对图像中的书法字体进行定位和识别,实验表明本文算法能够有效判断图像中的书法风格并识别出楷书和篆书字体,识别率分别是91.57%和81.70%,识别结果可为大众提供解读书法作品的参考.下一步的工作是提高单字检测和分割的准确度,通过实现端到端的单字检测与识别,进一步提高识别书体风格和字形的精度,并且在未来增加可识别的字体种类,例如隶书和行书等多种字体风格.

机器人会取代人类的书法吗

原标题:机器人会取代人类的书法吗?

这个问题其实就像说电脑取代不了人脑是一样的,机器人的书法其实也没办法取代人类的书法,我们分别从实用性工具和艺术创作两方面去谈。

从实用性角度讲,比如说临摹,人绝不可能比机器人的书法做的更好,因为人不可能长时间的保持那么精准。所以我们现在平常打字用的印刷体,应该就是机器人书法最早的雏形。这种印刷体我们看起来更加的规范,他要比手写要规范很多,它可以保证精准、清晰、而且不变化。从实用性的角度讲,机器人书法肯定要比人类书法强大,随着科技的进步,机器人书法也应该会写的越来越好。

可是书法是一门艺术,变化也就是书法的艺术价值所在。书法不变的那些规律和基础,但是这种变化就是每个人自己的理解和自己感情的表达和流露。所以这里边就包括了思想和情感,而这个思想和情感是机器人所不具备的。所以我们看到好的书法作品,能看到他背后的这个性格,包括看到背后他对于书法的一些思考和一些情感的流露。甚至这里边还有一个环境导致的偶然因素,比如说王羲之写《兰亭序》的时候他喝了点酒,后来他觉得自己复制自己都已经不可能了。也就是说,除了思想、心性、情绪甚至还有一些环境的因素在里面,那么他才能构成一个真正的书法作品,所以真正的书法作品是没有办法复制的。而可复制的书法作品背后就有了是那种呆板、机械,缺少了书法艺术的生命力。所以从这个角度说人类书法其实是没有办法被机器替代的。

机器人书法在形状上可以做到精准,除了形似之外还有一个神似,那么它其实没有办法做到神似。像王羲之的《兰亭序》现在有不少的传承本,其实都不是王羲之的真迹。比如唐代冯承素的这个摹版,在形状上保持的非常精准的一致。但是他摹完了,你怎么看都觉得和王羲之他真正的用毛笔写出来的是不一样的感觉。形状很相似,但是他背后的那个情感和那个精神是丢失了。

现在的机器人的书法,就很类似于当年冯承素去摹王羲之的《兰亭序》,它缺乏生命力而且缺乏温度。我们现在手写的东西让人感觉其实是活生生的而且有温度的,而机器人书法也很漂亮但是丢失了温度和情感,这就是区别。返回搜狐,查看更多

责任编辑:

建筑40时代,机器人将完全取代人力

原标题:建筑4.0时代,机器人将完全取代人力?

今年全国两会期间,“机器人”成为代表委员建言的高频词。机器人和自动化系统也越来越多地出现在各行各业,甚至成为了我们日常生活的一部分,正改变着我们的生活和工作方式。‎

但建筑业目前仍然是自动化程度最低的行业之一,体力劳动仍被认为是生产力的主要驱动力。作为国民经济支柱产业之一,也是以终端需求直接驱动的产业,饱受关注的建筑业变革已经在所难免。但建筑行业的涵盖面非常广泛,变革所需的时间相当漫长、难度也巨大。

01.

建筑机器人很有市场

建筑智能建造产业升级是解决建筑业诸多问题的有效途径之一。广义的建筑机器人囊括了建筑物全生命周期相关的所有机器人设备,狭义的建筑机器人特指与建筑施工作业密切相关的机器人设备,通常是一个在建筑预制或施工工艺中执行某个具体的建造任务(如砌筑、切割、焊接等)的装备系统。

就目前来看,建筑机器人分别会在建筑行业上游的生产流程和下游建设流程中优先得到快速应用。从全球市场来看,近年全球建筑机器人行业的规模保持持续增长态势,2020年全球建筑机器人的市场规模达到1.13亿美元,同比增长了15.31%。我国建筑业产值规模不断扩大,也为建筑机器人行业提供了充足的发展空间。预计到2023年,中国建筑机器人行业应用规模将达到224亿元。

02.

机器人在建筑行业的使用

在自动化水平、机器人应用方面,制造业、汽车领域的水平要远高于建筑业水平。目前,大多数机器人的研发是由工业机器人为基础,结合建筑领域的特点,加以创新发展而来。虽然国内外建筑机器人发展水平不一,但整体上偏向于新材料(如轻质碳纤维)建筑物、构件加工以及构件施工安装、搬运方面的应用。部分机器人厂商已实现自动定位,自动巡视等功能。智能建造机器人的应用潜力还很大,其智能化水平以及普适度,还需进一步的研究与完善。

03.

展开全文

机器人将完全取代人力?

在效率方面,相比人工,机器人的确有着巨大优势。例如美国建造机器人公司(ConstructionRobotics)开发的半自动砌砖机器人(Semi-AutomatedMason,SAM)砌筑系统可使墙体砌筑效率提高3-5倍,减少80%的人工砌筑作业。目前该砌筑机器人系统已投入商用。

与此同时,有些人认为数字化可能减少就业机会并取代劳动力。但就目前来说,机器人还不可能完全取代人类劳动力。施工过程非常复杂,需要一定的灵活性。但随着数字化在建筑行业的进一步发展,在工程施工领域,也许会创新发展出一个完全自动化、数字化的、可以实现机器人化的建筑工地。‎‎即便如此,‎建筑工地的人力也不会消失,只是变成了操控机器人的角色。‎机器人技术不是对建筑行业劳动力的威胁,而是一个未来的机遇。

机器人在建筑行业目前正处于起步研发阶段。已有部分项目采用了机器人进行施工工作。特别是在新建建筑以及场地测量方面,机器人是高效率帮手。当然,建筑机器人仍然需要进一步地研发完善,包括流程的调整,操作人员的培训等,最重要的是,需要提高机器人日常使用的适用性。‎

建筑行业的建设周期很长,

变革可能仍然需要5-10年,

这段时间出现的每个变革者,

都在一点点解决建筑行业的细分问题,

他们的创新值得期待。

·END·

版权声明:罗勒咨询所推送文章非商业用途

若涉及版权问题,烦请原作者联系我们

我们会在24小时内删除处理,谢谢!返回搜狐,查看更多

责任编辑:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇