基于卷积神经网络的人脸表情识别综述
基于卷积神经网络的人脸表情识别摘要:在日常的沟通与交流过程中,运用面部表情可以促使沟通交流变得更加顺畅,因此对于人类而言,进行面部表情的解读也是进行相关沟通交流内容获取的重要程序。随着科学技术的不断发展,人工智能在日常人类交流沟通中,运用的越发广泛,因此面部表情人工智能识别这一项技术的发展与创新也更加受到关注。本文将对卷积神经网络的人脸表情识别技术进行深入的研究与探析。
关键词:卷积神经网络;人脸表情识别;技术研究
引言:人脸表情识别技术其实是一种将计算机技术与生物学联系在一起的技术。这项技术的出现与创新,标志着人类未来的生活将会出现多种多样的交叉型学科研究,这也意味着人类未来的计算机技术发展,会有更多的可能性,但需要注意的是,想要使得人脸表情识别技术变得更加智能化,更加精准,仍然需要进行更加贴合实际人类需求趋向的技术改进,下文将从卷积神经网络的角度出发,来进行人脸表情识别技术的研究。
一、相关理论概述
想要对基于卷积神经网络的人脸表情识别进行深入的研究与探讨,就需要对神经网络理论以及人脸表情识别技术有一个更加深入的认知。
1.神经网络模型
所谓的神经网络理论中,神经网络模型是较为重要的组成部分,该模型能够对人脑的结构以及功能进行一个数据化的模拟反应。而神经网络中最基本的单位是神经元,因此要进行神经网络模型的构建,必须要对神经元的信息传递方式以及连接方式有一个深刻的认知。相关技术研究人员发现,使用神经网络训练的过程中要进行前向传播以及反向传播的训练。相关技术研究人员通过对人体神经网络日常信息反馈和分析的方式与方法研究,来进行数字化模拟的神经网络模型搭建。
2.卷积神经网络
卷积神经网络是人工神经网络的重要组成部分,它是一种十分高效的网络,需要通过多层的神经网络组合起来才能够进行运用。卷积神经网络有较为漫长的发展历史,随着人工智能技术的逐渐发展和创新,卷积神经网络的技术也逐渐达到了新的高度。在传统的神经网络工作原理中,仅仅只能够满足两层神经元之间的相互连接,但是在日常的计算机运算过程中,全链接层上的参数过多,因此这种传统神经网络的工作方式可能会导致整体的网络训练速度变得十分缓慢,甚至出现过拟合问题。而卷积神经网络则完美的规避了这些缺点,能够使得全链接层上的参数在计算机运行过程中有明显的减少,这样一来整个网络训练的速度就能够得到提升与稳定。在使用卷积神经网络进行图像认知识别的过程中,每个神经元只需要对图像的局部特征进行辨识,而不需要每个神经元都对整个图像的特征进行辨识,这不仅能够使得图像识别的精准程度得到提升,还能够使得图像识别的速度得到提升。因此相比较传统的神经网络在人脸表情识别方面的使用,卷积神经网络的使用会变得更加方便、快捷。3.人脸表情识别理论
想要成功的进行人脸表情识别,要经历三个阶段,第1个阶段是人脸检测阶段,第2个阶段是人脸表情特征的提取阶段,第3个阶段是人脸表情的识别阶段。这三个阶段缺一不可,共同完成一次人脸表情的精准识别。所谓的人脸检测指的是在图像中精准的,找出人脸的位置,因此不论是第二步骤还是第三步骤的应用,都需要经历第一步骤,如果相关神经网络技术的应用,无法在图像中进行人脸位置的准确提取,那么第二步骤与第三步骤也就无从谈起。能够用来进行人脸检测的方式有很多,这里不进行一一的举例。在第一步骤完成之后,到了第二阶段,就需要进行人脸表情的特征提取,所谓人脸表情的特征,指的是面部肌肉以及纹理变化的相关特征数据化,通过数据化的呈现来进行准确的提取和分析。由于相关人脸表情识别技术不仅仅要运用在静态图像上,也需要运用到动态图像上。而运用到静态图像上的技术与运用到动态图像上的技术有些微的差别,因此相关技术人员必须要对不同的图像类型的人脸表情特征提取进行不同的基础研究。到了第3个步骤之后,由于已经有了提取出的人脸表情特征信息,因此该步骤只需要判断提取出来的特征属于哪一类别,便算是完成了整体的人脸表情识别。这一步骤的完成也可以通过好几种不同的算法来进行。总而言之,人脸表情识别方式以技术手段仍然有不断改进的可能,在卷积网络神经技术使用基础上进行人脸识别技术的使用,更能够保证其准确性。
二、相关网络结构研究在卷积神经网络模型的使用过程中最常使用到的模型种类是AlexNet,这种卷积神经网络模型相比较传统的卷积神经网络模型,有十分重大的改进。具体而言,在传统的网络训练过程中,通常指使用一个GPU来帮助进行网络训练,这个时候的网络训练速度并不尽如人意。但在AlexNet这一卷积神经网络模型中,相关技术研究人员将GPU拓展到两个以上,这样一来,网络训练的速度就能够获得极大的提升。再者,在传统的卷积神经网络模型中,通常只有7层网络层数。一旦遇到较为复杂的运算就很可能会出现梯度弥散的状况,但如果将网络层数拓展到11层,那么相关的梯度弥散状况发生概率就会获得明显的降低。AlexNet网络结构的使用,就成功将网络层数拓展到了11层。使得相关网络结构更符合人类的使用期待。此外在这一类型的卷积神经网络模型搭建过程中,相关技术研究人员为了对反馈小的神经元进行抑制,使得反馈较为明显的神经元能够获得增强,相关技术研究人员还尝试添加了LRN层,帮助进行局部神经元的竞争机制创建,这样一来模型的泛化能力也得到了较为明显的提升。最后,由于传统的卷积神经网络在使用过程中很可能会出现过拟合情况,为了使得相关弊端能够得到较为精准的规避,相关技术研究人员开始尝试使用大数据量的imagenet机制来对过拟合情况进行控制。因此相比较传统的卷积神经网络模型而言,AlexNet的确更具优势。
三、进行数据库集建立
为了使得未来的人脸精准识别能够变得更加高效准确,有许多技术研究人员开始通过数据库的建立来进行人脸表情的搜索与整理。现有的人脸表情数据库在数据存储量上并不符合使用军机神经网络来帮助进行高效表情识别的期待,因此为了使得研究变得更加精准合理,应当建立能够使用卷积神经网络技术来进行人脸表情识别研究的人脸表情图像数据集。下文将对数据库集的建立进行深入的分析与研究。
1.进行原始数据的获取
想要使得相关人脸精准识别数据库更具典型性与代表性,在相关数据的收集过程中,就应当以认真负责的态度来确保相关数据的真实性。具体到人脸精准识别数据库的建立上,则表现为相关技术研究人员需要对人脸最具代表性的5大类表情:面无表情和微笑哭泣,惊讶,以及生气进行最为精准性的收集。其中微笑表情的面部特征是面部肌肉强有力的收缩,面颊向上,眼角下的皮肤略微有些松弛,眼角的鱼尾纹会起皱。而哭泣表情则是嘴巴张大,整个面部表情向下,眼睛紧闭或是上下眼皮靠拢。而到了生气这一表情的受气过程中,相关技术人员所需要进行关注的面部特征是眼睛睁大,瞳孔变小,以及上下牙齿咬合在一起。而所谓的面无表情就是从表情分析上看不出人类想要表达的情绪。惊讶表情则是,嘴唇张大,眼睛张大,瞳孔放大,都有这一类表情特征的图片则会被标记为惊讶。当然技术研究在进行相关面部图像表情采集的过程中,所需要运用到的采集技术有两种一种是爬虫采集,另一种是手动采集。手工采集是一种较为原始和传统的信息采集方式需要靠技术人员在互联网上进行手动的信息获取。而爬虫采集则颇为不同,爬虫采集只需要使用互联网爬虫技术并可以自动进行图像获取。因此相比较手动采集而言,爬虫采集更符合现代化的网络信息技术发展趋向。较为常见的爬虫采集技术,可以分为网络链接爬取和图像数据爬取两种。在进行人脸表情数据库建立过程中所需要使用到的爬虫技术是图像数据爬取。能够准确无误的使用该技术,便可以更加真实的进行相关人员数据的获取和整理,这对进行相应数据库的建立是能够起到助力的。
2.进行数据预处理
倘若相关人脸表情识别的数据收集较为真实且高质量,要么在进行下一步的相应人脸表情数据识别过程中,相关识别效率就能够得到有效的提升。因此在进行数据库的建立过程中,进行人脸表情识别准确性的提升是很有必要的。需要注意的是,相关数据库中所收集的图像必须要是正面且无任何遮挡的人脸表情图像,相关技术研究人员倘若在进行图像收集时没有注意到这一特征,很可能会使得整个人脸表情数据库的建立质量受到影响。除此之外,在进行相应原始数据仓库之前,还需要对多余的背景信息进行剔除。因此在进行了相关图像信息的初步采集后,进行数据的预处理工作是十分有必要的。在数据的预处理工作完成后,还要炖,已经处理过的数据信息进行统一的尺寸修改以及格式修改和命名修改,通常情况下,人脸表情数据信息采集在进行了预处理过程后,都需要统一为JPG格式,并且相关的分辨率,也需要进行统一,通常情况下分辨率需要统一为227×27的模式,能够被当作原始的参照图像资料存入库中。在这一流程完毕后,相关的数据库建立便宣告完成。
四、进行AlexNet网络改进虽然相比较传统的卷积神经网络模型而言,AlexNet具有无可比拟的优势,并且能够使得相关的人脸表情识别效率质量大大提升,但是在人工智能技术不断发展与改进的过程中,相关技术人员仍然发现AlexNet网络结构存在着一定的缺陷。例如使用该网络结构来对人脸表情进行识别实验,最终的精准程度是74.91%。就是说它能够识别大部分的人类面部表情,但却仍然存在误差,这意味着相关网络结构在卷积操作的特征提取过程中,所使用的卷积操作卷积核尺寸并不具备多样性。只想要在未来的卷积神经网络基础上进行人类面部表情识别,并且使得相关面部表情识别变得更加精准和高质量,就需要对现阶段所使用的AlexNet网络结构进行进一步的改进与完善。
结束语总而言之,在人工智能技术不断发展与完善的过程中,想要使用卷积神经网络来进行而且面部表情的识别与抓取,并且使得相关识别质量与速率能够得到明显的改进,就需要不断结合人工智能技术的发展趋向来进行相关识别技术的完善,这项技术的改进,能够对人类的面部表情进行更好地解读,这样也会在一定程度上促进人与人之间的良好沟通,使得人类日常的生活和工作变得更加方便快捷。
参考文献:[1]石翠萍,谭聪,左江,赵可新.基于改进AlexNet卷积神经网络的人脸表情识别[J].电讯技术,2020,60(09):1005-1012.[2]郭昕刚,王帅,张培栋,梁锦明.连接卷积神经网络人脸表情识别算法[J].长春工业大学学报,2020,41(04):381-386.[3]杨瀚霆.基于轻量化卷积神经网络的人脸表情识别方法[D].北京建筑大学,2020.[4]周涛.基于卷积神经网络的静态图像人脸表情分类技术研究[D].内蒙古科技大学,2020.[5]王帅.基于卷积神经网络的人脸表情识别研究[D].长春工业大学,2020.[6]辛阳阳.基于深度学习的人脸表情识别方法的研究[D].山西大学,2020.[7]冀聪聪.基于卷积神经网络人脸表情识别的研究[D].广西师范大学,2020.
深度人脸表情识别研究进展
近年来,随着人工智能与人机交互技术的发展,人脸检测、对齐、识别技术的不断跟进,自动人脸表情识别由于其潜在的社交媒体分析和情感计算能力而成为了计算机视觉领域的热点研究话题,并在众多商业场景中有着巨大的应用前景。
图片来自网络
推荐《中国图象图形学报》2020年第11期“基于视觉的情感感知技术与应用”专刊论文《深度人脸表情识别研究进展》。论文由《中国图象图形学报》编委,北京邮电大学模式识别实验室邓伟洪教授团队撰写,对近十年来深度人脸表情识别方法的研究现状以及相关人脸表情数据库的发展进行了归纳概括,对该领域的未来研究方向和机遇挑战进行了总结和展望。
01论文信息
论文标题:深度人脸表情识别研究进展
作者:李珊,邓伟洪
第一作者单位:北京邮电大学人工智能学院
引用格式:
Li S, Deng W H . 2020. Deep facial expression recognition: a survey. Journal of Image and Graphics,25(11): 2306-2320.(李珊, 邓伟洪. 2020. 深度人脸表情识别研究进展. 中国图象图形学报, 25(11): 2306-2320.) [DOI: 10.11834/jig.200233]
论文链接:
http://www.cjig.cn/html/jig/2020/11/20201102.htm
02论文看点
图片来自网络
1)论文介绍了人脸表情识别的相关背景知识,并对表情识别领域数据库和算法的演化和发展进行了概述。根据处理数据对象不同,论文将现有深度人脸表情识别技术分为两大类,并分别对这两类方法中新颖的人脸表情识别技术以及相关网络训练技巧进行了归纳概括和介绍。
2)基于目前常见人脸表情数据库,论文进一步对代表性深度表情识别方法在不同数据集上的性能进行了比较,并详细统计了不同方法所对应的网络框架和具体表情识别结果。除此之外,论文还对不同类型的网络框架技术从模型计算量、识别精确度、存储空间、计算效率等方面进行了优缺点的比较。
3)论文指出了目前自动人脸表情识别领域仍需攻克的难点问题和现有方法所存在的局限性,根据相关技术和笔者经验梳理提供了一些可行的解决方案,并进一步指出了人脸表情识别领域的未来研究方向。
03
基于深度学习的人脸表情
识别技术
根据所处理数据的不同,基于深度学习的人脸表情识别技术主要可以分为两大类:基于静态图像的人脸表情识别网络和基于动态序列的人脸表情识别网络。
1)对于静态人脸表情识别网络,其中多网络融合模型在特征层次或者决策层次融合了不同子网络的优点。然而,设计不同类型用于互补的子网络也大大增加了模型计算量和储存空间。此外,不同子网络权重参数的多度优化易导致模型在测试集上的过拟合。
多任务网络则在训练表情识别任务的同时也考虑了其他与表情相关联的任务, 例如面部特征点定位,面部肌肉单元检测和人脸识别,从而排除了与表情无关因素的干扰。该方法的主要局限在于其要求更多与其他任务相关的标签参与训练,并使得训练量更大。级联网络则通过将不同子网络串联在一起逐步加强了模型的判别能力。
该方法能够有效避免过拟合问题并排除与表情无关因素的干扰。此外,生成对抗网络因其可生成高质量目标样本的优点也逐渐被用于表情识别领域中进行姿态不变的表情识别或者增加训练样本的数量和多样性。
图片来自网络
2)对于动态人脸表情识别网络,其中RNN及其扩展LSTM作为基础时序网络结构被广泛运用于视频序列的学习。然而固有网络结构使其难以捕捉到有效的图像卷积特征。而三维卷积网络则能更好地学习出图像特征,但其中的三维滤波结构往往只覆盖了短时间内的序列而忽略了长范围内的动态变化。
人脸关键点轨迹则是依据人脸生理结构捕捉人脸形状特征在时间序列内的动态变化。该方法计算量小而且不受光照等无关因素的干扰。但是其对面部特征点定位的精确度要求较高。
级联网络则是首先提取有表情判别能力的空间特征然后将该信息依次输入到时序网络中进行时序信息的编码。而多网络融合则是同时训练两个子网络分别用于捕捉时序信息和空间信息,然后将其输出结果进行加权融合。
04挑战与展望
1)真实世界人脸表情数据标注不足问题
在数量和质量上均较为匮乏的数据库是当今深度人脸表情识别系统面临的主要挑战。由于不同年龄段、不同种族和不同性别的人表达和解析面部表情的方式也不同, 一个理想的表情数据集应该包含除了表情标签之外,各种丰富且精确的其他面部属性标签,例如年龄、性别和种族。
然而对大量携带复杂自然场景变 化的数据进行精确的标注的难度很大。对此一个可靠的解决方式是在专家的指导下对数据进行多人的众包标注。
2)数据集的偏差和不平衡分布问题
由于收集条件的不同和标注的主观性,数据偏差和不一致的标注问题在不同人脸表情数据库中也十分常见。通过在数据库内进行评估的算法往往缺乏对未知测试数据的普适性,其性能将会在跨库实验中明显恶化。深度领域自适应和知识蒸馏则是解决这一偏差问题的有效方法。
此外表情数据还存在类别不平衡问题,在一定的表情模型下,小样本和不平衡分类问题在表情识别任务中长期存在,如何引入相应新技术将是该领域未来重点研究方向。
3)多类表情模型协同工作
面部肌肉可以组合出上千种动作,基本表情只涵盖了小部分动作类别。其他表情模型则可以涵盖更大范围的表情类型,如面部动作单元编码模型中不同面部肌肉相互结合用来述表情的面部变化;维度模型中两个连续值变量,即效价和唤醒度,能够连续地编码出表情强度的细微过渡。
针对如何有效地利用这些模型,可以有以下几种思路。首先在设计网络参数时可以针对面部不同区域对表情的贡献值来赋予不同权重。其次也可以基于注意力机制来强调与面部肌肉单元最相关的区域,从而使模型能够学到具有表情判别性的特征表示。
4)多模态表情识别技术
尽管基于可视人脸图像的表情识别能够取得不错的效果,但与其他模态结合到一个高层框架中能够提供互补信息从而进一步增强模型的鲁棒性。例如,可以将音频模态作为次重要的因素与图像信息相融合来进行多模态的情感识别。
此外,红外图像、三维人脸模型的深度信息、人体生理信息以及手势姿态也可以作为面部表情的互补数据来辅助情感识别。将表情结合语音、文字、脑电信号的多模态表达识别是非常值得研究的问题,它将使得机器可以读懂人类的内心,人机交互将变得更加自然流畅,疲劳驾驶监控、犯罪心理测试技术、自闭症医疗服务等实际应用可以得到落实。
05作者简介
李珊,北京邮电大学博士研究生,主要研究方向包括人脸表情识别以及深度学习。
E-mail: ls1995@bupt.edu.cn
邓伟洪,北京邮电大学教授,博士生导师。主要研究方向为模式识别与计算机视觉、人脸识别、表情识别、行人再识别、细粒度图像识别, 以及视觉识别中遇到的瓶颈问题,深度迁移学习与度量学习的理论研究。E-mail:whdeng@bupt.edu.cn
团队介绍
北京邮电大学模式识别实验室(http://www.pris.net.cn)于1998年依托信号与信息处理国家重点学科以及模式识别与智能系统信息产业部重点学科而创建。实验室长期从事模式识别、信息检索、网络管理等方面的研究,主要研究内容包括:互联网(论坛、博客、微博)舆情分析;互联网图片检索及过滤、视频检索及过滤、语音识别及过滤、信息检索与过滤技术、演进式多媒体过滤技术、网络管理技术等。
实验室现有教师20余名,其中教授4名,副教授10余名。实验室承担了科技部重点研发专项、无线重大专项、国家863、国家自然科学基金重点项目、教育部重点项目在内的国家级项目20多项。近5年来,实验室总计发表论文200多篇。实验室研发的手写汉字识别、文本分类、人脸检测等多个项目在国家863组织的技术评测中荣获第一名,成果已在华为、中兴、滴滴出行等知名公司实现转化。
END
备注:人脸
人脸技术交流群
人脸检测、识别、对齐、重建、表情识别、表情迁移等技术,
若已为CV君其他账号好友请直接私信。