人脸识别国内外现状及发展
分几个方面分别的论述一下人脸识别的技术和产业发展的相关状况。 第一,人脸识别技术的价值在哪里。我们把人脸作为一个生物学特征,作为一个商业化运用,只是备选的一个方案之一。生物学当中,唯一的判断的标准,其实识别从精准度的角度和不可替代的角度来讲,最精准的是虹膜,但是虹膜的识别采集成本非常高,识别的效率相对不是很高,需要等待的时间。所以这两个条件约束了整个的产业化运用只能局限在相对小众的,对识别要求极高的军工、国防等安全性非常高的远的投入,不适合大范围的推广。 第二,指纹。我们知道指纹的唯一性比较强,指纹同时采集成本是比较低的,比对成本也不高。但是为什么指纹没有成为一个特别大的可供支付、刷脸可替代的方案呢?实际上主要的原因是因为指纹的可复制性,是一个静态图像之间的比对,现在我们可以看到淘宝也好,各种各样的大量的指纹贴,指纹膜,可复制的特征,不适合支付。所以指纹现在也大致上被pass了。 第三和第四分别是人脸识别和声音识别技术。这两个在现在横向来相比,采集成本和比对的效率,以及生命特征的唯一性来讲,性价比比较高。所以现阶段来看,人脸识别浮出水面,是有它的道理的,这是它的价值。商业特征的应用场景到底在哪里。 人脸识别的应用场景是非常宽泛的,现在主要两块, 一个是金融行业,一个是安保行业 。金融行业,已经从马云的蚂蚁金服演示中看到了场景,通过 刷脸进行支付 ,显然刷脸可以付钱了,为什么不可以签收快递呢,下一步淘宝应该会把淘宝签收快递的功能打通。我相信有一天,我们会收到无人机送来的快递,无人机在你的面前拍一张照片,进行对比,就知道这个用户就是需要的用户,完成整个的支付过程。实际上这种场景,是经过多方面的讨论和认证的。基于这样的场景,是跟第三方的支付认证相关的,包括我们看到的腾讯的银行,第一张远程开卡,就是通过人脸识别的技术,把人证合一进行认证,这样远程开户,远程开卡的功能,在我们的券商,在我们的网络银行上面,应该有广泛的应用。 对于安保行业来说,刷脸开门,现阶段,人脸识别的应用应该说达到了一个可具备商业化的水平,我们举个例子,在去年的时候,香港有一个导演叫许鞍华,他在南京地铁中丢了一个他的皮包,这个案件的破获,只花了5个小时。视频监控里面获取了一张照片截图,截到了嫌疑人的照片,是极其模糊的,侧脸的照片,如果肉眼比对,发现不了什么。但是有一家非上市公司,在这里不能提供他的公司名称,他们通过一个图像还原技术,把那个照片还原出可能嫌疑人的样子,清晰照,用这个照片到图库当中比对,锁定嫌疑人的身份,把嫌疑人抓获,只需要了5个小时的时间。现在安防领域的监控,我们可以看到各个省市以及地级市,都在上大量的视频监控,人脸识别的大平台。在整个安防的投入当中,上一代的安防只是静态的记录下来数据,但是下一代的安防,是对实时数据的采集、辨认,就是一个核心的技术,这个技术,人脸识别在其中发挥的作用是很大的。 我们再拓展一下,未来的商业用途,到底有没有第二代人脸识别技术的潜在的应用的场景呢。我们说在未来,应该说原来整个确定身份的身份证,但是证和人的比对需要人工来完成。如果我们直接界定,达到了这样的一个标准,实际上每个人所对应的唯一的ID就是脸部的生物特征。这个识别了以后,所有的地方都可以用刷脸的方式,所有的地方都可以用刷脸去开门,用刷脸去做各种各样的事情。你刷脸的数据,包括你去坐火车、坐飞机、去哪儿吃饭、购物、收快递等等,这些数据都会掌握到人脸识别中,刷脸的数据将取代现在线上的点击量. 现在信用卡、银行卡消费的数据,其实有助于知道用户消费习惯和消费数据,做大数据的营销和征信,但是刷脸时代来临之后,这个的价值更大了。有很多张卡,但是只有一张脸,这是唯一的。刷脸数据是2.0时代当中,我们重点看到的。 为什么在这个时间段,人脸识别的技术会大范围的爆发出来,大范围的应用起来,成熟度到底怎么样呢?我们首先要界定一下人脸识别技术要达到产品化的应用,是两阶段的过程。 第一阶段,需要获取大量的样本数据,这些数据是用于训练的,训练的是学习算法,这个是深度学习算法,把这些数据和相互人之间的关系提取出来,进行一个特别的比对。耦合度高,超过一定的水平之后,我们会认定这两个人是一个人,但是这个模型是需要投入大量的成本,这个成本包括优化的成本,包括数据训练的成本,包括运算的成本 ,我们当时人脸识别的一个业内的公司,这家公司的创始人,曾经说,人脸识别的技术意味着什么呢?太上老君的炼丹炉,有了这个炉之后,大数据是炉子炼的原料,解决计算能力资源的稀缺。因此这些合在一起,形成了现在人脸识别大爆发的时代,就是我们说的技术上的突破。 但是在产业上面的应用来看,目前我们可以看到,美国和以色列的人脸识别,特别是动态识别的水平是国际领先的。全网的实时监控当中,FBI在去年推出了他们的下一代的电子识别系统,总的投入是超过10亿美金的。在美国将来无论是在什么地方犯了事,监控锁定犯罪嫌疑人,进行全网追捕。 国内是什么水平呢?顶尖的学术水平,就代表着国内产业发展的阶段。目前主要是三种力量,一个是 清华大学的苏光大教授 ,他是中国的人脸识别之父。第二个是 中科院的自动化所的李教授 ,他早年在微软的亚洲研究院当中获得了非常高的成就,后来到了中科院的自动化所,专攻人脸识别。在奥运会当中,以及后来很多的人脸识别的应用当中,提供了比较好的技术。 第三支就是 香港中文大学的汤晓鸥教授 的团队,每年会进行学术界的比赛,他是高记录的保持者。目前的识别率是超过了人类的脸部识别的总体水平,汤教授帮助讯飞在语音识别领域之后,在人脸识别的领域当中,建立了自己的行业地位。所以国内基本上目前是这样的发展阶段,我们去推导下面的阶段,我们怎么去甄别人脸识别的技术,到底哪一家靠谱,哪一家不靠谱,我们可以提出一些关键的甄别的关键点。这些点在哪里呢? 第一,我们要区分的,动态和静态配合式的识别还是非配合式的识别。配合式的就是像蚂蚁金服那样的,需要数据的比对方进行配合,可以很好的去采集正脸的二维的数据。另外,就是非配合式的,非配合式的没有办法对排除方的配合,是需要随机采集的图片进行比对,这个识别的效果会差一些,但是识别的时效性会很高。
这两种模式当中,我们关注三点。
第一点,你的人脸建模当中到底提取了多少个特征点进行比对,这个跟我们人脸上面的一些特征是关键节点,每个人的差异很大,而你选取的特征点的数据越多,比对的准确率就会越高。我们也采访了一些专家,他们目前能够做到的特征点的比对,应该是在700个点以上。目前大部分做刷脸的门禁这样系统产品的公司,特征点的选取大概是在50个左右。所以我们去做调研和交流,可以问一下整个公司人脸识别建模当中特征点的数量。
第二点,人脸识别数据库的数据样本和大小,这是一个非常重要的指标。样本及大小,是我们可供的数据集,这些必须要对人脸,比如说一个人有500张照片,拍的都是他的脸,不同的角度和位置、光线,把这些数据进行合理的清洗,供机器去训练包括比对和识别之后,可以告诉你是识别对了还是识别错了,这样的样本数非常重要,有助于训练,提高模型的准确率。因此可标签的数据样本集的大小,这个大小目前至少是百万以上的级别,才会使得现在识别率能够提升到世界领先的水平,这个也是可以甄别的关键点之一。 第三点,是不是你的商业模式能够对你的整个的数据的获取,我们说人脸数据的比对,形成一个 正循环的模式。实际上数据来源,人脸的样本来源,是来源于两个非常重要的渠道,美图秀秀和美颜照相机,这是一个商业的互换,这个数据,因为考虑到做一个脱敏的处理,剩下的只有几百个关键的特征点的数据,其他的都被略去,用脱敏的技术之后,形成了从获取数据到训练模型,再到优化模型,持续的反馈结果,获取新的数据,这样的一个正循环的过程。有了这个以后,你的模型的数据就会获取的很好了,这是商业模式上非常重要的一个指标。 如果有了这三个指标之后,应当说同时具备了这三个,可能是在人脸识别领域当中有非常大的领先优势,或者是未来发展潜力的东西。同时我们在直观的性能方面去分析,直观的到底识别的表现上有两个非常重要的指标,一个是识别的准确率,我们界定了刚才说的学术界当中,每年一比的人脸识别大赛,现在基本上测试水平都在95%以上,但是是人和图片之间相互比对,说明是这个人,这算一个,再比对一个,又对了,算第二个。所有的人和照片都是匹配好的,最后正确率在99.2%左右,这是我们说的目前的正常的比对方法。 还有一个非常重要的方法,我们看到商业银行和淘宝在内的一些人脸识别的技术,会提出一个 错误率 的问题,这个数据,目前来看可以做到十万分之一的错误率,别人拿着我的身份证去比对,如果机器能够区分出来,是不通过,这是对的。如果机器把我的身份证给别人的时候也通过了,这可能就是一个错误的,错误率要在十万分之一左右才可以,目前能达到这样错误率的公司是屈指可数的,这是一个识别准确率的问题. 另外还是在多大样本中可以实现这样的准确率,这个是至关重要的。一个公司里面也就是两三百个人,在这些人当中,挑选出来通过,没有什么难度。但是在公安部的大平台当中,省级的平台当中,都是上亿人的身份证照片中,要准确的挑出来十个或者是一百个候选人,这个范围缩小到这个概率当中,你的准确率能有多大,这是一个很重要的指标。 第二点, 识别的速度问题 。同样还是刚才我们说到的样本集的大小决定了识别的速度。本身你在可供比对的样本中,没有很大的数据,比如说是成千上万的,识别的数大家都是差不多,都是在1秒之内作出反映,但是如果在一个上亿的大的样本当中,去把照片准确的识别出来,这样对时间的要求,对效率反映的要求就提高了。所以识别速度是一个很重要的指标。 以上我们说了五个指标,我们说这个确实是可以对公司的具体能力和技术进行综合判断的。 基于以上我们说的这些,关注的公司是有识别技术的公司,这个识别技术是人脸识别的技术。我们前面讲了,本身国内发言的几支学术界的力量大家非常清楚,来源于哪一支,背靠着哪一支强大的学术团队,研究团队的力量,使得这家公司是一个很好的位置。比如说我们前面讲到的科大讯飞,在汤晓鸥教授的支持下,他们的团队是学术界第一的力量在支持他们,这是一个资源性的优势。比如说川大智胜,这个和李教授他们有密切的合作,同时他们自己在图象识别领域当中,也有自己独特的技术,承担着国家大量的科研基金的项目,同时我们也特别强调一个就是川大智胜的人脸识别技术,是目前我们看到的 人机交互 ,因为这个和二维的平面识别有很大的区别,优势非常明显,因为采集到了五官之间立体曲面之间的结合,所以采集到的数据量更丰富。可供比对的特征也是更多的,我们之前在视频当中找到拍到的侧脸,不清晰的照片,很难去识别出来犯罪嫌疑人到底是谁,是因为我们二代身份证库当中,本身就是只有正脸的可供比对的数据。三代或者是四代身份证采集数据的过程当中生物特征肯定要被提取出来,首先是指纹,三维的人脸识别会更快,三代四代可能就会被提取。 一旦需要被提取到三维的人脸的数据,那么这个时候川大智胜作为国内目前唯一一家有产品和技术的公司,面临的是广阔的市场。但是我们同时也要看到,三维人脸识别虽然有非常惊人的优势,同时劣势也是非常明显的,特征点的选取,包括侧脸的选取,是有难度的。同时表情的因素,其实对于数据处理的影响,没有在立体表情的因素那么好,提取的时候效率是偏低的,消耗的数据也非常大。所以现在来看,我们能够看到的应用场景目前还是小范围的,包括像美国对犯罪的有案底的犯人,我们国内目前在监狱当中也逐步的推广,将来全民都要采集,这肯定是一个非常巨大的市场。 同时这家公司在人脸识别公司当中,技术特点和现在持续的对三维人脸识别加码,有一个项目是1.8个亿,要投入到研发当中,国家自然科学基金也已经持续的支持他们三维人脸识别的学术研究的项目,已经支持了很多年。所以在这个领域,应该是到了开花结果的地步。所以这一点,我们特别提示大家要关注这个公司,在技术上确实是有稀缺性的。 科大讯飞,就是典型的我们刚才讲的商业模式,可以实现人脸识别数据正循环的公司,是拥有互联网端的入口的。之前在语音的领域当中,讯飞语音云走的就是这样的模式,我获取的是你语音的数据,用你的数据持续的训练我后台的算法,使得他们提升和保持和其他竞争对手的领先优势。这样的话,数据端的循环,从语音的这个领域当中,复制到图像识别,就是人脸识别当中。大家如果关注讯飞,大家可以看到,在上个星期的时候,推出了双重生物特征的识别的因素,双重是什么呢?两重加密以后,确实就是这个人,把出错的概率降到非常低的水平。同时识别,双重加密之后,这个身份验证的过程可以做到数量级上面的提升。 有了这样一种开放云的平台之后,讯飞的数据正规化的过程也在逐步的建立,他下一步会和非常多的第三方的应用方合作,包括可以刷脸开锁的智能硬件方面,包括和电话银行,电话客服,还有邮箱去实现他的数据入口的正循环的过程。我们核心的问题就是以上的这样的一些判断的标准来去甄别的。我认为讯飞实际上是非常有希望的人脸识别的公司。我们在报告当中,也提到了讯飞是一个生态级的公司,不光是在人脸识别的这个领域当中有比较强的资源优势和技术优势,以及商业模式的优势。同时在我们整个的人工智能领域当中,讯飞超脑可以不断的用它孵化,基于学习的模式,从语音迁移到现在的图像,下一步迁移到语义当中,不断的做技术的衍生,这样的生态链一旦形成的话,在人工智能产业的地位是不可动摇的。所以人工智能整个的产业,我们想推的是科大讯飞。 人脸识别的领域当中,讯飞的优势也是非常明显的,同时我们也是看好川大智胜拥有的三维人脸识别的技术。其他的品牌公司,我们可以看到欧比特收购的公司,在安防领域的人脸识别当中,在监狱当中是超过50%的,在产品化方面也做的非常好。其他的两家,刚刚推出了自己的识别技术,现在了解的信息当中,还没有办法很好的甄别他们现在是否拥有满足我们以上的五个标准。在以后的调研和跟踪当中,我们会对他们的标准进行梳理和进一步的分解。这是对识别类公司的分析. 下一个阶段,我们觉得还有比较好的投资机会,除了第一类识别类的,第二类应该是数据资源类的,数据资源目前来看就是视频资源,有比较好的视频资源的公司,可以通过视频资源进行持续的深度学习的算法和优化,也许他自己没有这个技术和能力,但是可以通过技术合作的方式,找到研发团队或者是公司进行合作,共同开发优势。目前在视频资源当中的这些公司进行梳理的话,我觉得东方网力在这个当中步子迈的最前。目前产品端还是没有关于人脸识别成型的产品推出来,但是他的应用是在于多年的视频数据的积累。这个是和后期有密不可分的关系。先收购了广州的安防领域的视频监控的智能化的公司,这个步子一迈出去,布局的意图非常的明显。摄象头公司会往视频的公司侵占,后面的公司将来可能会往存储的环节去挤压,有可能将来会把分析和存储在一个环节当中就完成了,这个时候面临的压力是比较大的,所以转型的动力也是最迫切的,意愿也是最强烈的。 所以总体总结下来,现在人脸识别技术大爆发,并不是偶然的,应该说很好的满足了我们讲的人工智能的三大条件。深度学习的算法,大数据和云计算,这三个条件成熟了以后,在拐点到来的时候,大规模的商业化应用是水到渠成的。下一个阶段,基于计算机视觉的应用,在视频监控领域当中,对人的行为模式的识别、跟踪和分析,这些都会成为一个非常大的市场,成熟度还有待于进一步的检验。但是这个市场我们已经都看得到了,所以现在我跟大家探讨人脸识别的产业的发展机会,我觉得其实大家需要关注的不仅仅在于人脸识别技术本身的发展,也不仅仅在于哪几家上市公司拥有哪几项技术,而是看到背后代表的是整个计算机视觉的兴起。 人工智能报告当中也提到过,计算机视觉的1.0版本,是对静态图像的识别,2.0版本,肯定是动态视频内容的理解和学习,包括像谷歌的无人驾驶汽车,包括报告里面提到过的以色列的那个公司,也是纳斯达克上市的,他们用计算机视觉的技术实现了汽车的辅助的无人驾驶。在这个领域当中,实际上计算机视觉可供开发的应用非常丰富的。现在还有一个法律的问题,就是允许不允许无人驾驶的汽车上路,合法不合法的问题,大家不用担心这个问题。因为这个公司IPO的时候,这个公司的CEO说过一句话,他说现在还在担心无人驾驶的汽车上路合法不合法,但是我可以肯定的告诉你,十年以后,人开车上路是不合法的,这肯定是一个大的方向和趋势。这就是我从人工智能的领域延伸出来的,人脸识别只是一个点,更多的还有待于大家去一点一点的发掘。
人脸识别原理
人脸识别主要分为人脸检测(facedetection)、特征提取(featureextraction)和人脸识别(facerecognition)三个过程。
人脸识别又可以分为两个大类:一类是确认,这是人脸图像与数据库中已存的该人图像比对的过程,回答你是不是你的问题;
另一类是辨认,这是人脸图像与数据库中已存的所有图像匹配的过程,回答你是谁的问题。显然,人脸辨认要比人脸确认困难,因为辨认需要进行海量数据的匹配。常用的分类器有最近邻分类器、支持向量机等。
与指纹应用方式类似,人脸识别技术目前比较成熟的也是考勤机。因为在考勤系统中,用户是主动配合的,可以在特定的环境下获取符合要求的人脸。这就为人脸识别提供了良好的输入源,往往可以得到满意的结果。
但是在一些公共场所安装的视频监控探头,由于光线、角度问题,得到的人脸图像很难比对成功。这也是未来人脸识别技术发展必须要解决的难题之一。
1、人脸识别流程人脸识别是由一系列的几个相关问题组成的:
首先找到一张图片中的所有人脸。对于每一张脸来说,无论光线明暗或面朝别处,它依旧能够识别出是同一个人的脸。能够在每一张脸上找出可用于他人区分的独特之处,比如眼睛多大,脸有多长等等。最后将这张脸的特点与已知所有人脸进行比较,以确定这个人是谁。第一步:找出所有的面孔
很显然在我们在人脸识别的流程中得首先找到图片中的人脸。我们在使用手机或相机拍照时都会有人像模式,它能轻松的检测出人脸的位置,帮助相机快速对焦。
我们得感谢保罗·比奥拉(PaulViola)和迈克尔·琼斯(MichaelJones)在2000年发明了一种能够快速在廉价相机上运行的人脸检测方法,人脸检测在相机上的应用才成为主流。然而现在我们有更可靠的解决方案HOG(HistogramofOrientedGradients)方向梯度直方图,一种能够检测物体轮廓的算法。
首先我们把图片灰度化,因为颜色信息对于人脸检测而言没什么用。
我们分析每个像素以及其周围的像素,根据明暗度画一个箭头,箭头的指向代表了像素逐渐变暗的方向,如果我们重复操作每一个像素,最终像素会被箭头取代。这些箭头被称为梯度(gradients),它们能显示出图像从明亮到黑暗流动的过程。
分析每个像素对我们来说有点不划算,因为它太过细节化了,我们可能会迷失在像素的海洋里,我们应该从更高的角度观察明暗的流动。
为此我们将图像分割成16x16像素的小方块。在每个小方块中,计算出每个主方向有多少个剃度(有多少指向上,指向右上,指向右等)。然后用指向性最强的那个方向箭头来代替原来那个小方块。
最终结果,我们把原始图像转换成一个非常简单的HOG表达形式,它可以很轻松的捕获面部的基本结构。
为了在HOG图像中找到脸部,我们需要做的是,与已知的一些HOG图案中,看起来最相似的部分。这些HOG图案都是重其他面部训练数据中提取出来的。
第二步:脸部的不同姿势
我们已经找出了图片中的人脸,那么如何鉴别面朝不同方向的人脸呢?
对于电脑来说朝向不同的人脸是不同的东西,为此我们得适当的调整扭曲图片中的人脸,使得眼睛和嘴总是与被检测者重叠。
为了达到目的我们将使用一种面部特征点估计(facelandmarkestimation)的算法。其实还有很多算法都可以做到,但我们这次使用的是由瓦希德·卡奇米(VahidKazemi)和约瑟菲娜·沙利文(JosephineSullivan)在2014年发明的方法。
这一算法的基本思路是找到68个人脸上普遍存在的点(称为特征点,landmark)。
下巴轮廓17个点[0-16]左眉毛5个点[17-21]右眉毛5个点[22-26]鼻梁4个点[27-30]鼻尖5个点[31-35]左眼6个点[36-41]右眼6个点[42-47]外嘴唇12个点[48-59]内嘴唇8个点[60-67]有了这68个点,我们就可以轻松的知道眼睛和嘴巴在哪儿了,后续我们将图片进行旋转,缩放和错切,使得眼睛和嘴巴尽可能的靠近中心。
现在人脸基本上对齐了,这使得下一步更加准确。
第三步:给脸部编码
我们还有个核心的问题没有解决,那就是如何区分不同的人脸。
最简单的方法就是把我们第二步中发现的未知人脸与我们已知的人脸作对比。当我们发现未知的面孔与一个以前标注过的面孔看起来相似的时候,就可以认定他们是同一个人。
我们人类能通过眼睛大小,头发颜色等等信息轻松的分辨不同的两张人脸,可是电脑怎么分辨呢?没错,我们得量化它们,测量出他们的不同,那要怎么做呢?
实际上,对于人脸这些信息很容易分辨,可是对于计算机,这些值没什么价值。实际上最准确的方法是让计算机自己找出他要收集的测量值。深度学习比人类更懂得哪些面部测量值比较重要。
所以,解决方案是训练一个深度卷积神经网络,训练让它为脸部生成128个测量值。
每次训练要观察三个不同的脸部图像:
加载一张已知的人的面部训练图像加载同一个人的另一张照片加载另外一个人的照片然后,算法查看它自己为这三个图片生成的测量值。再然后,稍微调整神经网络,以确保第一张和第二张生成的测量值接近,而第二张和第三张生成的测量值略有不同。
我们要不断的调整样本,重复以上步骤百万次,这确实是个巨大的挑战,但是一旦训练完成,它能攻轻松的找出人脸。
庆幸的是OpenFace上面的大神已经做完了这些,并且他们发布了几个训练过可以直接使用的网络,我们可以不用部署复杂的机器学习,开箱即用,感谢开源精神。
这128个测量值是什么鬼?
其实我们不用关心,这对我们也不重要。我们关心的是,当看到同一个人的两张不同照片时,我们的网络需要能得到几乎相同的数值。
第四步:从编码中找出人的名字
最后一步实际上是最简单的一步,我们需要做的是找到数据库中与我们的测试图像的测量值最接近的那个人。
如何做呢,我们利用一些现成的数学公式,计算两个128D数值的欧氏距离。
这样我们得到一个欧式距离值,系统将给它一个认为是同一个人欧氏距离的阀值,即超过这个阀值我们就认定他们是同(失)一(散)个(兄)人(弟)。
人脸识别就这样达成啦,来来我们再回顾下流程:
使用HOG找出图片中所有人脸的位置。计算出人脸的68个特征点并适当的调整人脸位置,对齐人脸。把上一步得到的面部图像放入神经网络,得到128个特征测量值,并保存它们。与我们以前保存过的测量值一并计算欧氏距离,得到欧氏距离值,比较数值大小,即可得到是否同一个人。
人脸识别技术在公安业务中的应用
原标题:人脸识别技术在公安业务中的应用在公安业务中,个人身份确认是较为普遍的需求。人脸识别技的准确性虽然目前受到光照条件、人脸的姿态、表情等因素的影响,但相比指纹、虹膜等生物特征的身份鉴别技术,人脸识别技术具备非常大的优势。近年来,随着深度学习等新理论和方法的突破,人脸识别技术的准确性有了大幅度提升,在公安业务应用需求潜力逐渐被挖掘。
当前,国内多家公司都围绕公安业务需求推出了一系列人脸识别产品,能在一定范围内取得了很好的效果,并开始尝试大规模部署应用,例如依托现有成熟的人脸算法,将分散采集的人脸数据联动共享,并进行综合研判分析,全面发挥人脸识别技术的作用成为可能。
人脸识别的实现流程
人脸特征与指纹、DNA等一样是与生俱来的独特特征,具有难以伪装的特点。从公安业务实践来看,相比衣着等外貌特征,人脸特征具有相当的稳定性。
人脸识别系统包括人脸身份注册和人脸身份识别两个过程,前一个过程是将已知的人脸图像记录在案的过程,后一个过程是根据现场采集的人脸照片从记录在案的人脸图像中找到最为接近的一个或几个。一般来说,注册和识别两个过程又都可以分为:人脸检测(从照片中确定人脸部分的准确位置)、预处理(将姿态、光照等影响系统识别的因素降到最低)、特征提取(利用人脸识别算法提取可以表示人脸独特性的数据)、特征建库(将注册人脸的特征数据构成结构化的数据库,以便识别应用)、特征比对(利用特征数据之间的相似性确定采集到的人脸对应的身份)。
人脸识别技术要求
公安大数据应用背景给人脸识别应用带来了机遇,同时也给人脸识别技术提出了更高的要求。虽然人脸识别技术性能已有较大提高,但它仍是在模式识别和计算机视觉等领域最困难的问题之一。如何利用人脸识别技术将这些海量照片数据利用起来,提升整个公安信息化的管理水平,已经是摆在我们面前的一个重要问题。
一是对人脸识别的比对容量要求更大、精确度要求更高
目前公安的户政管理、出入境、刑侦嫌疑犯的身份识别等各类应用,需要基于全国人脸数据进行识别,处理的数据库容量上亿或十亿,处理的比对请求数量大、模式不统一,快速准确地从如此规模数据库中快速识别身份是一件非常有挑战的任务。
二是系统输入从单纯的静态图片扩展到动态视频
近年来,全国各地公安机关大力开展视频监控系统建设,据不完全统计,全国每年需要存储的数据量高达3.3EB,结合视频监控和人脸识别,实现犯罪嫌疑人的快速识别和实时布控,是提高视频监控效率的一条重要途径。然而,由于人脸识别视频监控面临光线、角度、姿态、遮挡等一系列因素的影响,导致人脸的类内差距增大、类间差距缩小,给结合视频监控的人脸识别带来了巨大挑战。
三是图像来源更加广泛、图像质量差异较大
通过公安前期建设,公安已经成功建设了八大资源库,积累了海量的数据,为人脸识别技术在公共安全领域的广泛应用奠定了基础。然而,由于缺乏统一的建设标准,各类业务中人脸数据质量差异大,给人脸识别应用造成了难度。
人脸识别的公安应用分析
人脸识别技术在公安行业正在普及应用,目前来看,公安人脸识别应用一般分为三种类型:实现"关注"人员的实时预警,通过视频监控前端不断采集视频、后端以人脸识别技术为核心进行"关注"人员比对,并通过报警方式通知现场警员进行目标抓捕;实现事中、事后人员身份核查,需要后端系统对海量二代身份证库进行"打标签",通过警用智能终端或系统上传目标人脸图片,后端从海量的二代身份证库中寻找匹配的身份证图片,并给出关联的身份信息;实现人员身份核查,即通过人脸识别技术实现手持身份证的人员和身份证的比对,进行人证合一的审查。
根据公安业务对身份识别的应用场景,人脸识别技术可以在以下重点场景中发挥重要作用。
一是街面巡控排查,在公安民警的日常巡逻办案中,利用随身配备的警用PDA、智能手机等终端设备采集人脸,于后台人脸数据库远程比对,核实人员身份;
二是人证合一检验,利用证件照片或者存储在电子证件内部的人脸特征与持有者持有的的证件现场照片进行比对,以判定持有者持有的是否为真。可用于电子证件自助通关、身份证件防伪鉴别;
三是一人多证比对,发现同一自然人持有多个有效身份证件的违规行为;
四是嫌疑人身份比对,利用案件侦破中从证件、监控画面、相关照片中提取的人脸图像,与嫌疑人人脸资料库比对,可以有效甄别犯罪嫌疑人以及有效信息,协助破案;
五是布控预警,由于交通的不断便利,使得人员流通量越来越大,单靠人为的布控排查显然已经不能适应现在的公安工作,利用在公共场所安装人脸识别系统既能起到威慑作用,又能及时识别重点人员并报警,提高民警工作效率。返回搜狐,查看更多
责任编辑:简述人脸识别技术
简介人脸识别技术是一种生物识别技术,可以用来确认用户身份。人脸识别技术相比于传统的身份识别技术有很大的优势,主要体现在方便性上。传统的身份认证方式诸如:密码、PIN码、射频卡片、口令、指纹等,需要用户记住复杂密码或者携带身份认证钥匙。而密码、卡片均存在丢失泄露的风险,相比于人脸识别,交互性于安全性都不够高。人脸识别可以使用摄像头远距离非接触识别,相比于指纹免去了将手指按在识别区域的操作,可由摄像头自动识别。
目前人脸识别技术已经广泛应用于安全、监控、一般身份识别、考勤、走失儿童搜救等领域,对于提升身份认证的效率起到了重要的作用。而且目前还有更深入的人脸识别的研究正在进行,包括性别识别、年龄估计、心情估计等,更高水平和更高准确率的人脸识别技术对于城市安全和非接触式身份认证有巨大的作用。人脸识别问题宏观上分为两类:人脸验证和人脸识别。人脸验证通常是做1对1的对比,判断两张图片中是否为同一人。人脸识别通常是1对多的对比,判断照片中的人是否为数据库中的某一位。
人脸识别受到多种因素影响,主要分为基础因素、内在因素和外在因素。基础因素是人脸本身就相似,人的五官、轮廓大致相同;内在因素是人的内部属性,如年龄变化、精神状态、化妆等;外部因素是成像质量的问题,比如相片的清晰程度、有无眼镜、口罩等遮挡。对于人类来说,认出一个人是很容易的事情,对于计算机而言,图片是由多维数字矩阵表示的,识别任务难度大。
最早的人脸识别是半自动人脸识别,由人工标注人脸特征点,计算机根据特征点相对位置进行人脸匹配。
在1965-1990年间的人脸识别研究主要基于人脸几何结构特征和模版匹配的方法,利用几何特征提取人眼、口、鼻等重要特征点的位置,以及眼睛等重要器官的几何直观形状作为分类特征,并据此计算特征点之间相互位置和距离,用来衡量两幅人脸图像的相似程度。
1991-1997年,基于整体的方法较多,包括主成分分析(PCA)方法、线性鉴别分析(LDA)方法等。这些方法通过寻找一组投影向量,将人脸降维,再将低维特征送入类似SVM等机器学习分类器中进行人脸分类。
1998年至2013年间,很多借助深度相机、结构光、红外相机等设备辅助人脸识别的方法出现,使得人脸识别的精度大大提高。同时还有早期的基于特征的分类方法,在人脸不同位置提取局部特征,得到的结果往往比整体方法更加具有鲁棒性。类似的有从图像块中提取HOG、LBP、SIFI、SURF特征,将各模块局部特征的向量串联,作为人脸的表示。亦有综合方法,先使用基于特征的方法获得局部特征,再使用子空间法(比如PCA、LDA)获得低维特征,将基于整体与基于局部特征的方法。这类方法中,GaussianFace在LFW上获得了最好的精度98.52%,几乎匹敌很多后来出现的深度学习方法。
2006年后,深度学习开始得到研究人员重视,在国际期刊发表的数目越来越多。而后深度学习广泛应用于各种目标检测领域,2015年,Google团队的FaceNet在LFW数据集上得平均准确率达到了99.63%,基于深度学习的人脸识别的准确率已经高于人类本身,深度学习在人脸识别领域基本占据了统治地位。
人脸识别常见流程绝大多数人脸识别都包含如下几个流程:人脸检测(FaceDetection)、人脸对齐(FaceAlignment)、人脸表示(FaceRepresentation)和人脸匹配(FaceMatching)。如下图所示:
人脸检测FaceDetection从输入的图像中检测到人脸区域,并返回人脸包围框的坐标。
人脸对齐(人脸配准)FaceAlignment从人脸区域中检测到人脸特征点,并以特征点为依据对人脸进行归一化操作,使人脸区域的尺度和角度一致,方便特征提取与人脸匹配。人脸对齐的最终目的是在已知的人脸方框中定位人脸的精准形状,主要分为两大类:基于优化的方法和基于回归的方法。这里基于回归树的人脸对齐算法是VahidKazemi和JosephineSullivan于CVPR2014年发表的人脸特征点识别方法,是一种基于回归树的人脸对齐方法,这种方法通过建立一个级联残差回归树(GBDT)来使人脸从当前形状一点点回归到真实形状。
人脸表示FaceRepresentation从归一化的人脸区域中进行特征提取,得到特征向量,比如有的深度神经网络方法使用128个特征表示人脸,最理想的情况是不同的人的照片提取出的特征向量不一样,而同一人的不同照片中可以提取出相似的特征向量。
人脸匹配FaceMataching将两幅图片计算出的特征向量进行对比,获得两幅照片的相似得分。根据相似得分,得分高的可判断为同一人,得分低的判断为不同人。
人脸表示的基本思路深度学习识别人脸的主要思路是不同的人脸由不同的特征组成。从简单的说,特征可有眼皮、鼻子、眼睛、肤色、发色,如表格所示。则5个特征可以形容25种人脸,即(特征1,特征2,特征3,特征4,特征5)可表示一种人脸,如(1,0,0,1,0)可表示一位双眼皮、低鼻梁、黑眼球、黄肤色、黑发色的人。
序号特征011眼皮单眼皮双眼皮2鼻子低鼻梁高鼻梁3瞳色黑色棕色4肤色黄色白色5发色黑色金黄色对于表格的物种特征每个特征有两种表现来说,一共可以表示的32种外貌用来做人脸识别是不够的,因此可以增加特征的数量,比如用更多的特征表示人脸,增加特征6脸型、特征7嘴唇等;同时可以增加某一特征的具体表现数量,如特征3,用0表示黑色、0.1表示黑色带点蓝色、0.2表示黄色、0.25表示棕色等等。因此当实际应用中特征数量达到1024或更高的数量级,特征值取连续的小数。扩充后,一张人脸可能表示为(0.3,2,1.5,1.75,……),基本可以表示无数张人脸。
在实际中,这些特征并非由人工设置的,而是由深度神经网络在训练过程中学习而来的,储存在了深度神经网络中的各节点的参数中,一个深度神经网络模型即为网络的结构和各节点的参数组成。
如图所示是一个128维度特征提取网络,三张山下智久的照片经过神经网络提取后的特征在128维空间中非常接近,而石原里美的照片经过神经网络处理结果就与山下智久的结果相距较远。即同一人的不同照片提取的特征在特征空间里距离相近,而不同人脸的照片在特征空间中距离较远。
工程实现样例参照上述思路,我实现了一个简易的人脸识别程序,地址在face_identification,效果如下图所示。本工程基本照搬了dlib.net/dnn_face_recognition_ex.cpp,仅有些小小的改变,dlib的方法中使用了ResNet34用作人脸识别网络,该残差网络的详细内容参照何凯明等人的工作DeepResidualNetworkat2015。
设计思路界面:本软件使用Qt作为界面软件设计,为了快速编码,使用了QtExample中的Camera样例工程,将人脸识别内嵌在其中。重写了画布,可以按照想要的时间间隔调用人脸识别代码。多线程:根据相机分辨率的不同,一次人脸识别流程耗时在0.2-0.4s不等,如果使用单线程开发,会导致识别人脸的时候相机画面卡住。因此使用了Qt的多线程支持,将人脸识别流程放在了其他线程,UI线程与人脸识别线程中采用Qt的信号与槽机制通信。人脸检测:使用dlib中的frontal_face_detector正面人脸检测器,检测画面中的人脸区域。人脸Landmark标记:使用dlib的shape_predictor_5_face_landmarks.dat五个特征点检测模型,检测眼睛鼻子嘴角共五个特征点,用于调整图像尺寸、人脸角度,归一化为150x150分辨率,供特征提取网络使用。特征提取:使用ResNet34网络稍作调整,网络输入150x150图像,输出128个特征值。识别-建立数据库:利用csv文件存贮已知人物身份列表(包括一张身份图片),先将作为原始数据的图像经过特征提取,生成尺寸为[图像数量,128]的矩阵。利用FLANN为该数据建立索引数。识别-查找数据库:相机识别到的人脸经过特征提取后得到的128个特征向量在FLANN索引中寻找最近点,并计算与最近点之间的距离,如果距离在阈值范围内,则判定为同一用户。环境依赖工程实际使用了Qt和一些主要依赖库,但为了工程管理方便,我直接在工程的libs.pri中设置了对于外部库的引用,主要使用了如下外部库。
Dlib19.17opencv3.4flann1.9.1也就是说,如果你需要在我的代码基础上进行修改,则需要首先配置好这些库,然后修改libs.pri文件中对于这些库的链接地址,然后才可以顺利编译成功。
更多如果对于该程序设计还有更多的疑问,欢迎前往该工程的Issues板块提问,我会尽快解答疑问。
Referenceface_identificationDlib19.17opencv3.4.5Qt5.12Mingw730x64qtcsv1.5.0FLANN1.9.1KazemiV,SullivanJ.OneMillisecondFaceAlignmentwithanEnsembleofRegressionTrees[C]//2014IEEEConferenceonComputerVisionandPatternRecognition(CVPR).IEEEComputerSociety,2014.SchroffF,KalenichenkoD,PhilbinJ.FaceNet:AUnifiedEmbeddingforFaceRecognitionandClustering[J].2015.HeK,ZhangX,RenS,etal.Deepresiduallearningforimagerecognition[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:770-778.