博舍

python人脸识别、语音合成、智能签到系统 人脸识别和语音识别是人工智能吗

python人脸识别、语音合成、智能签到系统

基于python+face_recognition+opencv+pyqt5+百度AI实现的人脸识别、语音播报、语音合成、模拟签到系统(1)

人脸识别效果图

源码看最下面

这是新版本地址人脸识别、语音识别系统_Nie_Hen的博客-CSDN博客_人脸识别语音识别

简单介绍

使用python3+写的,使用face_recognition(python开源的人脸识别库)进行人脸识别,使用opencv2进行打开显示摄像头图片等,使用pyqt5是ui界面,使用百度AI中的百度语音合成实现语音播报和语音合成,使用对excel的操作以及人脸识别实现模拟签到。

只需要把一张具有人脸信息的图片按名字命名放到相应的文件夹中,在text.txt文本中输入详细信息,即可使用。

github上有演示视频,详细演示了所能实现的功能

学习python不久,很多知识都是网上找的,做的也比较匆忙,所以配置什么的直接使用我当时参考的链接。

需要的配置

windows下

1.首先安装python3+ 

然后装pycharm(推荐)设置字体风格

配置PyCharm(背景色+字体大小+解释器选择)_Yunhe_Feng的博客-CSDN博客_pycharm怎么调背景颜色  PyCharm中设置菜单字体大小-Feng_Forest-博客园对pycharm的一些配置

2.安装opencv

https://jingyan.baidu.com/article/e75aca8503c548142fdac660.html 按链接的操作做就行

 确保电脑有pip(python3会预装) pipinstallopencv-python会自己安装cv2和numpy模块可以使用cmd中 python-importcv2再次importnumpy没提示错误就说明装好了

3.安装face_recognition

使用pipinstall下载不了需要安装dlib

https://my.oschina.net/u/2428854/blog/1797473  使用这个链接按照步骤操作

首先要装vs2015 然后装boost、cmake、dlib、最后再装face_recognition

比较费时间 电脑上有下载好的D:张文豪资源软件vs2015  E:人脸识别文件安装face_recognition 这里面是需要用到的boostcmakedlib

WIN+Anaconda(python3.6)+Face_recognition安装_梦dancing的博客-CSDN博客_python安装face_recognition可以参考这个python3.6以上安装face_recogntion就会很简单

4.安装pyqt5

对pyqt5和pycharm进行连接 

python+pycharm+pyqt5+QTDesigner前端开发完整配置攻略_东写西读李老湿的博客-CSDN博客_pycharm前端开发  安装Anaconda我装的是3-4.40版本 里面有很多关于python的库其中就包括pyqt5和qtdesigner

然后需要将他们配置到pycharm中便于使用

5.使用百度语音合成模块

申请百度账号进入百度ai创建应用获取appidapikey等语音合成代码里面要用到

语音合成_在线语音合成_离线语音合成-百度AI开放平台百度ai

6.pipinstallXXX

有些库需要用到可能anaconda上面并没有需要自己使用pipisntall进行安装 这是主函数里面用到的一些库

以下几个库需要试一下电脑上是否有可以使用win+r--cmd--python--importXXX 如果没有提示错误就说明已经安装了XXX

 baidu-aip 百度AI的模块语音合成需要用

xlrd,xlwt,xlutils (三个是分开的)操作excel 读写结合读写

 threading 使用多线程

 time 时间库 

 datatime 关于时间的库

后三个不一定需要安装安装之前试一试

功能介绍在 python人脸识别、语音合成、智能签到系统(2)_Nie_Hen的博客-CSDN博客_人脸识别签到系统python

项目地址

其他人脸识别模块介绍  https://blog.csdn.net/Nirvana_6174/article/details/

人工智能之语音识别概述(一)

1.语音是被研究对象和基本内容

语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言,最终目标是实现人与机器进行自然语言通信

语音识别的基本内容

语音识别的定义语音识别发展历史语音识别系统框架2语音识别的定义

语音识别的定义语音识别在狭义上有称为自动语音识别(AutomaticSpeechRecognition,ASR),它本质上是一种人机交互方式,就是让计算机通过识别和理解过程把人类的语音信号转变为想要的文本或者命令,以便计算机进行理解和产生相应的操作。语音识别的应用

3语音识别发展史

语音识别发展历程

现代语音识别可以追溯到1952年,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统,从此正式开启了语音识别的进程。语音识别发展到今天已经有70多年,大致可以分为四个阶段。

语音识别发展的初期

70年代,语音识别主要集中在小词汇量、孤立词识别方面,使用的方法也主要是简单的模板匹配方法,即首先提取语音信号的特征构建参数模板,然后将测试语音与参考模板参数进行一一比较和匹配,取距离最近的样本所对应的词标注为该语音信号的发音。该方法对解决孤立词识别是有效的,但对于大词汇量、非特定人连续语音识别就无能为力

HMM-GMM时代

基于GMM-HMM框架,研究者提出各种改进方法,如结合上下文信息的动态贝叶斯方法、区分性训练方法、自适应训练方法、HMM/NN混合模型方法等。这些方法都对语音识别研究产生了深远影响,并为下一代语音识别技术的产生做好了准备。

DNN-HMM时代

2009年,Hinton将DNN应用于语音的声学建模,在TIMIT上获得了当时最好的结果。2011年底,微软研究院的俞栋、邓力又把DNN技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入DNN-HMM时代。

深度学习时代

随着深度学习的发展,语音识别技术进入了端到端的技术阶段。端到端技术主要分成两类:一类是CTC方法,另一类是Sequence-to-Sequence方法。

语音识别技术发展历程

4语音识别框架

语音对话系统的组成

我们只关注语音识别系统,语音识别系统主要包含四个组成部分:特征提取和信号处理、声学模型(AcousticModel)、语言模型(LanguageModel)和解码搜索部分。

语音识别系统的组成

-我们只关注语音识别系统,语音识别系统主要包含四个组成部分:特征提取和信号处理、声学模型(AcousticModel)、语言模型(LanguageModel)和解码搜索部分。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇