博舍

LDV7 语音识别模块使用方法 语音识别的工作原理

LDV7 语音识别模块使用方法

目录一、模块参数二、模块结构介绍三、串口连接图四、配套程序识别语句修改方法(1)添加关键词和识别码(2)定义识别码(3)修改处理函数五、模块程序下载方法六、灵敏度(识别距离)调节说明一、模块参数

型号:YS-LDV7名称:一体化语音识别模块规格:43*29.7MM供电电压:5V(内部工作电压3.3V)待机电流:30MA识别时电流:45MAIO口输出:高电平为3.3V通信方式:串口通信(5VTTL电平,不可直接接RS232、RS485)单片机参数:型号–>STC11L08XE、flash–>8k、SRAM–>1280、eeprom–>32k识别词条个数:50句工作温度:-20至60℃

二、模块结构介绍

本模块实际原理为1片STC11单片机+1片LD3320组合形成的一款语音识别模块,语音识别部分已写好驱动程序,用于只需要对STC单片机进行编程加入自己的识别语句和控制程序即可,语音识别部分无需理会和做编程处理。对此用户只需要在提供的源程序基础上做单片机的编程应用即可,本模块具备1个5VTTL串口和16个单片机IO口的引出,可与外部单片机进行通信交互信息亦可控制继电器等设备。

三、串口连接图

本模块的串口如下图所示,从下至上的5根针分别为GND、RXD、TXD、5V、3.3V,其中RXD和TXD为实际内部单片机的串口接收和发射端口,故与外部串口设备连接时要注意RXD接TXD的交叉接法。3.3V的口为输出口,可用于外部设备的供电利用,一般未用上直接忽略不用即可。下图为本店提供的USB转TTL与语音模块的连接方法,如与其他单片机或者其他设备的连接时注意串口电平需要为5V,与语音模块电平一致,如电平不一致可加入串口电平转换模块否则将导致通信异常甚至损坏设备端口。

四、配套程序识别语句修改方法(1)添加关键词和识别码

打开程序工程,在LDChip.C文件中找到uint8LD_AsrAddFixed()函数,在该函数里面可以找到如下图所示内容:—sRecog[][]数组为关键词数组,添加内容为拼音输入方式,例如想添加“开灯”命令,则写入“kaideng”,每个汉字间的拼音用空格隔开。—pCode[]数组为识别码数组,所添加的识别码为预先定义好的宏定义常量值,同时必须和关键词一一对应,如上图所示,“damaceshi”命令对应的识别码为CODE_DMCS。

(2)定义识别码

打开程序,在LDChip.h文件中找到如下图所示内容:—此处即为识别码的添加和修改,用户可以根据自己的需要和喜好任意定义识别码和宏名,但必须和前面所使用的识别码配对,否则会提示未定义错误。识别码的参数范围为01-FF随意选择,没有具体意义,只要不存在重复的即可。

(3)修改处理函数

打开程序,在main.c文件中找到voidUser_handle(uint8dat)函数,在该函数中可以看到如下图所示内容:—用户可以根据自己的使用情况在相对应的识别码后添加识别成功后的操作。那么在设备到某句话后就会执行相应的动作,实际上此段程序是判断识别到那个识别码然后执行相应的动作,属单片机的程序应用处理部分。

五、模块程序下载方法

本模块的程序下载实际为STC单片机的程序下载方法,首先我们需要安装USB转TTL驱动(如已安装无需再安装),然后接好USB转TTL。1、打开“STC-ISP下载软件”,根据下图的箭头指示选择好各个选项。(注意:单片机型号在STC11F60XE的系列里;串口号不一定是COM4,根据软件识别的是什么就选什么,有字样的哪一个;打开程序文件即打开源程序–OBJ文件夹里面后缀为.hex的文件)2、最后我们先将语音模块那边的GND那根线拔下,然后点击下载/编程按钮,接着再把GND插上,这是软件底部将有进度条显示,会提示下载完成。3、如下载没反应主机再次检查接线方法,和串口号是否选择正确。

六、灵敏度(识别距离)调节说明

在LDCHIP.H文件中找到以下麦克风音量定义根据描述的范围自行适当调节,最大灵敏度的识别距离可以达到5米(安静的小房间里理想距离),最小灵敏度适合靠近嘴边喊话,对远距离的声音干扰就非常小了。根据自己的使用情况进行适当调节。为了提高抗干扰能力,建议采用口令识别模式程序(默认),同时注意修改口令(默认为“小杰”),口令的修改建议在3-8个字并且修改比较偏僻的词语,这样可以提供识别率和降低误识别情况。

语音模块厂商资料链接.

单片机语音识别原理

语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

语音识别原理:

语音识别系统本质上是一种多维模式识别系统。它与一般的模式识别系统类似,包括语音预处理、语音特征提取、语音模式库和语音模式匹配等基本单元,如图1所示。

1)语音预处理:包括预加重、反混叠滤波、端点检测、噪声滤波等处理过程,用以去除声门激励、口鼻辐射、高于1/2采样频率的高频和噪声信号的影响,实现语音信号的数字化。

2)语音特征提取:对经过预处理后的语音信号进行特征参数分析。该过程就是从原始语音信号中抽取出能够反映语音本质的特征参数,形成特征矢量序列。可选择的语音特征参数包括:时域参数、频域参数、声道的形状函数、随机模型的概率函数、量化矢量和超音段信息函数等。

3)语音模式库:即声学参数模板,它是用聚类分析等方法,从一个讲话者或多个讲话者多次重复的语音参数中经过长时间训练得到的。

4)语音模式匹配:将输入语音的特征参数同训练得到的语音模式库进行比较分析,从而得到识别结果。

随着信息技术的飞速发展,

语音处理/语音识别基础(一)

信号和噪声

人们想获取的信息有可以称之为信号,比如图像,文本,语音,视频等等,其它能够影响人们对有用信息的信号叫噪声,比如听音乐的时候别人在说话,干扰你听清这段音乐,别人说话就是噪声。

模拟信号和数字信号

我们讨论自变量为时间的信号,因为信号的英文是signal,所以以后的幅值都用s表示,也就是我们讨论的函数是s=s(t)

连续信号:自变量t是连续的,但是s是不是连续的无所谓(比如像分段函数那样的信号),这样的信号都叫连续信号。

模拟信号:如果自变量t是连续的,幅值s是连续的,那么这个信号称之为模拟信号,比如我们的声音信号。

离散信号:它是在连续信号上采样得到的信号。离散信号是一个序列,即其自变量是“离散”的。这个序列的每一个值都可以被看作是连续信号的一个采样,也就是说自变量离散,幅值可以离散,也可以连续,就像数列是函数的采样。

数字信号:自变量是离散的、因变量也是离散的信号。离散时间信号没有经过量化,它的取值可以是无穷多种取值。只有经过量化,变成有限多个取值,才是数字信号。例如:二进制数字信号,只有两种取值。四进制数字信号只有四种取值,以此类推。

通信系统

通信的过程,可以理解为一个人给另一个人打电话,信号传播的过程。先看图:

信源:信号从哪里来

信宿:信号到哪里去

信道:信号传播过程的媒介,比如导线、光纤、空气等等

发送设备(发送机):用于把信号转变为适用于信道传输的形式(编码,调制)

接收设备(接收机):是发射机的逆过程

一个最基本通信过程如下:

信号的产生,如语音、视频、图像等

通过一系列诸如电子的、可听到的或者可看到的符号对信号进行描述,并精确到某一精度

用一种适于在物理媒介中传输的方式对这些符号进行编码

将编码后的符号发送到指定的目的地

对原始符号进行译码和重现

对原始信号的重新生成,一般来说信号质量会下降,因为有干扰。

模拟信号发送和接收

大量的信源都是模拟信源,模拟信源可以直接调制和发送,也可以转化为数字数据后,用数字调制技术发送,音频信号和视频信号的广播采用模拟调制,主要代表为收音机。模拟信号和数字信号的转换随后再说。首先解决一个问题,什么叫调制。

调制(PCM,PulseCodeModulation脉冲编码调制):是一种将信源产生的信号转换为适宜信道传输的形式的过程。根据调制信号的种类,分为模拟调制和数字调制。

换句话说,为啥需要调制,因为信源产生的原始信号(以后我们叫它为基带信号)不适合在信道中传输,原因很多,比如基带信号的频率较低等。调制的过程就是把基带信号转化成适合信道传输的信号。一般来说载波信号是高频信号(一般是一个高频余弦信号或脉冲信号),这样就把低频的基带信号带到了高频,以便在信道中传输,举个的例子,基带信号的频率是0-50Hz,信道通带是10KHz到50KHz,显然基带信号根本传输不了,人家是高速公路,行人不让上高速,所以搭了个车,到目的地下车,载波信号就是这个车的作用,起到了承载基带信号的作用,也就是通过载波信号调制基带信号,因此原来的基带信号在调制过程中也叫调制信号。

通信原理之模拟信号发射和接收_tsfx051435adsl的博客-CSDN博客

https://zh.wikipedia.org/wiki/%E6%A8%A1%E6%93%AC%E4%BF%A1%E8%99%9F

模拟信号的数字化实现

在现实的工业现场,人们常使用各种传感器,变送器实现模拟量信号的采集转换等功能。在工业现场常见的这类仪器仪表都有什么呢?

压力变送器:是一种将压力转换成气动信号或电动信号进行控制和远传的设备,常见的是电动信号的,它能将测压元件传感器感受到的气体、液体等物理压力参数转变成标准的电信号(如4~20mA电流信号,0-5V/0-10V电压信号),以供给指示报警仪、记录仪、调节器等二次仪表进行测量、指示和过程调节。

温度变送器:采用热电偶、热电阻作为测温元件,从测温元件输出信号送到变送器模块,经过稳压滤波、运算放大、非线性校正、V/I转换、恒流及反向保护等电路处理后,转换成与温度成线性关系的4~20mA电流信号0-5V/0-10V电压信号。

图像传感器:图像传感器是利用光电器件的光电转换功能。将感光面上的光像转换为与光像成相应比例关系的电信号。与光敏二极管,光敏三极管等“点”光源的光敏元件相比,图像传感器是将其受光面上的光像,分成许多小单元,将其转换成可用的电信号的一种功能器件。图像传感器分为光导摄像管和固态图像传感器。与光导摄像管相比,固态图像传感器具有体积小、重量轻、集成度高、分辨率高、功耗低、寿命长、价格低等特点。因此在各个行业得到了广泛应用。常用的有两种:CCD是应用在摄影摄像方面的高端技术元件,CMOS则应用于较低影像品质的产品中,它的优点是制造成本较CCD更低,功耗也低得多。

实际生产生活中的各种物理量,如摄相机摄下的图像、录音机录下的声音、车间控制室所记录的压力、流速、转速、湿度等等都是模拟信号。数字信号是在模拟信号的基础上经过采样、量化和编码而形成的。具体地说,采样就是把输入的模拟信号按.适当的时间间隔得到各个时刻的样本值.量化是把经采样测得的各个时刻的值用二进码制来表示,编码则是把量化生成的二进制数排列在一起形成顺序脉冲序列。

模拟信号传输过程中,先把信息信号转换成几乎“一模一样”的波动电信号(因此叫“模拟”),再通过有线或无线的方式传输出去,电信号被接收下来后,通过接收设备还原成信息信号。

近百年以来,无论是有线相连的电话,还是无线发送的广播电视,很长的时间内都是用模拟信号来传递信号的。

照说模拟信号同原来的信号在波形上几乎“一模一样”,似乎应该达到很好的传播效果,然而事实恰恰相反,过去我们打电话时常常遇到听不清、杂音大的现象;广播电台播出的交响乐,听起来同在现场听乐队演奏相比总有较大的欠缺;电视图像上也时有雪花点闪烁。这是因为信号在传输过程中要经过许多的处理和转送,这些设备难免要产生一些噪音和干扰;此外,如果是有线传输,线路附近的电气设备也要产生电磁干扰;如果是无线传送,则更加“开放”,空中的各种干扰根本无法抗拒。这些干扰很容易引起信号失真,也会带来一些噪声。这些失真和附加的噪声,还会随着传送的距离的增加而积累起来,严重影响通讯质量。对此,人们想了许多办法。一种是采取各种措施来抗干扰,如提高信息处理设备的质量,尽量减少它产生噪音;又如给传输线加上屏蔽;再如采用调频载波来代替调幅载波等。但是,这些办法都不能从根本上解决干扰的问题。另一种办法是设法除去信号中的噪声,把失真的信号恢复过来,但是,对于模拟信号来说,由于无法从已失真的信号较准确地推知出原来不失真的信号,因此这种办法很难有效,有的甚至越弄越糟。

模拟信号主要是与离散的数字信号相对的连续的信号,模拟信号分布于自然界的各个角落,如气温的变化,而数字信号是人为的抽象出来的在幅度取值上不连续的信号。电学上的模拟信号主要是指幅度和相位都连续的电信号,此信号可以被模拟电路进行各种运算,如放大,相加,相乘等。

模拟数据(AnalogData)是由传感器采集得到的连续变化的值,例如温度、压力,以及目前在电话、无线电和电视广播中的声音和图像。数字数据(DigitalData)则是模拟数据经量化后得到的离散的值,例如在计算机中用二进制代码表示的字符、图形、音频与视频数据。

目前,ASCII美国信息交换标准码(AmericanStandardCodeforInformationInterchange)已为ISO国际标准化组织和CCITT国际电报电话咨询委员会所采纳,成为国际通用的信息交换标准代码,使用7位二进制数来表示一个英文字母、数字、标点或控制符号;图形、音频与视频数据则可分别采用多种编码格式。

(1)模拟信号与数字信号的关系

不同的数据必须转换为相应的信号才能进行传输:模拟数据一般采用模拟信号(AnalogSignal),例如用一系列连续变化的电磁波(如无线电与电视广播中的电磁波),或电压信号(如电话传输中的音频电压信号)来表示;数字数据则采用数字信号(DigitalSignal),例如用一系列断续变化的电压脉冲(如我们可用恒定的正电压表示二进制数1,用恒定的负电压表示二进制数0),或光脉冲来表示。

当模拟信号采用连续变化的电磁波来表示时,电磁波本身既是信号载体,同时作为传输介质;而当模拟信号采用连续变化的信号电压来表示时,它一般通过传统的模拟信号传输线路(例如电话网、有线电视网)来传输。当数字信号采用断续变化的电压或光脉冲来表示时,一般则需要用双绞线、电缆或光纤介质将通信双方连接起来,才能将信号从一个节点传到另一个节点。

(2)模拟信号与数字信号之间的相互转换

模拟信号和数字信号之间可以相互转换:模拟信号一般通过PCM脉码调制(PulseCodeModulation)方法量化为数字信号,即让模拟信号的不同幅度分别对应不同的二进制值,例如采用8位编码可将模拟信号量化为2^8=256个量级,实用中常采取24位或30位编码;数字信号一般通过对载波进行移相(PhaseShift)的方法转换为模拟信号。计算机、计算机局域网与城域网中均使用二进制数字信号,目前在计算机广域网中实际传送的则既有二进制数字信号,也有由数字信号转换而得的模拟信号。但是更具应用发展前景的是数字信号。

https://old.pep.com.cn/czwl/jszx/tbjx/tb9/tb8s9/jc9/201105/t20110512_1040960.htm

市场上的智能语音助理,主要的工作原理是什么

一个包括语音交互的chatbot的架构如下图所示:

一般chatbot由语音识别(ASR)、语音合成(TTS)、自然语言理解(NLU)、对话管理(DM)、自然语言生成(NLG)几个模块组成,其中:

语音识别:完成语音到文本的转换,将用户说话的声音转化为语音。

自然语言理解:完成对文本的语义解析,提取关键信息,进行意图识别与实体识别。

对话管理:负责对话状态维护、数据库查询、上下文管理等。

自然语言生成:生成相应的自然语言文本。

语音合成:将生成的文本转换为语音。

通常智能助理一个完整的交互流程是这样的:

首先:音频被记录在设备上,经过压缩传输到云端。通常会采用降噪算法来记录音频,以便云端“大脑”更容易理解用户的命令。然后使用“语音到文本”平台将音频转换成文本命令。通过指定的频率对模拟信号进行采样,将模拟声波转换为数字数据,分析数字数据以确定音素的出现位置。一旦识别出音素,就使用算法来确定对应的文本。

然后:使用自然语言理解技术来处理文本,首先使用词性标注来确定哪些词是形容词、动词和名词等,然后将这种标记与统计机器学习模型相结合起来,推断句子的含义。

最后:进入对话管理模块,确认用户提供的信息是否完整,否则进行多轮对话直至得到所需全部信息。根据得到的信息进行相应的业务处理,执行命令。同时将结果生成自然语言文本,并由语音合成模块将生成文本转换为语音。在这些模块中,对话管理(DM)模块的首要任务是要负责管理整个对话的流程。

通过对上下文的维护和解析,对话管理模块要决定用户提供的意图是否明确,以及实体槽的信息是否足够进行数据库查询或开始履行相应的任务。

当对话管理模块认为用户提供的信息不全或者模棱两可时,就要维护一个多轮对话的语境,不断引导式地去询问用户以得到更多的信息,或者提供不同的可能选项让用户选择。

对话管理模块要存储和维护当前对话的状态、用户的历史行为、系统的历史行为、知识库中的可能结果等。当认为已经清楚得到了全部需要的信息后,对话管理模块就要将用户的查询变成相应的数据库查询语句去知识库(如知识图谱)中查询相应资料,或者实现和完成相应的任务(如购物下单,或是类似Siri拨打xx的电话,或是智能家居去拉起窗帘等)。

实际实现中,对话管理模块因为肩负着大量杂活的任务,是跟使用需求强绑定的,大部分使用规则系统,实现和维护都比较繁琐。

规则的描述主要基于正则表达式或者类似正则表达式的pattern,用户的问题匹配到这样的pattern上,从而取得答案结果。

使用规则的好处是准确率高,但是缺点也很明显:用户的句式千变万化,规则只能覆盖比较少的部分。

而越写越多的规则也极其难维护,常常有可能会发生互相矛盾的规则,而往往一个业务逻辑的改动就要牵一发而动全身。另一个方法是维护一个庞大的问答数据库,对用户的问题通过计算句子之间的相似度来寻找数据库中已有的最相近的问题来给出相应答案。

目前任务导向chatbot也在逐渐使用基于深度学习的端到端来实现架构。

简要来说就是将用户输入的内容直接映射到系统的回答上,但是这种方式也存在需要大量的训练数据的问题,还不能完全取代传统规则系统。人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:人工智能快速发展的今天,语音识别现在发展到什么阶段了?http://www.duozhishidai.com/article-2278-1.html智能语音技术,主要面临哪些挑战?http://www.duozhishidai.com/article-1927-1.html语音的识别过程主要分哪几步,常用的识别方法是什么?http://www.duozhishidai.com/article-1739-1.html

多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇