语音识别基础(一)——语音信号的产生和特性
最近在看语音识别,一直弄不明白模型到底是怎么进行工作的,于是决定从最基础的了解起,包括语音信号的产生、传播、分析。并在此记录以下,方便以后查找复习。由于重心放在声学模型、算法上,所以这些知识并没有很深入的介绍,都是为了理解确实可以用GMM-HMM或深度学习方法来进行语音识别而服务的。估计写两到三篇,如有不当之处,还请各位大佬指正。声明:本篇文章所有内容均由赵力老师编著的《语音信号处理》第二版和韩纪庆、张磊、郑铁然老师编著的《语音信号处理》总结或摘抄而来,版权仍归原版权所有人所有,如有侵权,请联系我删除,仅作学习交流使用,不得商用。
文章目录1.综述2.语音信号的产生2.1人的说话过程2.2语音的产生2.3术语总结2.4语音的声学特征3.语音信号的数学表示3.1时域波形3.2频域表示3.3语谱图4.语音分类4.1汉语中的语音分类什么是语音识别
如今,许多行业都在运用语音技术来帮助企业和消费者节省时间,甚至是挽救生命。一些示例包括:
汽车:语音识别器通过在车载收音机中启用声控导航系统和搜索功能来改善驾驶员安全性。
科技:虚拟助手越来越多地融入到我们的日常生活当中,尤其是在我们的移动设备上。我们可以在智能手机上(例如通过GoogleAssistant或AppleSiri)使用语音命令来访问虚拟助手以及执行语音搜索等任务,或者通过我们的扬声器、AmazonAlexa或MicrosoftCortana来播放音乐。它们只会继续融入到我们日常使用的产品中,从而推动“物联网”的发展。
医疗保健:医生和护士利用听写应用程序来捕获和记录患者的诊断和治疗记录。
销售:在销售中有多个地方会用到语音识别技术。它可以帮助呼叫中心转录客户与客服之间的数千个电话,从而确定常见的呼叫模式和问题。AI聊天机器人还可以通过网页与客户交谈,回答常见查询并解决基本请求,而无需等待联络中心客服来处理。在这两种情况下,语音识别系统都可以帮助缩短解决消费者问题的时间。
安全:随着技术融入我们的日常生活,安全协议变得越来越重要。基于语音的认证可增加一个可行的安全层。
简要介绍语音识别技术在各领域的应用
语音识别作为信息技术中一种人机接口的关键技术,具有重要的研究意义和广泛的应用价值。介绍了语音识别技术发展的历程,具体阐述了语音识别概念、基本原理、声学建模方法等基本知识,并对语音识别技术在各领域的应用作了简要介绍。
语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。
1语音识别技术的发展
语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。
20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。
2O世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(DynamicTimeWarping,DTW)技术基本成熟,特别提出了矢量量化(VectorQuantization,VQ)和隐马尔可夫模型(HiddenMarkovModel,HMM)理论。
20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛