盘点语音识别技术在人工智能中的应用语音识别是人工智能哪个领域的应用

发表时间：2023-07-03 23:31:30

盘点语音识别技术在人工智能中的应用

语音是人类最自然的交互方式。计算机发明之后，让机器能够“听懂”人类的语言，理解语言中的内在含义，并能做出正确的回答就成为了人们追求的目标。这个过程中主要涉及3种技术，即自动语音识别；自然语言处理（目的是让机器能理解人的意图）和语音合成（目的是让机器能说话）

与机器进行语音交流，让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别技术就是“机器的听觉系统”，该技术让机器通过识别和理解，把语音信号转变为相应的文本或命令。

现代智能语音识别技术的起源及发展

在1952年的贝尔研究所，Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。

大规模的语音识别研究始于上世纪70年代以后，并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后，语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。

同时，语音识别在研究思路上也发生了重大变化，由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外，业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。

上世纪90年代以后，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展。比如，DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划，旨在支持语言理解系统的研究开发工作。进入上世纪90年代，DARPA计划仍在持续进行中，其研究重点已转

什么是人工智能 (AI)

虽然在过去数十年中，人工智能(AI)的一些定义不断出现，但JohnMcCarthy在2004年的文章 (PDF,127KB)(链接位于IBM外部)中给出了以下定义："它是制造智能机器，特别是智能计算机程序的科学和工程。AI与使用计算机了解人类智能的类似任务有关，但不必局限于生物可观察的方法"。

然而，在这个定义出现之前数十年，人工智能对话的诞生要追溯到艾伦·图灵(AlanTuring)于1950年出版的开创性作品"计算机器与智能"(PDF,89.8KB)（链接位于IBM外部）。在这篇论文中，通常被称为“计算机科学之父”的图灵提出了以下问题：“机器能思考吗？” 他在这篇文章中提供了一个测试，即著名的“图灵测试”，在这个测试中，人类询问者试图区哪些文本响应是计算机做出的、哪些是人类做出的。虽然该测试自发表之后经过了大量的审查，但它仍然是AI历史的重要组成部分，也是一种在哲学中不断发展的概念，因为它利用了有关语言学的想法。

StuartRussell和PeterNorvig随后继续发表了“人工智能：一种现代方法 ”（链接位于IBM外部），成为AI研究方面的重要教材之一。在这本书中，他们深入探讨了AI的四个潜在目标或定义，基于理性、思考和行动来区分计算机系统：

人类方法：

像人类一样思考的系统像人类一样行动的系统

理想方法：

理性思考的系统理性行动的系统

艾伦·图灵的定义可归入"像人类一样行动的系统"类别。

以最简单的形式而言，人工智能是结合了计算机科学和强大数据集的领域，能够实现问题解决。它还包括机器学习和深度学习等子领域，这些子领域经常与人工智能一起提及。这些学科由AI算法组成，这些算法旨在创建基于输入数据进行预测或分类的专家系统。

目前，仍有许多围绕AI发展的炒作，市场上任何新技术的出现都会引发热议。正如Gartner在其hypecycle技术成熟度曲线（链接位于IBM外部）中指出的那样，自动驾驶汽车和个人助理等产品创新遵循“一个典型的创新周期，从欲望膨胀到期望幻灭、到最终了解创新在市场或领域中的相关性和作用。”正如LexFridman在2019年麻省理工学院演讲中指出的那样(01:08:15)（链接位于IBM外部），我们正处于欲望膨胀高峰期，接近幻灭的谷底期。

随着对话围绕AI的伦理道德展开，我们可以开始看到幻灭谷底初见端倪。如想了解更多关于IBM在AI伦理对话中的立场，请阅读这里了解更多信息。

语音识别技术在人工智能中的应用

姓名：成杰学号：21021210653 学院：电子工程学院

【嵌牛导读】

应用语音智能这项识别技术是为了使计算机可以听懂人类的语言，并执行人类的某项操作。现阶段这项技术已经成为人工智能领域的重点研究方向和实现人机语音交互的关键性技术，一直备受世界各国人工智能领域专家的重点关注。

【嵌牛鼻子】

人工智能、语音识别

【嵌牛提问】

语音识别技术的当前主要解决方法以及深度学习框架下语音识别技术的发展前景

【嵌牛正文】

1.人工智能简介

人工智能（英语：ArtificialIntelligence，缩写为AI）亦称智械、机器智能，指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序来呈现人类智能的技术。该词也指出研究这样的智能系统是否能够实现，以及如何实现。人工智能的研究是高度技术性和专业的，各分支领域都是深入且各不相通的，因而涉及范围极广。

AI的核心问题包括建构能够跟人类似甚至超卓的推理、知识、规划、学习、交流、感知、移物、使用工具和操控机械的能力等。当前有大量的工具应用了人工智能，其中包括搜索和数学优化、逻辑推演。而基于仿生学、认知心理学，以及基于概率论和经济学的算法等等也在逐步探索当中。思维来源于大脑，而思维控制行为，行为需要意志去实现，而思维又是对所有数据采集的整理，相当于数据库，所以人工智能最后会演变为机器替换人类。

早期的人工智能研究人员直接模仿人类进行逐步的推理，就像是玩棋盘游戏或进行逻辑推理时人类的思考模式。到了1980和1990年代，利用概率和经济学上的概念，人工智能研究还发展了非常成功的方法处理不确定或不完整的资讯。

对于困难的问题，有可能需要大量的运算资源，也就是发生了“可能组合爆增”：当问题超过一定的规模时，电脑会需要天文数量级的存储器或是运算时间。寻找更有效的算法是优先的人工智能研究项目。

人类解决问题的模式通常是用最快捷，直观的判断，而不是有意识的，一步一步的推导，早期人工智能研究通常使用逐步推导的方式。人工智能研究已经于这种“次表征性的”解决问题方法取得进展：实体化AGENT研究强调感知运动的重要性。神经网络研究试图以模拟人类和动物的大脑结构重现这种技能。

2.问题——语音识别技术在人工智能中的应用

应用语音智能这项识别技术是为了使计算机可以听懂人类的语言，并执行人类的某项操作。现阶段这项技术已经成为人工智能领域的重点研究方向和实现人机语音交互的关键性技术，一直备受世界各国人工智能领域专家的重点关注。现阶段各种以语音智能这项识别技术为基础的产品也被开发出来，并广泛应用于我国社会发展的各个领域，还在应用方面展现出了极大的优势，如声控电话交换和语音通信系统等。但在语音识别这项技术的实际应用过程中，还存在不少技术方面的瓶颈，怎样通过融合人工智能技术和芯片，来使语音智能识别这项技术实现更好地发展，这是本世纪内中最重要的一项研究课题之一。

3.当前主要解决方法

目前具有代表性的语音识别方法主要有动态时间规整技术（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）、人工神经网络（ANN）、支持向量机(SVM)等方法。

4.各个方法分析

（1）动态时间规整算法

动态时间规整算法是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径。

（2）隐马尔可夫模型（HMM）

隐马尔可夫模型是语音信号处理中的一种统计模型，是由Markov链演变来的，所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本，且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出，因此是较理想的语音识别模型。

（3）矢量量化

矢量量化（VectorQuantization）是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。在实际的应用过程中，人们还研究了多种降低复杂度的方法，包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。

（4）人工神经网络（ANN）

人工神经网络（ANN）是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强大的分类能力和输入—输出映射能力在语音识别中都很有吸引力。其方法是模拟人脑思维机制的工程模型，它与HMM正好相反，其分类决策能力和对不确定信息的描述能力得到举世公认，但它对动态时间信号的描述能力尚不尽如人意，通常MLP分类器只能解决静态模式分类问题，并不涉及时间序列的处理。尽管学者们提出了许多含反馈的结构，但它们仍不足以刻画诸如语音信号这种时间序列的动态特性。由于ANN不能很好地描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显著进展，其识别率已经接近隐含马尔可夫模型的识别系统，进一步提高了语音识别的鲁棒性和准确率。

（5）支持向量机（Supportvectormachine）

支持向量机是应用统计学理论的一种新的学习机模型，采用结构风险最小化原理，有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力，在解决小样本、非线性及高维模式识别方面有许多优越的性能，已经被广泛地应用到模式识别领域。

5.语言智能方面识别技术的应用瓶颈

截止目前，语音智能这项识别技术有以下几个主要问题：

（1）识别语音的过程中很容易受到外界干扰。不同种类的麦克风所具备的性能存在差异性，这也会对识别的结果造成很大影响。另外，在环境噪音较强的情况下提取声音，其识别结果也会受到一定程度的干扰。这些因素的存在都会影响识别声音效果的准确性。

（2）识别声音的系统仍然不够完善。这项技术在识别不同种类语言方面会受到较大限制，一般只能识别普通话，无法识别地方方言。这项技术在汽车和手机上都有广泛使用，针对的用户群体相对比较复杂，如果用户不会说普通话或者方言口音较重，那么声音识别系统暂时还无法有效识别。这种类型的语音导致实际应用范围比较受限。

（3）无法进行准确识别和判断。通常情况下人类声音在各种不同条件下，可能会发生一定程度的变化。例如，在人类身体状况有一定变化时，也会影响语音识别系统对语音的识别效果。另外，在一些特殊情况下，这种瓶颈的存在容易导致安全隐患。

6.总结与反思

就现阶段而言，人工智能技术在我国社会发展的各个领域中都有着广泛的应用，而且发展速度十分迅猛。在其迅猛发展的背景下，也遇到了亟待解决的技术问题，主要是因为计算机还未能实现全智能化的技术控制，这为人工智能领域识别技术的创新和发展造成了一定制约。在人工智能领域发展识别技术，要想真正实现全智能化操作，就需要进一步完善和优化其主观意识。

人工智能在图像处理、语音识别和自然语言处理中的应用有哪些

当谈到人工智能在图像处理、语音识别和自然语言处理领域的应用时，我们可以看到它们正发挥着重要的作用。人工智能技术利用计算机科学和机器学习算法，使得计算机能够模仿人类的智能行为和决策过程。

人工智能在图像处理、语音识别和自然语言处理领域有广泛的应用。以下是这些领域中人工智能的一些常见应用：

图像处理：图像分类和识别：利用深度学习和卷积神经网络等技术，实现图像的分类和识别任务，例如物体识别、人脸识别等。目标检测和跟踪：通过训练神经网络模型，实现对图像中特定目标的检测和跟踪，例如行人检测、车辆跟踪等。图像生成和增强：利用生成对抗网络（GAN）等技术，生成逼真的图像，并进行图像增强，例如超分辨率图像生成、图像修复等。语音识别：语音转文本：利用深度学习模型，将语音信号转化为文字，实现语音识别任务，例如语音助手、语音转写等。语音情感分析：通过分析语音信号的声调、语速等特征，实现对语音中情感的识别和分析。自然语言处理：文本生成和翻译：通过神经网络模型，实现文本的生成和翻译任务，例如文本摘要生成、多语言翻译等。问答系统和对话机器人：利用自然语言处理和知识图谱等技术，实现智能问答系统和对话机器人，能够回答用户的问题和进行自然对话。整理了有关人工智能的籽料，有图像处理opencv自然语言处理、机器学习、数学基础等人工智能资料，深度学习神经网络+CV计算机视觉学习（两大框架pytorch/tensorflow+源码课件笔记）关注公众H：AI技术星球回复 123这些只是人工智能在图像处理、语音识别和自然语言处理领域中的一些应用示例，随着技术的发展和创新，还会出现更多新的应用和突破。人工智能的应用不仅限于这些领域，还延伸到医疗诊断、智能交通、金融风控等多个行业。随着技术的进步和数据的丰富，人工智能在各个领域的应用将会更加广泛和深入。

人工智能三大领域及应用——天才AI

人工智能是一门新兴的技术学科，它研究和开发用于模拟人类智能的扩展和扩展的理论、方法、技术和应用系统。人工智能研究的目标是让机器执行一些复杂的任务，这些任务需要聪明的人来完成。也就是说，我们希望机器可以代替我们来解决一些复杂的任务，不仅仅是重复的机械活动，而是一些需要人类智慧才能参与的任务。在本文中，我将解释人工智能技术的三个主要方向，即语音识别，计算机视觉和自然语言处理。

语音识别

「语音识别(SpeechRecognition)」使计算机能够进行聆听，包括我们可以在日常生活中使用的iPhone上的Siri；在Google语音输入中，您可以说出一个句子，然后变成文字；与Google地图通话可说出我要去的地方，它可以自动为你生成导航。这些是语音识别的一些应用。语音识别可以分为三个方面：

语音合成，包括在线和离线语音合成；语音识别，包括语音听写和其他方面；语义理解是使用神经网络提取语音的含义，包括语音评估和我们一些常用机器翻译的某些功能。

计算机视觉

「计算机视觉(Computervision)」使计算机可以代替人眼的某些功能。例如，有一种非常有用的文档分析技术，称为OCR。我们可以让计算机扫描文档并阅读。例如，我们可以获得发票，以便计算机可以立即对其进行扫描，然后从发票中提取有关金额，税率和我们关心的其他信息。在智能医疗诊断领域中有一些关于计算机视觉的研究。尽管它尚未在市场上出售，但我相信将来会有广泛的应用场景。同时，在军事领域，无人驾驶飞机正在取代人类的观察和测量导弹的弹道。

计算机视觉的流行方向是：

对象识别和检测。计算机可以快速检测出我们通常从照片中看到的内容。例如，如果我们拍出一个旅游区的风景照片，我们可以立即识别出上面的植物，人，动物或车辆，计算机也可以。

对象运动跟踪。我们已经在某个帧上捕获了对象的图像。在随后的视频中，我们可以不断跟踪该对象的变化和状况。这不是一件容易的事。难以准确识别物体，因为物体会不断受到阳光和光线的影响。

另一个是计算机查看图片和说话的功能。例如，给定图片，计算机可以识别图片中包含的内容，然后告诉一些预制的内容。现在，许多展厅已经使用了这项技术。它可以预制解释性单词和指导性单词。参观者仅需使用手机或其他设备即可扫描展品或展区中的某些指定位置，以听到相关的指导词。

自然语言处理

从现在开始，我们的计算机可以听我们说的话并看到我们看到的内容。但是我们想要更多。我们更喜欢与计算机进行交互，使用自然语言进行交流，这是自然语言处理的目的。现在，自然语言处理已用于机器翻译，信息检索和对话系统中。

机器翻译：主要包括机器同声翻译。信息检索：例如，当我告诉计算机我要寻找的内容时，它可以为我搜索相关的内容。智能客服：我们通过语音与计算机互动，并让计算机回答我们的问题。

自然语言处理不是那么简单。我们必须解决以下问题。第一个是语言的歧义，有时可以用两种或多种可能的含义或方式来理解一个句子。例如，“Iwenttothebank.”，bank可以是存放金钱的地方，也可以是河岸。

另外，我们需要解决语言的鲁棒性。我们经常在日常演讲中说一些错别字，或者说少一些单词，或者说多于原始含义的单词，这会影响语言的健壮性。另外，可能还有其他昵称可能指向同一个人。

另一个是知识依赖。我们通常使用知识图来解决知识依赖问题。假设“大鸭梨”（又称大梨）是一种水果，也是北京一家非常有名的烤鸭店的名字。就像“七日游”一样，它可以代表时间，也可以代表酒店的名称。这些都依赖于一些背景知识，我们需要使用知识库或知识图来解决此问题。

另一个是上下文。根据对话的上下文，我们可以准确地判断该说些什么。例如，“我想吃大鸭梨”，“大鸭梨”可能代表一种水果。“我们去大鸭梨”，然后“大鸭梨”代表一家餐馆。在不同的对话中，不同的表达方式表现出不同的含义。

总结

在我们转向人工智能的工业应用之前，让我们总结一下在上一部分中学到的知识。我们学习了语音识别。计算机可以听到我们的声音并做出一些响应，例如将我们说的话翻译成文本。然后我们研究了计算机视觉，计算机可以通过查看图像来识别图像中的某些对象，并且还可以跟踪连续图像中对象的变化，这些是计算机解决的一些热门话题。最后，我们了解了自然语言处理，也就是说，计算机不仅需要听我们说的话，他们还可以理解我的话，然后他们才能给我们一些反馈。

民事安全

首先，先介绍下有关民事安全领域的信息。随着智能家居的普及，人工智能逐渐在民安领域中发挥了作用。例如，家庭安全摄像机可以从视频中学习并通过日常拍摄来识别属于我们家庭的摄像机。当我们的家庭进入视频监控范围时，它不会触发警报。但是，当外人非法进入时，它将立即向我们发出警报，例如向我们发送短信或发出响亮的警报声。这些是智能安全摄像机的一些简单应用。

交通

在交通领域，我们可以通过人工智能分析交通视频，并利用数据做出决策。我们可以分析当前道路是否拥堵以及情况如何，然后使用人工智能自动做出决策。例如，让AI调整交通信号中的时间以指挥交通，或者实施大规模的交通联动调度以提高整个城市的运营效率。

公共安全

在公共安全领域，人工智能还具有使用图像识别和面部识别的特别明显的应用。例如，我们在大量视频信息中发现了嫌疑人的线索；或给定特定特征，人工智能从与视频特征匹配的人员或物品中提取信息，这是快速而准确的。

自动驾驶

人工智能在自动驾驶领域也有许多应用。自动驾驶实际上需要很多技术，包括对环境的感知。我们通过一系列设备（例如相关的摄像机，激光测距仪，微传感器，车辆雷达等）感知周围环境，然后通过人工智能将这些信息整合在一起，以确定周围环境的状况。在基于环境感知的结果收集了行为决策所需的所有信息之后，有必要使用人工智能来决定汽车接下来应该做什么，是应用制动器还是加速器。

智能机器人

智能机器人在服务行业，教育行业和医疗行业中具有巨大的应用潜力。例如，现在许多银行都设有自动问答机器人，该机器人可以引导来银行进行业务，排队排队或只是介绍一些业务的人，这提高了银行的效率，并且为了方便客户，大多数人去银行开展业务。

人工智能在电信行业中的应用

人工智能在电信行业中有哪些应用？电信行业也欢迎人工智能时代的到来。许多移动公司抓住了时代的机遇，开发并构建了用于人工智能核心功能的网络平台。这个人工智能网络平台具有大数据分析和机器学习功能。它会自动检测移动网络的状况，自动进行故障排除，并执行流量分类，异常检测和预测。同时，你可以优化资源利用率并执行相关的网络优化，以增强移动网络的智能性，并通过优化来增强用户体验。

中国移动还独立开发了智能手机客户服务问答机器人，该机器人使用人工智能技术（例如机器学习，深度学习和自然语言处理）来自动化业务流程，更智能地回答用户问题，解决业务咨询，业务处理和流量查询和问题的其他方面，例如客户服务，网络覆盖范围，计费和其他相关服务。

此外，就订户而言，人工智能和机器学习还将帮助电信运营商解决诸如描述和分析用户信息，提高转换率，分析内容使用趋势以及网络活动等功能。借助人工智能和数据分析，运营商还可以在合适的时间识别目标客户并为客户提供各种服务。

移动公司还专注于五个主要领域：网络，安全性，管理，客户服务和市场营销，它们使用人工智能技术来扩大应用范围。

在网络领域，人工智能技术已在网络自助机器人，智能VoLTE语音质量测量，智能家庭宽带安装中得到了大规模应用。

在安全领域，反欺诈系统已经能够拦截诈骗电话，在中国，每月的拦截量超过1400万。

在管理领域，合同和帐单的审计点也已实施。智能机器已经取代了人工审核，每年可以节省数亿美元的成本。

在客户服务领域，智能客户服务问答机器人目前每月可回答超过2.1亿次。

结合自身在垂直行业中的业务优势，电信公司正在积极在各个行业中部署AI应用程序，包括智能教育，智能医疗，智能交通，智能工业，智能农业等方面。

免责声明：本文来自AI科技大本营客户端，不代表超天才网的观点和立场。文章及图片来源网络，版权归作者所有，如有投诉请联系删除。

盘点语音识别技术在人工智能中的应用 语音识别是人工智能哪个领域的应用