人工智能与自然语言处理技术
随着人工智能技术的发展,我们生活中的许多应用都带上了“AI”的色彩,比如可以用计算机帮翻译外文文档。但有时候人工智也能会出一些小故障,变得不那么智能,尤其在语言处理方面。那么我们怎样才能让人工智能变成真正的“智能”呢?自然语言处理技术就是一个重要的方式。
自然语言处理技术(即natural language processing,简称NPL)是人工智能的一个重要分支,其目的是利用计算机对自然语言进行智能化处理。基础的自然语言处理技术主要围绕语言的不同层级展开,包括音位(语言的发音模式)、形态(字、字母如何构成单词、单词的形态变化)、词汇(单词之间的关系)、句法(单词如何形成句子)、语义(语言表述对应的意思)、语用(不同语境中的语义解释)、篇章(句子如何组合成段落)7个层级。这些基本的自然语言处理技术经常被运用到下游的多种自然语言处理任务中,如机器翻译、对话、问答、文档摘要等。
科学家研究自然语言处理技术(NLP)的目的是让机器能够理解人类语言,用自然语言的方式与人类交流,最终拥有“智能”。AI时代,我们希望计算机拥有视觉、听觉、语言和行动的能力,其中语言是人类区别于动物的最重要特征之一,语言是人类思维的载体,也是知识凝练和传承的载体。在人工智能领域,研究自然语言处理技术的目的就是让机器理解并生成人类的语言,从而和人类平等流畅地沟通交流。
但现在的人工智能常常和我们的人工评价有很大的出入,这也是基于AI算法的自动评测面临的最大挑战:如何与人工评价保持一致?应对这个挑战需要解决很多问题。以智能阅卷为例:如何制定电脑适用的评测标准?人工智能如何应对语言的千变万化?如何设计阅卷综合性的评测指标?有科学家认为,大数据与富知识双轮驱动或许能成为解决问题的关键,即在大数据驱动的基础上加入富知识驱动,可以突破现在智能语言处理技术上的瓶颈。
总而言之,自然语言技术的发展说明人工智能技术的核心还是在“人”。“人工智能和机器学习带给决策过程的支撑和信心将使创新加速,但这并不意味着人类的缺席。人们仍然需要定义分析的起点、标注主题并从收集的信息中提取所需数据。”
本文由北京市第六十五中学一级教师李岩进行科学性把关。
科普中国中央厨房新华网科普事业部科普中国-科学原理一点通联合出品更多精彩内容,请下载科普中国客户端。作者:和卓琳 [责任编辑:魏承瑶]基本语音人工智能术语理解指南
对语音识别技术感兴趣?注册我们的语音AI新闻稿.
语音人工智能是一种能够使用语音与计算机系统进行通信的技术。指挥车内助手或操作智能家居设备?支持人工智能的语音界面可以帮助您与设备交互,而无需在屏幕上键入或点击。
人工智能的语音领域相对较新。但随着语音交互的成熟并扩展到新的设备和平台,开发人员必须跟上不断发展的术语。
在本文中,我介绍了语音人工智能领域的关键概念,描述了它在更大的人工智能领域中的位置,并讨论了它与其他科学技术领域的关系。
基本概念您可能听说过,甚至熟悉这些技术,但为了完整起见,以下是一些基本知识:
人工智能(AI)是指创造与人类认知能力相匹配或超过人类认知能力的智能机器的广泛学科。机器学习(ML)是人工智能的一个子领域,涉及创建方法和系统,学习如何使用过去的数据执行特定任务。深度学习(DL)是一系列ML方法,基于人工神经网络具有多个层次,通常使用大量数据进行训练。语音人工智能系统如何与人工智能、ML和DL相关?语音人工智能是将人工智能用于基于语音的技术。语音人工智能系统的核心组件包括:
一自动语音识别(语音识别)该系统也称为语音到文本、语音识别或语音识别。这将语音信号转换为文本。A.文本到语音(TTS)该系统也称为语音合成。这将文本转换为语音形式。语音人工智能是对话人工智能,主要从DL和ML领域绘制其技术。AI、ML、DL和语音AI之间的关系可以用图1中的维恩图表示。
图1.AI、ML、DL和语音AI之间的关系图1显示,会话人工智能是基于语言的应用程序的更大范围,其中并非所有应用程序都包括语音组件(语音)。
以下是语音人工智能技术如何与其他工具和技术并肩工作,形成一个完整的对话人工智能系统。
对话人工智能对话人工智能是一门涉及设计智能系统的学科,该系统能够通过自然语言以对话的方式与人类用户进行交互。商业示例包括家庭助理和聊天机器人(例如,保险索赔聊天机器人或旅行社聊天机器人)。
对话可以有多种模式,包括音频、文本和手语,但当输入和输出是口语自然语言时,就有了一个基于语音的对话人工智能系统(图2)。
图2基于语音的对话人工智能系统典型的基于语音的对话人工智能系统的组件包括:
A.语音接口通过语音人工智能技术,使系统能够通过自然语言口语格式与用户交互。A.对话系统管理与用户的对话,同时与外部履行系统交互,以满足用户的需求。它由两部分组成:A.自然语言理解(NLU)模块解析文本并识别相关信息,例如用户的意图以及与该意图相关的任何参数。例如,如果用户请求“明天早上天气如何?”,然后,“天气信息”是目的,而时间是从请求中提取的相关参数,在本例中为“明天早上”。NLU是自然语言处理(NLP),是语言学和人工智能涉及处理和分析自然语言数据的计算方法。A.对话框管理器监视对话的状态并决定下一步要采取的操作。对话框管理器从NLU模块获取信息,记住上下文,并满足用户的请求。这个履行引擎执行对话人工智能系统的功能性任务,例如:检索天气信息、阅读新闻、订票、提供股市信息、回答琐事问答等等。一般来说,它们不被视为对话人工智能系统的一部分,而是紧密合作以满足用户的需求。语音人工智能概念在本节中,我们将深入探讨语音人工智能的特定概念:自动语音识别和文本到语音。
自动语音识别典型的基于深度学习的ASR管道包括五个主要组件(图3)。
图3基于深度学习的ASR管道剖析特征提取程序特征提取器将音频信号分割为固定长度的块(也称为时间步长),然后将这些块从时域转换为频域。
声学模型这种机器学习模型(通常是多层深度神经网络)预测音频数据每个时间步的字符概率。
译码器和语言模型译码器将声学模型给出的概率矩阵转换为字符序列,字符序列依次生成单词和句子。
语言模型(LM)可以给出一个分数,表示句子出现在其训练语料库中的可能性。例如,在英语语料库上训练的LM会判断“识别语音”比“毁掉一个漂亮的桃子”更可能,同时也会判断“Jesuisunétudiant”不太可能(因为这是一个法语句子)。
当与LM结合时,解码器将能够将其“听到的”(“我午餐吃玫瑰牛肉”)更正为更符合常识的内容(“我午餐吃烤牛肉”),因为LM对后一句话的评分高于前者。
标点和大写模式标点和大写模型添加标点并大写解码器生成的文本。
反向文本规范化模型最后,应用反向文本规范化(ITN)规则将文字格式转换为所需的书面格式,例如,“十点”到“10:00”,或“十美元”到“10美元”。
其他ASR概念文字错误率(WER)和字符错误率(CER)是ASR系统的典型性能指标。
WER是错误数除以口语单词总数。例如,如果在总共50个口语单词中有5个错误,WER将为25%。
除字符而非文字外,CER的操作方式类似。日语和普通话等语言没有用特定标记或定界符分隔的“单词”(如英语的空格)。
图4基于两阶段深度学习的TTS管道剖析文本到语音(TTS)文本到语音步骤通常使用两种不同的方法实现:
A.两级管道:分别训练两个独立的网络以将语音转换为文本:频谱图生成器网络和声码器网络。一端到端管道:使用一个模型直接从文本生成音频。两态管道的组成部分包括:
文本规范化模型:将书面格式的文本转换为口头格式,例如,“10:00”到“10点”,“10美元”到“10美元”。这是ITN的相反过程。频谱图发生器网络:TTS管道的第一阶段使用神经网络从文本生成频谱图。声码器网络:TTS管道的第二阶段将来自频谱图生成器网络的频谱图作为输入,并生成自然发音语音。语音合成标记语言其他TTS概念包括语音合成标记语言(SSML),它是一种基于XML的标记语言,允许您指定如何将输入文本转换为合成语音。您的配置可以使用音高、发音、语速和音量等参数使生成的合成语音更具表现力。
常见的SSML标记包括以下内容:
韵律学用于自定义生成语音的基音、语速和音量。音素用于手动覆盖生成的合成语音中单词的发音。平均意见分数为了评估TTS引擎的质量,平均意见分数(MOS)经常使用。MOS源于电信领域,定义为人类评估人员在主观质量评估测试中对提供的刺激给出的算术平均值。
例如,一个常见的TTS评估设置是一群人听生成的样本,并给每个样本一个从0到5的分数。然后将MOS计算为总体评估者和测试样本的平均分数。
如何开始使用语音人工智能语音人工智能如今已成为主流,成为消费者日常生活中不可或缺的一部分。企业正在发现通过整合语音人工智能功能为其产品带来附加值的新方法。
获得语音人工智能专业知识的最好方法是体验它。有关如何为对话人工智能应用程序构建和部署实时语音人工智能管道的更多信息,请参阅免费的构建语音人工智能应用程序 电子书.
人工智能技术的主要应用及基本原理
1:什么是人工智能?
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,是认知、决策、反馈的过程。人工智主能它是用来研究使计算机来模拟人的某些思维过程和智能行为(如学习,推理,思考,规划等)的学科,主要包括计算机实现智能的原理,制造类似的人脑智能的计算机,使计算机能实现更高层次的应用。
2:人工智能的研究价值
列如繁重的科学和工程计算本来是要人脑来承担的,如今计算机不但能完成这种计算,而且能比人脑做得更好、更快、更准确,因此当代人不再把这种计算看作是“需要人工智能才能完成的复杂任务”,可见复杂工作的定义是随着时代的发展和技术的进步而变化的,人工智能这门学科的具体目标自然也是随着时代的变化而发展的。它一方面不断获得新的发展,另一方面又转向更有意义的,更加困难的目标。
3:人工智能的细分领域有哪些?
人工智能技术应用的细分领域:深度学习、计算机视觉、智能机器人、虚拟个人助理、自然语言处理—语音识别、自然语言处理—通用、实时语音翻译、情境感知计算、手势控制、视觉内容自动识别、推荐引擎等。
(1):深度学习
深度学习作为人工智能领域的一个应用分支,不管是从市面上公司的数量还是投资人投资喜好的角度来说,都是一重要应用领域。说到深度学习,大家第一个想到的肯定是AlphaGo,通过一次又一次的学习、更新算法,最终在人机大战中打败围棋大师李世石。百度的机器人“小度”多次参加最强大脑的“人机大战”,并取得胜利,亦是深度学习的结果。
深度学习的技术原理:
1.构建一个网络并且随机初始化所有连接的权重; 2.将大量的数据情况输出到这个网络中; 3.网络处理这些动作并且进行学习; 4.如果这个动作符合指定的动作,将会增强权重,如果不符合,将会降低权重; 5.系统通过如上过程调整权重; 6.在成千上万次的学习之后,超过人类的表现;
(2):计算机视觉
计算机视觉是指计算机从图像中识别出物体、场景和活动的能力。计算机视觉有着广泛的细分应用,其中包括,医疗成像分析被用来提高疾病的预测、诊断和治疗;人脸识别被支付宝或者网上一些自助服务用来自动识别照片里的人物。同时在安防及监控领域,也有很多的应用……
计算机视觉的技术原理:
计算机视觉技术运用由图像处理操作及其他技术所组成的序列来将图像分析任务分解为便于管理的小块任务。比如,一些技术能够从图像中检测到物体的边缘及纹理。分类技术可被用作确定识别到的特征是否能够代表系统已知的一类物体。
(3)语音识别:
语音识别技术最通俗易懂的讲法就是语音转化为文字,并对其进行识别认知和处理。语音识别的主要应用包括医疗听写、语音书写、电脑系统声控、电话客服等。
语音识别技术原理:
1、对声音进行处理,使用移动窗函数对声音进行分帧; 2、声音被分帧后,变为很多波形,需要将波形做声学体征提取,变为状态; 3、特征提起之后,声音就变成了一个N行、N列的矩阵。然后通过音素组合成单词;
(4)引擎推荐:
不知道大家现在上网有没有这样的体验,那就是网站会根据你之前浏览过的页面、搜索过的关键字推送给你一些相关的网站内容。这其实就是引擎推荐技术的一种表现。Google为什么会做免费搜索引擎,目的就是为了搜集大量的自然搜索数据,丰富他的大数据数据库,为后面的人工智能数据库做准备。
引擎推荐技术原理:
推荐引擎是基于用户的行为、属性(用户浏览网站产生的数据),通过算法分析和处理,主动发现用户当前或潜在需求,并主动推送信息给用户的信息网络。快速推荐给用户信息,提高浏览效率和转化率。