智能语音助手的工作原理是先了解自然语言处理(NLP)与自然语言生成(NLG)
智能语音助手的工作原理是?先了解自然语言处理(NLP)与自然语言生成(NLG)
语音助手越来越像人类了,与人类之间的交流不再是简单的你问我答,不少语音助手甚至能和人类进行深度交谈。在交流的背后,离不开自然语言处理(NLP)和自然语言生成(NLG)这两种基础技术。机器学习的这两个分支使得语音助手能够将人类语言转换为计算机命令,反之亦然。这两种技术有什么差异?工作原理是什么?NLPvsNLG:了解基本差异
什么是NLP?NLP指在计算机读取语言时将文本转换为结构化数据的过程。简而言之,NLP是计算机的阅读语言。可以粗略地说,在NLP中,系统摄取人语,将其分解,分析,确定适当的操作,并以人类理解的语言进行响应。NLP结合了计算机科学、人工智能和计算语言学,涵盖了以人类理解的方式解释和生成人类语言的所有机制:语言过滤、情感分析、主题分类、位置检测等。
什么是NLG?自然语言处理由自然语言理解(NLU)和自然语言生成(NLG)构成。NLG是计算机的“编写语言”,它将结构化数据转换为文本,以人类语言表达。即能够根据一些关键信息及其在机器内部的表达形式,经过一个规划过程,来自动生成一段高质量的自然语言文本。NLPvsNLG:聊天机器人的工作方式人类谈话涉及双向沟通的方式,聊天机器人也一样,只是沟通渠道略有不同——您是与机器交谈。当给机器人发送消息时,它会将其拾取并使用NLP,机器将文本转换为自身的编码命令。然后将该数据发送到决策引擎。
在整个过程中,计算机将自然语言转换为计算机理解的语言,处理,识别语音。语音识别系统常用的是HiddenMarkov模型(HMM),它将语音转换为文本以确定用户所说的内容。通过倾听您所说的内容,将其分解为小单元,并对其进行分析以生成文本形式的输出或信息。
此后的关键步骤是自然语言理解(NLU),如上文所说,它是NLP的另一个子集,试图理解文本形式的含义。重要的是计算机要理解每个单词是什么,这是由NLU执行的部分。在对词汇、语法和其他信息进行筛选时,NLP算法使用统计机器学习、应用自然语言的语法规则,并确定所说的最可能的含义。
另一方面,NLG是一种利用人工智能和计算语言学生成自然语言的系统。它还可以将该文本翻译成语音。NLP系统首先确定要翻译成文本的信息,然后组织表达结构,再使用一组语法规则,NLG就能系统形成完整的句子并读出来。
应用语音助手只是NLP众多应用程序之一。它还可用于网络安全文章、白皮书、科研等领域。例如,NLP对在线内容进行情绪分析,以改进服务并为客户提供更好的产品。
而NLG通常用于Gmail,它可以为您自动创建答复。创建公司数据图表的描述说明时,NLG也是很好的工具。
说NLP和NLG完全不相关,也不正确,因为NLP和NLG相当于学习中的阅读、写作过程,还是有内在关联的。
智能语音交互产品功能和功能体验
入门流程快速入门文档介绍使用智能语音服务需要的步骤,帮助您快速开通服务、创建测试项目和调用语音服务。准备账号注册阿里云账号。阿里云账号作为阿里云系统识别的资源消费账户,有阿里云所有产品和管理权限。具体操作,请参见注册阿里云账号。个人实名认证。为了确保您可以正常使用阿里云产品和服务,您需要完成个人实名认证。具体操作,请参见个人实名认证。(可选)创建并授权RAM用户。当您的企业存在多用户协同访问资源的场景时,可以创建RAM用户,使用RAM可以按需为用户分配最小权限,避免多用户共享阿里云账号密码或访问密钥,从而降低企业的安全风险。具体操作,请参见创建RAM用户。关于RAM用户的更多信息,请参见什么是访问控制。如果使用RAM用户调用智能语音交互产品,请前往控制台为RAM用户授予AliyunNLSFullAccess权限。具体操作,请参见为RAM用户授权。说明创建RAM用户时,请设置登录密码,否则无法单独登录RAM账号。创建AccessKey在调用阿里云API时您需要使用AccessKey完成身份验证。AccessKey包括AccessKeyID和AccessKeySecret,需要一起使用。具体如下:AccessKeyID:用于标识用户。AccessKeySecret:用于验证用户的密钥。AccessKeySecret必须保密。创建阿里云账号的AccessKey登录RAM访问控制台,使用阿里云账号创建AccessKey。具体操作,请参见创建AccessKey。创建RAM用户的AccessKey使用阿里云账号登录RAM访问控制台,为RAM用户创建AccessKey。具体操作,请参见创建AccessKey。重要RAM用户的AccessKeySecret只在创建时显示,不支持查看,请妥善保管。开通服务如果您是第一次使用智能语音交互产品,推荐您使用阿里云账号开通智能语音交互服务。进入智能语音交互产品首页,单击开通并购买,然后在产品开通页面,选择服务类型并选中服务协议,单击立即开通,即可开通智能语音交互服务。类型说明免费试用版默认全部试用,长文本语音合成、录音文件识别(闲时版)和录音文件识别(极速版)无试用版。新开通服务的用户可免费试用3个月,支持2路并发(即同时最大2个任务)或每日2小时的录音文件识别额度。重要新用户试用期3个月内,每隔24小时可免费识别2小时时长的文件转写服务。免费额度用完后,间隔24小时后可继续试用。商用版选择某个或多个语音服务为商用,开通后按量计费,根据实际使用量从您的阿里云账户余额中扣费。更多信息,请参见计费说明。管理项目登录智能语音交互控制台,创建项目生成Appkey,根据您的使用场景,选择配置项目所需的语音识别和语音合成模型,具体操作,请参见管理项目。一个项目对应一个Appkey,代表智能语音服务的一个业务场景,Appkey在智能语音交互能力体验时是不可或缺的参数值。若您有多个业务场景,并且场景中使用的词汇或者语言不同,您需要创建多个项目,配置不同的热词和语言模型。获取Token访问令牌(Token)是调用智能语音交互服务的服务鉴权凭证。Token在不同项目间、不同进程间、不同线程间都可以共用,需要注意Token有效期根据服务端返回为准,过期前必须提前重新获取Token,建议每天重新获取。为了安全起见,建议您在服务端集成TokenSDK,客户端从服务端获取Token。获取Token方式建议使用场景通过控制台获取Token仅供测试使用,在控制台获取Token。通过SDK获取Token正式环境使用,通过传入AccessKey ID和AccessKey Secret,在SDK通过代码定期自动获取Token。通过OpenAPI获取Token若对应的编程语言缺少SDK,或者需要控制依赖组件,可以通过OpenAPI获取Token。集成开发根据以上几步获取到账号对应的AccessKeyID、AccessKeySecret、服务鉴权Token、以及项目Appkey,必须确保这几项数值归属同一阿里云账号或同一RAM用户。您可以根据以上信息,通过命令行等方式快速体验语音产品能力,具体操作,请参见运行示例。也可以通过SDK和API概览详细了解在各类平台如何将语音识别或语音合成功能集成到您的服务当中。集成运行说明运行示例基于使用阿里云主账号且从控制台获取测试Token来体验产品。主要通过控制台、curl命令行、postman、以及JavaSDK等方式快速体验智能语音交互能力。SDK和API概览RESTfulAPI、移动端、服务端、微信小程序以及WebSocket等多种接入方式。小鹏汽车的全场景语音交互系统,真的不可复制吗
“前挡风玻璃起雾了!”、“已打开吹前挡模式。”这是镁佳科技向我们展示的驾驶者与车载语音交互系统的典型对话。
进入人工智能时代,语音这种最自然、最简单的人类交流方式也很自然地成为人机交互的核心。实际上,人车交互对语音系统的需求更迫切,要求也更高。
行车安全始终是在第一位的,在人工智能时代来临之前,车辆设计者会充分考虑物理按键及仪表的位置、大小和排布方式,以确保用户能最大限度地专注于驾驶和路况,规避安全隐患。
差不多十年前,以特斯拉为代表的造车新势力将大屏幕与触控技术引入纯电动汽车,全新的操控体验令人耳目一新,传统车企也纷纷跟进这一趋势。
在语音交互技术发展的早期,语音助手类的车内应用更多的只是噱头。
首先,用户必须牢记语音交互的规则,用错词或者过度口语化都会导致交互失败;其次,由于语音助手无法实现对车控的全覆盖,用户还必须记住哪些操作可以用语音、哪些不能。
在新鲜感消退之后,语音助手常常沦为用户偶尔拿来向朋友或家中长辈展示的“高科技新玩意儿”,再无他用。
2020年成为汽车语音交互的重要拐点。小鹏汽车在10月下旬推送了车载系统XmartOS2.1.0版,这个看起来似乎只是一次常规小升级的版本号,却蕴含着一次大变革:搭载“全场景语音交互系统”。
小鹏汽车据此宣告了全场景语音交互元年的到来,并且在介绍这套系统时,用了很多个“全球第一”和“全球首创”,引起了从业者和消费者的高度关注。
按照镁佳科技的说法,小鹏汽车并不是唯一深耕这一领域的企业,早在此次新系统推送之前,该公司就已经发布了SmartMegaOS+整车分布式智能操作系统。
其中一个重要的组件就是SmartMegaVoiceOS全场景语音交互系统,并且镁佳科技具备从硬件到应用软件的全栈开发能力,小鹏汽车相应系统的底层技术则是由思必驰提供的。
小鹏汽车在之前的采访中曾经提出“全场景语音是智能汽车的最佳交互方式”,这其实是业内的共识,但能做到这一点并非易事。
那么,究竟什么是全场景语音交互呢?首先要做到的必须是“全”,如前文所述,如果不全,用户就需要记忆,那么语音交互的体验就大打折扣,难以培育用户习惯。
除此之外,镁佳科技与小鹏汽车的同类产品相比,又有哪些异同之处呢?接下来,我们就从四个方面进行分析。
一、音区锁定功能。车内空间狭小,声音环境复杂,包括车内外的环境噪声、司乘人员的对话干扰,播放音乐或视频的声音干扰等。小鹏和镁佳科技都可以通过锁定唤醒者音区的方式来排除这些干扰,不同的是,小鹏只支持主副驾驶双音区锁定,后排用户如果要使用语音交互需要通过后排按钮开启。
二、可见即可说。这意味着,只要在图形界面中可以找到的功能,无论它隐藏得多么深,一句话便可直达,交互扁平化,简单高效。小鹏和镁佳科技在这方面旗鼓相当。
三、细粒度语义理解与多指令并发。粒度是语言文本单位,汉语的基础单位是字,但字的多少并不能代表信息量的大小。
例如“篮球”只有两个字,但它即是球类名称,又是韩剧名字,还是代表了多部书籍,“篮”和“球”又可拆开代表不同的意思,因此这个词的文本粒度较大,如果转换成语音还要考虑到同音字、词的问题,粒度的判定就变得更加复杂。
因此,优秀的细粒度语义分析,是正确理解口语化长句的基础。这一点,小鹏和镁佳科技也同样支持。
在理解长句的基础上,如果长句中包含多个指令,也要求系统能一一执行。
值得注意的是,镁佳科技可以很好地拆分长句中的多个相反含义的任务及多个任务中的多个对象,并且对方位词也能准确识别。
比如,用户可以直接说:“把左前车窗关上,然后右后车窗打开三分之一。”这句话里包含了关上和打开两个相反的任务,还包含了左前和右后两个方位词,以及两个不同的车窗对象。
四、一次唤醒、连续对话。多轮连续对话能力一直被视为智能语音交互能力的重要指标,这项能力的挑战在于,语音系统必须能正确判断语句中的停顿甚至改口,能区分指令和闲聊内容,能屏蔽他人插话的干扰,以及联系上下文进行语义分析,这就要求交互系统具备完善的边听、边想、边调整的智能预测模型。
在这方面,小鹏和镁佳科技都有很好的表现,不过在对上下文的分析上,稍有差别。
小鹏主要通过省略主语和礼貌用语的方式来增加多轮对话的流畅度,也就是不会重复做“主人,你好。”“主人,在呢。”之类的无意义响应。
而镁佳科技可以更进一步,通过上下文联系很好地执行连续的,缺少主语或者宾语,甚至缺少明确谈话对象的任务语句。
我们可以假设这样一个场景,用户问:“今天天气怎么样?”镁佳科技播报时,用户与朋友闲聊,然后又问:“明天呢?”这次,用户会在自言自语后打断播报,追问:“那上海呢?”这种情况下,镁佳科技也可以正确无误地执行任务。
除了上述四个方面,镁佳科技还有一个优势,就是具备非常完善的离线交互能力,这一点在用户驾车出游时特别有用,就算远离市区,开进大山,在弱网甚至断网的情况下,也可以无缝切换至离线状态,而用户完全不知道这个切换过程,也感受不到使用差别。
谈了这么多全场景语音互动的能力,也只是冰山一角。
镁佳科技介绍,公司作为Tier1供应商,其SmartMegaVoiceOS系统可以为客户提供完全个性化的定制服务,不仅胜任被动执行用户指令,甚至还可以依据温度、油量(电量)、空气质量等传感器数据主动建议用户该做什么。
从用户角度出发,可以简单地将该系统的能力概括为:没有规则,和真人怎么说话,就和它怎么说话,只要是车内可见的功能,它都能帮你实现,甚至是主动实现。就这么简单。
用户端简单的背后是车企的“不简单”,很多新势力造车企业不具备这方面的全栈开发能力,即便是小鹏汽车,也会在底层技术上依靠思必驰。更多的传统车企同样不具备这个能力,虽然他们经验丰富,资金力量相对雄厚,但根深蒂固的传统组织架构和思维模式很难改变。
当年,特斯拉横空出世时,有人揶揄特斯拉不是在造车,而是在造带轮子的手机。现在看来,特斯拉的思路是正确的,消费者需要这样的产品。
未来,汽车行业的发展可能会比特斯拉更为激进。这是传统车企非常不适应的地方。比如,要实现最优化的语音交互,麦克风和扬声器的布局很重要;为了达到车控的100%覆盖及优秀的交互效果,CPU、GPU、DSP等计算力配置也很重要;更不要说适配不同车型的设计需求及操作系统。
无论对传统车企还是造车新势力,这都是一个庞大的系统工程。不仅如此,车企自研还要经历漫长的验证过程,考察系统的安全性、可靠性,最后还要进行调教和优化。那么,新老车企有没有必要全部亲历亲为?
当然没必要,抛开巨大的成本和人力物力投入不谈,单看时间成本就消耗不起。智能汽车市场的变化日新月异,一步赶不上,步步赶不上,坚持自研反而容易处于被动局面。
近些年围绕智能汽车的新供应链生态正在逐渐形成,新老汽车企业将语音交互系统完全外包或部分外包给Tier1供应商的做法将成为主流。
实际上,从小鹏汽车与思必驰的合作上也可以看出这一点。
车企将资源聚焦在自己最擅长的产品体验上,剩下的交付给镁佳科技这样的Tier1,可以更快获得具有自己品牌基因的、优秀的用户体验,并且在开发周期、开发成本以及水准上,都有可能超越同类产品。
回顾互联网发展初期,互联网公司都倾向于投巨资自建数据中心。时至今日,如B站或头条这样的互联网巨头也会大量采用公有云服务。在智能汽车领域,也存在类似的趋势。
当言及镁佳科技对自己的定位时,他们常常会把自己类比为公有云供应商——致力于为所有新老车企提供系统级的语音交互定制化服务,在后台默默支持车企的发展。
智能语音识别系统
编者按:智能语音识别系统目前已经实现商业化应用,广泛应用于客服行业,包括智能语音客服和智能客服呼叫中心。那么智能语音识别系统如何识别客户意图,如何判断智能客服系统的语音识别能力呢?本文我们将结合语音识别技术原理为大家回答以上问题。
➤模式识别原理
智能语音识别系统是计算机技术和人工智能发展的产物,其对语音的识别处理依赖于计算机的运行计算,但是计算机只认识二进制编码,如何通过语音的形式让计算机了解客户的意图?目前大部分智能语音识别系统采用的是模式识别的系统方式,即系统包含特征提取、模式匹配、参考模式库三个基本单元,企业需要先建立和业务相关的语音模型,组成系统的参考模式库,在和客户进行语音沟通时,语音先经过设备转换成电信号输入智能语音识别系统,系统抽取电信号中的语言特征,与系统参考模式库中语言模型的特征进行比对,根据一定的搜索匹配策略,找出与输入语音匹配的模板,这样,智能语音识别系统就实现了对客户语音的“理解”。
显然最优结果与特征的抽取、语音模型的好坏、参考模式库是否全面都直接关联。但是智能语音识别系统怎么实现语音电信号的特征抽取和参考模式库的建立?
➤语音识别技术(ASR)
人的自然语音可以用发音单元、字词、语句三个元素来表征,通过语音识别技术(ASR)在智能语音识别系统建立声学模型、词典和语言模型,就可以实现参考模式库的建立。
建立参考模式库时,首先是对语音信号处理,语音信号具有短时平稳性特点,可以先对语音信号进行分帧,将每帧信号都变换成系统更容易理解的特征;通过triphone等技术确定发音单元,构建声学模型,让系统理解声音和发音单元之间的关系;词典通过输入规定每个字的读音实现;语言模型则需要使用大量语音数据,通过Ngram或其他语言模型进行训练学习,让系统建立A问题出现后紧接着出现B问题的概率认知。
在实际沟通中,系统对语音信号进行处理,获取发音单元、字词、语句等特征,与建立的参考模式库进行匹配,理解用户意图。
➤小结
智能语音识别系统本质上是一个模式匹配的系统,智能语音识别系统要识别用户意图,首先需要通过发音单元、字词、语句三个基本元素建立参考模式库,在与客户的语音沟通过程中,将语音转换成电信号抽取特征,再将其与模式库进行匹配比对而理解用户意图。在实际应用中,企业需要大量的语音数据对系统进行训练,才能建立并提高智能语音识别系统的语音识别能力。