博舍

解构语音交互产品 智能语音交互是什么技术类型的产品

解构语音交互产品

在解构语音交互产品-认知篇里,主要讲了VUI的发展、挑战及相关问题,并列举了语音交互产品的应用场景。本文介绍在语音交互产品中使用到的人工智能技术。

目录一、语音交互的实现原理二、语音交互的AI技术1.语音识别技术2.情感分析和情绪检测一、语音交互的实现原理

语音交互的实现原理如上图所示。我在《点亮技能I人机对话系统全面理解》文中讲对话交互时也作过简单介绍。

具体流程:1)用户说一段话后,语音识别技术会将用户说的话进行纠错、删除、插入单词等操作,将用户所说的话进行补充和改写,这一过程完成了语音转为文本的过程;2)将识别到的文本经过自然语言理解框架,解析为结构化的,机器可以理解的语义表示,即抽取出“领域-意图-词槽”信息。(领域是包含一系列的相关的意图和词槽组成的语义理解场景,意图是用户通过交互输入所要表达的目的,词槽由一个tag-value对组成,即词槽标签-词槽值。比如用户query为“刘德华有什么好看的片子”,抽取出:领域–>电影,意图–>看电影,词槽–>演员:刘德华)3)对话管理会根据抽取出来的信息,决定如何处理这些意图和实体,判断抽取到的信息是否支撑系统执行命令。如果不行机器人还需要询问下一个问题,提供下一个回答或者报错等等。例如用户说“请帮我订一张北京到上海的机票”,用户的指令中缺失了“出发时间”这个实体的参数,对话管理就会引导用户给出“出发时间”的信息;4)系统经过语义理解和对话管理后,需要向用户做出回应。根据上下文/语境和对话的类型(问答/任务/闲聊),回应内容可能是系统检索到的结果,也可能是事先在bot平台上写的“追问的语句”、“意图确认回应”等,也可能根据深度强化学习模型生成的回答;5)最后使用TTS技术将系统回应的文本转化为语音播放给用户。

在任务型对话中,对话的转化漏斗为:

二、语音交互的AI技术

从语音交互的技术流程可以看出,一个语音产品至少需要运用语音技术、NLP技术。而在一些场景中,也会运用图像识别技术。

1.语音识别技术

语音技术包括:语音识别ASR(除了近场,还有远场语音识别)、声纹识别、语音合成TTS。

语音识别ASR,将声音转化为文字的过程。1)语音识别原理语音识别的识别方式可分为:“传统”识别和“端到端”识别方式,主要差异在声学模型上。传统机器学习方法使用HMM隐马尔可夫模型,“端到端”采用DNN深度神经网络。

2)语音识别评价指标语音识别的主要评价指标为:识别准确率

识别率的直接指标是WER词错误率,WER=100%*(S+D+I)/N(S、D、I分别代表替代、删除、插入的词的个数,N为单词总数)识别率Accuracy=1-WER

选择语音技术提供商时除了考虑识别准确率,还要看语音端点检测的表现。语音端点检测是描述计算机如何判断用户何时开始和结束说话的一种说法。

同时也需要考虑ASR工具的一些拓展功能,比如N-Best列表,是否允许参数设置,以及自定义词汇表等。

远场语音识别远场识别,是远场交互场景下的语音识别技术。1)语音激活检测VAD语音激活检测,即判断什么时候有语音/什么时候没有语音。在随身场景中,如手机APP,用户可以直接用手按着语音按键说话,但在远场识别场景下,用户不能用手接触设备,这时受噪声影响比较大,信噪比SNR较低,必须使用VAD。

2)语音唤醒在远场识别中,当VAD检测到人声后,需要进行语音唤醒。通过喊“唤醒词”后开始进行识别。如喊“Alexa”唤醒Echo音箱,开始识别语音。语音唤醒的评价指标:唤醒率(成功被唤醒)、误唤醒率(误报)、唤醒词的音节长度、唤醒响应时间、功耗等

3)麦克风阵列麦克风阵列由一定数目的麦克风组成,用来对声场的空间特性进行采样并处理的系统。利用多麦克风可以进行远距离拾音。麦克风阵列能对声源定位,并通过自适应波束进行语音增强,在前端完成远场拾音,并解决噪音、家庭环境中墙壁反射形成的混响、回声等带来的影响。

语音打断技术语音打断,即允许用户打断系统说话。一般的语音产品都采用听到唤醒词停止的策略,例如Amazon智能音箱Echo,需要检测到唤醒词“Alexa”时才会停止说话。VUI系统除了要注意用户什么时候说话,还要知道用户什么时候停止说话,这种情况叫超时。超时有以下几种情况:

语音终止超时:用户说话可暂停的时间长度,如超过,系统会判断用户说完。一些ASR工具可以设置语音终止超时时间来配置语音端点检测功能。有些会有默认值,例如1.5秒是被认为适用于大多数VUI系统的时长。无语音超时NSP:系统没有检测到语音。无语音超时的时间通常比较长(如5~10秒),通过无语音超时的数据,系统可以分析哪里存在问题,并给出回应的操作。言语过多超时TMS:用户说话时间过长,且没有检测到终止超时的停顿时,可以设置TMS超时来打断用户,以便继续对话。

一个用例:在英语口语练习工具-流利说APP中,口语测试环节有个60秒的口语输入时间,在这个时间窗口期即使没有检测到语音也不会终止,只有达到60秒时长或者用户手动点击才会终止。这就要求ASR工具能根据场景自定义设置时长。

数据隐私不要存储没有意义的用户数据。如果语音设备需要检测唤醒词,在用户喊唤醒词之前,不要保留用户所说的内容。比如AmazonEcho会持续接收唤醒词"Alexa”,但这种语音识别在本地设备上执行,直到唤醒词被识别后,音频才会上传到云端做语音识别。

语音技术相关厂家及数据市场上有很多提供ASR工具的厂商,国内多数语音厂家在安静状态下的语音识别准确率都通达到95%以上,支持5米远场交互,目前的语音技术的发展方向在非标准环境下提高远场识别准确率、降低误唤醒率及提高响应速度。数据显示,目前国内智能语音市场上科大讯飞占比达到44.2%,百度位居第二,占比也达到了27.8%,两者占比之和超过70%。下图是一些厂家信息(资料来源:格兰研究)

当前技术边界语音技术的边界,即能做什么不能做什么。在上篇文章里,提到了VUI的挑战之一“语音识别率”也有作过分析。ASR技术目前已经相对成熟,可以商用了。但在一些真实使用场景中,特别是远场交互,识别的错误率还比较高。一些语音识别率不够好的场景有:车载场景、家庭场景中的远场交互、语料数据少的场景(比如儿童语音)、名字拼写和字母数字混合的字符串的处理等。

产品经理可以通过产品体验设计来优化你的产品,从产品层面上来提高语音识别率。例如用户表述过短识别率低的问题,可以通过正确引导用户输入信息;ASR识别响应慢时,机器人可以说“正在为您查询”来用户回应,以减轻用户等待的感觉。

2.情感分析和情绪检测

情感分析情感分析是使用自然语言处理NLP技术来提取有关用户感受的信息。情感分析可以使VUI更智能,更具有同理心。机器在与用户交流时能预判用户的想法,从而给出最好的对话引导。

基本的情感分析:首先,你需要定义类别。例如“正面”、“负面”。然后通过使用正面和负面的单词列表,可以对用户所说的内容进行相应的分类。(已经有现成的免费单词表可以使用,如MPQA负面和正面词汇列表。也可以使用KNIME等开源工具给你识别结果进行后期处理,并且处理的用户所说的负面词汇和正面词汇的百分比。)

目前IBMWatsonAI可以根据某个对话流进行情感分析,预测用户的情绪状态以及情感分析的可信度。如下图:

情绪检测

1)通过语音流的实时声音语调分析进行情绪检测。例如BevondVerbal的MoodiesAPP

BeyondVerbal是全球首个通过语音来识别情绪的公司,其系统创建的算法可以通过识别音域变化,从而分析出像愤怒、焦虑、幸福或满足等情绪,心情、态度的细微差别也能被识别到。根据用户反馈,该应用识别情绪准确率约为80%。

在VUI产品中运用此项技术,可以更好的理解同户,并提供个性化的服务。例如语音助手/家庭助理类语音产品。

2)应用基于人脸面部特征的情绪检测技术。Google公司向开发者开放了一个VisonAPI,可以识别出用户的情绪。如下图中机器判断图中用户高兴的可能性是最高。

语音交互产品不一定需要支持图像识别/表情识别,这主要取决于你的场景和用户需求。比如在教育行类的上课场景,此场景位置固定,学生不随意走动,可以使用了情绪检测方法来判断学生学习的专注度,从而改善教学过程,提高学习效率。那么,家庭的教育机器人是否可以也运用此技术呢?

正确的判断用户的情感状态是非常关键的,错误的检测结果会使你付出高昂的代价。所以在运用用户情绪相关的技术时,要记住不要直接说出用户的情绪,而应该用情感和情绪分析来引导对话。

参考材料:《聊天机器人:对话式体验产品设计》byAmirShevat《语音用户界面设计》byCathyPearl一文看懂“语音识别ASR”|AI产品经理需要了解的AI技术概念hanniman

相关链接:解构语音交互产品—认知篇点亮技能I人机对话系统全面理解

浅谈智能语音交互

智能语音交互

在说到智能语音交互时,那么首先需要了解一下什么是智能语音交互以及有什么潜在的应用场景。

什么是智能语音交互

什么是智能语音交互呢?智能语音交互(IntelligentSpeechInteraction)就是你所理解的基于语音识别、语音合成、自然语言理解等技术,对于企业来说适用于智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,可以应用在金融、司法、电商等多个领域。可以说不管是功能性还是应用场景,智能语音交互产品都是大有用武之地的。

开通服务

智能语音交互官方网址:https://ai.aliyun.com/nls

点击【开通并购买】跳转页面

勾选协议并点击【立即开通】,开通之后打开智能语音交互控制台

至此智能语音交互服务开通成功。开通成功后就可以进入下面的操作了

创建项目、配置创建项目

点击【全部项目】菜单,在列表点击【创建项目】输入项目名称

选择项目类型后,根据需要补充项目场景描述后点击确定。项目创建完成后

配置项目

1.语音识别配置

项目创建完成之后进入项目配置页面,首先配置语音识别,点击【修改配置】

在语音识别配置页面,由于我将要识别的语音文件是电话语音,所以我这里选择【电话】tab,选中【中文普通话(识音石V1-端到端模型)】点击右上角【确认使用】完成语音识别配置。

2.语音合成配置

点击语音合成的【修改配置】

这里我选择客服下的【艾悦】格式选择mp3点击【确认使用】完成语音合成的配置,

项目测试

最后开始测试效果

这里我先来测试语音识别效果,这里我录了一个页面视频,放在了百度云盘上面链接:https://pan.baidu.com/s/1dXyFVjLbkRBWHKMGwJiJgA?pwd=ozzm

提取码:ozzm感兴趣的可以看一下识别效果,基本电话内容识别的没有问题,有一些相关业务名词识别的不是太准确

根据官方文档的描述,在语音识别服务中,如果您的业务领域有部分词汇默认识别效果不够好,可以考虑使用热词功能,将这些词添加到词表从而改善识别结果,于是添加了相关热词

部分短语词语识别效果有改善,整体效果有提升。

下面我们再来测试一下语音合成效果

点击下载按钮下载音频到本地,这里是我生成的音频地址:链接:https://pan.baidu.com/s/16oECC217LZU8FivU5RhudQ?pwd=guo5

提取码:guo5音频内容及语音语速很清晰,效果很好。至此控制台中涉及到智能语音交互的功能已经体验完成了,那么下面我将会根据当前公司需求场景及体验中的感受提一点个人的小反馈。

体验反馈

关于智能语音交互,个人根据公司所需的业务场景进行体验,并没有体验全部的内容,就个人体验的内容来看,说一下体验感受

产品体验建议

1.关于语音识别功能,这里由于是台式机,主要体验了上传音频文件语音识别,语音内容识别度很高,只是有一些专有的业务名词或者人物名词识别的不太准确,文章中我也标出了,后来查阅了智能语音交互官方文档,增加了【热词】,希望可以通过热词来改善识别效果,我增加的热词有

但是针对识别中专有名词增加的热词,在语音识别的音频识别中并没有体现出来,识别效果没有变化,这点比较疑惑?

2.关于语音分析,官方文档中有语音分析相关接口的说明内容,但是在智能语音交互控制台并没有语音分析相关的功能,希望后续可以增加语音分析的控制台功能,这样可以更好的体验智能语音分析这块的业务功能是否能达到落地的标准。

产品落地场景

现在比较常用的客服管理系统CRM,智能语音交互的很多产品功能都可以在CRM系统中发挥用武之地。

1.对于语音识别,现在公司CRM系统管理者通过听取一线客服通话录音的方式来判断客服服务的专业、贴心等,以及判断通话中应答的问题,做好后续改进等,这样的话作为管理者每天需要听取的录音太多且耗时,引入语音识别之后,可以将客服语音文件直接转化成文字,对于2min的语音文件,语音识别成文字之后10s内就可以看完了,对应的对话中的问题也就一目了然,提高效率,节约成本。

2.对于语音合成,现在公司CRM一线客服在接线前的问候语一般是提前录好的人工语音,这里可以通过语音合成功能直接将文字内容转化成语音内容,而不是每次需要更换问候语就要专业设备再次人工录音,省时省力节省成本。

3.对于语音分析,可以帮助CRM一线客服快速识别通话人的性别,年龄段,从而更好更快的提供针对性的服务,提高业务成单率,提高公司业绩;同样对于110120接警员来说也可以快速得到通话人的性别年龄信息,便于更好的为通话人提供帮助。

4.对于客服智能质检,现在公司CRM系统并没有这一块功能,但是有极大的需要,因为在大量电话服务中,管理者即便是通过语音识别将录音记录转化为文字来把关,工作量太大,还是不能及时的把控坐席出现违规或服务风险时的风险,造成客户及公司的损失;目前来看不管是智能语音交互控制台功能还是文档介绍都没有这块的内容,只在智能语音交互的官网见到了,希望可以尽快提供控制台功能模块和SDK供开发者调用测试,加急加急加急。

5.对于业务电话内容分析,对于公司CRM系统可能并没有需要,毕竟学员只能在公司官网购买课程,但是对于售房或者租房性质的中介却很有必要,可以通过对电话内容分析及时把控保证所有的成交都是通过公司平台,保证公司利益,这个功能也是在官网看到,希望可以尽快提供控制台功能模块和SDK供开发者调用测试。

6.最后说一点,希望智能语音交互官方文档可以增加一个实验室链接,在实验室中可以体验全部的功能,根据效果决定来引入公司CRM系统的必要性。

语音 AI 技术简介

语音AI技术(e.g.语音识别、语音合成)是人工智能重要的研究和应用方向。但是,不同于CV、NLP等“显学”,语音相关的从业人员(学界和业界)相对较少,语音领域的学术会议和期刊影响力也比较有限。

语音AI是一个多学科交叉的技术方向,涉及到信号处理、语言学、语音学(e.g.发音规律)、心理学(e.g.听觉感知)、传统机器学习以及深度学习等。近几年,随着深度学习的快速发展,语音也大量借鉴CV、NLP等领域的方法和成果。

鉴于此,我们简要梳理了语音AI的主要技术及应用场景。一方面,希望能够吸引更多不同专业背景的同侪投身语音AI领域;另一方面,希望能对有志于学习语音技术的同学提供一些帮助。欢迎有兴趣的同行或同学私信交流。

1.技术方向

语音AI包括了一系统相关的技术,下面对其中的若干重要方向进行简要介绍。(一篇旧文,介绍了语音算法在智能音箱中的应用,感兴趣的读者也可以参考。)

1.1语音识别1.1.1ASR

语音识别(AutomaticSpeechRecognition,ASR)是将语音信号转换成对应文本的AI技术。大词汇连续语音识别(LVCSR)的技术突破开始于20世纪80年代,此时隐马尔可夫模型(HMM)被用于建模语音信号。早期使用高斯混合模型(GMM)对发音分布进行建模,这种方案称为GMM-HMM系统。基于HMM-GMM的技术方案在20多年前已经发展成熟,其中HTK为集大成者。Kaldi后来居上,基本终结了这方面的学术研究和工程开发(欧洲、日本有团队使用其他类似但比较小众的工具)。基于人工神经网络(ANN)的ASR研究几乎与GMM方案同时开展,但由于早期各方面条件不成熟,没有能够成功应用。2009年前后,深度神经网络(DNN)被重新引入声学建模,并取得了突破性的进展。相关成果在12年被Google、微软等5家主流研究机构共同报告,ASR进入深度学习时代。使用深度神经网络做为声学模型的方案称为DNN-HMM系统,通常也称为hybrid系统(建模过程中混合使用了GMM-HMM相关技术)。

GMM-HMM和DNN-HMM都属于传统的语音识别系统(conventionalASR),它们由若干独立模块组成:前端模块、声学模型、发音辞典、语言模型和解码器。端到端(End-to-End)语音识别方案则希望将各个模块统一起来,由单独的神经网络进行联合建模与优化。

端到端建模是也深度学习领域的圣杯。目前主流CV和NLP任务,以及声纹认证、声学场景分析等较简单的语音任务目前基本都是以端到端方案为主。语音识别、语音合成、语音信号处理由于问题本身的复杂性,目前还处于传统方案和端到端并存的阶段。虽然端到端未来能否完全取代传统方案,目前仍存在较大的争议,但一个基本的实事是,端到端是当下研究的主流,在很多场景也展现了显著的性能优势。

早在2014年之前,学界和业界就开始了端到端ASR方案的探索。从识别效果上,18年前后离线端到端系统基本达到可用水平。19年后,端到端成为学术研究的主流。目前学术会议上已经很少能看到传统语音识别的相关工作了。目前,端到端ASR有三种主要的实现方案——CTC、Transducer和AED(Attention-baseEncoder-Decoder)。

1.1.2关键词检索

关键词检索(keywordsearch),可以看作是语音识别的特例。不同的是,在检索任务中,我们关注特定的关键词的检出效果,因此在技术手段上和语音识别有比较显著的差异。随着智能音箱以及手机语音助理的普通,语音唤醒(wakup)技术日渐为人熟知。唤醒在有些文献中也称了keywordspot或hotwordspot。对设备呼喊相应的唤醒(如百度音箱的“小度小度”),设备即能被激活并响应用户的需求。

因此,识别相关技术的应用中,通常都会需要VAD(VoiceActivityDetection)模块进行配合。VAD也称静音检测,其作用是检测出音频中的非语音片断并进行过滤。一方面可以减少后续识别等模块的计算量,另一方面也可以减少引入大量非语音而造成的误识别。

1.2语音合成

语音合成,即TTS(Text-To-Speech),是语音识别的反向任务。TTS将给定的文本转换成相应的音频,以供播放。

1.2.1基本技术

TTS主要有三类方法:参数、拼接以有端到端。

参数方法合成的语音自然度比较低,机械感明显。但参数方案的资源占用可以做到非常小,因此,在设备端依然存在大量的需求。

拼接方法顾名思义,是将音库中的语音片断拼接起来,生成目标语音。基于拼接可以合成高质量的语音,但缺点是开发流程复杂,对音库质量要求较高。目前拼接方法基本被端到端方法所取代。

端到端方法是将TTS传统的前端(TN、时长模型、声学模型)和后端(声码器)分别用神经网络建模。

前端主流的方案包括tacotron系统和fastspeech系统等。后端(神经声码器)觉的方法用WavNet、WavRNN、LPCNet、MelGAN、HifiGAN等。

1.2.2应用方向

随着技术的发展,TTS已经不限于简单的播放语音,而是有了越来越多样的场景需求。例如,在电子书阅读、虚拟助手等场景,对合成语音的情感表达愈发重视。另外,用户对于个性化语音合成的需求也越来越强烈。这就涉及如何利用小样本、低音质的数据进行模型建模的技术问题。

此外,歌曲合成也是语音合成的一个应用方向。

1.3声纹技术

笼统而言,声纹技术(voiceprint)是一门分析语音/音频中特定属性的技术。

1.3.1说话人识别

说话人识别是一项最常用的声纹技术。在说话人识别任务中,算法需要对比录入语音与注册的语音的相似度,从而判断说话人的身份。典型的应用是微信的数据声纹锁。

1.3.2声纹检索

声纹检索是说话人识别的扩展。上述说话人识别是1:1的认证任务,即只需要判断目标语音是否是给定的注册语音属于相同的说话人。而声纹检索是1:N的认证任务,即需要从大小为N的注册声纹库中挑选出最相似的说话人或都判断不在声纹库中(即集外)。声纹检索可以应用在刑侦领域,用于大规模的嫌犯筛查。

1.3.3属性识别

语音中往往包含了说话人的一些生理属性,如性别、年龄等。这些属于可以通过声纹技术来进行识别。

1.3.4声学场景分析

对于非纯语音的音频内容(例如短视频),有时需要对涉及的具体场景进行分析,以便分门别类进行处理(例如,语音片断转发给ASR进行转写;涉黄内容进行屏蔽)。这就涉及声学场景分析(acousticsceneananlysis)。简单而言,通过声学场景分析,我们需要确认在何时发生了何种声学事件。

1.4语音前端处理(语音信号处理)

人们的工作和生活都是处于极其复杂的声学环境中,人与人之间的交流以及人与机器之间的交互都会受到噪声、干扰等多种因素的影响。语音作为各种语音类应用的入口,通过各种算法对音频信号进行处理,消除录音设备和环境等带来的影响,使得处理后的信号更能反映语音的本质特征,为语音类应用的效率和用户体验提供保证。

1.4.1主要问题

语音前端处理面临的问题,大致可以分为四类:(1)回声:扬声器播放的声音又被麦克风拾取了。相应的处理方法有回声消除、回声抑制和回声控制等。(2)混响:声音除了从声源直线传播到麦克风之外,还会经过各种反射到达麦克风。响应的处理方法有混响消除和混响抑制等。(3)干扰:通常指非目标的其他人声。相应的处理方法有波束形成、盲源分离和声源定位等。(4)噪声:除回声/混响/干扰之外的非目标声音,多数情况下指代的是各种各样的环境噪声。相应的方法有降噪/增强、噪声控制和有源噪声控制等。

1.4.2应用场景

实时音频通话

包括传统电话、视频通话、电话会议等。在音频通话场景,信号处理主要是用于提升语音的可懂度和听感。音频通话相关的语音前端,最重要的要数经典的3A算法,即:AEC——声学回声消除,解决通话过程中扬声器播放的声音又被麦克风采集到,导致远端说话人听到自己声音的问题;ANS——自适应噪声抑制,解决通话过程中声音被环境噪声所污染的问题;AGC——自适应增益控制,解决声音忽大忽小的问题。

语音交互

包括语音助手、智能客服和各种类型的语音控制系统等,主要服务于语音识别/唤醒/说话人识别/情感识别等。相对于通话,语音交互通常会面临更为复杂的声学环境,为了提升语音质量,很多产品采用麦克风阵列作为音频输入硬件,相应的就需要有麦克风阵列相关的语音前端处理算法,典型的有波束形成/盲源分离/声源定位等。

录音包括集中式的会议录音器、分布式会议系统、录音笔、监控系统的录音部分、以及一些特制的录音器件等,这部分应用一般是后期对语音做处理分析,所以对实时性要求比较低,甚至一部分可以做纯离线的处理

其他对实时性要求绝高的场景,像助听器的信号处理,对处理延迟的要求极高,需要达到10毫秒或者更小。扩音系统的音频前端处理,需要处理啸叫等问题。多模态处理,包括音视频结合、麦克风+骨传导传感器、声学麦克风+光学麦克风等。

2.专业技能

下面介绍语音算法研发过程的用到的一些专业技能。虽然列了很多点,但依然不太全面。具体到某个特定方面(如说话人识别),可以并不需要所有这些技能,而且不同技能的熟悉度要求也不尽相同(有些可能仅仅要求能看懂)。

2.0CS基础

基础知识:计算机组成(体系结构)、算法设计与分析、设计模式编程语言:c/c++、python、cuda、perl(目前用的非常少了)Linux系统基础操作:shell、vim以及awk、sed等基础工具:gcc、cmake(bazel)、git

2.1机器学习相关

基本的机器学习知识,详见下面的阅读清单。训练框架:pytorch、tensorflow推理库:libtorch、onnx-runtime、tf-serving、tensorrt、mkl、mkl-dnn(one-dnn)

2.2语音相关

语音信号处理:特征提取(fbank、mfcc、LPC)、3A算法,以及下面的阅读清单。工具:kaldi、openfst、srilm、sox、ffmpeg

2.3工程相关

深度学习的发展,端到端方法在语音AI的各个方向都成为不可忽略的力量,在特定方向上甚至完全取代了传统的方法。方法的革新必然带来研发范式的变化。高效的训练工具是处理海量语音数据的基础,因此大规模分布式系统(CPU集群、GPU集群)的使用,训练速度的优化(分布式优化、算子实现优化,乃至算法和硬件的协同设计),是工业界语音AI开发的前提条件。而高效的部署(模型压缩、计算图优化、跨平台支持)对于实际落地也非常重要。

因此,强悍的工程能力是未来在语音AI取得成功的越来越重要的因素。

3.阅读清单3.1领域会议3.1.1旗舰会议ICASSP(InternationalConferenceonAcoustics,SpeechandSignalProcessing)是IEEESignalProcessingSociety组织的年度盛会。今年的会议于21年6月在加拿大多伦多举办(因疫情改为线上)。值得注意的是,ICASSP有相当数据的论文是与语音无关的。INTERSPEECH()是由InternationalSpeechCommunicationAssociation(ISCA)组织的年度学术会议。21年的会议将在8月底在捷克布尔诺举行。

语音相关的重要进展也散见通用的AI会议(e.g.ICML、NeuriPS)。另外,语音能从研究更加活跃的CV、NLP领域汲取宝贵经验,因此,这些领域的重要会议也可以积极关注。

3.1.2其他会议ASRU(AutomaticSpeechRecognitionandUnderstandingWorkshop)是IEEESpeechandLanguageProcessingTechnicalCommittee组织的研讨会,每两年一次(和SLT交替举办)。最近一次会议会将在21年12月哥伦比亚卡塔赫纳市举办。SLT(SpokenLanguageTechnologyWorkshop)是IEEESpeechandLanguageProcessingTechnicalCommittee组织的研讨会,每两年一次(和ASRU交替举办)。最近一次是21年1月(举办地为深圳,因疫情改为线上)。3.2旗舰期刊TASLP(IEEE/ACMTransactionsonAudio,Speech,andLanguageProcessing)

和大多数AI领域一样,期刊由于时效性不高,因此相对而言参考性不是太大。

3.3书籍3.3.1ML基础AndrewNg.MachineLearning(公开课).李航(12).统计学习方法(第一版).李航(19).统计学习方法(第二版).周志华(16).机器学习.ChrisBishop.(06).PatternRecognitionandMachineLearning.Goodfellowetal.(16).DeepLearning.SimonHaykinetal.(09)NeuralNetworkandLearningMachine.3.3.2语音相关DanJurafsky&JamesH.Martin(07,17).SpeechandLanguageProcessing.陈果果etal.(20).Kaldi语音识别实战.Youngetal.(06).HTKHandbook.KaldiTutorial.俞栋&邓力.(16).解析深度学习:语音识别实践.Huangetal.(01).SpokenLanguageProcessing:AGuidetoTheory,AlgorithmandSystemDevelopment.王泉.(20).声纹技术.Benestyetal.MicrophoneArraySignalProcessing.Benestyetal.DesignofCircularDifferentialMicrophoneArrays.Nayloretal.(Eds.)SpeechDereverberation.Hänsleretal.(Eds.)TopicsinAcousticEchoandNoiseControl.

智能交互技术

[1] 马楠,徐歆恺,张欢.智能交互技术与应用[M].北京:机械工业出版社,2019.

[2] 顾振宇著.交互设计:原理与方法[M].北京:清华大学出版社,2016年第1版.

[3] 李四达著.交互与服务设计:创新实践二十课[M].北京:清华大学出版社,2017年第1版.

[4]  5TrendsEmergeintheGartnerHypeCycleforEmergingTechnologies,2018[EB/OL].[2019-02-28].https://www.gartner.com/smarterwithgartner/5-trends-emerge-in-gartner-hype-cycle-for-emerging-technologies-2018/.

[5]  唐小成.增强现实系统中的三维用户界面设计与实现[D].电子科技大学,2008.

[6]  董威,文艳军,李暾,齐治昌.软件工程专业在线课程建设思考[J].计算机教育,2015(06):51–55.

[7]  陈毅能.中国科学院大学,2016.基于生理计算的多通道人机交互技术研究[D].2016.

[8]  史忠植.认知科学[M].合肥:中国科学技术大学出版社,2008.

[9]  黄希庭,郑涌.心理学导论[M].北京:人民教育出版社,2015.

[10]  认知(词语释义)_百度百科[EB/OL].[2018-08-03].https://baike.baidu.com/item/%E8%AE%A4%E7%9F%A5/1262721?fr=aladdin.

[11]DeanJ.MonstersIllusion[J].MightyOpticalIllusions,2006.

[12]BrunerJS,MinturnAL.PerceptualIdentificationandPerceptualOrganization[J].TheJournalofGeneralPsychology,1955,53(1):21–28.

[13]郑南宁.认知过程的信息处理和新型人工智能系统[J].中国基础科学,2000(08):11–20.

[14]你和小伙伴们是怎么被惊呆的?[EB/OL].,2013(2013-07-29)[2019-03-22].https://tech.hexun.com/2013-07-29/156579849.html.

[15]管连荣.美国著名心理学家H·A·西蒙教授来华访问[J].心理科学,1982(1):62–63.

[16]秦裕林.认知心理学与计算机科学的研究与教学——介绍西蒙教授的认知心理学讲学[J].心理学动态,1984(01):63-64+48.

[17]余淼.谈图形用户界面设计中的交互性信息传递[J].中国包装工业,2015(06):147.

[18]李枫,徐韬.智能语音交互技术在呼叫中心中的应用[J].2016电力行业信息化年会论文集,2016:5.

[19]席乐.浅谈多点触摸技术在产品操作界面设计中的应用[J].科教导刊(上旬刊),2013(03):176–177.

[20]马楠,高跃,李佳洪,李德毅.自驾驶中的交互认知[J].中国科学:信息科学,2018(8).

[21]LScapinD,SenachB,TrousseB,PallotM.UserExperience:BuzzwordorNewParadigm?[J].ACHI2012-5thInternationalConferenceonAdvancesinComputer-HumanInteractions,2012.

[22]丁一,郭伏,胡名彩,孙凤良.用户体验国内外研究综述[J].工业工程与管理,2014(04):92-97.

[23]五步走,带你了解交互设计流程|人人都是产品经理[EB/OL].[2017-09-28].https://www.woshipm.com/ucd/577334.html.

[24]CooperA,ReimannRM.软件观念革命[M].詹剑锋,译,张知非,译.北京:电子工业出版社,2005. 

[25]拿不定设计?让经典的尼尔森十大可用性原则帮你!(附案例)[EB/OL].[2017-09-27].https://www.uisdc.com/nelson-usability-design-principles.

[26]设计基础:细说“十大可用性原则”|人人都是产品经理[EB/OL].[2017-09-27].https://www.woshipm.com/ucd/730477.html.

[27]WixonD.Bookreview:PRINCIPLESANDGUIDELINESINSOFTWAREUSERINTERFACEDESIGNbyDeborahJ.Mayhew(PrenticeHall,1992)[J].AcmSigchiBulletin,1993,25(2):51–53.

[28]是时候,聊一聊交互设计的知识体系了![EB/OL].简书[2017-10-03].https://www.jianshu.com/p/7399791c5f8f.

[29]赵佳,赵铭,李昌华.分级网格服务的Apacheab测试分析[J].电子设计工程,2009,17(03):22–24.

[30]2018年,你一定要选对这些原型工具-UI中国-专业用户体验设计平台[EB/OL].[2018-08-21].https://www.ui.cn/detail/322892.html.

[31]电商类Web原型制作分享——天猫[EB/OL].[2019-03-21].https://www.mockplus.cn/sample/post/1065.

[32]所谓原型,是个什么东西?|人人都是产品经理[J]..

[33]15款优秀移动APP产品原型设计工具|人人都是产品经理[EB/OL].[2018-06-24].https://www.woshipm.com/rp/64741.html.

[34]周剑辉,顾新建.移动设备在工作流管理系统中的应用[J].机电工程,2004(12):42–45.

[35]浅说移动端与pc端交互设计的区别||观点|shaozhurong-设计文章/教程分享-站酷(ZCOOL)[EB/OL].[2018-06-24].https://old.zcool.com.cn/article/ZNTY4MTI0.html.

[36]StevenHoober.HowDoUsersReallyHoldMobileDevices? ::UXmatters[EB/OL].,2013(2013-02-18)[2019-03-02].https://www.uxmatters.com/mt/archives/2013/02/how-do-users-really-hold-mobile-devices.php.

[37]ThisIsHowFartheAverageSetofThumbsWillReachontheNewiPhone6|HYPEBEAST[EB/OL].,2014(2014-09-20)[2019-02-23].https://hypebeast.com/2014/9/realistically-this-is-how-far-the-average-set-of-thumbs-will-reach-on-the-new-iphone-6.

[38]关于移动端和PC端的交互的区别-Erichain-博客园[EB/OL].[2018-06-24].https://www.cnblogs.com/erichain/p/4678163.html.

[39]App界面设计风格|App界面交互设计规范[EB/OL].[2017-10-08].https://www.iamue.com/8754.

[40]卡卡的人生哲学.App界面设计风格[EB/OL].,2015(2015-08-24)[2019-03-03].https://www.woshipm.com/ucd/193763.html.

[41]ColourAssignment-Preferences[EB/OL].,2013(2013-03-23)[2019-03-01].https://www.joehallock.com/edu/COM498/preferences.html.

[42]Themes-iOS-iOS-HumanInterfaceGuidelines-AppleDeveloper[EB/OL].[2018-10-06].https://developer.apple.com/design/human-interface-guidelines/ios/overview/themes/.

[43]H5轻应用技术,未来无限可能[EB/OL].[2018-06-24].www.sohu.com/a/64107789_379442.

[44]1.1Android平台简介·AppInventor-零基础Android移动应用开发[EB/OL].[2018-06-24].https://minghuiwu.gitbooks.io/appinventor/content/11_android_ping_tai_jian_jie.html.[45]平台架构.AndroidDevelopers[EB/OL].[2019-03-02].https://developer.android.google.cn/guide/platform/

[46]1.2AppInventor简介·AppInventor-零基础Android移动应用开发[EB/OL].[2018-06-24].https://minghuiwu.gitbooks.io/appinventor/content/12_appinventor_jian_jie.html.

[47]终极入门教程——5分钟学会AppInventor2-AppInventor汉化版[EB/OL].[2018-06-24].https://www.wxbit.com/?p=157.

[48]人工智能:语音开启全新交互时代[EB/OL].[2018-12-09].https://www.cs.com.cn/gppd/hyyj/201705/t20170512_5280029.html.

[49]语音革命元年来了:BBC、FT等媒体要点亮哪些全新技能树[EB/OL].[2018-12-09].https://new.qq.com/omn/20180312/20180312A07ECH.html.

[50]GUI和VUI到底有哪些区别?来看这篇超全面的总结!-优设-UISDC[EB/OL].[2018-12-11].https://www.uisdc.com/gui-vui-differences.

[51]「语音交互设计」之VUI简析|L-insights_用户[EB/OL].[2018-12-11].www.sohu.com/a/251671898_610473.

[52]曾丽霞,康佳美,孙甜甜,孙传祥.语音办公助手VUI交互设计研究[J].工业设计研究(第六辑),2018:7.

[53]语音识别的前世今生|深度学习彻底改变对话式人工智能[EB/OL].[2018-12-10].https://www.cnetnews.com.cn/2017/0821/3097159.shtml.

[54]语音识别技术里程碑:微软已将识别错误率降至5.1%-语音识别,人工智能,微软研究院-IT之家[EB/OL].[2018-12-12].https://www.ithome.com/html/it/322227.htm.

[55]微软语音识别词错字率低至5.9%,已达到人类专业速记员水平-超能网[EB/OL].[2018-12-10].https://www.expreview.com/50100.html.

[56]为什么说语音交互是未来的主流交互方式之一?|人人都是产品经理[EB/OL].[2018-12-10].https://www.woshipm.com/pd/816580.html.

[57]语音交互的基本概念和设计实践[EB/OL].[2018-12-09].https://www.woshipm.com/pd/1039577.html.

[58]干货|IDC发布对话式人工智能白皮书[EB/OL].[2018-11-12].https://www.qianjia.com/html/2018-03/21_287657.html.

[59]1.3人机对话交互基础概念(1)简书[EB/OL].[2018-12-17].https://www.jianshu.com/p/f927075b5c47

[60]程彬,陈婧,乌兰.智能人机交互产品的服务设计思路探讨[J].设计,2016(09):156–157.

[61]Salvendy董建明、傅利民、饶培伦、[希腊]CONSTANTINESTEPHANIDIS、[美]GAVRIEL.清华大学出版社,2016.人机交互:以用户为中心的设计和评估[M].第5版.,2016北京:.

[62]科大讯飞公布汽车产品布局战略:推出飞鱼OS和开放三大平台[EB/OL].[2019-02-23].https://www.sohu.com/a/271415691_122982.

[63]Pierre-YvesO.Theproductionandrecognitionofemotionsinspeech:featuresandalgorithms[J].InternationalJournalofHuman-ComputerStudies,2003,59(1):157–183.

[64]TurkM.SpringerUS,2014.GestureRecognition[G]//IKEUCHIK.ComputerVision:AReferenceGuide.,2014Boston,MA::346–349.

[65]WangJJ,SinghS.Videoanalysisofhumandynamics—asurvey[J].Real-TimeImaging,2003,9(5):321–346.

[66]YangM-H,KriegmanDJ,AhujaN.DetectingFacesinImages:ASurvey[J].IEEETrans.PatternAnal.Mach.Intell.,2002,24(1):34–58.

[67]DuchowskiAT.Abreadth-firstsurveyofeye-trackingapplications[J].BehaviorResearchMethods,Instruments,&Computers,2002,34(4):455–470.

[68]JaimesA,SebeN.Multimodalhuman–computerinteraction:Asurvey[J].ComputerVisionandImageUnderstanding,2007,108(1):116–134.

[69]PortaM.Vision-baseduserinterfaces:methodsandapplications[J].InternationalJournalofHuman-ComputerStudies,2002,57(1):27–73.

[70]DuricZ,GrayWD,HeishmanR,Rosenfeld ANDA,SchoellesMJ,SchunnC,WechslerH.Integratingperceptualandcognitivemodelingforadaptiveandintelligenthuman-computerinteraction[J].ProceedingsoftheIEEE,2002,90(7):1272–1289.

[71]DondiP,LombardiL,PortaM.Developmentofgesture-basedhuman–computerinteractionapplicationsbyfusionofdepthandcolourvideostreams[J].IETComputerVision,2014,8(6):568–578.

[72]刘心雨.交互界面设计在虚拟现实中的研究与实现[D].北京邮电大学,2018.

[73]郭莹洁.关于虚拟现实技术人机交互的研究[J].信息记录材料,2018,19(08):247–248.

[74]田远霞.浙江大学,2015.增强现实下多通道交互模型研究与实现[D].,2015.

[75]MalkawiAM,SrinivasanRS.ACTAPressMultimodalHuman-ComputerInteractionforImmersiveVisualization:IntegratingSpeech-GestureRecognitionsandAugmentedRealityforIndoorEnvironments[C]//.

[76]赵永惠.人机交互研究综述[J].信息与电脑(理论版),2017(23):24-25+28.

[77]赵沁平.虚拟现实中的10个科学技术问题[J].中国科学:信息科学,2017,47(06):800–803.

[78]HuismanD,FrelingR,WagelmansAPM.ARobustSolutionApproachtotheDynamicVehicleSchedulingProblem[J].TransportationScience,2004,38(4):447–458.

[79]ColijnP,HerbachJS,McnaughtonMP.2017-08-15Determiningpickupanddestinationlocationsforautonomousvehicles:中国,9733096[P]. ,2017.

[80]苏景颖.关于智能汽车车联网系统分析[J].时代汽车,2018(02):125–126.

[81]浅谈车联网的应用场景及发展趋势_车联网功能_车联网体系结构-电子发烧友网[EB/OL].[2019-02-23].https://m.elecfans.com/article/603252.html.

[82]王世宝.基于5G技术车联网的发展趋势及应用前景分析[J].时代汽车,2018(06):169–170.

[83]KehoeB,MatsukawaA,CandidoS,KuffnerJ,GoldbergK.Cloud-basedrobotgraspingwiththegoogleobjectrecognitionengine[C]//2013IEEEInternationalConferenceonRoboticsandAutomation.,2013:4263–4270.

[84]赵连翔,王全玉,贾金苗,陆峥玲.机器人云操作平台的实现研究[J].华中科技大学学报(自然科学版),2012(S1vo40):161–164.

[85]交互设计快速检查清单InteractionDesignQuickChecklist[EB/OL].[2017-10-05].https://www.iamue.com/18702.

[86]中国互联网的今年和明年,你必须知道这些事[EB/OL].[2019-08-25].www.sohu.com/a/118096152_358836.

 

什么是智能家居语音控制技术

“语音识别”技术相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能。该技术经过语音信号处理、语音特征处理、模型训练及解码引擎等复杂步骤,使机器最终能够将语音中的内容、说话人、语种等信息识别出来。语音控制功能的实现,与用户的使用习惯高度关联。目前的语音控制功能实现方式可分为近场语音识别和远场语音识别二个大类。

近场/远场语音识别技术

近场语音识别,需要用户点击启动,并且用户与终端设备的距离比较近,如手机或其他终端设备,可直接借助这些终端设备的实现控制功能。

远场语音识别,以麦克风阵列远距离拾取的语音数据作为输入数据,通过语音识别的算法将语音信号转写成文字的技术。虽然和近场语音识别技术在原理上是相同的,但是由于音源和麦克风之间的空间距离增大,在声波传播过程中会出现信号强度的衰减和各种噪音干扰,因此需要特殊的语音数据拾取和预处理技术。不同的拾取设备和预处理技术常常会使用于语音识别的声波信号特征发生改变,因此针对不同的远场语音拾取技术,需要对语音识别引擎进行定制化适配和优化。

当语音信号在传播过程中有所衰减,影响采集信号的强度和分辨率,使用的灵敏度非常高的指向性麦克风,同时将麦克风的参数调整到适合远场语音数据的模式,可以最大限度采集清晰的远场语音信号。语音指令声波在传输过程中受到周围噪音的污染,降低声波信号的信噪比,使用定向波速成形技术,抑制方向外的噪音,从而减少噪音对语音信号的干扰。在一个房间里,麦克风拾取的声波不仅仅直接来自于音源,还有音源发出后经过墙壁反射的迟到的声波,形成声音的残留,造成混响。利用多个麦克风采集的数据,通过多通道回声消除算法,将这些不同时间达到的声音数据分离开来,从而消除了混响对声音数据的影响。

唤醒目标检测技术

在远距离用语音进行操控的时候,声音可能来自不同方向的不同人。因此首先要确定哪些是发指令的声音,哪些不是。使用的麦克风阵列波速成形算法,将360度空间垂直划分成若干区域,每个麦克风负责检测一个指定的区域。当某个空间区域里面检测到有唤醒词出现时,对应于该空间区域的麦克风拾音功能就被增强,其他区域的麦克风拾音就被抑制。从而实现了对声音进行有方向有角度的拾取,避免了周围电视机里的说话声音、其他人交谈对语音指令的影响。

播放状态打断技术

在对音箱等设备进行语音控制时,往往该设备处于播放歌曲的状态。由于麦克风安装在音箱上,麦克风和说话人之间的距离要远大于麦克风和扬声器之间的距离,在这样的情况下,采用内外兼顾的方法进行解决。内部使用特殊的回声消除算法从内部减小噪音对麦克风的影响。另外对于震动带来的非线性干扰,传统的线性回声消除方法失效了,因此可以使用非线性回声消除算法提高内部噪声消除的效果。在外部结构设计方面,使用精心设计的麦克风阵列减震结构,使多个麦克风和它所连接的电路板之间的震动减小到最小,从而最大程度的控制高声强导致的音箱本体震动对拾音的干扰。

语音唤醒:真正解放双手

由于功耗等方面的限制,智能设备很难24小时都保持在激活状态。因此,要想在家里自由地控制设备,我们还需要能即时“唤醒”功能,也就是给智能设备加入“语音唤醒”技术。

语音唤醒,是指通过含有特定唤醒词的语音输入来“触发”语音识别系统以实现后续的语音交互。通过该技术,任何人在任何环境、任何时间,无论是近场还是远场,面向设备直接说出预设的唤醒词,就能激活产品的识别引擎,从而真正实现全程无触控的语音交互。

除了说单个唤醒词实现唤醒外,更自然便捷、在技术上更具有挑战性的交互方式是在连续语流中带上唤醒词,以实现唤醒产品并同时实现操控的效果。目前,语音唤醒方案已在部分产品中取得成功应用,比如在灵犀语音助手中,说出“灵犀灵犀,打电话给张三”就可以唤醒设备并自动完成人名识别与拨打电话。

国内外语音控制的市场现状

随着智能家居市场的发展,国外的IT巨头们已先后以智能家居与语音相结合的方式进入智能家居领域:谷歌收购NEST布局智能家居,不断强化GoogleNow的语音入口;苹果HomeKit智能家居平台与Siri也不断加强融合;市场上流行的Echo智能音箱使用了亚马逊的Alexa语音技术;微软也发布语音助手Cortana,将它作为领域扩展交互入口。从这些国外科技大佬们对语音产业的重视和投入,可以看出智能语音与智能家居的融合是大势所趋,业内普遍认为语音作为人类信息最自然、最便捷的交互方式,必将成为未来智能家居设备中的重要组成部分。

随着国内外巨头们对语音交互领域投入的增加,语音核心技术正逐步成熟。智能家居作为IT产业和制造工业向个人家居领域渗透发展的必然结果,语音技术正不断进入智能家居领域渗透,市场前景广阔。

语音交互对于智能家居行业的意义

科技让生活更智能,语音让交互更便捷。语音交互对于最直接的意义在于将“智能家居”变得真正的智能起来。无论是再技术先进的品牌,再友善的人机交互界面,都没有语音交互控制来的简便直接。所有品牌、所有产品以一个智能控制的概念进驻到人们息息相关的日常生活中的时候,少不了需要一个学习和适应的过程,而语音则不需要,我们所有的日常交流、行为习惯,语言和声音已经成了人们思维中的一部分。所以,如果智能家居能与语音交互融于一体,那么智能家居产业也许会迎来一次划时代的突破。返回搜狐,查看更多

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇