智能音箱技术概览人工智能语音音箱原理是什么

发表时间：2023-07-06 00:52:40

智能音箱技术概览

对于没有使用过智能音箱的读者，可以观看Echo的官方广告，直观地体验下智能音箱。

目前的智能音箱多基于语音控制，其基本交互流程可以用图1概括：1）用户通过自然语言向音箱提出服务请求或问题2）音箱拾取用户声音（音箱本地完成）并分析（一般在服务器端完成）3）音箱通过语言播报（音箱端）和APP推送（关联的手机等）对用户的请求进行反馈。

图1.智能音箱基本交互方式

智能音箱可以以自然的方式（自然语言），为用户提供一些常用的服务，未来还可能成为为家庭的控制中枢。

从用户的角度，可直观感知硬件和功能（图2）。其中，智能音箱的功能关系到产品设计和用户体验，直接关系到产品的成败，我们会在产品分析的文章中进行深入分析。本文对智能音箱的硬件及运行在硬件之上，作为音箱“大脑”的系列算法进行简要介绍，希望读者能对智能音箱有更全面的了解。

图2.智能音箱硬件组成和功能示意

1.硬件

图3展示了Echo拆解后的部件。可以看到，智能音箱的硬件并不算复杂（相对于无人驾驶等“重型”AI产品）。但正如下面我们会反复强调的，智能音箱的各个模块都需要结合生产工艺、算法设计、产品体验等多个方面进行细致的打磨，才能达到比较满足的效果，而这其中做出需要多“痛苦的”折衷。

图3.AmazonEcho拆解图【来源】

1.1外观设计

智能音箱想要成为常驻案头的“家庭成员”，其形态必然是经过精心设计，在形状、大小、灯效甚至重量等因素要充分考虑在内。图4展示了一些智能音箱，读者可根据自己的审美，判断下哪些是想要或不想要放在家里的。

图4.音箱ID设计（按阅读顺序依次为：AmazonEcho、GoogleHome、叮咚、若琪、若琪月石、联想音箱）（仅图示设计，不代表实际产品尺寸）

ID设计除了出于美学和交互设计的考虑外，还要和音腔设计（影响音效）、麦列方案（影响语音交互）等相互耦合，需要通盘考虑。

1.2扬声器

智能音箱本质上还是一款音箱，因此，提供用户认可的音质是产品存在的前提。但是智能音箱在扬声器的选择上，除了受到音箱尺寸限制，还要考虑麦列的拾间及后续的信号处理。

图5.Echo扬声器及音腔设计【来源】

图6.若琪扬声器及音腔设计【来源】

图5和图6分别展示了Echo和若琪的扬声器设计，两者对比可以看到在选择扬声器上的不同折衷和权衡。

Echo采用封闭式扬声器设计，高音和低音喇叭上下相对，声音各个方向是对称的，这有有利于前端信号处理，但音效会受到限制。若琪采用开口式设计，喇叭朝前，这样音效可以设计的更好，但信号处理难度会大。

仅就音效而言，音腔越大越有利于设计，但这会导致最后智能音箱非常笨重。也因此，许多设计上都有音腔部分略微鼓起的外观设计（如GoogleHome，叮咚）。

为了支持双工（例如，在播放音乐的同时可以对音箱下达命令），扬声器的功率不能太大，这样就限制了音箱的最大音量。反过来，如果要确保音箱有较大的音量，可能会限制双工条件下的音箱理解用户语音的灵敏度。

1.3麦克风阵列（MicrophoneArray）

麦克风阵列（以下简称麦列），是由一定数目的麦克风组成，用来对声场的空间特性进行采样并处理的系统。简单而言，使用麦列而非单个麦克风，是为了在用户距离音箱较远时，依然能够正常的收听用户的语音指令。

智能音箱多使用环状麦列（图7），目前以6（+1）麦为主流方案，也有2、4和8麦的产品。图7.6+1麦列

麦列方案主要受成本和算法两个因素限制。一方面，虽然麦克风本身成本并不是特别高，但增加麦克风数量需要配套的增加采样等后续硬件的投入，会大大增加成本。另一方面，麦列涉及一系列算法（见下文），算法设计难度和计算复杂度都会随着麦克风数量的增加而加大。

在选择麦克风时，除了指向性、灵敏度、信噪比、频响范围、失真度等常规的参数要求，其安放位置、开口设计也要考虑ID设计和扬声器的位置、功放等，需要全盘考虑。

1.4主控板

本质上，和手机等移动设备的主板并无差别，包括主板、CPU、存储器等（如图8）。主控板的选择要在满足响应延迟的前提下，尽量压缩成本和功耗。图8.全志G102【来源】

1.5蓝牙/WIFI

智能音箱需要服务器提供大部分功能，因此，WiFi是不可缺少的模块。有些音箱会通过蓝牙同手机通信。

1.6电池

目前主要的智能音箱还是依赖电源线供电，但不排除随着电源蓄电能力和成本的改善，智能音箱会向手机一样，脱离成为可自由移动的设备。如果使用电池，还要结合ID设计、音腔设计等因素，合理选择电池的大小和位置、充电方案等。图9展示的是EchoTab的电池方案。

图9.EchoTab电池方案设计【来源】

2.算法

用户在同音箱进行语音交互的时，后台有一系列算法在支撑的交互的正确进行。

如图10所示，总体而言，音箱工作时，麦列始终处于拾音状态（持续对声音信号进行采样、量化）。进过基本的信号处理（静音检测、降噪等），唤醒模块会判断是否出现唤醒词，如果是，后续语音会进行更复杂的语音信号处理，（理想情况下）得到干净的语音信号，开始真正的语音交互流程。图10.智能音箱交互

2.1前端信号处理2.1.1语音检测（VAD）

语音检测（英文一般称为VoiceActivityDetection，VAD）的目标是，准确的检测出音频信号的语音段起始位置，从而分离出语音段和非语音段（静音或噪声）信号。由于能够滤除不相干非语音信号，高效准确的VAD不但能减轻后续处理的计算量，提高整体实时性，还能有效提高下游算法的性能。

VAD算法可以粗略的分为三类：基于阈值的VAD、作为分类器的VAD、模型VAD。

基于阈值的VAD：通过提取时域（短时能量、短期过零率等）或频域（MFCC、谱熵等）特征，通过合理的设置门限，达到区分语音和非语音的目的。这是传统的VAD方法。作为分类器的VAD：可以将语音检测视作语音/非语音的两分类问题，进而用机器学习的方法训练分类器，达到检测语音的目的。模型VAD：可以利用一个完整的声学模型（建模单元的粒度可以很粗），在解码的基础，通过全局信息，判别语音段和非语音段。

VAD作为整个流程的最前端，需要在本地实时的完成。由于计算资源非常有限，因此，VAD一般会采用阈值法中某种算法；经过工程优化的分类法也可能被利用；而模型VAD目前难以在本地部署应用。

2.1.2降噪

实际环境中存在着空调、风扇以及其他各种各样的噪声。降低噪声干扰，提高信噪比，降低后端语音识别的难度。常用的降噪算法有自适应LMS和维纳滤波等。

2.1.3声学回声消除（AcousticEchoCancellaction,AEC）

AEC也是一种常见的技术，在语音通话中，AEC是必不可少的基础技术。图11.AEC示意【来源】

具体的，AEC的目的是，在音箱扬声器工作（播放音乐或语音）时，从麦克风中收集的语音中，去除自身播放的声音信号。这是双工模式的前提。否则，当音乐播放时，我们的声音信号会淹没在音乐声中，不能继续对音箱进行有效的语音控制。

2.1.4去混响处理

在室内，语音会被墙壁等多次反射，麦克风采集到（图12）。混响对于人耳完全不是问题，但是，延迟的语音叠加产生掩蔽效应，这对语音识别是致命的障碍。

图12.混响【来源】

对于混响，一般从两个方面来尝试解决：1）去混响2）对语音识别的声学模型加混响训练。由于真实环境的复杂性，一定的前端去混响算法还是非常有必要的。

2.1.5声源定位（DirectionofArrivalestimation,DOA）

声源定位是根据麦列收集的声音语，确定说话人的位置。DOA至少有两个用途，1）用于方位灯的展示，增强交互效果；2）作为波束形成的前导任务，确定空间滤波的参数。

声源定位有如下常用方法有基于波束扫描的声源定位、基于起分辨率率谱估计的声源定位以及基于到达时间差（TimeDifferenceofArrival,TDOA）的声源定位。考虑到算法复杂性和延时，一般采用TDOA方法。

2.1.6波束形成（BeamForming,BF）

波束形成是利用空间滤波的方法，将多路声音信号，整合为一路信号。通过波束形成，一方面可以增强原始的语音信号，另一方面抑制旁路信号，起到降噪和去混响的作用（图13）。

图13.波形成示意图【来源】

2.2唤醒

出于保护用户隐私和减少误识别两个因素的考虑，智能音箱一般在检测到唤醒词之后，才会开始进一步的复杂信号处理（声源定位、波束形成）和后续的语音交互过程。

一般而言，唤唤醒模块是一个小型语音识别引擎。由于目标单一（检测出指定的唤醒词），唤醒只需要较小的声学模型和语言模型（只需要区分出有无唤醒词出现），声学打分和解码可以很快，空间占用少，能够在本地实时。

也有唤醒做为关键词检索（keywordsearch）或文本相关的声纹识别问题来解决。

2.3语音交互

语音交互的基本流程如图16所示。下面分别对各个环节进行简要介绍。图14.语音交互基本流程

ICASSP’17关于对话系统的tutorial，并附有系统性的参考文献。

2.3.1语音识别（AutomaticSpeechRecognition,ASR）

语音识别的目的是将语音信号转化为文本。语音识别技术相对成熟。目前，基于近场信号的、受控环境（低噪声、低混响）下的标准音语音识别能够达到很的水平。然而在智能音箱开放性的真实环境，语音识别依然是一个不小的挑战，需要接合前端信号处理一起来优化。

2.3.2自然语言理解（NaturalLanguageUnderstanding,NLU）

NLU作为一个研究课题还远没有被解决。但是在限定领域下，结合良好的产品设计，我们还是能够利用现有技术，做出实用的产品。

可以将基于框架的（frame-based）NLU分为三个子问题去解决（图15）：*领域分类：识别出用户命令所属领域。其中，领域是预先设计的封闭集合（如产品设计上，音箱只支持音乐、天气等领域），而每个领域都只支持无限预设的查询内容和交互方式。*意图分类：在相应领域，识别用户的意图（如播放音乐、暂停或切换等）。意图往往对应着实际的操作。*实体抽取（槽填充）：确定意图（操作）的参数（如确定，具体是播放哪首歌或哪位歌手的歌曲）。

图15.基于框架的自然语言理解

2.3.3对话管理（DiaglouManagement,DM）

多轮对话对于自然的人工交互非常重要。比如，当我们询问“北京明天的天气怎么？”，之后，更习惯追问“那深圳呢？”而不是重复的说”**深圳明天的天气怎么？**“

在NLU无有得到很好解决的情况下，对话管理似乎不可能。好在限范围下，结合产品设计，还是能做的不错。一般的作法是，将轮对话解析出的参数做为上下文（全局变量），带入到下一轮对话；当前轮对话，根据一定的条件判断，是否保持在上一轮的领域，是否清空上下文。

不同于纯粹的聊天机器的对话管理，智能音箱的对话管理还有实际的操作功能（查询信息、提供控制指令）。

2.3.4自然语言生成（NaturalLanguageGeneration,NLG）

目前完全自动化的NLG方法还不成熟。实际产品中，多采用预先设计的文本模板来生成文本输出。比如，播放歌曲时，生成语句为：“即将为您播放【歌手名】的【歌曲名】”。

2.3.5语音合成（SpeechSynthesis）

语音合成又叫做文语转换（Text-to-Speech，TTS），更常见可能是TTS这一称呼。TTS的终极目标是，使机器能够像人一样朗读任意给定的文本。

评价实用的语音合成系统的两个主要的标准是1）可懂度（人能够听懂）和2）自然度（使人听着舒服）。目前，可懂度的问题基本得到解决。参数合成和拼接合成是TTS的两种主要合成方法，其中，参数计算量小，部署灵活，但自然较差；拼接接近真人发音，存储和计算资源高，一般只能在线合成。例如，Echo采用的基于单元选择（unitselection）的拼接合成。

2.4其他技术

最后，我们简单列举一些相对成熟，但还没有广泛应用于智能音箱的技术。

声纹识别

声纹识别是据语音波形反映说话人生理和行为特征的语音参数，自动识别说话人身份的一项技术。微信中的声音锁就是声纹技术的一项具体应用。

通过声纹识别，可以设计出更加个性化的服务。

人脸检测

如果音箱配置为摄像头，可以通人脸检测，确定用户的位置。一方面可以有更好的交互设计，另一方面可以辅助声源定位。

人脸识别

同声纹识别类似，人脸识别也可以用来确定用户的身份。

2019中国智能语音的发展历程、现状及前景分析

智能语音，即智能语音技术，以语音识别技术为开端，是实现人机语言的通信，包括语音识别技术（ASR）和语音合成技术（TTS）。智能语音技术是最早落地的人工智能技术，也是市场上众多人工智能产品中应用最为广泛的。

随着人工智能的快速发展，中国在智能语音技术的专利数量持续增长。通过庞大的用户群基础以及互联网系统优势明显，国内智能语音公司已经占据一席之地。

智能语音的发展历程

智能语音技术的研究可追溯到20世纪50年代，其发展历程分为以下四个阶段：

1萌芽

1952年，第一个语音识别系统Audry诞生

2突破

1984年，计算机第一次开口说话，IBM发布的语音识别系统在5000个词汇量级上达到了95％的识别率

1988年，世界上首个非特定人大词汇量连续语音识别系统SPHINX诞生

3产业化

1997年，语音听写产品问世

1998年，成功开发出可识别上海话、广东话和四川话等地方口音的语音识别系统

2002年，美国首先启动“全球自主语言开发”项目

2009年，微软Win7集成语音功能

4快速应用

2011年，苹果个人手机助理Siri诞生

2015年，首个可智能打断纠正的语音技术问世

2017年，智能语音系统集中扩展深度学习应用技术取得突破性进展

智能语音的应用场景

智能语音应用的场景非常丰富，并已经成熟应用在众多领域中，例如这六大场景：

01智能家居

智能家居是以住宅为平台，利用综合布线技术、网络通信技术、安全防范技术、自动控制技术、音视频技术将家居生活有关的设施集成，构建高效的住宅设施与家庭日程事务的管理系统，提升家居安全性、便利性、舒适性、艺术性，并实现环保节能的居住环境。

02智能车载

智能车载系统让汽车变得更智能，主要可以实时更新地图，通过语音识别技术方便导航，以及娱乐功能；实现手机远程控制，让手机和汽车无缝对接。

03智能客服

智能客服是在大规模知识处理基础上发展起来的一项面向行业应用的，它具有行业通用性，不仅为企业提供了细粒度知识管理技术，还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段；同时还能够为企业提供精细化管理所需的统计分析信息。

04智能金融

智能金融即人工智能与金融的全面融合，以人工智能、大数据、云计算、区块链等高新科技为核心要素，全面赋能金融机构，提升金融机构的服务效率，拓展金融服务的广度和深度，实现金融服务的智能化、个性化、定制化。AI米智能语音交互处理系统是由位于上海张江高科技园区的一家人工智能领域的企业——催米科技自主研发的，目前该系统为近百家消费金融、普惠金融、信托等机构提供了有效解决方案，广泛获得了市场认可。

05智能教育

智能教育是指国家实施《新一代人工智能发展规划》、《中国教育现代化2035》、《高等学校人工智能创新行动计划》等人工智能多层次教育体系的人工智能教育。

06智能医疗

智能医疗是通过打造健康档案区域医疗信息平台，利用最先进的物联网技术，实现患者与医务人员、医疗机构、医疗设备之间的互动，逐步达到信息化。

智能语音的市场规模

中国智能语音市场之所以飞速发展，不仅得益于国家政策的大力支持，还来源于智能家居带动、更多品牌加入及智能本身的交互便利性等一系列因素。

国家政策的支持

·2017年7月，《新一代人工智能发展规划》

·2017年12月，《促进新一代人工智能产业发展三年行动计划(2018-2020年)》

·2018年4月，《高等学校人工智能创新行动计划》

·2019年3月，人工智能升级为“智能+”

智能家居的带动

人工智能已经深入到生活的点点滴滴，智能家居开始走进人们的生活。据相关数据显示，单就中国智能家居市场而言，预计2019年其市场规模将超1900亿元。

更多品牌的加入

BAT、科大、搜狗、同花顺等相继上线智能语音开放平台。

阿里、百度、小米、科大等纷纷推出各自的智能音响。

BAT、搜狗等与汽车公司合作并推出智能车载系统。

交互的便利性使然

语音交互能够创造全新的“伴随式”场景。相比其他图像、双手操控，语音入口有种种超越的优势，空间越复杂，越能发挥优势。

某种程度上，它可以解放我们的双手、双眼甚至双脚，特别适合在某些双手不方便的场景中使用。

【结语】随着智能语音应用产业的拓展，市场需求增大，预计2019年中国智能语音市场规模将增长到200亿元。

每一次科技的进步都给我们的生活和工作带来了便利。在不久的以后，智能语音技术在口语教学、考试测评、模拟练习等环节也将能够代替老师的很多工作，大大降低人工成本。随着技术的愈加成熟和逐步突破，我们相信智能语音的未来不可限量。

更多智能语音资讯，欢迎关注催米科技公众号SH-Cuimi

智能音箱技术概览 人工智能语音音箱原理是什么