智能语音交互产品功能和功能体验智能语音交互系统原理图片大全

发表时间：2023-06-28 04:47:57

智能语音交互产品功能和功能体验

入门流程快速入门文档介绍使用智能语音服务需要的步骤，帮助您快速开通服务、创建测试项目和调用语音服务。

准备账号注册阿里云账号。

阿里云账号作为阿里云系统识别的资源消费账户，有阿里云所有产品和管理权限。具体操作，请参见注册阿里云账号。

个人实名认证。

为了确保您可以正常使用阿里云产品和服务，您需要完成个人实名认证。具体操作，请参见个人实名认证。

（可选）创建并授权RAM用户。

当您的企业存在多用户协同访问资源的场景时，可以创建RAM用户，使用RAM可以按需为用户分配最小权限，避免多用户共享阿里云账号密码或访问密钥，从而降低企业的安全风险。具体操作，请参见创建RAM用户。关于RAM用户的更多信息，请参见什么是访问控制。

如果使用RAM用户调用智能语音交互产品，请前往控制台为RAM用户授予AliyunNLSFullAccess权限。具体操作，请参见为RAM用户授权。

说明创建RAM用户时，请设置登录密码，否则无法单独登录RAM账号。

创建AccessKey在调用阿里云API时您需要使用AccessKey完成身份验证。AccessKey包括AccessKeyID和AccessKeySecret，需要一起使用。具体如下：

AccessKeyID：用于标识用户。

AccessKeySecret：用于验证用户的密钥。AccessKeySecret必须保密。

创建阿里云账号的AccessKey

登录RAM访问控制台，使用阿里云账号创建AccessKey。具体操作，请参见创建AccessKey。

创建RAM用户的AccessKey

使用阿里云账号登录RAM访问控制台，为RAM用户创建AccessKey。具体操作，请参见创建AccessKey。

重要RAM用户的AccessKeySecret只在创建时显示，不支持查看，请妥善保管。

开通服务如果您是第一次使用智能语音交互产品，推荐您使用阿里云账号开通智能语音交互服务。

进入智能语音交互产品首页，单击开通并购买，然后在产品开通页面，选择服务类型并选中服务协议，单击立即开通，即可开通智能语音交互服务。

类型

说明

免费试用版

默认全部试用，长文本语音合成、录音文件识别（闲时版）和录音文件识别（极速版）无试用版。

新开通服务的用户可免费试用3个月，支持2路并发（即同时最大2个任务）或每日2小时的录音文件识别额度。

重要新用户试用期3个月内，每隔24小时可免费识别2小时时长的文件转写服务。免费额度用完后，间隔24小时后可继续试用。

商用版

选择某个或多个语音服务为商用，开通后按量计费，根据实际使用量从您的阿里云账户余额中扣费。更多信息，请参见计费说明。

管理项目登录智能语音交互控制台，创建项目生成Appkey，根据您的使用场景，选择配置项目所需的语音识别和语音合成模型，具体操作，请参见管理项目。

一个项目对应一个Appkey，代表智能语音服务的一个业务场景，Appkey在智能语音交互能力体验时是不可或缺的参数值。若您有多个业务场景，并且场景中使用的词汇或者语言不同，您需要创建多个项目，配置不同的热词和语言模型。

获取Token访问令牌（Token）是调用智能语音交互服务的服务鉴权凭证。

Token在不同项目间、不同进程间、不同线程间都可以共用，需要注意Token有效期根据服务端返回为准，过期前必须提前重新获取Token，建议每天重新获取。为了安全起见，建议您在服务端集成TokenSDK，客户端从服务端获取Token。

获取Token方式

建议使用场景

通过控制台获取Token

仅供测试使用，在控制台获取Token。

通过SDK获取Token

正式环境使用，通过传入AccessKey ID和AccessKey Secret，在SDK通过代码定期自动获取Token。

通过OpenAPI获取Token

若对应的编程语言缺少SDK，或者需要控制依赖组件，可以通过OpenAPI获取Token。

集成开发根据以上几步获取到账号对应的AccessKeyID、AccessKeySecret、服务鉴权Token、以及项目Appkey，必须确保这几项数值归属同一阿里云账号或同一RAM用户。

您可以根据以上信息，通过命令行等方式快速体验语音产品能力，具体操作，请参见运行示例。也可以通过SDK和API概览详细了解在各类平台如何将语音识别或语音合成功能集成到您的服务当中。

集成运行

说明

运行示例

基于使用阿里云主账号且从控制台获取测试Token来体验产品。

主要通过控制台、curl命令行、postman、以及JavaSDK等方式快速体验智能语音交互能力。

SDK和API概览

RESTfulAPI、移动端、服务端、微信小程序以及WebSocket等多种接入方式。

智能音箱工作原理是什么

关键字：智能音箱(1721)音箱(560)什么是智能音箱

智能音箱，是一个音箱升级的产物，是家庭消费者用语音进行上网的一个工具，比如点播歌曲、上网购物，或是了解天气预报，它也可以对智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。

智能音箱产生背景

2016年美国的智能家居市场销售额为97亿美元，而中国仅有5.2亿美元。普及率的增长更是惊人，美国的数值为5.8%，而中国仅为0.1%。

由于是大洋彼岸的关系，也有不少人曾经对亚马逊Echo“夸张”的销售数据提出过质疑，就此也询问了国内某智能音箱生产商，他回答称：“2016年亚马逊Echo智能音箱的销售效果的确不错，在国内它总的生产量刚超过800万台，其中初期的Echo和简化版EchoDot差不多对半。国内销售量第一名可能只有它的1/100。”

智能音箱五大功能1、语音交互体验

从最早的AmazonEcho智能音箱开始，基于alexa语音助手的超强交互一直是智能音箱最为核心的优势。

目前国内推出的智能音箱也在语音交互方面也进行了更加深入的研究，提升了智能音箱对于自然语义的理解。用户可以通过语音来操控智能音箱，从最基本的语音点歌，到相对比较复杂的上网购物，语音交互都是智能音箱的核心所在。

2、有声资源播放

音箱作为一种播放载体，自然离不开内容的支撑，而对于智能音箱来说，内容不再仅仅只是音乐一种，而是包括各类有声资源。

以京东智能音箱为例，通过与百度音乐、考拉FM、喜马拉雅FM、得到、今日头条、腾讯等的合作，在叮咚智能音箱上搭建了更多的音频内容，让用户有更多的内容可以在智能音箱上进行选择，满足用户对于内容的全方面需求。

3、智能家居控制

智能音箱一直被看作是未来的家庭智能控制终端，而这也是各大厂商十分看重的一点。

从现阶段的发展情况来看，智能音箱已经能够控制基本的智能家居设备，就像一个万能的语音遥控器，可以控制灯光、窗帘、电视、空调、洗衣机、电饭煲等智能家居设备。

不过这些功能的实现需要家居设备支持，所以在智能家居设备尚未普及的情况下，智能音箱想要成为家中的控制终端还需要很长一段时间。

4、生活O2O服务

生活服务也是智能音箱非常重要的一方面功能，可以通过与支付宝口碑、滴滴出行等第三方应用的合作，提供查询周边、餐厅促销信息、路况、火车、机票、酒店等信息。

通过自身依靠的强大电商平台，用户通过语音可以在音箱上是实现购物，或者借助第三方应用，实现其他类型的O2O服务。比如：打车、订机票、餐厅、查物流等，可以在不打开手机的情况下，进一步方面人们的生活。

5、生活小工具

基于家庭的使用场景，智能音箱还开发了一些非常实用的小工具。

如有些智能音箱，它拥有如计算器、单位换算、查限行、星座运势、留言机等小工具，在日常生活中用途还是很多的，而且相比人们常用的智能手机，智能音箱只需“动嘴”，自然也会更加方便。

目前智能音箱已经拥有非常丰富的功能了，但是对于智能音箱整体的行业来说，智能音箱依然处于初级阶段，最常用的功能还是听音乐，其他方面还需要进一步的完善，才能真正应用于日常生活。

智能音箱工作原理

智能音箱的工作原理

下面分别阐述智能音箱两大功能是如何实现的：

1）智能音箱提供内容和服务的工作原理：假设消费者向智能音箱发出“查询A到B的机票”的指令，智能音箱的语音交互系统通过语音算法本地处理单元和音频解码单元收集语音、降噪、识别唤醒词、将语音信号转为数字信号，之后将处理后的数字信号上传至云端服务器，云端服务器将进行语音数字编码识别和语义理解，随后通过调用机票预订数据库中的信息传递给智能音箱，智能音箱将上述数字信号通过音效单元还原为语音信号并播放出来。

2）智能音箱控制智能家居的工作原理：假设消费者向智能音箱发出“关闭电灯”的指令，智能音箱通过语音收集、语音识别后将语音数字编码通过云端服务器进行语义理解，并将得到的信息回馈回到家庭路由器，通过路由器广播这条控制指令，智能家居设备拥有各自唯一的IP号，智能家居能够识别指令中是否涉及自身的IP号，最终电灯的插座识别完成后，完成关闭电灯的指令。

智能音箱的智能语音交互系统是实现其智能化的关键技术，智能语音交互系统需要具备：1）远场识别，2）唤醒词唤醒，3）语音识别，4）语义理解。任何支持智能语音交互系统的设备都可以成为以语音作为媒介的控制中枢，因此除了智能音箱外，还可以运用于汽车、手机、可穿戴设备。

中国智能音箱的发展1、中国市场处于萌芽期

中国的智能音箱市场目前与美国市场有一定差距，据Counterpoint估计，2017年中国智能音箱销量可能仅为200万台，而美国则高达1400万台。主要的四个原因：1）国内智能家居使用率低；2）国内智能家居的通讯协议尚未建立；3）中文的语音交互技术还不成熟；4）潜在用户对智能音箱的场景化需求较弱。

1）国内智能家居使用率低：2017年智能家居增长放缓，预计未来增速持续下滑。同时2017年Q1智能家居的活跃用户数量约为4500万人，总人数基数较少且环比增长仅为5%，智能家居的使用率较低，国内智能家居行业尚未被激活。

2）国内智能家居的通讯协议尚未建立：各个品牌体系的产品之间不兼容，比如京东的叮咚兼容微联平台和美的家居上的电器，部分兼容智米平台下的电器，因此京东的叮咚智能音箱面对市场上的电器产品能够兼容产品有限，大大损坏了智能家居电器互联的效果。

3）中文的语音交互技术还不成熟：Gartner分析师特雷西-蔡：“中文自然语言的理解与反馈现在还不成熟，因此人机对话还较为蹩脚。”由于目前大多数产品的语音识别能力较弱，影响了用户接受程度。

4）潜在用户对智能音箱的场景化需求较弱：百度深度学习实验室创始人余凯认为：中国人，尤其是年轻人，每天都忙于工作，因此他们在家里待的时间并不长，而智能音箱的主要使用场景在家里。由于在潜在用户的主要生活场景不是家庭住宅，因此对智能音箱的需求低。

2、京东叮咚智能音箱

目前我国较为成熟的智能音箱产品是京东的叮咚智能音箱。语音交互系统由科大讯飞提供，并在京东平台上销售，主要功能为：1）提供内容；2）提供应用服务；3）控制家居产品。

由于国内目前没有建立物联网通讯协议标准，目前叮咚智能音箱控制家居的互联通讯问题主要是通过家电品牌商加入京东微联的方式进行解决，具体合作模式是：家电品牌商申请京东微联，京东提供相应的技术方案，提供的技术方案包括“JD+智能音响解决方案”，在京东与家电品牌商完成产品的联合开发和联调测试后，由家电品牌商负责批量生产，并最终在京东平台上销售。

叮咚的推出增强了家电品牌商对京东的依赖程度，完善了京东在家电产品智能化升级过程中从产品设计到最终实现的闭环式布局。由于电商的竞争加剧，京东在家电产品的优势地位也受到其他电商平台的冲击，为此京东建立了京东微联，帮助传统家电品牌商实现智能化，而智能语音技术就是其中一项。为了实现语音控制，作为智能语音技术载体的智能音箱叮咚则由京东负责开发和生产。通过上述模式，京东升级了与家电品牌商的合作模式，京东推出的叮咚智能音箱是基于京东微联升级服务中的其中一项。

由于国内智能家居使用率低，国内智能家居的通讯协议尚未建立等原因，我国智能音箱的推广效果不及美国市场。我国的智能音箱推出更可能是出于电商平台增强家电品牌商黏性的考虑，以叮咚智能音箱为例，叮咚智能音箱的推出使得以语音控制京东微联旗下产品最终实现，吸引更多家电品牌商加入微联，增加京东平台的竞争优势。

非常好我支持^.^

(2214)39.6%

不好我反对

(3370)60.4%

分享到:

分享此文章到新浪微博分享此文章到开心网分享此文章到人人网分享此文章到豆瓣网分享此文章到腾讯微博

加入收藏(0)+推荐给朋友+挑错

相关阅读：[今日头条]中京电子两项科技成果获评国内领先三雄极光获评广东知名品牌2022-03-09[电子说]智能音箱为啥不火了？2022-03-10[今日头条]ADI公司陈宝兴博士当选IEEE会士小爱音箱Art搭载晶晨A113XSoC芯片2022-03-09[电子说]未来智能音箱将逐渐被智能开关所取代2022-03-08[电子说]打破传统的智能开关，或将取代智能音箱2022-03-04[今日头条]全新智能硬件品牌「思麦耳」上线，智慧生活强势来袭2022-03-02[电子说]STM32+HC05串口蓝牙设计简易的蓝牙音箱2022-02-28[电子说]炬芯ATS283X高性能的蓝牙音频单芯片解决方案2022-02-16

(发表人：姚远香)

关于智能语音交互的5点思考

本文是我在学习智能语音过程中的思考，希望从智能语音的人机交互层面给大家带来一些启发。

小时候很喜欢一部剧叫《恐龙战队》，里面有个角色叫“阿尔法”，是个每天忙来忙去的机器人，能传唤队员并和他们交流，令我很好奇。

今天，我们对于能对话的机器已经不那么新奇了，这得益于智能语音技术的发展和一些语音产品的出现。一度调戏Siri成为全民话题，这肯定不是Apple公司初衷。这暴露了它的不完善，也让大众离语音产品更近了。本文是我在学习智能语音过程中的思考，希望从智能语音的人机交互层面给大家带来一些启发。

语言是人类文明的重要成果，也是人类最重要的工具之一，它为保存和传递人类文明起到了不可或缺的作用。概括来说它的主要作用就4个字：传递信息。

“而我们所说的智能语音，学术界叫“自然语言处理”，是计算机科学领域与人工智能领域的一个研究方向，主要研究能实现人与计算机之间用自然语言进行有效传递信息的理论和方法。—引自百度”

“交互”一词全名是“人机交互”，是一门研究系统与用户之间交流、互动关系的学问。

智能语音交互严谨点说应该是自然语言交互(naturalanguageinteraction)，为了方便理解我依然采用“智能语音交互”这个词。

计算机技术及人工智能领域发展迅速，对“自然语言处理”的研究也异常火热。

siri、微软小冰、googlenow、Echo、科大讯飞、京东叮咚、出门问问等智能语音类产品开始出现，虽然存在很大的不完善，但回望历史我们能发现智能语音技术一直是在进步的。

在了解智能语音的过程中，我产生了一些问题，围绕这些问题我对智能语音交互进行了一些思考，希望能给你带来一些启发。

1、智能语音能成为人类主流的人机交互方式吗？

这个问题在知乎引起了很大的争论，而我倾向于智能语音交互会成为人类主流的人机交互方式之一。

人类与世界万物的交互过程大概是这样的：通过眼睛去观察人、事、物、环境等，再辅以耳朵听、鼻子闻、舌头尝、嘴巴交流、肢体触碰，而后大脑产生记忆和思考并做出动作、表情、语言和生理反馈，这个过程是循环和组合的。

不同的环境和习惯会有不同，但基本是在这个范围。这个过程中，前半部分主要是接收信息，后半部分主要负责交流互动，而语言和动作是最主要的交流互动方式。

人机交互角度看，用手操控是这个世界绝对的主流

我们每天使用的手机、电脑、相机、汽车，包括现在很火的AR、VR设备，基本上都要靠手去操控。（用手操控属于动作这个范畴）这跟人类的进化方式有很大关系，我们的祖先从学会制作工具开始，手就成为了人类接触万物的最主要工具。

尤其是机械的出现，只有人类灵巧的双手才能精准的操控完成任务。

可是人的手有几个缺陷：不够长，不够多，需要配合眼睛，这给我们的生活带来了很多不便。

举个例子：

当我们在开车时，眼睛和手被占用，再去操作手机、中控触屏等设备会非常不便，危险系数也会大大增加。

原本语言是人与人之间交流的工具，很难像双手一样直接与物体产生反应。但是随着公认的第四次工业革命的到来，人工智能让我们有了更多可能，当机器能听懂我们的意思并很好的执行时，很多场景的人机交互方式将会被改变，更多适合的场景将会被挖掘出来，就像当年智能手机进入我们的生活。10年前，我们是无法想象通过手机做现在的大多数事情的。

所以我的浅见是：

智能语音技术会成为人类主流的人机交互方式之一。

成为之一，是因为除了语音外，原本的手的操作、体感操作、面部表情识别、注意力识别、甚至是情绪的波动，都可能在不同场景成为我们与机器的交互方式，未来这很可能是综合的交互体验。

2、智能语音技术发展到什么阶段了？

智能语音分近场语音和远场语音。

“近场的定义是小于1个波长的范围内（或者波长量级）的电磁场。而远场是电磁波传播到远处之后的场（分布）。——引自百度”

近场语音主要是基于手机等设备，基本上是一些辅助的使用需求，Siri和微软小冰就是近场语音产品。远场语音也越来越受重视，亚马逊的Echo就是远场语音，很受欢迎，至少用户能在5米外的距离语音指示它播放音乐。

自然语言理解方面的研究已经60多年了，虽然还不完善，但令人欣喜的是类似Siri、Echo这样的产品不断涌现，而不再是虚无缥缈的概念。

简单了解下自然语音处理的技术过程：

当我们与机器进行语音交互时，机器需要通过声学处理我们的声音和周围环境，减少干扰和噪音。再通过语音识别技术将听到的声音翻译成文字，语义理解技术则会分析这些文字的意义，最后机器去执行用户的指令或者通过语音合成技术把要表达的内容合成语音。

在此过程，声学处理、语音识别、语义理解等属于自然语言理解，语音合成等是自然语言生成，这些都是非常核心的技术，还要配合人工智能、机器深度学习等等。

但是现阶段依然困难重重。

真实环境下，受噪音等影响机器仍然听不准自然语言。机器将听到的语音翻译成文字时，重音、口音模糊、语法模糊等又很影响成功率。人类语言太复杂，受到单词边界模糊、多义词、句法模糊、上下文理解等影响，语义理解又是一大障碍。

再举个例子：

如果一门课程上一年没开设，对于“这门课程去年有多少同学没通过”这样的问题，机器是回答“都没通过”还是“去年没开这门课”？同时机器还需要提前存储“去年没开这门课”的信息。

想想我们从小时候啥也不懂到现在懂得的知识和信息，这是难以想象的数据量！所以现阶段来看，在某垂直领域开发智能语音产品是相对现实的选择。

3、智能语音交互与界面交互的异同点是什么？

研究智能语音与机器的交互，不得不说界面交互，这是使用者和设计者都非常熟悉的人机交互方式。从界面交互出发，其实有很多可思考的或借鉴的点。

界面交互是线性的，而语音交互是非线性的

界面交互是一种线性的交互方式，本质上是不同的页面通过不同的层级关系串联起来的。所以，我们在使用的时候会有一层层返回，tab导航切换，回到app首页和home键回到手机桌面的概念。

语音交互不适合这样做，我们人类在语言交流时，是一种非线性发散式的，我们会在聊某个话题时突然切换到另外一个不相关的话题上，这之间没有层级关系，更谈不上返回关系。

界面交互更多过程，语音交互直接指向结果

界面交互在设计的时候，是将很多“小任务”（按钮点击、模块选择、页面跳转等等）提供给用户，用户通过不同的组合选择，最终达成自己的目标。

但是在语音交互时，更多是直接表达，你会跟服务员说：请给我一杯咖啡。而不会说：请用杯子从咖啡壶里倒一杯咖啡给我。

界面交互可以没有目标，语音交互需要准确的目标

我们在使用电脑和手机上网时，有时候是漫无目的，但在语音交互产品上如果漫无目的的进行下去，会让人很烦躁，因为你得不停地说下去。

语音交互的私密性更强，没有界面交互覆盖的使用场景多

当我们在一个人多的场合可以毫无顾忌的使用手机和ipad，但若跟机器进行语音对话，就会令人很尴尬。再例如，在ATM机上取款时你会使用语音吗？？

所以在一些使用语音交互效率高的场景，如何避免这样尴尬的情绪很重要。而另一些更私密的场景语音交互可能是个灾难。

4、智能语音交互适合哪些使用场景？

任何一款产品不管是什么样的交互方式，没有使用场景，满足不了用户需求，一定是无法成功的。智能语音类产品也不例外，并且从现阶段的技术上来看，垂直一些的使用场景更适合用智能语音交互。

汽车的车载智能语音系统，已经有很多商业产品了。是不是可以在挖掘出其他出行场景呢？比如骑车时？儿童娱乐和教育也是适合语音交互切入的行业，也有很多公司在做。智能语音类产品还可以应用于客服行业，可以极大的程度降低人员成本，也可以解决语音客服体验差效率低的问题。

人工客服和非智能语音客服场景的痛点

如果应用智能语音系统呢？理想的情况跟人工客服没有区别，但是全部由机器完成，想想看节省了多少人力成本。甚至线下的客服工作也可以替代。

4似智能语音助理这样的产品，帮用户处理一些短路径目的明确的任务需求。

还有办公领域、智能家居等等……

5、如何设计使用体验好的智能语音产品？

不管是界面产品还是语音产品，最终目的都是解决人们的问题。界面产品设计的部分标准和经验依然适用。

比如设计流程上，同样需要理解业务诉求、用户诉求，要进行用户调研、分析用户特征和观察用户行为，要挖掘使用场景中的问题和痛点，要梳理任务流程、设计信息架构和方案设计，并且要去验证和迭代。

而语音交互过程中还需要注意以下问题：

流程简单，路径明确，最大限度减少对话轮数。

语音交互应该避免不停的对话，太多轮对话用户难以记住，并且会很烦躁。

信息传达简洁明了，避免大量内容。

用户的短期记忆量有限，信息太多用户难以记住。

给予用户适当的引导，避免或及时纠正用户发散式思维导致的错误。

用户的语言表达是自由度非常高的，这会增加机器识别的难度，适当的引导让用户回到正确的道路。

系统状态反馈，及时有效。

语音交互中的系统状态反馈，要让用户及时了解当前状态，上下文关系，用户所处流程的位置。

任何时刻都是“首页”。

语音交互对用户来说是快捷方式，有需求会直接说，而不会像界面产品先要回到首页再去找相应应用。

加载过程要快。

在界面交互中页面加载3秒以内，配合状态反馈，用户是可以接受的。而语音交互用户会更不耐心等待，所以加载过程要快，就像人与人之间对话一样自然，才会令用户满意。

固定的、舒适的声音风格，令用户愉悦。

固定的音乐、铃声，给用户形成印象，让人一听见就知道是什么产品。例如微信、iphone铃声、新闻联播片头曲。动听、令人愉悦的声音、音乐、铃声很重要，是产品气质的表现。

与机器的语音交流如何像人类一样自然？

这是最后的疑问，我还没有答案。机器的语音交流，不像人类一样自然永远是最大问题，因为只有人与人之间交流才是最自然和舒适的。如何让机器学习和模仿人类，使它慢慢的向自然人“进化”？

以上仅是分析和思考，并未经过实践验证，只希望给大家带来启发。

本文由@Wayne原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自PEXELS，基于CC0协议

智能语音交互产品功能和功能体验 智能语音交互系统原理图片大全