智能语音交互智能语音人机交互

发表时间：2023-07-03 17:25:09

智能语音交互

使用流程及优势

使用流程

将待检的语音数据转换成文本之后，通过质检引擎产生质检结果，并生成统计数据。质检人也可以在管控台上定位查看到每条数据命中的规则点、以边听边看的方式对结果进行校验。

优势

1.全量自动化——能实现全量客服通话、工单的自动化质检；2.实时性——能做到电话一挂立即完成质检，实时看到最新的结果；3.规则灵活性——规则配置超灵活，覆盖到各类复杂的业务场景。

智能交互技术

[1] 马楠,徐歆恺,张欢.智能交互技术与应用[M].北京:机械工业出版社,2019.

[2] 顾振宇著.交互设计：原理与方法[M].北京:清华大学出版社,2016年第1版.

[3] 李四达著.交互与服务设计：创新实践二十课[M].北京:清华大学出版社，2017年第1版.

[4] 5TrendsEmergeintheGartnerHypeCycleforEmergingTechnologies,2018[EB/OL].[2019-02-28].https://www.gartner.com/smarterwithgartner/5-trends-emerge-in-gartner-hype-cycle-for-emerging-technologies-2018/.

[5] 唐小成.增强现实系统中的三维用户界面设计与实现[D].电子科技大学,2008.

[6] 董威,文艳军,李暾,齐治昌.软件工程专业在线课程建设思考[J].计算机教育,2015(06):51–55.

[7] 陈毅能.中国科学院大学,2016.基于生理计算的多通道人机交互技术研究[D].2016.

[8] 史忠植.认知科学[M].合肥:中国科学技术大学出版社,2008.

[9] 黄希庭,郑涌.心理学导论[M].北京:人民教育出版社,2015.

[10] 认知（词语释义）_百度百科[EB/OL].[2018-08-03].https://baike.baidu.com/item/%E8%AE%A4%E7%9F%A5/1262721?fr=aladdin.

[11]DeanJ.MonstersIllusion[J].MightyOpticalIllusions,2006.

[12]BrunerJS,MinturnAL.PerceptualIdentificationandPerceptualOrganization[J].TheJournalofGeneralPsychology,1955,53(1):21–28.

[13]郑南宁.认知过程的信息处理和新型人工智能系统[J].中国基础科学,2000(08):11–20.

[14]你和小伙伴们是怎么被惊呆的？[EB/OL].,2013(2013-07-29)[2019-03-22].https://tech.hexun.com/2013-07-29/156579849.html.

[15]管连荣.美国著名心理学家H·A·西蒙教授来华访问[J].心理科学,1982(1):62–63.

[16]秦裕林.认知心理学与计算机科学的研究与教学——介绍西蒙教授的认知心理学讲学[J].心理学动态,1984(01):63-64+48.

[17]余淼.谈图形用户界面设计中的交互性信息传递[J].中国包装工业,2015(06):147.

[18]李枫,徐韬.智能语音交互技术在呼叫中心中的应用[J].2016电力行业信息化年会论文集,2016:5.

[19]席乐.浅谈多点触摸技术在产品操作界面设计中的应用[J].科教导刊(上旬刊),2013(03):176–177.

[20]马楠,高跃,李佳洪,李德毅.自驾驶中的交互认知[J].中国科学:信息科学,2018(8).

[21]LScapinD,SenachB,TrousseB,PallotM.UserExperience:BuzzwordorNewParadigm?[J].ACHI2012-5thInternationalConferenceonAdvancesinComputer-HumanInteractions,2012.

[22]丁一,郭伏,胡名彩,孙凤良.用户体验国内外研究综述[J].工业工程与管理,2014(04):92-97.

[23]五步走，带你了解交互设计流程|人人都是产品经理[EB/OL].[2017-09-28].https://www.woshipm.com/ucd/577334.html.

[24]CooperA,ReimannRM.软件观念革命[M].詹剑锋,译,张知非,译.北京:电子工业出版社,2005.

[25]拿不定设计？让经典的尼尔森十大可用性原则帮你！（附案例）[EB/OL].[2017-09-27].https://www.uisdc.com/nelson-usability-design-principles.

[26]设计基础：细说“十大可用性原则”|人人都是产品经理[EB/OL].[2017-09-27].https://www.woshipm.com/ucd/730477.html.

[27]WixonD.Bookreview:PRINCIPLESANDGUIDELINESINSOFTWAREUSERINTERFACEDESIGNbyDeborahJ.Mayhew(PrenticeHall,1992)[J].AcmSigchiBulletin,1993,25(2):51–53.

[28]是时候，聊一聊交互设计的知识体系了！[EB/OL].简书[2017-10-03].https://www.jianshu.com/p/7399791c5f8f.

[29]赵佳,赵铭,李昌华.分级网格服务的Apacheab测试分析[J].电子设计工程,2009,17(03):22–24.

[30]2018年，你一定要选对这些原型工具-UI中国-专业用户体验设计平台[EB/OL].[2018-08-21].https://www.ui.cn/detail/322892.html.

[31]电商类Web原型制作分享——天猫[EB/OL].[2019-03-21].https://www.mockplus.cn/sample/post/1065.

[32]所谓原型，是个什么东西？|人人都是产品经理[J]..

[33]15款优秀移动APP产品原型设计工具|人人都是产品经理[EB/OL].[2018-06-24].https://www.woshipm.com/rp/64741.html.

[34]周剑辉,顾新建.移动设备在工作流管理系统中的应用[J].机电工程,2004(12):42–45.

[35]浅说移动端与pc端交互设计的区别||观点|shaozhurong-设计文章/教程分享-站酷(ZCOOL)[EB/OL].[2018-06-24].https://old.zcool.com.cn/article/ZNTY4MTI0.html.

[36]StevenHoober.HowDoUsersReallyHoldMobileDevices? ::UXmatters[EB/OL].,2013(2013-02-18)[2019-03-02].https://www.uxmatters.com/mt/archives/2013/02/how-do-users-really-hold-mobile-devices.php.

[37]ThisIsHowFartheAverageSetofThumbsWillReachontheNewiPhone6|HYPEBEAST[EB/OL].,2014(2014-09-20)[2019-02-23].https://hypebeast.com/2014/9/realistically-this-is-how-far-the-average-set-of-thumbs-will-reach-on-the-new-iphone-6.

[38]关于移动端和PC端的交互的区别-Erichain-博客园[EB/OL].[2018-06-24].https://www.cnblogs.com/erichain/p/4678163.html.

[39]App界面设计风格|App界面交互设计规范[EB/OL].[2017-10-08].https://www.iamue.com/8754.

[40]卡卡的人生哲学.App界面设计风格[EB/OL].,2015(2015-08-24)[2019-03-03].https://www.woshipm.com/ucd/193763.html.

[41]ColourAssignment-Preferences[EB/OL].,2013(2013-03-23)[2019-03-01].https://www.joehallock.com/edu/COM498/preferences.html.

[42]Themes-iOS-iOS-HumanInterfaceGuidelines-AppleDeveloper[EB/OL].[2018-10-06].https://developer.apple.com/design/human-interface-guidelines/ios/overview/themes/.

[43]H5轻应用技术，未来无限可能[EB/OL].[2018-06-24].www.sohu.com/a/64107789_379442.

[44]1.1Android平台简介·AppInventor-零基础Android移动应用开发[EB/OL].[2018-06-24].https://minghuiwu.gitbooks.io/appinventor/content/11_android_ping_tai_jian_jie.html.[45]平台架构.AndroidDevelopers[EB/OL].[2019-03-02].https://developer.android.google.cn/guide/platform/

[46]1.2AppInventor简介·AppInventor-零基础Android移动应用开发[EB/OL].[2018-06-24].https://minghuiwu.gitbooks.io/appinventor/content/12_appinventor_jian_jie.html.

[47]终极入门教程——5分钟学会AppInventor2-AppInventor汉化版[EB/OL].[2018-06-24].https://www.wxbit.com/?p=157.

[48]人工智能:语音开启全新交互时代[EB/OL].[2018-12-09].https://www.cs.com.cn/gppd/hyyj/201705/t20170512_5280029.html.

[49]语音革命元年来了：BBC、FT等媒体要点亮哪些全新技能树[EB/OL].[2018-12-09].https://new.qq.com/omn/20180312/20180312A07ECH.html.

[50]GUI和VUI到底有哪些区别？来看这篇超全面的总结！-优设-UISDC[EB/OL].[2018-12-11].https://www.uisdc.com/gui-vui-differences.

[51]「语音交互设计」之VUI简析|L-insights_用户[EB/OL].[2018-12-11].www.sohu.com/a/251671898_610473.

[52]曾丽霞,康佳美,孙甜甜,孙传祥.语音办公助手VUI交互设计研究[J].工业设计研究（第六辑）,2018:7.

[53]语音识别的前世今生|深度学习彻底改变对话式人工智能[EB/OL].[2018-12-10].https://www.cnetnews.com.cn/2017/0821/3097159.shtml.

[54]语音识别技术里程碑：微软已将识别错误率降至5.1%-语音识别,人工智能,微软研究院-IT之家[EB/OL].[2018-12-12].https://www.ithome.com/html/it/322227.htm.

[55]微软语音识别词错字率低至5.9%，已达到人类专业速记员水平-超能网[EB/OL].[2018-12-10].https://www.expreview.com/50100.html.

[56]为什么说语音交互是未来的主流交互方式之一？|人人都是产品经理[EB/OL].[2018-12-10].https://www.woshipm.com/pd/816580.html.

[57]语音交互的基本概念和设计实践[EB/OL].[2018-12-09].https://www.woshipm.com/pd/1039577.html.

[58]干货|IDC发布对话式人工智能白皮书[EB/OL].[2018-11-12].https://www.qianjia.com/html/2018-03/21_287657.html.

[59]1.3人机对话交互基础概念（1）简书[EB/OL].[2018-12-17].https://www.jianshu.com/p/f927075b5c47

[60]程彬,陈婧,乌兰.智能人机交互产品的服务设计思路探讨[J].设计,2016(09):156–157.

[61]Salvendy董建明、傅利民、饶培伦、[希腊]CONSTANTINESTEPHANIDIS、[美]GAVRIEL.清华大学出版社,2016.人机交互:以用户为中心的设计和评估[M].第5版.,2016北京:.

[62]科大讯飞公布汽车产品布局战略：推出飞鱼OS和开放三大平台[EB/OL].[2019-02-23].https://www.sohu.com/a/271415691_122982.

[63]Pierre-YvesO.Theproductionandrecognitionofemotionsinspeech:featuresandalgorithms[J].InternationalJournalofHuman-ComputerStudies,2003,59(1):157–183.

[64]TurkM.SpringerUS,2014.GestureRecognition[G]//IKEUCHIK.ComputerVision:AReferenceGuide.,2014Boston,MA::346–349.

[65]WangJJ,SinghS.Videoanalysisofhumandynamics—asurvey[J].Real-TimeImaging,2003,9(5):321–346.

[66]YangM-H,KriegmanDJ,AhujaN.DetectingFacesinImages:ASurvey[J].IEEETrans.PatternAnal.Mach.Intell.,2002,24(1):34–58.

[67]DuchowskiAT.Abreadth-firstsurveyofeye-trackingapplications[J].BehaviorResearchMethods,Instruments,&Computers,2002,34(4):455–470.

[68]JaimesA,SebeN.Multimodalhuman–computerinteraction:Asurvey[J].ComputerVisionandImageUnderstanding,2007,108(1):116–134.

[69]PortaM.Vision-baseduserinterfaces:methodsandapplications[J].InternationalJournalofHuman-ComputerStudies,2002,57(1):27–73.

[70]DuricZ,GrayWD,HeishmanR,Rosenfeld ANDA,SchoellesMJ,SchunnC,WechslerH.Integratingperceptualandcognitivemodelingforadaptiveandintelligenthuman-computerinteraction[J].ProceedingsoftheIEEE,2002,90(7):1272–1289.

[71]DondiP,LombardiL,PortaM.Developmentofgesture-basedhuman–computerinteractionapplicationsbyfusionofdepthandcolourvideostreams[J].IETComputerVision,2014,8(6):568–578.

[72]刘心雨.交互界面设计在虚拟现实中的研究与实现[D].北京邮电大学,2018.

[73]郭莹洁.关于虚拟现实技术人机交互的研究[J].信息记录材料,2018,19(08):247–248.

[74]田远霞.浙江大学,2015.增强现实下多通道交互模型研究与实现[D].,2015.

[75]MalkawiAM,SrinivasanRS.ACTAPressMultimodalHuman-ComputerInteractionforImmersiveVisualization:IntegratingSpeech-GestureRecognitionsandAugmentedRealityforIndoorEnvironments[C]//.

[76]赵永惠.人机交互研究综述[J].信息与电脑(理论版),2017(23):24-25+28.

[77]赵沁平.虚拟现实中的10个科学技术问题[J].中国科学:信息科学,2017,47(06):800–803.

[78]HuismanD,FrelingR,WagelmansAPM.ARobustSolutionApproachtotheDynamicVehicleSchedulingProblem[J].TransportationScience,2004,38(4):447–458.

[79]ColijnP,HerbachJS,McnaughtonMP.2017-08-15Determiningpickupanddestinationlocationsforautonomousvehicles:中国,9733096[P]. ,2017.

[80]苏景颖.关于智能汽车车联网系统分析[J].时代汽车,2018(02):125–126.

[81]浅谈车联网的应用场景及发展趋势_车联网功能_车联网体系结构-电子发烧友网[EB/OL].[2019-02-23].https://m.elecfans.com/article/603252.html.

[82]王世宝.基于5G技术车联网的发展趋势及应用前景分析[J].时代汽车,2018(06):169–170.

[83]KehoeB,MatsukawaA,CandidoS,KuffnerJ,GoldbergK.Cloud-basedrobotgraspingwiththegoogleobjectrecognitionengine[C]//2013IEEEInternationalConferenceonRoboticsandAutomation.,2013:4263–4270.

[84]赵连翔,王全玉,贾金苗,陆峥玲.机器人云操作平台的实现研究[J].华中科技大学学报(自然科学版),2012(S1vo40):161–164.

[85]交互设计快速检查清单InteractionDesignQuickChecklist[EB/OL].[2017-10-05].https://www.iamue.com/18702.

[86]中国互联网的今年和明年，你必须知道这些事[EB/OL].[2019-08-25].www.sohu.com/a/118096152_358836.

关于智能语音交互的5点思考

本文是我在学习智能语音过程中的思考，希望从智能语音的人机交互层面给大家带来一些启发。

小时候很喜欢一部剧叫《恐龙战队》，里面有个角色叫“阿尔法”，是个每天忙来忙去的机器人，能传唤队员并和他们交流，令我很好奇。

今天，我们对于能对话的机器已经不那么新奇了，这得益于智能语音技术的发展和一些语音产品的出现。一度调戏Siri成为全民话题，这肯定不是Apple公司初衷。这暴露了它的不完善，也让大众离语音产品更近了。本文是我在学习智能语音过程中的思考，希望从智能语音的人机交互层面给大家带来一些启发。

语言是人类文明的重要成果，也是人类最重要的工具之一，它为保存和传递人类文明起到了不可或缺的作用。概括来说它的主要作用就4个字：传递信息。

“而我们所说的智能语音，学术界叫“自然语言处理”，是计算机科学领域与人工智能领域的一个研究方向，主要研究能实现人与计算机之间用自然语言进行有效传递信息的理论和方法。—引自百度”

“交互”一词全名是“人机交互”，是一门研究系统与用户之间交流、互动关系的学问。

智能语音交互严谨点说应该是自然语言交互(naturalanguageinteraction)，为了方便理解我依然采用“智能语音交互”这个词。

计算机技术及人工智能领域发展迅速，对“自然语言处理”的研究也异常火热。

siri、微软小冰、googlenow、Echo、科大讯飞、京东叮咚、出门问问等智能语音类产品开始出现，虽然存在很大的不完善，但回望历史我们能发现智能语音技术一直是在进步的。

在了解智能语音的过程中，我产生了一些问题，围绕这些问题我对智能语音交互进行了一些思考，希望能给你带来一些启发。

1、智能语音能成为人类主流的人机交互方式吗？

这个问题在知乎引起了很大的争论，而我倾向于智能语音交互会成为人类主流的人机交互方式之一。

人类与世界万物的交互过程大概是这样的：通过眼睛去观察人、事、物、环境等，再辅以耳朵听、鼻子闻、舌头尝、嘴巴交流、肢体触碰，而后大脑产生记忆和思考并做出动作、表情、语言和生理反馈，这个过程是循环和组合的。

不同的环境和习惯会有不同，但基本是在这个范围。这个过程中，前半部分主要是接收信息，后半部分主要负责交流互动，而语言和动作是最主要的交流互动方式。

人机交互角度看，用手操控是这个世界绝对的主流

我们每天使用的手机、电脑、相机、汽车，包括现在很火的AR、VR设备，基本上都要靠手去操控。（用手操控属于动作这个范畴）这跟人类的进化方式有很大关系，我们的祖先从学会制作工具开始，手就成为了人类接触万物的最主要工具。

尤其是机械的出现，只有人类灵巧的双手才能精准的操控完成任务。

可是人的手有几个缺陷：不够长，不够多，需要配合眼睛，这给我们的生活带来了很多不便。

举个例子：

当我们在开车时，眼睛和手被占用，再去操作手机、中控触屏等设备会非常不便，危险系数也会大大增加。

原本语言是人与人之间交流的工具，很难像双手一样直接与物体产生反应。但是随着公认的第四次工业革命的到来，人工智能让我们有了更多可能，当机器能听懂我们的意思并很好的执行时，很多场景的人机交互方式将会被改变，更多适合的场景将会被挖掘出来，就像当年智能手机进入我们的生活。10年前，我们是无法想象通过手机做现在的大多数事情的。

所以我的浅见是：

智能语音技术会成为人类主流的人机交互方式之一。

成为之一，是因为除了语音外，原本的手的操作、体感操作、面部表情识别、注意力识别、甚至是情绪的波动，都可能在不同场景成为我们与机器的交互方式，未来这很可能是综合的交互体验。

2、智能语音技术发展到什么阶段了？

智能语音分近场语音和远场语音。

“近场的定义是小于1个波长的范围内（或者波长量级）的电磁场。而远场是电磁波传播到远处之后的场（分布）。——引自百度”

近场语音主要是基于手机等设备，基本上是一些辅助的使用需求，Siri和微软小冰就是近场语音产品。远场语音也越来越受重视，亚马逊的Echo就是远场语音，很受欢迎，至少用户能在5米外的距离语音指示它播放音乐。

自然语言理解方面的研究已经60多年了，虽然还不完善，但令人欣喜的是类似Siri、Echo这样的产品不断涌现，而不再是虚无缥缈的概念。

简单了解下自然语音处理的技术过程：

当我们与机器进行语音交互时，机器需要通过声学处理我们的声音和周围环境，减少干扰和噪音。再通过语音识别技术将听到的声音翻译成文字，语义理解技术则会分析这些文字的意义，最后机器去执行用户的指令或者通过语音合成技术把要表达的内容合成语音。

在此过程，声学处理、语音识别、语义理解等属于自然语言理解，语音合成等是自然语言生成，这些都是非常核心的技术，还要配合人工智能、机器深度学习等等。

但是现阶段依然困难重重。

真实环境下，受噪音等影响机器仍然听不准自然语言。机器将听到的语音翻译成文字时，重音、口音模糊、语法模糊等又很影响成功率。人类语言太复杂，受到单词边界模糊、多义词、句法模糊、上下文理解等影响，语义理解又是一大障碍。

再举个例子：

如果一门课程上一年没开设，对于“这门课程去年有多少同学没通过”这样的问题，机器是回答“都没通过”还是“去年没开这门课”？同时机器还需要提前存储“去年没开这门课”的信息。

想想我们从小时候啥也不懂到现在懂得的知识和信息，这是难以想象的数据量！所以现阶段来看，在某垂直领域开发智能语音产品是相对现实的选择。

3、智能语音交互与界面交互的异同点是什么？

研究智能语音与机器的交互，不得不说界面交互，这是使用者和设计者都非常熟悉的人机交互方式。从界面交互出发，其实有很多可思考的或借鉴的点。

界面交互是线性的，而语音交互是非线性的

界面交互是一种线性的交互方式，本质上是不同的页面通过不同的层级关系串联起来的。所以，我们在使用的时候会有一层层返回，tab导航切换，回到app首页和home键回到手机桌面的概念。

语音交互不适合这样做，我们人类在语言交流时，是一种非线性发散式的，我们会在聊某个话题时突然切换到另外一个不相关的话题上，这之间没有层级关系，更谈不上返回关系。

界面交互更多过程，语音交互直接指向结果

界面交互在设计的时候，是将很多“小任务”（按钮点击、模块选择、页面跳转等等）提供给用户，用户通过不同的组合选择，最终达成自己的目标。

但是在语音交互时，更多是直接表达，你会跟服务员说：请给我一杯咖啡。而不会说：请用杯子从咖啡壶里倒一杯咖啡给我。

界面交互可以没有目标，语音交互需要准确的目标

我们在使用电脑和手机上网时，有时候是漫无目的，但在语音交互产品上如果漫无目的的进行下去，会让人很烦躁，因为你得不停地说下去。

语音交互的私密性更强，没有界面交互覆盖的使用场景多

当我们在一个人多的场合可以毫无顾忌的使用手机和ipad，但若跟机器进行语音对话，就会令人很尴尬。再例如，在ATM机上取款时你会使用语音吗？？

所以在一些使用语音交互效率高的场景，如何避免这样尴尬的情绪很重要。而另一些更私密的场景语音交互可能是个灾难。

4、智能语音交互适合哪些使用场景？

任何一款产品不管是什么样的交互方式，没有使用场景，满足不了用户需求，一定是无法成功的。智能语音类产品也不例外，并且从现阶段的技术上来看，垂直一些的使用场景更适合用智能语音交互。

汽车的车载智能语音系统，已经有很多商业产品了。是不是可以在挖掘出其他出行场景呢？比如骑车时？儿童娱乐和教育也是适合语音交互切入的行业，也有很多公司在做。智能语音类产品还可以应用于客服行业，可以极大的程度降低人员成本，也可以解决语音客服体验差效率低的问题。

人工客服和非智能语音客服场景的痛点

如果应用智能语音系统呢？理想的情况跟人工客服没有区别，但是全部由机器完成，想想看节省了多少人力成本。甚至线下的客服工作也可以替代。

4似智能语音助理这样的产品，帮用户处理一些短路径目的明确的任务需求。

还有办公领域、智能家居等等……

5、如何设计使用体验好的智能语音产品？

不管是界面产品还是语音产品，最终目的都是解决人们的问题。界面产品设计的部分标准和经验依然适用。

比如设计流程上，同样需要理解业务诉求、用户诉求，要进行用户调研、分析用户特征和观察用户行为，要挖掘使用场景中的问题和痛点，要梳理任务流程、设计信息架构和方案设计，并且要去验证和迭代。

而语音交互过程中还需要注意以下问题：

流程简单，路径明确，最大限度减少对话轮数。

语音交互应该避免不停的对话，太多轮对话用户难以记住，并且会很烦躁。

信息传达简洁明了，避免大量内容。

用户的短期记忆量有限，信息太多用户难以记住。

给予用户适当的引导，避免或及时纠正用户发散式思维导致的错误。

用户的语言表达是自由度非常高的，这会增加机器识别的难度，适当的引导让用户回到正确的道路。

系统状态反馈，及时有效。

语音交互中的系统状态反馈，要让用户及时了解当前状态，上下文关系，用户所处流程的位置。

任何时刻都是“首页”。

语音交互对用户来说是快捷方式，有需求会直接说，而不会像界面产品先要回到首页再去找相应应用。

加载过程要快。

在界面交互中页面加载3秒以内，配合状态反馈，用户是可以接受的。而语音交互用户会更不耐心等待，所以加载过程要快，就像人与人之间对话一样自然，才会令用户满意。

固定的、舒适的声音风格，令用户愉悦。

固定的音乐、铃声，给用户形成印象，让人一听见就知道是什么产品。例如微信、iphone铃声、新闻联播片头曲。动听、令人愉悦的声音、音乐、铃声很重要，是产品气质的表现。

与机器的语音交流如何像人类一样自然？

这是最后的疑问，我还没有答案。机器的语音交流，不像人类一样自然永远是最大问题，因为只有人与人之间交流才是最自然和舒适的。如何让机器学习和模仿人类，使它慢慢的向自然人“进化”？

以上仅是分析和思考，并未经过实践验证，只希望给大家带来启发。

本文由@Wayne原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自PEXELS，基于CC0协议

智能语音人机交互的重要性

例如你想用语音通过主菜单打开某个程序，当你说出“开始”后，系统将会提供一个“显示编号”的区块划分功能，这样假如你想打开“下载”这个文件夹，你只需说出它的编号“，程序就会给你打开“下载”这个文件夹了。这样做的原因一是因为：如果你需要开启用户自行安装的纷繁复杂的程序，Windows的语音库里面可能没有这些程序相应的名称，会造成识别不准，甚至无法识别，二是通过显示编号，和语音识别编号，响应指令的效率更高，因此这样语音配合监视器的分模块显示大大的提高了用户使用Windows系统的效率和准确率。

同样，如果你对桌面的快捷方式或文件进行语音操作，系统将会提供一个称之为“鼠标网络”的功能，对桌面进行以前区域的划分和自动编号，用语音+视觉来提高操作效率和识别的精准率：

在目前Windows的语音识别程序中，除文本的语音输入（包括文字和符号）之外，还包括16个常用命令，9项常用控件命令，31项文本处理命令，15项窗口命令，5个点击屏幕任意位置命令，以及另外的几组键盘命令。用户所能语音指挥的也就是围绕这些预先准备好了的命令进行交互操作，旨在这将有可能提高使用电脑的效率，和尽可能的把双手从鼠标键盘上解放出来。

然后我们在前进一点，再想一下假如现在我们要面对的不是电脑、手机、而是一个机器人！一位拟人化，仿真化的机器人，对比上面的例子你会很容易发现它和常用的电子设备的不同之处在于，它很可能是不会有一个我们通常所见的显示屏，那以上那些通过语音指令结合屏幕可视化辅助来进行的高效的交互方式在机器人身上就受到了限制。在这种情况下你面对着机器人，你肯定会想它在听我说话吗？它能听懂我说话吗？我说什么它能听懂？我说什么它可能听不懂等等这样一堆问题会立即扑面而来。

其实在我们现有的技术水平和条件下，特别是面向大众商用的机器人，想做到像电影里面那种人和机器人自由交流的情景几乎是不可能。当然我们做一个产品，当然会有功能定位和市场需求等等很多方面要考虑的，那我在这里讨论的是一台为用户提供各种咨询和能进行简单语音逻辑“聊天”的机器人，需要如何处理语音交互方面的问题，尽可能不依赖电脑屏幕，而直接来与人互动和提供各种咨询的机器人。

中天智领是国内领先的智慧交互信息化整体解决方案服务商，通过多年潜心研发，创造出一系列智慧人机交互系统产品，集智慧人机交互产品、智慧人机交互终端、智慧交互平台、智慧交互云于一体，重点研发出精准远距离激光遥控、光感手触、触摸笔、指挥教鞭、智能指挥台、移动可视化交互、实物交互、智能语音等多种交互系统。

中天智领智能语音交互，让交互“说”出来无论将来指挥中心增加多少信号，多少业务场景，不再需要后台人员使用电脑操作，只需说出名字，即可快速大屏展示。面对成千上万的监控图像，不再需要眼花缭乱的寻找，只需要说出想看到的监控场景，大屏即可全屏显示。

中天智领采用蓝牙5.0通讯模式实现远距离智能语音交互，在离屏50米的范围内，按下智能激光笔上的语音按钮，说出想要执行的命令，系统将会从海量的信息中匹配与之相对应的操作，例如说出“打开监控”，屏幕上随即会调出预设的监控场景信息。智能语音交互默认支持100个语音指令，满足大部分用户的使用需求，同时可以支持命令扩展，以及特殊命令定制化。

返回搜狐，查看更多

智能语音交互 智能语音人机交互