智能语音功能对比:这三款天花板车型有点东西
0分享至张张嘴就能控制空调,车窗开13%与清晨阳光来场紧密相拥。不得不说,现如今的智能汽车,一切都有了变化,语音命令车辆成了基本操作,“动口不动手”成为现实。而回顾视智能语音为鸡肋的时代,很难想象现如今智能语音助手所带来的便利性。智能语音助手受到用户欢迎如果一定要用一个词形容智能语音助手,那一定是“真香”,根据亿欧智库对将近600款新发布的乘用车(含改款)的调查研究,智能语音系统的渗透率达到了86%,即是说86%的车型都搭载了智能语音系统,而中国用户对智能语音交互感兴趣程度达到了42.9%,仅次于辅助驾驶,这说明什么?智能语音系统正成为汽车的常规配置,消费者对这样的汽车感兴趣。试想一下,同样是新车,价格也差不多,别人的可以用语音控制车里的各种功能,而你的不可以,心里多少有些不平衡,所以,智能语音系统是现在汽车市场竞争力的有力影响因素。【图注:根据亿欧智库的报告,智能语音交互已经成为影响用户购买欲的重要因素。】智能语音香不香要看技术早期,很多人对智能语音系统是爱搭不理的,主要原因是在语音识别率、功能控制方面都算不上好用,眼下,这个阶段已经过去了,科大讯飞、百度、思必驰等先锋引领下,智能语音进入探索期,语音识别率得到提升,同时开始介入通讯、车辆基本控制等领域,进一步释放了潜力。【图注:汽车智能语音的基本发展阶段,以及基本功能概览。】那么,现在市面上到底什么智能语音系统好用,传统汽车在智能相关功能的布局上,反应总是显得有些迟缓,但也有抓住机会的车企,比如长安UNI的“小安”,虽说定制化不明显,仅搭载了原声、李白、妲己的语音包,而且没有OTA,不支持音区覆盖等诸多先进功能,也在不断开发新功能;另外,传统车型领域,比亚迪的智能语音系统做得不错,DiLink4.0发布后,比亚迪汉EV(参数丨图片)的智能语音识别率、音区覆盖等得到进一步优化;在备受关注的新势力阵营,蔚来的NOMI,支持自定义唤醒词/形象,音区识别,连续对话,理想的理想同学,支持连续对话,可见即可说、音区识别等等。【图注:市面上的主流汽车智能语音发展概览。】但在智能语音领域,小鹏汽车表现尤为亮眼,2020年小鹏的全场景语音系统横空出世,在2021年底经过了5次OTA升级,新增60+功能数量,优化260+功能,可以实现定制化形象,音区覆盖,连续对话,可见即可说等等。那么,回到车型,当前市场下,不同方向不同发展程度的智能语音系统应用到车,都会带来什么效果呢?【图注:小鹏P5的全场景语音除了基本语音控制功能,特色就是连续对话、可见即可说、语义打断、双音区锁定等先进功能。】智能语音对比:三款天花板的车型谁更强?智能方面总是走在前面,新能源汽车赛道的智能语音值得关注,因此,观察不同类型的新能源车,可以看到哪家更值得选择。以特斯拉旗下Model3、比亚迪汉EV、小鹏P5为例,看看它们的智能语音可以带来怎样的惊喜。互联网留下太多记忆,比如马斯克从2018年放出声音要研发智能语音助手,2019年接近年末出现初步成果,系统升级到V10后,特斯拉在智能语音助手方面实现了巨大突破。现在特斯拉Model3的智能语音的上百条指令可以控制更多功能,除了基础的通讯、媒体、温度控制等,也有车辆的基本控制,比如“折叠后视镜”“打开雨刮器”等等,用车便利大大提升。附上特斯拉Model3语音指令收集笔记,需要的朋友可自取。【图注:特斯拉Model3智能语音指令攻略】特斯拉Model3的智能语音也存在局限性,要玩明白语音控制,就得先背一背“指令大全”,如果指令不够准确,就可能会收获一句“不理解命令”,比如特斯拉Model3控制反光镜的指令是“折叠后视镜”,若说“收起后视镜”,是无法识别的。【图注:“折叠”换成“收起”后,特斯拉Model3的智能语音助手无法理解命令。】有一点需要注意的是,特斯拉Model3的智能语音是不可以语音唤醒的,需要驾驶者点击方向盘上的控制按钮,方便性差了些。事实上,特斯拉Model3的智能语音发展确实是一个弱项,但国产汽车不会给特斯拉太多的机会,抓紧机会超车才是正理。【图注:特斯拉唤醒智能语音助手的方式是按下方向盘右方的按钮,不支持唤醒词。】DiLink系统是比亚迪向智能网联转变的关键一步,整合了车机控制、智能语音等诸多功能,并且已经进化到了4.0。比亚迪汉EV车机一开始搭载的是DiLink3.0系统,但彼时其在人性化交互方面就比特斯拉Model3强太多,除了基础语音控制,还新增了声源定位、主动语音交互、童声识别等功能。现在,比亚迪汉EV搭载的就是DiLink4.0版本了,与5G结合,可以实现静态下100%声源定位准确,拥有95%唤醒成功率,反应迅速,611毫秒即可唤醒响应,不仅优化了童声识别,还新增音区锁定功能。【图注:比亚迪汉EV智能语音助手功能表现。】但是比亚迪汉EV的智能语音系统就是汽车智能语音天花板了吗?显然不是。不管是场景化,还是功能控制,以及操作精度方面,比亚迪汉EV都还有进步的空间。目前的智能语音系统已有发展的框架,在这个框架上,功能的横向拓展,比如语音控制智能辅助驾驶功能,功能的纵向探索,比如歌曲的快进/倒退,空调温度的精细调节,以及精准识别等,从这来看,比亚迪汉EV的智能探索还要继续。【图注:比亚迪汉EV智能语音助手还有进步空间,比如不能连读,不能识别方言,需要语音指令清晰标准等。】不过,在智能语音领域,新势力的小鹏P5走在了比亚迪汉EV的前面,搭载小鹏汽车最新版本的智能语音系统,“小P”让小鹏P5的智能语音控制走上了一个新的台阶——全场景,基础车控、娱乐场景、驾驶场景、休闲场景一一囊获其中。所以,小鹏P5的“小P”具体可以实现哪些功能?在基本功能的基础上,小P可实现连续对话、可见即可说、随时打断、无效语句过滤、双音区识别、灵活自定义。小P全球首创了全系统功能覆盖,不仅可以语音直达智能座舱所有功能界面,而且实现了对功能的微操,车窗开关可以精确到1%,空调调节能够选择10速率6风向28级温度调节,放音乐还能够以秒为单位前进后退。另外,小P还支持形象自定义。【图注:小鹏P5的功能“微操”测试】小P全球首创全场景连续对话,反应非常迅速,25秒最多可识别10个指令,还能支持用户在对话过程中随时打断小P,对主驾、副驾进行音区划分和锁定,只听主/副驾说话,不受干扰。在一定程度上提升了用车的便利性。【图注:后排乘客也可使用小鹏P5的智能语音助手,设置车门快捷键后,单击按键,可在后排唤醒小P。】在三车的智能语音表现上,我们可以发现,特斯拉Model3对此有所忽视,比亚迪汉EV智能语音正在崛起,小鹏P5赛道领先。总的来说,智能语音已经成为影响未来汽车购买力的重要因素之一,在智能语音发展的新浪潮中,各大车企的未来表现值得期待。特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.
/阅读下一篇/返回网易首页下载网易新闻客户端智能家居离线语音识别控制系统设计(SU
想了解更多关于开源的内容,请访问:51CTO 开源基础软件社区https://ost.51cto.com一、离线语音识别控制(SU-03T)1、模块介绍语音识别模块是在一种基于嵌入式的语音识别技术的模块,主要包括语音识别芯片和一些其他的附属电路,能够方便的与主控芯片进行通讯,开发者可以方便的将该模块嵌入到自己的产品中使用,实现语音交互的目的。模块实物图如下:2、模块的IO口说明这款模块常用的IO口有7个分别为: PA25、PA26、PA27、PB2、PB3、PB6、PB7模块出厂内置的固件命令词如下: -----这些都可以进行自己定制的。(1)唤醒词:你好,小智(2)命令词及其控制引脚(3.3V)(高低电平输出)打开空调:PA25输出高电平关闭空调:PA25输出低电平打开插座:PA26输出高电平关闭插座:PA26输出低电平打开开关:PA27输出高电平关闭开关:PA27输出低电平(PWM输出)打开风扇:PB2高电平有效起始档位50%关闭风扇:PB2输出低电平﹐档位0%调高一档:PB2档位增加30%调低一档:PB2档位减小30%(PWM输出)打开灯光:PB3高电平有效亮度档位50%关闭灯光:PB3输出低电平,亮度0%调亮一点:PB2亮度增加30%调暗一点:PB3亮度减小30%3、语音模块与STM32接线为方便扩展更加灵活的语音控制,可以把B2(UART1_TX)和B3(UART1_RX)做为与其他MCU的通信的接口。(0)语音控制模块与STM32单片机接线的方式GND--------GND地VCC--------VCC电源(3.3V)STM32的PA10(RX)---语音模块SU-03T的PB2(UART1_TX)STM32的代码里接收语音模块串口返回的响应指令进行对应的处理:OneNet云端控制界面:4、STM32的串口处理代码//实时接收语音模块返回的数据if(USART1_RX_FLAG){printf("语音模块响应:%d ",USART1_RX_CNT);//向串口打印服务器返回的数据for(i=0;i>图标进行设置。点击《添加控制》按钮,配置响应的方式。设置控制类型为串口输出,输出的参数我填的A0,主要是为了方便区分而已。这里可以自己定义的。也就是当语音模块识别到《打开空调》指令之后,会通过串口1发送一个串指令出去,单片机收到这条指令就可以进行判断,完成对应的逻辑控制。发出的指令是这样的: (十六进制的指令)。A0下面的其他命令依次配置即可。(6)还可以配置免唤醒词的命令非重点,根据自己习惯爱好配置即可。(7)发音人配置非重点,根据自己习惯爱好配置即可。(8)检查配置(9)生成新版本(10)生成SDK。生成需要等待一段时间,生成成功会有手机短信提醒的,生成之后就可以下载了。(11)编译固件SDK生成之后,点击后面《编译固件》按钮,添加固件进行编译。编译成功后,点击下载固件。(12)下载SDK包SDK包里包含了烧录工具套装。6、固件烧录下载的SDK解压后的文件夹为 uni_hb_m_solution。注意:解压的目录不能出现中文。解压后打开烧录工具:UniOneUpdateTool.exe准备一个USB-TTL模块,将模块与电脑的USB口连接,准备烧录程序。连线如下:VCC--->5VGND--->USB转TTL的模块B6(UART1_RX)--->USB-TTL模块的TXDB7(UART1_TX)--->USB-TTL模块的RXD待升级的固件选择:uni_app_release_update.bin。SDK包里也带了PDF说明文档,详情看文档即可。想了解更多关于开源的内容,请访问:51CTO 开源基础软件社区https://ost.51cto.com。使用语音控制与 iPhone 互动
在文本输入区域中工作时(例如,编写文稿、电子邮件或信息),你可以根据需要轻松在听写模式、拼写模式和命令模式之间切换。在听写模式(默认)中,你所说的任何非“语音控制”命令的话都会输入为文本。在命令模式中,这些话会被忽略并且不会输入为文本;“语音控制”仅会响应命令。当你需要使用一系列命令并且想要防止所说的话无意间输入到文本输入区域中时,命令模式尤其有用。
【注】拼写模式可用于英语(美国)和英语(加拿大)。
如果需要在听写模式下拼写字词,请说“拼写模式”。若要切换回听写模式,请说“听写模式”。
若要切换到命令模式,请说“命令模式”。命令模式打开时,一个黑色的交叉符号图标出现在文本输入区域以表示无法听写。若要切换回听写模式,请说“听写模式”。
语音识别和智能控制
语音识别正成为当今新型数字生活方式的一个重要功能。您可以利用语音控制房间的照明、空调、窗帘和其他电器。出于卫生原因,您只需与语音识别控制器通话,即可避免接触酒店或办公场所的表面,从而实现非接触控制。
瑞萨电子通过执行实时控制(第三方语音识别引擎)的离线语音识别算法,成功构建成功组合。高级语音命令识别引擎同时支持两种语言和语音响应。有34种全球语言可供选择,可轻松集成到现有的控制系统中。
系统优势:
瑞萨电子的语音识别解决方案可以实现与现有酒店空调、照明控制系统、家用电器的轻松集成。语音命令可通过高级语音命令识别引擎和算法进行自定义。支持双语言和触发器命令。低成本。详解离线语音和在线语音的区别
离线语音识别和在线语音识别都是语音识别技术的一种,但它们有一些不同之处。
离线语音识别是指在设备本地使用的语音识别技术,这种技术不需要连接互联网或云服务进行语音识别,因此也被称为本地语音识别。离线语音识别通常通过端侧语音AI芯片来处理数据,因此识别速度更快,同时也更安全和隐私保护。
在线语音识别是指通过网络连接到云服务进行的语音识别技术。用户可以通过互联网连接到云服务进行语音识别,云服务会将用户的语音传输到服务器进行处理,然后将识别结果返回给用户。在线语音识别通常需要较高的网络带宽和较长的延迟时间,同时也有较高的安全风险。
总体来说,离线语音交互相对于在线语音交互有以下一些优势:
1、响应速度更快:离线语音交互不需要依赖互联网,直接在本地设备上进行处理,因此响应速度更快,可以更快速地完成语音识别和语音合成等处理。
2、更好的隐私保护:在线语音交互需要将语音数据上传到云端进行处理,可能存在隐私泄露的风险。而离线语音交互则直接在本地设备上进行处理,语音数据不会被上传到云端,更好地保护用户的隐私。
3、更高的稳定性:在线语音交互需要依赖网络环境,如果网络环境不好或者出现故障,就可能会导致语音交互无法进行。而离线语音交互则不需要依赖网络环境,更加稳定可靠。
4、更节省流量和电量:在线语音交互需要上传和下载大量的语音数据,会消耗用户的流量和设备的电量。而离线语音交互不需要上传和下载语音数据,更加节省流量和电量。
离线语音识别更适合于需要较快响应速度和保护隐私的场景,如家居设备、智能音箱、移动设备等;在线语音识别更适合于需要实时交互和处理海量语音数据的场景,如语音转写、语音翻译等。选择离线语音识别还是在线语音识别,需要根据具体的应用场景和需求进行选择。
启英泰伦于2015年成立,至今已发布三代离线语音芯片,具备高性能、高集成、高可靠性、低功耗、低成本等优势。
2022年,推出AIoT芯片CI230X系列(CI2305、CI2306),该系列芯片集成了启英泰伦自研的脑神经网络处理器BNPUV3,以及WIFI和BLE功能,是集“语音+WIFI+BLE”于一体的三合一AIoT芯片,且仅需少量电阻电容等外围器件就可以实现各类智能语音离在线产品硬件方案,性价比极高。在语音算法上,支持语音识别、单麦深度学习降噪、离线自然语言处理、双麦深度人声分离、命令词自学习2.0版本等,最多可支持500条命令词。CI2306还支持声纹识别及离线NLP。
2022年,推出CI1312语音AI芯片,该芯片集成BNPUV3,系统主频可达220MHz,内置高达640KByte的SRAM,算力可以更加充分的提供给主控应用方案。采用SOP16封装,引脚更宽,便于生产贴片,贴片成本更低,另集成RC振荡器,增加串口自适应功能后可免晶振应用。可实现语音识别、声纹识别、命令词自学习、语音检测及深度学习降噪等功能,具备强劲的环境噪声抑制能力。
2021年,推出语音AI芯片CI130X系列((CI1301、CI1302、CI1303、CI1306)。该系列芯片集成BNPUV3,高主频(240MHz),更大SRAM,算力更强。采用SSOP24/QFN40两种封装,可适应不同应用及贴片要求。集成度更高,外围精简,除MIC,喇叭外,板级仅需要阻容、PA芯片。可实现单麦降噪、AEC、双麦增强、双麦定向等功能,另CI1303、CI1306还支持声纹识别,500+命令词条及离线NLP。
2020年,推出语音AI芯片CI1122,该芯片集成BNPUV2,成本更低,性价比更高。
2019年,推出行业首款降噪识别一体语音AI芯片CI110X系列(CI1102/CI1103),支持离线远场语音识别,离线+在线语音识别,离线+AIoT语音场景联控,且集成更丰富(集降噪拾音、麦阵处理、ASR、MCU控制等功能为一体),成本更低(和DSP、MCU芯片同量级),功耗更低(待机功耗是实现相同功能性能的AP芯片的十分之一以下)。经科技成果评价,成果水平达到国际先进(证书编号:202051ZK3713),并入选AIIA发起的《AI芯片技术选型目录2020年》。
2018年,推出语音AI芯片CI1002,该芯片在保持CI1006性能优势的基础上成本更低,应用领域更广泛。
2016年,启英泰伦推出行业首款深度神经网络语音AI芯片CI1006,开启了智能语音离线控制智能家电,奠定了启英泰伦在离线语音家电领域的领先地位。经科学技术成果评价属国内首创(证书编号:9562018Y0009),也是唯一一款入选《人工智能浪潮》书籍的语音芯片。
基于此系列语音芯片同时推出了丰富全面的各类产品解决方案,现已应用于智能家居、智能家电、智能照明、智能玩具、智能机器人、智能汽车等领域。