智能语音交互产品功能和功能体验
入门流程快速入门文档介绍使用智能语音服务需要的步骤,帮助您快速开通服务、创建测试项目和调用语音服务。准备账号注册阿里云账号。阿里云账号作为阿里云系统识别的资源消费账户,有阿里云所有产品和管理权限。具体操作,请参见注册阿里云账号。个人实名认证。为了确保您可以正常使用阿里云产品和服务,您需要完成个人实名认证。具体操作,请参见个人实名认证。(可选)创建并授权RAM用户。当您的企业存在多用户协同访问资源的场景时,可以创建RAM用户,使用RAM可以按需为用户分配最小权限,避免多用户共享阿里云账号密码或访问密钥,从而降低企业的安全风险。具体操作,请参见创建RAM用户。关于RAM用户的更多信息,请参见什么是访问控制。如果使用RAM用户调用智能语音交互产品,请前往控制台为RAM用户授予AliyunNLSFullAccess权限。具体操作,请参见为RAM用户授权。说明创建RAM用户时,请设置登录密码,否则无法单独登录RAM账号。创建AccessKey在调用阿里云API时您需要使用AccessKey完成身份验证。AccessKey包括AccessKeyID和AccessKeySecret,需要一起使用。具体如下:AccessKeyID:用于标识用户。AccessKeySecret:用于验证用户的密钥。AccessKeySecret必须保密。创建阿里云账号的AccessKey登录RAM访问控制台,使用阿里云账号创建AccessKey。具体操作,请参见创建AccessKey。创建RAM用户的AccessKey使用阿里云账号登录RAM访问控制台,为RAM用户创建AccessKey。具体操作,请参见创建AccessKey。重要RAM用户的AccessKeySecret只在创建时显示,不支持查看,请妥善保管。开通服务如果您是第一次使用智能语音交互产品,推荐您使用阿里云账号开通智能语音交互服务。进入智能语音交互产品首页,单击开通并购买,然后在产品开通页面,选择服务类型并选中服务协议,单击立即开通,即可开通智能语音交互服务。类型说明免费试用版默认全部试用,长文本语音合成、录音文件识别(闲时版)和录音文件识别(极速版)无试用版。新开通服务的用户可免费试用3个月,支持2路并发(即同时最大2个任务)或每日2小时的录音文件识别额度。重要新用户试用期3个月内,每隔24小时可免费识别2小时时长的文件转写服务。免费额度用完后,间隔24小时后可继续试用。商用版选择某个或多个语音服务为商用,开通后按量计费,根据实际使用量从您的阿里云账户余额中扣费。更多信息,请参见计费说明。管理项目登录智能语音交互控制台,创建项目生成Appkey,根据您的使用场景,选择配置项目所需的语音识别和语音合成模型,具体操作,请参见管理项目。一个项目对应一个Appkey,代表智能语音服务的一个业务场景,Appkey在智能语音交互能力体验时是不可或缺的参数值。若您有多个业务场景,并且场景中使用的词汇或者语言不同,您需要创建多个项目,配置不同的热词和语言模型。获取Token访问令牌(Token)是调用智能语音交互服务的服务鉴权凭证。Token在不同项目间、不同进程间、不同线程间都可以共用,需要注意Token有效期根据服务端返回为准,过期前必须提前重新获取Token,建议每天重新获取。为了安全起见,建议您在服务端集成TokenSDK,客户端从服务端获取Token。获取Token方式建议使用场景通过控制台获取Token仅供测试使用,在控制台获取Token。通过SDK获取Token正式环境使用,通过传入AccessKey ID和AccessKey Secret,在SDK通过代码定期自动获取Token。通过OpenAPI获取Token若对应的编程语言缺少SDK,或者需要控制依赖组件,可以通过OpenAPI获取Token。集成开发根据以上几步获取到账号对应的AccessKeyID、AccessKeySecret、服务鉴权Token、以及项目Appkey,必须确保这几项数值归属同一阿里云账号或同一RAM用户。您可以根据以上信息,通过命令行等方式快速体验语音产品能力,具体操作,请参见运行示例。也可以通过SDK和API概览详细了解在各类平台如何将语音识别或语音合成功能集成到您的服务当中。集成运行说明运行示例基于使用阿里云主账号且从控制台获取测试Token来体验产品。主要通过控制台、curl命令行、postman、以及JavaSDK等方式快速体验智能语音交互能力。SDK和API概览RESTfulAPI、移动端、服务端、微信小程序以及WebSocket等多种接入方式。汽车语音交互还有多大可能
看似普通的语音交互,却是汽车交互中应用得最多的方式,市场渗透率超过86%;看似简单的技术,含金量却很高,涉及大数据、云计算、人工智能等多项前沿技术。在完全自动驾驶来临之前,语音交互仍是车内最便捷、最安全,最受用户欢迎的交互方式。
作为“软件定义汽车”的先驱和典型,目前,语音交互有哪些良好体验?还有多大可能?近日,国际车载智能语音巨头Cerence赛轮思首席执行官StefanOrtmanns博士来到上海拜访客户,Stefan在接受记者采访时表示:“我们将持续创新,将语音能力高举高打并引领未来,打造一种完全多模态、多传感器、基于人工智能的最直观的体验。通过更智能的语音助理,不仅提升舒适性和便捷性,还通过主动和被动功能提高驾驶安全。”
语音交互更接近真人
Stefan表示,语音交互能力的提升将对座舱交互生态发展起到核心作用。当前,已经有量产车型可以实现语音连续对话等功能,不过在语音识别和语义理解方面还有很大的提升空间。
语音按钮和唤醒词长期以来都是用户与语音助手开启对话的激活方式。CerenceJustTalk全时免唤醒让人和座舱的语音交互更接近人与人之间的自然对话,使交互变得自然、流畅、愉悦和高效率。
启动CerenceICC多座椅跨区通讯系统后,开车不用回头就可以轻松地和第二、第三排乘客对话聊天。新一代语音增强技术采用了新型超定向波束,不但增强了自适应控制噪音分离,还优化了三排座位的语音交互质量。
CerenceTourGuide助力梅赛德斯-奔驰直观的MBUX智能人机交互系统接入互动旅游内容,将专业导游内容直接、无缝地带进车内,并结合CerenceLook多模视觉语音交互技术,实现车内外视线所及的多模态交互。比如,当你开车经过上海大厦时,你不知道这个建筑物的确切名称,你可以说“告诉我更多关于这个建筑物的信息”。
CerenceEVD警铃侦测系统可以感知到来自车辆后部的紧急车辆,并提示驾驶者重新接管驾驶任务,做出安全的避让动作。
多模态融合
智能座舱是汽车智能化的标志之一,也是各家车企争夺消费者的主战场。超大中控屏幕、零重力座椅、巨幕观影、环绕立体声、卡拉OK、游戏等各种功能应有尽有。随之而来的问题是:一是消费者学习成本上升,功能使用不方便。二是驾驶员操作中控屏,手眼并用存在安全隐患。智能座舱的核心在于交互形式。业内人士认为,智能座舱应该从“堆配置、堆功能”中做“减法”,同时改变目前以触控为主,语音为辅的交互方式。
在Stefan看来,通过智能语音助理结合传感器数据,将实现更多车辆控制功能,大幅提升车载体验。
用户拿着大包小包离开汽车时,可以直接使用语音指令关闭后备箱或车门。上车前调整座舱温度,夏天车内先降温,冬天车内先加热。如果你在车里想和车外的人说话,但基于太冷、太热、不安全,或不方便降下车窗、走出车外等原因,你可以通过CerenceExteriorVehicleInteraction车内外通讯功能一一实现。
作为一个虚拟副驾驶,CerenceCo-Pilot可以分析语音、视线、手势和触摸输入,以及汽车传感器信息,利用实时数据、内置智能、用户偏好和车辆传感器信息实现一系列创新功能,并在他们提出请求前主动发起交互,让语音助理从被动的出行伙伴变成主动的副驾驶。例如,它能够实现车上购物和支付、汽车维护提醒等功能,满足出行过程中的基本需求等。从车载助理到副驾驶,从以驾驶者为中心的智能座舱延伸到沉浸式数字座舱,意味着从对话式AI扩展到多模态Al交互。
ChatGPT引入座舱
眼下,有越来越多的车企正在将ChatGPT概念引入座舱。Stefan表示,一个真正的数字座舱智能语音助理,不仅可以提升安全和生产力,还能为驾驶者带来更多乐趣。
今年4月,CerenceCarKnowledge进行了全面升级。CarKnowledge利用与ChatGPT类似的生成式AI和大型语言模型(LLMs),为驾驶者提出的问题提供上下文感知和个性化的答案。例如,驾驶者可以询问:“我可以远程启动我的车吗?”“我忘带了钥匙,想远程启动我的车。”……所有这些问题都会从用户手册中的相同信息获得一致的答案;但是,每个答案都会根据驾驶者提出的具体问题使用生成式AI回答。由于答案只从OEM提供的数据中生成,并根据特定汽车的型号及配置定制,因此排除了在网上搜索类似问题的不确定性,这让驾驶者对答案的准确度和可信性十分放心。
驾驶者和乘客的客户体验,以及为OEM厂商实现轻松整合和差异化是赛轮思秉持的两个开发重点。CarKnowledge还可以将OEM数据直接导入大型语言模型以实时更新内容,为驾驶者提供可控的、定制的、个性化的体验。目前,已有一家大型北美OEM厂商和一家大型德国OEM厂商采用了CarKnowledge。
CerenceBrowse则是一种崭新的搜索引擎级知识问答体验,通过车载语音助理智能回答,如POI(兴趣点)、特定领域的信息、名人或重要人物知识点等。