思必驰:从感知智能到认知智能,打造产业级人机智能对话交互能力
随着智能硬件物联网的快速发展,人们对于智能语音交互技术的需求也越来越高。传统的语音技术虽然能够进行语音识别和合成,但在端到端的、非配合的自然口语交互模式下,识别率已经不再是唯一的核心指标。作为一家专注于智能语音交互技术的公司,思必驰更加重视端到端的、非配合的自然口语交互技术的研发,以提高用户的交互体验。
在这种端到端、非配合的口语交互模式下,机器需要具备认知智能,能够理解交互语境、理解声学环境和语言领域,跨模块融合信息进行理解、学习、推理和反馈。这就需要在传统的感知环节以外加入认知智能,并进行场景和领域自适应,形成具备容错、调节、适应能力的个性化的认知型对话系统。
对此,思必驰以基础算法技术为依托,自主研发了一系列面向产业落地的特色技术和能力。
个性化声音复刻技术
思必驰基于深度学习模型自适应技术,已实现基于非严格控制条件的小数据的高质量语音合成模型自适应,可快速复刻说话人的声音特性,实现个性化语音合成。
例如近期思必驰推出的一句话复刻功能,用户仅需录制一句话,即可复刻出自己的音色,然后输入任意文本,即可聆听由自己音色朗读的内容。
目前,思必驰“声音复刻”技术服务,支持男声、女声、童声的复刻,支持中、英文文本,支持UTF-8等多种文本格式,支持SSML标签控制。同时,该服务支持8k、16k、32k等多种采样率,支持合成mp3、wav、pcm等多种音频格式。声音复刻技术可应用于导航播报、讲故事、新闻播报、短视频配音等场景。
全双工交互技术
思必驰实现基于语义打断的全双工交互技术,机器与人可以在无唤醒情况下进行持续交互,且无关的语言不会影响任务型对话的正常继续。
例如在公共交通领域,思必驰打造了全双工智能语音交互系统的轨交智慧车站Turnkey产品级解决方案,通过为轨交车站大厅提供智能客服一体机、智能知识管理后台等,解决用户语音购票、语音咨询、服务自助处理等问题,即便乘坐公共交通,也能感受到思必驰的贴心服务。
这些技术和能力的综合应用,使得思必驰的智能语音交互系统能够在不同的场景和领域中发挥出最佳的作用。
在智能硬件物联网的时代下,智能语音交互技术已经成为了人们生活中不可或缺的一部分。思必驰将继续致力于研发更加先进、更加智能的语音交互技术,为人们的生活带来更多的便利和舒适。
延伸阅读:
技术解读思必驰DUI标注训练一体化平台,语音识别全场景覆盖NLPCC2021丨思必驰NLU技术再突破,开拓服务数字化新视角0
思必驰情感语音合成“以声传情”,让机器人表达更有温度
当我们回到家,智能管家会热情地欢迎你回家。
智能管家愉悦的声音和贴心的操作,让我们缓解情绪,享受24h拥有热水的家。
在人机沟通中,“高兴、撒娇、抱歉”等各种带有情感色彩的音色为机器人的情感表达赋予了更多活力,提升了人机交互体验。
基于深度学习技术和定制情感录音,思必驰发音人音色定制平台不仅能快速定制音色,更能合成高音质、多情感的音色,可呈现“高兴、抱歉、撒娇、中性”等多种情感声音,在韵律表现、声音层次感、情感表达等方面做到更加接近真人情感化表达的语音效果。
语音传情,思必驰打造多情感音色
音色是指不同声音表现在波形方面有与众不同的特性,不同的发声体由于其材料、结构不同,则发出声音的音色也不同。例如钢琴、小提琴和人发出的声音不一样,每一个人发出的声音也不一样。因此,音色也就是声音的特征。
人类的音色与机械音色不同的是,人类音色中更多的是含有高兴、抱歉、中性、撒娇等多种情感音色,能更精准的传达情绪。在智能语音应用普及的时代,平铺直叙式的合成语音已经不能满足场景需求,为机器合成音色注入情感成为人机沟通必不可少的一环。
思必驰发音人音色定制平台可高度模拟发音人的音色、韵律和停顿习惯,定制出高兴、抱歉、中性、撒娇等情感丰富的音色,满足人机交互、有声阅读、智能客服、语音助手、热门IP、新闻播报等场景的音色需求。用户仅需上传少量数据即可定制,简单快捷无技术门槛,普通用户也可快速定制专属音色。
例如,在智能客服场景中,面对顾客投诉反馈意见时,智能客服需要模仿人类的情绪,发出抱歉的情感音色来表达对顾客的歉意。
在有声阅读中,情绪的波动转折更加丰富,需要根据故事情节的发展表达不同情感,有表达愉悦的高兴音色、也有撒娇等音色。
在天气播报中,需要正式且亲和,情感含蓄的中性音色。
思必驰打造的情感音色,具有以下特色:
多情绪风格
覆盖“高兴、抱歉、中性、撒娇”等多个维度的情感音色表达,满足不同场景的合成需求;
音色可定制化
可根据企业客户不同定制需求,选择定制特定音色、特定情感;
音质更真实自然
合成的情感音色在情绪上富有表现力,更接近真人的韵律、情感,真实流畅,可进行高度拟人化的情感表达;
应用场景丰富
可应用在有声阅读、智能客服、语音助手、视频配音等多行业场景,提高人机交互体验,让互动充满乐趣。
背靠DUI平台,技能满格
经过多年的技术积累沉淀,思必驰已逐步形成了一套成熟的技术方案,语音合成服务已在车载、家电、智能客服等多个领域成功落地,为众多产品赋予了说话的能力。
在语音合成领域,此前已上线“声音复刻”服务,该服务支持男声、女声、童声的复刻,支持中、英文文本。
音色合成、声音复刻等各种个性化的赋能离不开思必驰DUI开放平台的支撑。思必驰DUI开放平台是为设备赋能语音交互场景的开发配置平台。语音交互过程涉及从声音采集、前端信号处理、语音唤醒、语音识别、语义理解、智能对话、资源调用、回复内容生成、动作执行、合成音播报的主要环节,思必驰DUI系统支持全链路语音技术使用,也支持单点技术应用,如语音唤醒、语音识别的单独使用或一两个联合使用。
去年,思必驰上线DUI标注训练一体化平台,提供数据标注-模型优化-测试评估-服务部署完整链路语音识别自主优化能力,支持私有化部署,协助企业在短期内实现识别效果“不可用->可用”的提升,实现快速更新响应,持续提升场景识别效果。
近期,思必驰即将上线语音识别自训练2.0版本,在功能、技术上做了进一步升级。未来,思必驰将持续推出创新服务,加快AI技术的场景落地能力,敬请期待!