MetaAI发布人工智能语音模型Voicebox
Meta官网博客更新:人工智能研究人员在语音生成人工智能方面取得了突破。我们开发了Voicebox,这是第一个可以推广到语音生成任务的模型,它没有经过专门训练,以最先进的性能来完成。
与图像和文本的生成系统一样,Voicebox以各种风格创建输出,它可以从头开始创建输出,也可以修改给出的样本。但是,Voicebox不是创建图片或文本段落,而是生成高质量的音频剪辑。该模型可以跨六种语言合成语音,以及执行降噪、内容编辑、样式转换和多样化的样本生成。
论文地址:https://research.facebook.com/file/649409006862002/paper_fixed.pdf
MatthewLe,ApoorvVyas,BowenShi,BrianKarrer,LedaSari,RashelMoritz,MaryWilliamson,VimalManohar,YossiAdi,JayMahadeokar,Wei-NingHsu。
在Voicebox之前,生成语音人工智能需要使用精心准备的训练数据对每项任务进行特定培训。Voicebox使用一种新方法,仅从原始音频和随附的转录中学习。与音频生成的自动回归模型不同,Voicebox可以修改给定样本的任何部分,而不仅仅是给定音频剪辑的结尾。
Voicebox基于一种名为FlowMatching的方法,该方法已被证明可以改进扩散模型。Voicebox在零拍摄文本转语音方面优于当前最先进的英语模型VALL-E,在可理解性(5.9%对1.9%的单词错误率)和音频相似性(0.580对0.681)方面,同时速度高达20倍。对于跨语言风格的传输,Voicebox的性能优于YourTTS,将平均单词错误率从10.9%降低到5.2%,并将音频相似性从0.335提高到0.481。
Voicebox还分别在英语和多语言基准的音频风格相似性指标上取得了新的先进成果。 生成语音模型有许多令人兴奋的用例,但由于滥用的潜在风险,我们目前没有公开Voicebox模型或代码。虽然我们认为必须向人工智能社区开放,并分享我们的研究,以推进人工智能的最新技术,但也有必要在开放与责任之间取得适当的平衡。考虑到这些,今天我们正在分享音频样本和一份研究论文,详细说明我们所取得的方法和结果。在论文中,我们还详细介绍了我们如何构建一个高效的分类器,可以区分使用Voicebox生成的真实语音和音频。语音生成的新方法
现有语音合成器的主要局限性之一是,它们只能根据专门为该任务准备的数据进行训练。这些输入——被称为单调、干净的数据——很难产生,因此它们只存在于有限的数量上,它们导致听起来单调的输出。
我们在流匹配模型上构建了Voicebox,这是Meta在非自回归生成模型上的最新进展,该模型可以学习文本和语音之间的高度非确定性映射。非确定性映射很有用,因为它使Voicebox能够从不同的语音数据中学习,而无需仔细标记这些变体。这意味着Voicebox可以在更多样化的数据和更大规模的数据上进行训练。
我们用英语、法语、西班牙语、德语、波兰语和葡萄牙语的公共领域有声读物录制了超过5万小时的演讲和成绩单。Voicebox经过训练,在给定周围的演讲和该段的成绩单时预测演讲段。在学会了从上下文填充语音后,该模型可以将其应用于语音生成任务,包括在音频录制中间生成部分,而无需重新创建整个输入。
这种多功能性使Voicebox能够在各种任务中执行良好,包括:
上下文文本到语音合成:使用长度仅两秒钟的输入音频样本,Voicebox可以匹配样本的音频样式,并将其用于文本到语音生成。未来的项目可以利用这种能力,为不会说话的人带来演讲,或者允许人们自定义非玩家角色和虚拟助理使用的声音。
跨语言风格转换:给定英语、法语、德语、西班牙语、波兰语或葡萄牙语的语音样本和一段文本,Voicebox可以读取该语言的文本。这种能力令人兴奋,因为在未来,它可用于帮助人们以自然、真实的方式进行交流——即使他们不会说相同的语言。
人工智能在城市治理中的应用研究
人工智能在城市治理中的应用研究 随着科技的不断发展,人工智能应用已然成为了当今世界的热门话题。人工智能在城市治理中的应用也逐渐得到了广泛的关注。本文将探讨人工智能在城市治理中的应用研究。 一、人工智能能为城市治理带来哪些改变? 首先,通过人工智能技术的应用,城市管理能够智能化、信息化。例如,智能交通管理系统能够通过场景重建、车辆行驶轨迹分析等数据分析和挖掘技术,实现全流程监控和管理。其次,运用物联网、传感器等技术,城市治理能够建立智慧城市平台,对道路、房屋、环境等方面进行实时监控和数据分析。最后,通过大数据技术的应用,人工智能能够为城市提供具有参考价值的数据分析与决策支持,帮助城市管理者更加精准地制定决策,优化城市治理。 二、人工智能在城市治理中的运用 1. 智慧交通银行智能客服机器人应用场景有哪些
这个场景你肯定熟悉:一到休息日,银行就人满为患,银行工作人员分身乏术。这边焦急的业务办理者等着叫号,那边办理人员又得负责营销。业务办理效率慢、客户体验也大打折扣。如果这时候银行大厅里有一个机器人,这些“疑难杂症”就会轻松不少。如今,银行机器人也能办理业务了,一键人脸识别,个人信息轻松录入。语音识别让老年人群体的业务办理更加方便,机器人辅助人工,智能导航让业务办理简单化。
银行机器人的应用场景目前银行客服机器人可以帮助银行客户办理掌银下载、掌银注册、掌银支付、掌银活跃、信用卡申请、信用卡开卡、微信绑卡、业务介绍能模块的业务。沃丰科技智能客服机器人可以帮助银行完成以下场景工作:
1.自助缴费
可以在机器人的大屏上,展示可以办理的在线办理事项,包括水费缴纳、电费缴纳燃气费缴纳、供暖费缴纳、有线电视费缴纳物业费缴纳、党费缴纳、工会费缴纳等。沃丰科技智能机器人提供丰富的API接口,可与企业CRM、ERP、物流等系统对接,可有效利用业务系统,查询访客各类信息,快速解决访客的业务问题。
2.银行业务问答
通过配置相关业务知识库,可以为到网点的用户提供银行常见业务问答服务,减少网点工作人员的问答工作量。沃丰科技KCS知识库可以将机器人知识库、IM问题库、多个知识库进行打通,完成知识信息的统一管理,另外可以将知识库嵌入多个第三方系统平台,进行个性化定制。以某种科学的方法论管理知识的全生命周期,能够支持多种类型的知识,包括FAQ、文档、视频、知识图谱等,能够提供了精准搜索的能力,使用者可快速获取需要的知识。支持多知识库的统一维护,通过即时反馈机制保证知识库的动态更新。
3.金融知识问答
到银行就是办业务,除了银行服务项目问答,也可以加入基础金融知识问答功能,例如人民币知识,理财知识等,减少网点工作人员服务工作量。沃丰科技智能客服机器人基于NLP(自然语言处理)技术,对访客的问题进行过滤纠错、词法分析、上下文理解、匹配算法、特性词检索等自然语言理解后,再次进行主动理解、模糊推理,让访客以最自然的方式表述直接的问题,并获得其最想要的精准信息。
4.银行大厅智能导航
基于自主研发的语音识别、语义理解、自然语言处理、语音合成、大数据分析等AI技术,分析客户问题,进行智能引导,必要时可一键呼叫大堂经理,与此同时还能建立反诈宣传、提供基础信息循环播报功能。
作为国内从事人工智能产业化应用的企业之一,沃丰科技积累了丰富行业经验,能够更好地与客户业务进行对接,实现IVR系统平滑升级,构建AI竞争力。