文本转语音概述
你当前正在访问MicrosoftAzureGlobalEdition技术文档网站。如果需要访问由世纪互联运营的MicrosoftAzure中国技术文档网站,请访问https://docs.azure.cn。
什么是文本转语音?项目07/12/2023本概述介绍了语音服务的文本转语音功能的优点和功能,该功能是Azure认知服务的一部分。
文本转语音可让应用程序、工具或设备将文本转换为类似于人类的合成语音。文本转语音功能也称为语音合成。使用现成的类似于人类的预生成神经网络声音,或根据你的产品或品牌创建独特的神经网络定制声音。有关支持的声音、语言和区域设置的完整列表,请参阅语音服务的语言和声音支持。
核心功能文本转语音包括以下功能:
功能总结演示预生成的神经网络声音(在定价页面中称为“神经网络”)高度自然的现成语音。创建Azure帐户和语音服务订阅,然后使用语音SDK或访问SpeechStudio门户,并选择预生成的神经网络声音即可开始使用。请查看定价详细信息。查看语音库,确定适合你的业务需求的语音。神经网络定制声音(在定价页面中称为“神经网络定制”)易于使用的自助服务,可创建自然的品牌语音并限制访问,使用户以负责的态度使用。创建Azure帐户和语音服务订阅(使用S0层),并申请使用神经网络定制功能。获得访问权限后,访问SpeechStudio门户,选择“定制声音”即可开始使用。请查看定价详细信息。查看语音示例。关于神经网络文本转语音功能的详细信息Azure上语音服务的文本转语音功能已完全升级为神经网络文本转语音引擎。此引擎使用深度神经网络,使计算机的声音与人类录音几乎无法区分。神经网络文本转语音可提供清晰的发音,显著减轻用户在与AI系统交互时的听力疲劳。
口语中的重音和语调模式称为韵律。传统的文本转语音系统将韵律分解为单独的语言分析和声学预测步骤,这些步骤由独立的模型控制。这可能会导致语音合成杂乱、声调不一。
下面是有关语音服务中的神经网络文本转语音功能的详细信息,以及它们如何克服传统的文本转语音系统的限制:
实时语音合成-使用语音SDK或RESTAPI通过预生成的神经网络语音或自定义神经网络语音将文本转换为语音。
长音频的异步合成:使用批量合成API(预览版)异步合成10分钟以上的文本转语音文件(例如有声书籍或讲座)。与通过语音SDK或语音转文本RESTAPI执行的合成不同的是,响应不会实时返回。预期会异步发送请求,轮询响应,并在服务可用时下载合成音频。
预生成的神经网络语音-Microsoft神经网络文本转语音功能将使用深度神经网络来克服传统语音合成在口语的重音和语调方面的局限性。韵律预测和语音合成以同步方式发生,使输出听起来更流畅且自然。每个预生成的神经网络声音模型在24kHz和高保真48kHz上可用。你可以使用神经网络声音执行以下操作:
让与聊天机器人和语音助手的互动更加自然和吸引人。将电子书等数字文本转换为有声读物。增强车内导航系统。有关平台神经网络声音的完整列表,请参阅语音服务的语言和声音支持。
使用SSML微调文本转语音输出:语音合成标记语言(SSML)是一种基于XML的标记语言,用于对文本转语音输出进行自定义。使用SSML,你可以调整音调、添加暂停、改进发音、更改语速、调整音量,以及将多个语音归属到单个文档。
可以使用SSML定义自己的词典或切换到不同的说话风格。使用多语言语音,还可通过SSML调整口语。若要微调方案的语音输出,请参阅使用语音合成标记语言改进合成和使用音频内容创建工具进行语音合成。
视素-视素是观察到的语音中的关键姿态,包括在产生特定音素时嘴唇、下巴和舌头的位置。视素与语音和音素有很强的关联性。
通过在语音SDK中使用视素事件,可以生成面部动画数据。此数据用于制作唇读交流、教育、娱乐和客户服务等方面的面部动画。视素目前仅支持en-US(美式英语)神经网络声音。
备注
我们计划在2024年停用传统/标准语音和非神经网络定制声音。之后,我们将不再支持它们。
如果你的应用程序、工具或产品目前正在使用任何标准语音和定制声音,则必须迁移到神经网络版本。有关详细信息,请参阅迁移到神经网络声音。
入门若要开始使用文本转语音,请参阅快速入门。文本转语音通过语音SDK、RESTAPI和语音CLI提供。
提示
若要使用无代码方法将文本转换为语音,请尝试在SpeechStudio中使用有声内容创作工具。
代码示例GitHub上提供了文本转语音的示例代码。这些示例涵盖了大多数流行编程语言形式的文本转语音转换:
文本转语音示例(SDK)文本转语音示例(REST)自定义神经语音除了预生成的神经网络声音外,还可以创建和微调产品或品牌独有的神经网络定制声音。只需准备好几个音频文件和关联的听录内容即可开始。有关详细信息,请参阅神经网络定制声音入门。
定价说明计费字符使用文本转语音功能时,将按照转换为语音的每个字符(包括标点)付费。尽管SSML文档本身不计费,但用于调整文本转语音方式的可选元素(例如音素和音节)将算作计费字符。下面列出了计费的内容:
在请求的SSML正文中传递给文本转语音功能的文本请求正文的文本字段中所有SSML格式的标记,和标记除外字母、标点、空格、制表符、标记和所有空白字符Unicode中定义的每个码位有关详细信息,请参阅语音服务定价。
重要
每个汉字算作两个计费字符,包括日文汉字、韩文汉字或其他语言中用到的汉字。
神经网络定制声音的模型训练和托管时间神经网络定制声音训练和托管均按小时计算,并按秒计费。有关计费单价,请参阅语音服务定价。
神经网络定制声音(CNV)训练时间通过“计算小时数”(一种度量计算机运行时间的单位)来度量。通常,在训练语音模型时,两个计算任务并行运行。因此,计算的计算小时数将长于实际训练时间。平均而言,训练一个CNV精简版语音需要不到一个计算小时;而对于CNV专业版,训练一个单一风格的语音通常需要20到40个计算小时,训练一个多风格的语音通常需要大约90个计算小时。CNV训练时间的计费上限为96个计算小时。因此,如果语音模型在98个计算小时内训练,则只需支付96个计算小时的费用。
神经网络定制声音(CNV)终结点托管由实际时间(小时)度量。每个终结点的托管时间(小时)在前24小时内每天00:00UTC计算。例如,如果终结点在第一天处于活动状态24小时,则将在第二天的00:00UTC按24小时对其计费。如果该终结点是新创建的终结点或已在当天暂停,则将按在第二天00:00UTC之前其累积的运行时间对其计费。如果终结点当前未托管,则不对其计费。除了每天00:00UTC的每日计算外,在删除或暂停终结点时也会立即触发计费。例如,对于在12月1日08:00UTC创建的终结点,托管小时数在12月2日00:00UTC和12月3日00:00UTC将分别被计算为16小时和24小时。如果用户在12月3日16:30UTC暂停托管终结点,则将计算12月3日00:00至16:30UTC的持续时间(16.5小时)以进行计费。
参考文档语音SDKRESTAPI:文本转语音负责任的AIAI系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。阅读透明度说明,了解如何在系统中负责任地使用和部署AI。
神经网络定制声音的透明度说明和用例使用神经网络定制声音的特征和限制对神经网络定制声音的受限访问合成语音技术的负责任的部署指南针对发音人披露披露设计准则披露设计模式文本转语音集成的行为准则神经网络定制声音的数据、隐私和安全性后续步骤文本转语音快速入门获取语音SDK