博舍

第七章 语音合成系统概述 人工智能语音合成系统设计方案怎么写

第七章 语音合成系统概述

第七章语音合成系统概述

第一节语音合成的发展与应用

语音合成就是将任意文本转换成语音的技术。如果说语音识别是让计算机学会“听”人说话,将输入的语音信号转换成文字,那么语音合成就是让计算机程序把我们输入的文字“说”出来。实际上最早能够形成实用化的语音技术是从语音合成开始的,现在大型的场馆会议和公共场所听到的广播声音大都是用这个技术合成出来的。

语言合成技术的研究已有二百多年的历史,但是真正有实用意义的语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的。一个典型的语音合成系统的前端部分主要是对输入文本进行分析并提取语音建模需要的信息,具体包括分词、词性标注、多音字消岐、字音转换、韵律结构与参数的预测等等。后端的部分读入前端文本分析结果,并结合文本信息对输出的语音进行建模。在合成过程中,后端会利用输入的文本信息和训练好的声学模型,生成语音信号。根据所采用的方法和框架不同,现阶段的语音生成器主要分为波形拼接、参数生成和基于波形的端到端统计合成这三种形式。

当前的TTS技术已经在信息的交流与播报等方面得到广泛应用,它能够全面支持多语种、多方言、多音色的选择,发音水平已经超过真人,专业MOS评分可达4.0以上(最高为5分,代表专业播音员发音自然度)。还可构建如明星声音定制、方言定制等专业音库,满足用户的个性化需求。现阶段语音合成发展的主要目标是进一步提高合成语音的清晰度与自然度、丰富合成语音的表现力、降低技术的复杂度等方面。另外合成语音现在的主要问题是很难体现出情感特征,具体表现为韵律特征上不够灵活,声调变化上相对死板等问题。而企业应该做的就是结合产业需求,把现在能够实现的一些技术更好地转化到应用当中去。

第二节语音合成的流程框架及原理分类

简单来说语音合成的流程分为文本分析、韵律分析和声学分析三个部分。首先通过文本分析提取出音素、词组、短语、句子划分等文本特征,并在此基础上预测基频、时长、能量、节奏等多种韵律特征,最后通过声学模型实现从前端参数到语音参数的映射,通过声码器来合成语音。整个框架类似于“编码、信息匹配,解码的过程”。

常用的波形拼接语音合成法就是从语音语料库中抽取合适的单元,拼接成为句子。而参数语音合成则需要对语音语料库进行参数化建模,根据训练得到的模型预测出输出文本的声学参数和韵律参数。前者需要对录音人进行长达几十个小时以上的专业录音采集,而后者只需要十个小时的录音采集,即可完成一套定制化语音包的制作。在体验效果上,拼接合成的语音更加贴近真实发音,但是通过参数合成的语音更稳定、适应性更强。文语转换系统(TTS)实际上也可看作一个人工智能系统,它先将文字序列转换成音韵序列,再由语音合成器生成语音波形。因此一般说来,文语合成系统都需要一套复杂的文字序列到音素序列的转换程序。当然其中的语音合成器还是最基本的部分,它相当于“人工嘴巴”,任何语音合成系统都离不开它。

按照人类语言功能的不同层次,语言合成也可分成从文字到语音的合成、从概念到语音的合成和从意向到语音的合成三个层次。这三个层次反映了人类大脑中形成说话内容的不同过程,是高级神经活动。为了合成出高质量的语言,除了依赖于语音学、语义学、词汇学中的各种规则外,还必须对文字的内容有很好的理解,这就涉及到前六章中介绍的自然语言理解中的词法分析、句法分析、语义、语用、语境等各种技术了。

第三节波形拼接法与参数合成法

现阶段语音合成主要采用波形拼接合成和统计参数合成两种方式。前者中的波形编码合成是先通过波形编码压缩把录音等方式得到的语音发音波形存储在声学模型中,合成重放时再解码组合输出。另一种波形编辑合成是把波形语音编码技术用于语音合成,首先选取音库中自然语言合成单元的语音波形单元,然后对这些单元进行编辑拼接、数据平滑处理,最后生成输出的语音。

参数合成法也称为分析合成法,通过分析计算提取出语音的各种参数,以压缩存储量,然后由人工控制这些参数用于语音合成。其中的发音器官参数合成法是对人的发音过程直接进行模拟。它先定义唇、舌、声带的相关参数,由发音参数估计声道截面积函数,进而计算声波。由于发音生理过程的复杂性和理论计算与物理模拟的差别,合成语音的质量暂时还不理想。声道模型参数语音合成是模拟人的口腔的声道特性并基于声道谐振特性来合成语音的。其中比较著名的有共振峰以及基于LPC、LSP和LMA等声学参数的合成系统。使用这些方法来建立声学模型的过程为:首先录制典型声音并提取出这些声音的声学参数,然后整合成一个完整的音库。在发音过程中,首先根据需要发的音,从音库中选择合适的声学参数,再加上韵律模型中得到的韵律参数,通过语音合成算法产生TTS语音。

波形语音合成法通常只能合成有限词汇的语音段。目前自动报时、报站或报警等专门用途的语音芯片都采用这种方式。参数语音合成方法的优点是整个系统能适应的韵律特征的范围较宽,合成器比特率低,音质适中;缺点是参数合成技术的参数多,算法复杂,并且在压缩比较大时,信息丢失亦大,合成出的语音总是不够自然清晰。不过工程师们近几年又发展了比特率更大的混合编码技术。

第四节基于PSOLA算法的语音合成及语音语料库

基于规则的语音合成法就是在系统中存储最小语音单位的声学参数--音素,以及由音素组成音节、由音节组成词、由词组成句子和控制音调、音长、轻重音等韵律的各种规则。在输入待合成的文本数据后,系统会利用以上资源自动地将它们转换成连续的语音声波。目前最常的是基音同步叠加技术(PSOLA),其本质上是利用短时傅里叶变换重构信号的叠接相加法,主要包括基音同步分析、基音同步修改、基音同步合成三个步骤。

该方法既能保持所发音的主要音段特征,又能在拼接时灵活调整其基频、时长和强度等超音段特征。其主要步骤是首先根据语义,对被拼接单元的韵律特征进行调整,使合成波形保持原始语音单元的主要音段特征,且保证拼接的韵律特征符合语义,从而获得很高的可懂度和自然度。在对拼接单元的韵律特征进行调整时,它以基音周期的完整性作为保证波形及频谱的平滑连续的基本前提。有别于传统概念上只是将不同的语音单元进行简单拼接的波形编辑合成,PSOLA使用语音学规则从大量语音库中,选择最合适的语音单元来用于拼接。最近在TD-PSOLA的基础上又提出了基音同步的Sinusoidal等新模型,这些对进一步改善系统的性能提供了帮助。

语音语料库是目前主流的语音拼接合成技术的重要组成部分,一个高质量的语料库可以为系统提供良好的语音源文件支撑,从而实现高自然度的发音。语音语料库的构建主要包括设计发音文本、录音及整理、语音标注、建立数据库和数据库管理系统四个过程。目前常使用隐马尔可夫模型方法来进行语音标注中的语音单元的切分和标注,采用动态规划将一串生成的语音单元模板或是模型与给定的一句语音进行对齐,从而得到每个语音单元的起始时间,另外也可以使用自动语音识别中称为强制对齐的方法。

第五节情感语音分析的研究方法

人类之所以能够通过聆听语音捕捉对方情感的变化,是因为人脑具备了感知和理解语音信号中的能够反映说话人情感状态信息的能力。1985年,随着Minsky教授“让计算机具有情感能力”观点的提出,众多的科研机构开始了这个领域的探索,其研究包括情感描述模型、情感语音库、语音情感特征提取、情感识别算法等内容。

自动语音情感识别与生成是计算机对人类情感感知和理解的模拟,其主要过程就是从采集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系。它是计算机情感智能的重要组成部分,具有很大的研究和应用价值。情感描述模型主要分为离散和维度两种形式。前者将情感描述为离散的、形容词标签的形式,如高兴、愤怒等,在日常交流的过程中被广泛使用;后者则将情感状态描述为多维情感空间中的点,理论上该空间的情感描述能力能够涵盖所有的情感状态。当前语音情感特征提取的方法可归纳为韵律学特征、基于谱的相关特征和音质特征这三种类型。

韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排。虽然它不影响我们对字、词、句的听辨,却决定着一句话是否听起来自然。通过对情感语音的相关波谱特征进行研究发现,语音中的情感对频谱能量在各个频谱区间的分布有着明显的影响。在情感语音合成研究方面,Mozziconacci在IPO语调基础上,通过规则的方式,加入了情感控制参数,初步增加了语音合成的表现力。Cahn则在DECTALK语音合成器的基础上,编写了一个情感语音的编辑器,使研究人员可以细致的观测情感参数对语音输出的影响,对情感语音合成的研究起到了较好的推动作用。

第六节深度学习在统计参数语音合成中的应用

基于HMM参数的语音合成已成为当前一种主流的方法,它在训练过程中建立文本参数到音频参数之间的映射关系。但该方法存在其决策树聚类、声码器语音生成、动态参数生成等环节会导致语音音质下降的问题。因此有人提出用深度置信神经网络(DBN)和长短时记忆递归神经网络(LSTM)等神经网络代替决策树的作用,利用神经网络强大的非线性数据模拟能力来建立文本特征和声学特征之间的关系。针对决策树聚类问题,可以通过深层神经网络建立文本特征和声学特征之间的映射关系,替代传统的浅层模型以提高模型精度和表现力。

Char2Wav是一个端到端的语音合成模型,它由读取器和神经声码器两个部分组成。读取器是一个编码器-解码器模型,它的编码器是一个以文本或音素作为输入的双向RNN,而解码器则是一个带有注意力的RNN,会产出声码器合成语音所需要的声学特征。为了获得高质量的输出,研究人员使用了一个经过训练的参数神经模块替代了声码器。他们使用SampleRNN作为增强的函数逼近器,用于在音频信号这样的序列数据中建模长期的语音依存关系,其中的层级结构被设计来捕捉不同时间尺度中序列的动态。这对捕捉远距音频时间步骤(例如,语音信号中的词层面关系)之间的长距关联以及近距音频时间步骤的动态都是有效且必要的。

Char2Wav使用同一模型的条件式版本学习方法,把来自声码器的特征序列映射到相应的音频样本。每个声码器的特征帧都被添加进语音语料库以用作相应状态的最好的额外输入。这使得该模块能使用过去的音频样本和声码器特征帧来生成当前的音频样本。日常生活中我们可能更关注听感,所以可以只在语音合成的后端加入一些文本分析的结果作为对Char2Wav系统预测的补充。

第七节基于深度学习和语音增强

虽然语音合成和语音增强需要解决的问题不同,但是在建模方法上有很多相通之处,可以相互借鉴。有效的语音增强算法一方面可以提高语音可懂度和清晰度,另一方面有助于提高语音识别和声纹识别的鲁棒性。经典的语音增强方法基于一些数学假设,包括谱减法、维纳滤波法、最小均方误差法、盲分离的非负矩阵分解方法等。这些方法在真实环境下难以有效抑制非平稳噪声的干扰。近年来,该领域基于深度学习的方法也得到了极大关注,主要有预测幅值谱信息、预测屏蔽值信息、预测复数谱信息、深度聚类、说话人分离等方法。这些技术已经成功应用到包括韵律模型、声学模型预测等场景,并集成为端到端的语音合成模型。

比较著名的苹果Siri是一种混合语音合成系统,虽然它利用参数合成方法来指导选音,但本质上是一种波形拼接语音合成系统。它的目标是训练一个深度学习的模型来自动预测语音数据库中单元的目标成本和拼接成本。该系统使用深度混合密度模型来预测特征值的分布,在结构上采用了常规的深度神经网络和高斯混合模型的优势,即通过DNN对输入和输出之间的复杂关系进行建模,并且以概率分布作为输出。Siri系统使用了基于MDN统一的目标和拼接模型,能预测语音目标特征(谱、基频、时长)和拼接成本分布,并据此引导基元的搜索。

针对元音发音有时特征相对稳定,有时变化又非常迅速这一问题,系统的模型需要能够根据这种变化对参数做出调整。Siri在模型中使用嵌入方差来解决这一问题。该系统使用快速预选机制、单元剪枝和并行化计算等方法来提高运行速度、减少内存使用,已经可以在移动设备上运行。目前来看,深度学习运用到语音增强中以后,起到了有效抑制各种干扰信号,增强目标语音信号的效果。

第八节基于对抗网络的语音增强

2017年在语音合成方面的最新突破是生成对抗网络(GAN),这种方法能够快速提高系统性能,不需要因果关系和RNN中类似的递归操作。它是一种直接处理原始音频的端到端方法,不需要手工提取特征,无需对原始数据做明显假设;它从不同说话者和不同类型噪声中进行学习,并将它们结合在一起形成相同的共享参数,使得系统简单且泛化能力较强。

有人提出基于RBM-HMM和DBN-HMM的语音合成方法,该方法根据谱参数进行决策树状态聚类。它用每个状态对应的谱包络数据分别训练对应的限制玻尔兹曼机(RBM)或深度信念网络(DBN);合成阶段则采用其显层概率密度函数的特征替代高斯均值。对相关性很强的高维谱包络直接建模,更好地保留了频谱细节,可以更好地拟合谱包络的分布特性,减弱合成语音的过平滑。我们用Baseline表示传统HMM参数合成系统,使用高斯分布描述每个HMM状态的倒谱特征分布;GMM(8)系统使用8个分量的高斯混合模型描述每个HMM状态的谱包络分布;RBM(50)系统使用隐层节点数为50的RBM模型描述状态谱包络分布。实验证明RBM(50)系统可以取得显著优于Baseline和GMM(8)系统的合成语音自然度倾向性得分。

深度神经网络(DNN)的语音合成方法在训练阶段利用GAN取代传统的基于HMM参数合成方法中的决策树和GMM模型,建立从语言学特征到声学特征的映射关系;在合成阶段直接用DNN预测值替换传统方法的高斯均值,对应的训练数据方差替换传统方法中高斯模型的方差,进行参数生成。还有科学家针对语音合成的特点提出了MD-DBN模型(Multi-DistributionDBN)。借助MD-DBN中不同类型的RBM可以同时对频谱、基频以及清浊特征建模,并估计音节和声学特征的联合概率分布。实验证明,该模型用于频谱特征建模和预测可以将合成语音自然度的MOS得分提升0.2分。

第九节几种语音合成器的原理简介

语音合成器的主要功能是根据韵律建模的结果,从原始语音库中选出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。常用的语音合成技术主要有:共振峰合成、LPC合成、PSOLA拼接合成和LMA声道模型技术。人们在实际应用过程中往往将多种技术有机地结合在一起,或将一种技术的优点运用到另一种技术上,以提高系统的整体性能。

共振峰模型是一种模拟人体声道比较准确的技术,可以合成出自然度较高的语音;另外由于共振峰参数直接对应于声道参数,有着明确的物理意义,因此可以利用共振峰来描述自然语流中的各种现象,总结出有关的声学规则,并用于共振峰语音合成系统。实际工作表明,共振峰模型虽然描述了语音中最基本的部分,但并不能表征影响语音自然度的其他许多细微的语音成分,从而影响了合成语音的自然度。另外,共振峰合成器的控制十分复杂,对于一个较好的合成器来说,其控制参数往往达到几十个,实现起来比较困难。

LPC和PSOLA技术都是基于波形拼接合成技术的代表。前者本质上是一种时间波形的编码技术,目的是为了降低时域信号的传输速率。LPC合成过程是一种简单的解码和拼接过程,从本质上来说是一种录音+重放。PSOLA则着眼于对语音信号超时段特征的控制,它比LPC具有可修改性更强的优点。PSOLA首先根据上下文的要求对拼接单元的韵律特征进行调整,使合成波形既保持了原始发音的主要音段特征,又能使拼接单元的韵律特征符合上下文的要求。另外基于LMA声道模型的语音合成方法既有参数合成可以灵活调节韵律参数的优点,又有更高的合成音质,是一种极具发展前景的技术。

第十节百度的DeepVoice系统简介

传统语音合成需要进行大量的特征处理和构建,但通过使用深度学习的模型框架可以避免这些问题。百度的AndrewNg团队构建并开源了全部使用深度学习模型的DeepVoice语音合成系统。相比于WaveNet,百度语音合成系统的有效速度提升了400倍。如果将其应用于新的数据集,进行手动操作和训练模型所需的时间只要几个小时就足够了。

DeepVoice处理一个简单文本的步骤为:首先将文本转换为音素;然后预测每个音素的发音持续时间与频率。最后结合音素、发音持续时间和频率,输出表示文本的声波。DeepVoice需要非常少的特征工程,设计的模型能实时进行推理,因此可以方便地应用于不同的数据集。另外其TTS系统的训练周期从之前的几周时间下降到几个小时即可完成训练。系统可以在几分之一秒内合成音频,并在合成速度和音频质量之间提供可调谐的权衡。

百度语音合成的REST应用程序接口(API)已经开放,语音合成具体应用方面目前支持中文普通话、中英文混读男声和女声播报。暂时没有开放纯离线模式下的语音合成软件开发工具包(SDK,SoftwareDevelopmentKit),但是开放了离在线融合语音合成SDK,会自动判断当前网络环境,自动匹配使用离线还是在线合成引擎。可以通过SpeechSynthesizerListener的onNewDataArrive方法获取音频数据。具体使用步骤是登录百度语音开放平台,注册百度开发者并创建应用,在首页登陆已经注册为开发者的百度账号,然后点击页面上方的“应用管理”进入应用管理页面。如果您之前在百度开发者中心创建过应用,则会出现您之前曾经创建过的应用;如果您之前没有创建过应用,则需要新创建一个应用,最后开通服务就可以了。是不是很简单、很贴心呢?

,2.3��R�р

智能语音方案比对介绍

语音方案比对介绍

语音交互是现今应用最多的智能交互方式,在人工智能越来越火的当下应用十分广泛,所以特别针对车内环境,在驾驶员安心驾驶的时候,用语音可以安全的进行操控,所以针对公司的车联网的业务需求,我做了一个语音方案的研究和比对。

语音需求

整体来说语音需求,选择的语音方案至少要满足语音唤醒,语音合成,语义解析三大基础功能1.语音唤醒:能够通过唤醒词,唤醒语音助手,进行后续用户语义的识别,免去手动点击唤醒的操作2.语音合成:俗称TTS(TextToSpeech),支持将文本转换成语音播报出来3.语义解析:支持将用户输入的语音,转换成文本,并进行相应的分析,定位到相应的场景,关键字返回结果帮助我们定位到用户需求。例如:“导航到深圳北站”,除了解析语音返回整句文本之外,还需要定位到这是地图场景,关键字是POI点深圳北站

语音方案

现今市面上比较常用的语音方案有:腾讯云语音,讯飞语音,百度语音,思必驰,云知声,同行者,搜狗语音云

智能家居语音控制系统的设计与实现

1项目概况1.1背景和基础

通过人工智能,大数据,云计算,5G等多项技术驱动下,智能家居开始进入快速发展的阶段,逐渐代替了传统家居。在2019年的政府工作报告中,明确政策导向已经证明了“智能+”在我国的前景广阔。36kr《智能家居行业研究报告》预测2023年中国智能家居市场规模将突破5000亿元,我国各大传统家电巨头与互联网家电企业争相抢占市场。根据ForresterResearch的一项新预测,在智能扬声器快速普及的推动下,美国智能家居设备的安装数量将在2022年达到2.44亿,高于2016年的2400万。虽然智能家居市场广阔、产品种类丰富,但其生态链仍不够完善,不同品牌的智能家居设备之间缺少网络连接,再加上大部分家居设备必须依赖单独的APP,使得智能家居存在着系统不兼容、操作复杂、功能单一等问题。再者,目前市场上大部分智能设备的价格普遍偏高,阻碍了智能家居的普及效率。另外,随着空巢老人数量的不断增加,以及越来越多的青年开始独居生活,单身经济将成为未来的一大发展趋势。为此,简化智能家居设备的操作、提高智能家居的安全、降低智能家居的使用成本、以及能够提供多样性功能的家居系统才是智能家居行业快速发展的根本。

1.2场景和价值

近年来,人工智能、大数据、云计算、5G等多项技术快速发展,这些高端技术逐渐被用于智能家居的研发中,如今,已有不少研发成果,但普遍仍存在着以下几个问题:

没有规范和统一的行业标准,不同厂家之间研发的智能家居系统无法兼容,用户选择范围受到限制,使用成本高。智能家居设备在安装、使用过程中的操作步骤都过于繁杂,入门门槛高。依托APP的智能家居系统家庭隐私及设备的安全可靠系数低,风险性高。4)目前智能家具产品仍处于数字家居阶段,主要功能多维遥控,无法自动根据用户需求提供个性化的服务,智能化水平相对较低。由于噪声的存在,语音识别的准确率会大大下降。针对以上问题,本系统做出如下设计与改进:1)针对问题一,本系统拟使用价格低廉却拥有强大处理器的树莓派为用户制定一套全屋智能家居,降低产品成本的同时也能满足用户日常所需功能。2)针对问题二,本系统整体采用语音控制,用户只需唤醒词唤醒,发送对应的语音指令,即可完成指定功能,用户无需停下手中事务去操作便能达到目的,使用更加简洁。3)针对问题三,本系统不依托于任何APP,为了保护用户的隐私,防止非家庭成员的侵入,在语音控制端采用了指定关键词唤醒,在硬件控制端采用了人脸识别检测,在软件控制端采取了邮件提醒,三层防护机制提高了智能家居的安全可靠性。针对问题四,本系统拟采用VAD算法对用户的语音指令进行降噪处理,消除一些无效的背景噪声,提高了语音识别的准确率。针对问题五,本系统拟通过离线使用以训练好的人脸识别、语音识别、文本识别等网络模型,实现语音聊天、安防系统定制,用户意图预测等个性化功能。基于以上分析,目前本系统设计并实现了以下功能:语音唤醒、智能聊天、硬件控制、待办事项提醒。其中智能聊天由包括垃圾分类、生活指南、天气情况、语音聊天功能;硬件控制包括家电控制、智能门禁、智能门铃功能。下图详细的列出了本系统的功能需求。

注:待办事项提醒功能已升级为智能语音提醒。

2项目规划2.1整体目标

系统分为两种模式,其一为主人模式,其二为访客模式。在主人模式下,用户只需唤醒系统来让它执行要求的功能,旨在为用户提供了更简洁便利的家居生活。访客模式主要是为客人的到访而设计,若客人到访无人在家,系统拍照发送给主人,让主人实时掌握家里访客记录,还提供了留言功能,待客人留言后系统便将其内容发送到主人邮箱。简而言之,系统通过用户发送不同的语音指令或操作来执行不同的功能,从而达到语音控制的效果。系统设计流程下图所示:

用户通过唤醒词“依米”唤醒系统来发送语音指令进行控制,从而使系统执行所需功能

硬件控制:

家电控制功能

智能门铃功能

提醒功能

提醒功能

智能闲聊功能

语音闲聊功能

垃圾分类功能

生活指南功能

查询天气功能

后期考虑开发更多硬件控制功能,如语音控制空凋、窗帘等;加入温度、湿度传感器,感知并智能提醒以及调控;开发APP,用户可通过APP进行个性化定制,如,设置自己的唤醒词,定时发送天气预报到自己邮箱,定时提醒,定时进行某些硬件控制。

整个系统的实现代码链接:https://download.csdn.net/download/EmithFla/12682313

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇