中国语音识别行业现状深度研究与发展前景预测报告(2023
资料来源:IT桔子
截止至2022年5月25日,语音识别行业共发生投融资事件367起,其中A轮发生的投资事件最多,数量为143起,其次为天使轮,数量为69起。
数据来源:IT桔子
2022年1-5月25日语音识别行业共发生投资事件13起,当前已披露投资金额最大的事件为Rokid若琪收到的C轮,金额为7亿人民币。
2022年1-5月25日语音识别行业投融资详情汇总
数据来源:IT桔子(XD)
观研报告网发布的《中国语音识别行业现状深度研究与发展前景预测报告(2022-2029年)》涵盖行业最新数据,市场热点,政策规划,竞争情报,市场前景预测,投资策略等内容。更辅以大量直观的图表帮助本行业企业准确把握行业发展态势、市场商机动向、正确制定企业竞争战略和投资策略。本报告依据国家统计局、海关总署和国家信息中心等渠道发布的权威数据,结合了行业所处的环境,从理论到实践、从宏观到微观等多个角度进行市场调研分析。
行业报告是业内企业、相关投资公司及政府部门准确把握行业发展趋势,洞悉行业竞争格局,规避经营和投资风险,制定正确竞争和投资战略决策的重要决策依据之一。本报告是全面了解行业以及对本行业进行投资不可或缺的重要工具。观研天下是国内知名的行业信息咨询机构,拥有资深的专家团队,多年来已经为上万家企业单位、咨询机构、金融机构、行业协会、个人投资者等提供了专业的行业分析报告,客户涵盖了华为、中国石油、中国电信、中国建筑、惠普、迪士尼等国内外行业领先企业,并得到了客户的广泛认可。
本研究报告数据主要采用国家统计数据,海关总署,问卷调查数据,商务部采集数据等数据库。其中宏观经济数据主要来自国家统计局,部分行业统计数据主要来自国家统计局及市场调研数据,企业数据主要来自于国家统计局规模企业统计数据库及证券交易所等,价格数据主要来自于各类市场监测数据库。本研究报告采用的行业分析方法包括波特五力模型分析法、SWOT分析法、PEST分析法,对行业进行全面的内外部环境分析,同时通过资深分析师对目前国家经济形势的走势以及市场发展趋势和当前行业热点分析,预测行业未来的发展方向、新兴热点、市场空间、技术趋势以及未来发展战略等。
【目录大纲】
第一章2018-2022年中国语音识别行业发展概述
第一节语音识别行业发展情况概述
一、语音识别行业相关定义
二、语音识别特点分析
三、语音识别行业基本情况介绍
四、语音识别行业经营模式
1、生产模式
2、采购模式
3、销售/服务模式
五、语音识别行业需求主体分析
第二节中国语音识别行业生命周期分析
一、语音识别行业生命周期理论概述
二、语音识别行业所属的生命周期分析
第三节语音识别行业经济指标分析
一、语音识别行业的赢利性分析
二、语音识别行业的经济周期分析
三、语音识别行业附加值的提升空间分析
第二章2018-2022年全球语音识别行业市场发展现状分析
第一节全球语音识别行业发展历程回顾
第二节全球语音识别行业市场规模与区域分布情况
第三节亚洲语音识别行业地区市场分析
一、亚洲语音识别行业市场现状分析
二、亚洲语音识别行业市场规模与市场需求分析
三、亚洲语音识别行业市场前景分析
第四节北美语音识别行业地区市场分析
一、北美语音识别行业市场现状分析
二、北美语音识别行业市场规模与市场需求分析
三、北美语音识别行业市场前景分析
第五节欧洲语音识别行业地区市场分析
一、欧洲语音识别行业市场现状分析
二、欧洲语音识别行业市场规模与市场需求分析
三、欧洲语音识别行业市场前景分析
第六节2022-2029年世界语音识别行业分布走势预测
第七节2022-2029年全球语音识别行业市场规模预测
第三章中国语音识别行业产业发展环境分析
第一节我国宏观经济环境分析
一、中国GDP增长情况分析
二、工业经济发展形势分析
三、社会固定资产投资分析
四、全社会消费品零售总额
五、城乡居民收入增长分析
六、居民消费价格变化分析
七、对外贸易发展形势分析
第二节我国宏观经济环境对语音识别行业的影响分析
第三节中国语音识别行业政策环境分析
一、行业监管体制现状
二、行业主要政策法规
三、主要行业标准
第四节政策环境对语音识别行业的影响分析
第五节中国语音识别行业产业社会环境分析
第四章中国语音识别行业运行情况
第一节中国语音识别行业发展状况情况介绍
一、行业发展历程回顾
二、行业创新情况分析
三、行业发展特点分析
第二节中国语音识别行业市场规模分析
一、影响中国语音识别行业市场规模的因素
二、中国语音识别行业市场规模
三、中国语音识别行业市场规模解析
第三节中国语音识别行业供应情况分析
一、中国语音识别行业供应规模
二、中国语音识别行业供应特点
第四节中国语音识别行业需求情况分析
一、中国语音识别行业需求规模
二、中国语音识别行业需求特点
第五节中国语音识别行业供需平衡分析
第五章中国语音识别行业产业链和细分市场分析
第一节中国语音识别行业产业链综述
一、产业链模型原理介绍
二、产业链运行机制
三、语音识别行业产业链图解
第二节中国语音识别行业产业链环节分析
一、上游产业发展现状
二、上游产业对语音识别行业的影响分析
三、下游产业发展现状
四、下游产业对语音识别行业的影响分析
第三节我国语音识别行业细分市场分析
一、细分市场一
二、细分市场二
第六章2018-2022年中国语音识别行业市场竞争分析
第一节中国语音识别行业竞争现状分析
一、中国语音识别行业竞争格局分析
二、中国语音识别行业主要品牌分析
第二节中国语音识别行业集中度分析
一、中国语音识别行业市场集中度影响因素分析
二、中国语音识别行业市场集中度分析
第三节中国语音识别行业竞争特征分析
一、企业区域分布特征
二、企业规模分布特征
三、企业所有制分布特征
第七章2018-2022年中国语音识别行业模型分析
第一节中国语音识别行业竞争结构分析(波特五力模型)
一、波特五力模型原理
二、供应商议价能力
三、购买者议价能力
四、新进入者威胁
五、替代品威胁
六、同业竞争程度
七、波特五力模型分析结论
第二节中国语音识别行业SWOT分析
一、SOWT模型概述
二、行业优势分析
三、行业劣势
四、行业机会
五、行业威胁
六、中国语音识别行业SWOT分析结论
第三节中国语音识别行业竞争环境分析(PEST)
一、PEST模型概述
二、政策因素
三、经济因素
四、社会因素
五、技术因素
六、PEST模型分析结论
第八章2018-2022年中国语音识别行业需求特点与动态分析
第一节中国语音识别行业市场动态情况
第二节中国语音识别行业消费市场特点分析
一、需求偏好
二、价格偏好
三、品牌偏好
四、其他偏好
第三节语音识别行业成本结构分析
第四节语音识别行业价格影响因素分析
一、供需因素
二、成本因素
三、其他因素
第五节中国语音识别行业价格现状分析
第六节中国语音识别行业平均价格走势预测
一、中国语音识别行业平均价格趋势分析
二、中国语音识别行业平均价格变动的影响因素
第九章中国语音识别行业所属行业运行数据监测
第一节中国语音识别行业所属行业总体规模分析
一、企业数量结构分析
二、行业资产规模分析
第二节中国语音识别行业所属行业产销与费用分析
一、流动资产
二、销售收入分析
三、负债分析
四、利润规模分析
五、产值分析
第三节中国语音识别行业所属行业财务指标分析
一、行业盈利能力分析
二、行业偿债能力分析
三、行业营运能力分析
四、行业发展能力分析
第十章2018-2022年中国语音识别行业区域市场现状分析
第一节中国语音识别行业区域市场规模分析
一、影响语音识别行业区域市场分布的因素
二、中国语音识别行业区域市场分布
第二节中国华东地区语音识别行业市场分析
一、华东地区概述
二、华东地区经济环境分析
三、华东地区语音识别行业市场分析
(1)华东地区语音识别行业市场规模
(2)华南地区语音识别行业市场现状
(3)华东地区语音识别行业市场规模预测
第三节华中地区市场分析
一、华中地区概述
二、华中地区经济环境分析
三、华中地区语音识别行业市场分析
(1)华中地区语音识别行业市场规模
(2)华中地区语音识别行业市场现状
(3)华中地区语音识别行业市场规模预测
第四节华南地区市场分析
一、华南地区概述
二、华南地区经济环境分析
三、华南地区语音识别行业市场分析
(1)华南地区语音识别行业市场规模
(2)华南地区语音识别行业市场现状
(3)华南地区语音识别行业市场规模预测
第五节华北地区语音识别行业市场分析
一、华北地区概述
二、华北地区经济环境分析
三、华北地区语音识别行业市场分析
(1)华北地区语音识别行业市场规模
(2)华北地区语音识别行业市场现状
(3)华北地区语音识别行业市场规模预测
第六节东北地区市场分析
一、东北地区概述
二、东北地区经济环境分析
三、东北地区语音识别行业市场分析
(1)东北地区语音识别行业市场规模
(2)东北地区语音识别行业市场现状
(3)东北地区语音识别行业市场规模预测
第七节西南地区市场分析
一、西南地区概述
二、西南地区经济环境分析
三、西南地区语音识别行业市场分析
(1)西南地区语音识别行业市场规模
(2)西南地区语音识别行业市场现状
(3)西南地区语音识别行业市场规模预测
第八节西北地区市场分析
一、西北地区概述
二、西北地区经济环境分析
三、西北地区语音识别行业市场分析
(1)西北地区语音识别行业市场规模
(2)西北地区语音识别行业市场现状
(3)西北地区语音识别行业市场规模预测
第十一章语音识别行业企业分析(随数据更新有调整)
第一节企业
一、企业概况
二、主营产品
三、运营情况
1、主要经济指标情况
2、企业盈利能力分析
3、企业偿债能力分析
4、企业运营能力分析
5、企业成长能力分析
四、公司优势分析
第二节企业
一、企业概况
二、主营产品
三、运营情况
四、公司优劣势分析
第三节企业
一、企业概况
二、主营产品
三、运营情况
四、公司优势分析
第四节企业
一、企业概况
二、主营产品
三、运营情况
四、公司优势分析
第五节企业
一、企业概况
二、主营产品
三、运营情况
四、公司优势分析
第六节企业
一、企业概况
二、主营产品
三、运营情况
四、公司优势分析
······
第十二章2022-2029年中国语音识别行业发展前景分析与预测
第一节中国语音识别行业未来发展前景分析
一、语音识别行业国内投资环境分析
二、中国语音识别行业市场机会分析
三、中国语音识别行业投资增速预测
第二节中国语音识别行业未来发展趋势预测
第三节中国语音识别行业规模发展预测
一、中国语音识别行业市场规模预测
二、中国语音识别行业市场规模增速预测
三、中国语音识别行业产值规模预测
四、中国语音识别行业产值增速预测
五、中国语音识别行业供需情况预测
第四节中国语音识别行业盈利走势预测
第十三章2022-2029年中国语音识别行业进入壁垒与投资风险分析
第一节中国语音识别行业进入壁垒分析
一、语音识别行业资金壁垒分析
二、语音识别行业技术壁垒分析
三、语音识别行业人才壁垒分析
四、语音识别行业品牌壁垒分析
五、语音识别行业其他壁垒分析
第二节语音识别行业风险分析
一、语音识别行业宏观环境风险
二、语音识别行业技术风险
三、语音识别行业竞争风险
四、语音识别行业其他风险
第三节中国语音识别行业存在的问题
第四节中国语音识别行业解决问题的策略分析
第十四章2022-2029年中国语音识别行业研究结论及投资建议
第一节观研天下中国语音识别行业研究综述
一、行业投资价值
二、行业风险评估
第二节中国语音识别行业进入策略分析
一、目标客户群体
二、细分市场选择
三、区域市场的选择
第三节语音识别行业营销策略分析
一、语音识别行业产品策略
二、语音识别行业定价策略
三、语音识别行业渠道策略
四、语音识别行业促销策略
第四节观研天下分析师投资建议返回搜狐,查看更多
[语音分离]端到端声源分离研究:现状、进展和未来
本文是由罗艺老师主讲的『端到端声源分离研究进展』f分享整理而来。内容主要覆盖了单通道和多通道上端到端音源分离的现状和进展以及未来的研究方向。文末有彩蛋,评论可获取课程学习资料~
端到端音源分离定义与进展什么是端到端音源分离呢?罗艺老师首先介绍了端到端音源分离的定义。从名称来看,端到端的含义是模型输入源波形后直接输出目标波形,不需要进行傅里叶变换将时域信号转换至频域;音源分离的含义是将混合语音中的两个或多个声源分离出来。
(图1)
目前,端到端音源分离已经有了一些在时域和频域上的研究,罗艺老师以“WSJ0-2mix”数据集为例,并以在语音分离任务中使用十分广泛的SI-SDR为指标,为我们展示了目前端到端音源分离研究的进展。
从图2中也可以直观地看到时域方法相较频域方法能够带来非常明显的提升,时域方法也因此成为了端到端音源分离的热门研究方向。
(图2)
单通道端到端音源分离研究频域方法中广泛使用神经网络估计TF-Masking,并作用于混合语音从而得到分离语音。但该方法存在相位信息缺失、性能上限受制于oraclemask以及STFT特征不一定是分离模型最优特征等问题或挑战。
因此时域模型提出可以通过使用实数特征提取器以替代STFT特征以及直接建立wav2wav映射的方法来解决上述问题。
最先被提出的方法为TasNet模型,该模型使用Encoder提取语音二维特征,随后通过Separation估计说话人mask,最后通过Decoder实现二维特征到语音波形的转换从而得到分离语音。
(图3)
由于Decoder存在无法完美重构的问题,因此对于TasNet的深入探究和修改也得到了很多新的研究结果。在下述Two-stepseparation中,首先单独训练Encoder以及Decoder以期其能引入更少的失真。随后固定Encoder和Decoder只训练Separation,该训练方法可提升分离上限。
(图4)
此外我们希望Encoder能够更关注低中频部分,因此提出了Multi-phaseGammatonefilterbank,相较于随机初始化学习,该方法可得到更好的频率响应分布。
(图5)
此外还有对训练目标和训练任务上的一些探索。Wavesplit引入说话人特征进行分离。该模型首先在一个固定时间窗内计算说话人向量,然后通过聚类计算出全局向量。之后将说话人信息送入分离网络得到分离结果。
(图6)
MulCatDPRNN通过同时优化分离和说话人识别两个目标实现更好的说话人分离,此外该网络能够实现5-6人的分离,因此该网络是一个很好的设计。
(图7)
以上介绍的网络目标均为将所有源分离出来,但在一些情况下一些源不具备很明显的被分离的意义,如智能音箱场景,因此说话人提取也具有十分重要的研究意义。
SpEx/SpEx+联合TasNet和说话人提取网络,从而只输出一个说话人的mask,实现声源提取的工作。
(图8)
时域分离模型亦可作用到音乐分离任务上。音乐分离与语音分离的不同之处在于不存在置换问题。但由于音乐采样率普遍高于语音,因此会存在建模长序列及不同频带信息捕捉的问题。
Musicseparation采用progressivelearning方法,从低至高分采样率处理,并通过元学习(meta-learning)的方法,对不同声源类型进行网络参数调整。
(图9)
语音分离的最终目标为Universalseparation,即广义语音分离。Universalsoundseparation通过声学事件检测,提取声学事件特征,从而辅助广义声源分离。
(图10)
如果跳出音频,多模态信息亦可辅助语音分离。例如视频会议场景下,我们可以通过视频信息检测说话人特征,并分离该说话人语音。Audio-visualseparation通过图像分析网络对嘴唇运动特征提取,送入TasNet模块,从而辅助音频分离任务。
(图11)
如果跳出Encoder-Separation-Decoder框架,可以进行waveform-to-waveform直接映射。Wave-U-Net通过设计相同层数的广义编解码器并实现编解码器间向量拼接操作,通过一维卷积实现波形-波形映射。
(图12)
基于WaveNet设计的模型结构在最后一层的输出上将所有声源分离开来。
(图13)
多通道端到端音源分离研究
相较于单通道,多通道语音可得到更多的空间信息,从而进一步辅助语音分离。目前多通道端到端语音分离研究主要集中在两个方向:神经网络波束形成以及单通道模型向多通道扩展。
基于输出的神经网络波束形成方法主要有DeepBeam和Beam-TasNet方法。
DeepBeam使用时域多通道维纳滤波,先选择一个参考麦克风,通过训练单通道增强网络对该麦克风信号进行预增强得到更加干净语音的信息,并利用该信息作为维纳滤波的目标,对其他麦克风解最优维纳滤波解得到最优滤波器参数。
(图14)
Beam-TasNet方法通过时域频域结合的方法。首先通过多通道TasNet分离得到预分离语音,随后通过分离语音估计频域上的MVDR权重,并作用于混合语音中得到分离语音。
该方法通过时域方法隐式地进行了相位估计,并利用了空间特征得到分离语音。此外时域方法loss函数存在静音段消除过于激进的问题从而导致听感上的不友好。
而MVDR方法可对整句话进行滤波,对某一声源消除能力略低但失真较少,因此Beam-TasNet中也考虑了如何将二者的长处在后处理步骤中进行结合,以得到更好的性能。
(图15)
此外基于神经网络的波束形成主要工作有Neuralnetworkadaptivebeamforming(NAB),Filter-and-sumNetwork(FaSNet)。
NAB方法通过将多通道信号拼接送入神经网络估计得到每个通道的滤波器系数,并作用于每个通道的原始信号可得到增强信号。该方法类似于Filter-and-SumBeamformer。
(图16)
FaSNet则侧重于多通道间信息共享以联合优化多通道时域滤波器。(该方法也是笔者目前尝试的所有时域分离模型中效果最好的方法)
(图17)
而对于单通道向多通道扩展的方向,目前主要的方法是对单通道信号加入多通道信息作为模型输入以及直接将多通道信号作为模型输入。
Multi-channelTasNet通过将单通道信息拼入IPD进行联合训练,或直接使用二维卷积估计通道间特征插值进行联合训练。
(图18)
Multi-channelWave-U-Net则是将多通道信号拼接送入Wave-U-Net,因此只需将模型的输入通道数改为信号的通道数即可。
(图19)
一些问题和未来展望
如何得知混合音频中有多少说话人?在会议或讨论场景中两人同时说话的占比一般最高只为30%左右,大多数时间为一个人甚至没有人说话。
因此如何使用一个分离模型保证在不同说话人数量情况下都能保持较稳定性能是一个比较挑战的问题。目前在尝试的方法有多说话人活动检测以及说话人识别等,还可设计不同的训练目标以匹配不同的说话人个数。
长时间语音分离。如何保证在1-10min甚至1h的语音能够一致保证分离的稳定性?目前已有LibriCSS数据集面向此应用场景。此外还有JHUJSALT2020workshop面向长时间多人说话的说话人数量、语音识别、语音分离和说话人识别。(https://www.clsp.jhu.edu/speech-recognition-anddiarization-for-unsegmented-multi-talker-recordings-with-speaker-overlaps/)
未来一些挑战包括广泛的语音分离、前后端联合优化及真实场景(包括远场、噪声、混响和域不匹配)下的应用。
Q&A
1.单通道与多通道语音分离的各自应用场景有什么不同,多通道有什么具体优势吗?
对于应用场景,主要是设备上的区分,有些设备只有一个麦克风因此就只能做单通道语音分离。多通道由于有多路麦克风数据因此可以获得更多的信息,输入的信息越多我们能提取的信息也就越多,比如多通道中IPD等信息是可以直接帮助性能提升的。
另外从传统上,多通道可以实现beamforming,它的泛化能力和鲁棒性非常强,因此相比于单通道有比较大的优势。
2.多通道的评估指标该怎么计算,因为源文件和混合音频文件有多个通道,分离结果该怎样像单通道一样进行比对呢?
由于多通道大部分还是用于语音识别,所以可以使用语音识别的指标词错误率(WordErrorRate,WER)进行对比;另外还可以从主观听觉上进行比较,使用平均主观意见分(MeanOpinionScore,MOS)。
端到端则相对更容易一点,可以直接计算网络的输出和目标声源之间的指标,包括频域指标和时域指标。整体上来讲,目前对于可以广泛应用到端到端和非端到端的指标仍需研究。
3.目前的语音分离还有哪些不足还需完善才能落地商用,现在有online(实时的)语音分离的研究吗?
目前智能家居、耳机和麦克风等都用到了很多分离降噪的研究。Online主要取决于模型设计,目前,可以在实时性和性能上进行研究。
4.这些方法可以用来单通道语音降噪吗,如果可以的话实时性上和rnnoise算法相比怎么样,模型大小和速度和效果上如何?
分离模型都可以用来做降噪,模型的大小和速度上需要进行权衡,和rnnoise进行对比的话还需要确定模型的参数大小,单看模型的话是无法分析这件事的。
5.Audio-VisualSpeechSeparation的研究进展如何?围栏研究热点集中在哪?
我们举一个Audio-Visual研究的例子,我们对于Audio和Visual各有一个处理模块,之后会有一个将Audio和Visual处理结果融合起来的模块,然后再去做一个分离,这是Audio-Visual整体的框架。未来的研究方向主要是前文提到的一些挑战。
6.基于深度学习的降噪,什么样的代价函数效果最好?
这个问题分两个方面,首先看你的任务目标是什么,如果目标任务是识别的话,si-snr和具体词错误率不一定是线性的,所以我们不能说某个loss在任务上绝对比另一个更好,但如果我们评价指标和训练指标相同,那我们使用评价指标作为loss肯定是最好的。
irm对相位没有建模,因此irm在某些情况下不是很好,但是对于Perceptualevaluationofspeechquality(PESQ)指标表现较好,可以减少语音的失真。
7.近期的研究大多偏向时域分离,那时域分离效果为什么优于频域效果呢?以后的发展方向
主要是相位信息的建模、频域oraclemask的性能上限另外是使用的特征上来回优化出一个较好的特征。以后的发展方向是其他各种模型的一些设计,多模态、多通道以及其他前文提到的挑战。
8.Sourceseparation和speaker-diarization在技术实现上有什么联系吗,我在做speaker-diarization任务,能借鉴sourceseparation的什么思路?
传统的speaker-diarization一个假设是说话人之间独立无重叠。但如果我们说话人之间有重叠,那么不可避免的会用到分离,今年开始的做端到端的speaker-diarization的工作,speaker-diarization可以当作是一个粗粒度的sourceseparation,因此很多sourceseparation的框架都可以用到speaker-diarization中。这是一个比较重要的task。
9.当输入音频存在混响时,对于Si-SNRloss是否需要修正?
是需要修正的,对于输入音频存在混响的情况如何修正目前没有特别好的方法。有很多工作都在关注修改Si-SNRloss使其更好的反应分离的性能,并让其包含有用的信息。
10.单通道语音分离由于没有IPD/ISD等空间信息,智能做谱分析,那么说话人的声纹特征是否是重要的分离依据?训练集中不同说话人样本太少是否是跨数据集表现答复下降的主要原因?如果把speaker-diarization任务中的一些pre-train模块放到分离网络前辅助encode是否会有提升?
近期的一些模型,会在分离的时候直接加一个说话人识别的损失函数。或者是将说话人信息当作输入提供给网络,但是对于它是否是主要的分离依据,还需要更多的实验进行对比。
对于最后一个问题把diarization中pre-train的模块放到分离网络前辅助encode是一定会有提升的。speaker-diarization和sourceseparation是互帮互助的关系。但是对于end2end模型由于处在较为早期的研究状态,具体的性能提升结果还需要更多研究。
11.干扰人声,混响和噪声,远场能不能一起处理?不同重叠率的泛化能力怎么提升?
直观讲可以,端到端的话可以将这些进行融合,但是一般这么做的效果并不会很好。这里包括三个问题——分离、降噪、去混响。一般来说端到端的程度越高泛化能力越差因此泛化能力也是一个比较大的问题。
不同重叠率的泛化能力提升最简单的是通过不同比例的不同重叠率的数据,也可以加入speakercount(说话人数量检测),某些部分只有一个说话人,可以在这个部分不做分离,做一个动态的处理。
参考文献
[1]LeRoux,Jonathan,etal."SDR–half-bakedorwelldone?."ICASSP2019-2019IEEEInternationalConferenceonAcoustics,Speechand SignalProcessing(ICASSP).IEEE,2019.
[2] Luo,Yi,andNimaMesgarani."TasNet:time-domainaudioseparationnetworkforreal-time,single-channelspeechseparation."2018 IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2018.
[3]Luo,Yi,andNimaMesgarani."Conv-TasNet:Surpassingidealtime–frequencymagnitudemaskingforspeechseparation."IEEE/ACM transactionsonaudio,speech,andlanguageprocessing27.8(2019):1256-1266.
[4]Luo,Yi,ZhuoChen,andTakuyaYoshioka."Dual-pathRNN:efficientlongsequencemodelingfortime-domainsingle-channelspeech separation."ICASSP2020-2020IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2020.
[5]Tzinis,Efthymios,etal."Two-StepSoundSourceSeparation:TrainingOnLearnedLatentTargets."ICASSP2020-2020IEEEInternational ConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2020.
[6]Ditter,David,andTimoGerkmann."Amulti-phasegammatonefilterbankforspeechseparationviatasnet."ICASSP2020-2020IEEE InternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2020.
[7]Zeghidour,Neil,andDavidGrangier."Wavesplit:End-to-endspeechseparationbyspeakerclustering."arXivpreprintarXiv:2002.08933 (2020).
[8]Nachmani,Eliya,YossiAdi,andLiorWolf."VoiceSeparationwithanUnknownNumberofMultipleSpeakers."arXivpreprint arXiv:2003.01531(2020)
[9]Xu,Chenglin,etal."SpEx:Multi-ScaleTimeDomainSpeakerExtractionNetwork."arXivpreprintarXiv:2004.08326(2020).
[10]Ge,Meng,etal."SpEx+:ACompleteTimeDomainSpeakerExtractionNetwork."arXivpreprintarXiv:2005.04686(2020).
[11]Samuel,David,AdityaGaneshan,andJasonNaradowsky."Meta-learningExtractorsforMusicSourceSeparation."ICASSP2020-2020 IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2020.
[12]Kavalerov,Ilya,etal."Universalsoundseparation."2019IEEEWorkshoponApplicationsofSignalProcessingtoAudioandAcoustics (WASPAA).IEEE,2019.
[13]Tzinis,Efthymios,etal."Improvinguniversalsoundseparationusingsoundclassification."ICASSP2020-2020IEEEInternational ConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2020.
[14]Wu,Jian,etal."Timedomainaudiovisualspeechseparation."arXivpreprintarXiv:1904.03760(2019).
[15]Stoller,Daniel,SebastianEwert,andSimonDixon."Wave-U-Net:Amulti-scaleneuralnetworkforend-to-endaudiosource separation."arXivpreprintarXiv:1806.03185(2018).
[16]Lluís,Francesc,JordiPons,andXavierSerra."End-to-endmusicsourceseparation:isitpossibleinthewaveformdomain?."arXiv preprintarXiv:1810.12187(2018).
[17]Qian,Kaizhi,etal."Deeplearningbasedspeechbeamforming."2018IEEEInternationalConferenceonAcoustics,SpeechandSignal Processing(ICASSP).IEEE,2018.
[18]Ochiai,Tsubasa,etal."Beam-TasNet:Time-domainaudioseparationnetworkmeetsfrequency-domainbeamformer."ICASSP2020-2020IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2020.
[19]Li,Bo,etal."Neuralnetworkadaptivebeamformingforrobustmultichannelspeechrecognition."(2016).
[20]Luo,Yi,etal."FaSNet:Low-latencyadaptivebeamformingformulti-microphoneaudioprocessing."2019IEEEAutomaticSpeech RecognitionandUnderstandingWorkshop(ASRU).IEEE,2019.
[21]Luo,Yi,etal."End-to-endmicrophonepermutationandnumberinvariantmulti-channelspeechseparation."ICASSP2020-2020IEEE InternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2020.
[22]Gu,Rongzhi,etal."End-to-endmulti-channelspeechseparation."arXivpreprintarXiv:1905.06286(2019).
[23]Gu,Rongzhi,etal."EnhancingEnd-to-EndMulti-ChannelSpeechSeparationViaSpatialFeatureLearning."ICASSP2020-2020IEEE InternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2020.
[24]Medennikov,Ivan,etal."Target-SpeakerVoiceActivityDetection:aNovelApproachforMulti-SpeakerDiarizationinaDinnerParty Scenario."arXivpreprintarXiv:2005.07272(2020)
[25]Horiguchi,Shota,etal."End-to-EndSpeakerDiarizationforanUnknownNumberofSpeakerswithEncoder-DecoderBased Attractors."arXivpreprintarXiv:2005.09921(2020).
[26]Takahashi,Naoya,etal."Recursivespeechseparationforunknownnumberofspeakers."arXivpreprintarXiv:1904.03065 (2019).
[27]Luo,Yi,andNimaMesgarani."Separatingvaryingnumbersofsourceswithauxiliaryautoencodingloss."arXivpreprint arXiv:2003.12326(2020).
[28]Chen,Zhuo,etal."Continuousspeechseparation:Datasetandanalysis."ICASSP2020-2020IEEEInternationalConferenceon Acoustics,SpeechandSignalProcessing(ICASSP).IEEE,2020.
[29]vonNeumann,Thilo,etal."End-to-endtrainingoftimedomainaudioseparationandrecognition."ICASSP2020-2020IEEE InternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2020.
[30]vonNeumann,Thilo,etal."Multi-talkerASRforanunknownnumberofsources:Jointtrainingofsourcecounting,separation andASR."arXivpreprintarXiv:2006.02786(2020).
[31]Maciejewski,Matthew,etal."WHAMR!:Noisyandreverberantsingle-channelspeechseparation."ICASSP2020-2020IEEE InternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2020.
本文原创作者:付艺辉,姚卓远
免费课程原文链接:https://www.shenlanxueyuan.com/open/course/62