博舍

语音识别技术是什么 语音识别技术也被称为自动语音识别技术吗

语音识别技术是什么

语音识别技术,也被称为自动语音识别AutomaTIcSpeechRecogniTIon,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别系统提示客户在新的场合使用新的口令密码,这样使用者不需要记住固定的口令,系统也不会被录音欺骗。文本相关的声音识别方法可以分为动态时间伸缩或隐马尔可夫模型方法。文本无关声音识别已经被研究很长时间了,不一致环境造成的性能下降是应用中的一个很大的障碍。

其工作原理:

动态时间伸缩方法使用瞬间的、变动倒频。1963年Bogertetal出版了《回声的时序倒频分析》。通过交换字母顺序,他们用一个含义广泛的词汇定义了一个新的信号处理技术,倒频谱的计算通常使用快速傅立叶变换。

从1975年起,隐马尔可夫模型变得很流行。运用隐马尔可夫模型的方法,频谱特征的统计变差得以测量。文本无关语音识别方法的例子有平均频谱法、矢量量化法和多变量自回归法。

平均频谱法使用有利的倒频距离,语音频谱中的音位影响被平均频谱去除。使用矢量量化法,语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征。但是,当训练向量的数量很大时,这种直接的描绘是不切实际的,因为存储和计算的量变得离奇的大。所以尝试用矢量量化法去寻找有效的方法来压缩训练数据。Montacieetal在倒频向量的时序中应用多变量自回归模式来确定语者特征,取得了很好的效果。

想骗过语音识别系统要有高质量的录音机,那不是很容易买到的。一般的录音机不能记录声音的完整频谱,录音系统的质量损失也必须是非常低的。对于大多数的语音识别系统,模仿的声音都不会成功。用语音识别来辨认身份是非常复杂的,所以语音识别系统会结合个人身份号码识别或芯片卡。

语音识别系统得益于廉价的硬件设备,大多数的计算机都有声卡和麦克风,也很容易使用。但语音识别还是有一些缺点的。语音随时间而变化,所以必须使用生物识别模板。语音也会由于伤风、嗓音沙哑、情绪压力或是青春期而变化。语音识别系统比指纹识别系统有着较高的误识率,因为人们的声音不像指纹那样独特和唯一。对快速傅立叶变换计算来说,系统需要协同处理器和比指纹系统更多的效能。目前语音识别系统不适合移动应用或以电池为电源的系统。

语音识别系统的应用领域

语音识别系统:

语音识别技术的应用可以分为两个发展方向:一个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的;另外一个重要的发展方向是小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门的硬件系统实现,特别是近几年来迅速发展的语音信号处理专用芯片(ApplicaTIonSpecificIntegratedCircuit,ASIC)和语音识别片上系统(SystemonChip,SOC)的出现。

语音识别系统的应用领域:

语音识别系统应用领域之:电话通信的语音拨号

特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。

语音识别系统应用领域之:汽车的语音控制

由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。

语音识别系统应用领域之:工业控制及医疗领域

当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。

语音识别系统应用领域之:个人数字助理

个人数字助理(PersonalDigitalAssistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。

语音识别系统应用领域之:智能玩具

通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于降低语音芯片的价格。

语音识别系统应用领域之:家电遥控

用语音可以控制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器皆用语音控起来,这样,可以让令人头疼的各种电器的操作变得简单易行。

除了上文中所提到的应用以外,语音识别专用芯片在其他方面的应用可以说是不胜枚举。随着语音识别专用芯片的技术不断提高,将给人们带来极大的方便。

你真的了解语音识别技术吗从专利的角度为你详解

近年来,语音识别技术取得了显著进步,在手机上的应用也日趋广泛。本文作者通过对中国专利文摘数据库手机语音识别领域的相关专利申请进行检索,发现各国企业研发实力齐头并进,同时国内公司在手机语音识别领域相关专利申请的数量上略高于国外公司,但仍存在着很多不足。

语音识别技术,也被称为自动语音识别技术,是指将人说话的语音信号转换为可被计算机程序所识别的信息,从而识别说话人的语音指令及文字内容的技术。该技术使得人们可以摆脱键盘的束缚,提高输入速度、降低误输率、缩短系统反应时间。

近20年来,语音识别技术取得了显著进步,在手机上的应用也日趋广泛,如通过提取的声纹特征对手机用户进行身份认证,实现对手机的安全防护;获取语音信号,对其进行解析识别,转化为相应的控制命令,实现对手机某项应用或功能的控制。此外还有些特殊的应用,如通过对声源的定位确定摄像头的旋转角度,便于人们更好地进行自拍;对语音信号进行识别、增强操作,以便抑制噪声,提升用户的通话体验;对用户的语音情绪进行识别,对消极情绪进行处理,确保通话的和谐有效。

笔者通过中国专利文摘数据库(CNABS),对截至2017年1月18日所公开的手机语音识别领域的相关专利申请进行检索,并基于检索得到的数据对该技术领域的专利现状进行简要分析。

各国企业研发实力齐头并进

据统计,该领域的中国专利申请共计1519件。从年度专利申请量变化趋势来看,手机语音识别领域的发展大致可分为4个阶段:第一阶段是1998年以前,该时期手机语音识别领域的年申请量较低,均在10件以下,说明该技术正处于萌芽期;第二阶段是1999年至2003年,该时期的年申请量在15件左右,该技术正处于发展的新兴期;第三阶段是2004年至2011年,该时期专利申请量较之前有了稳定增长,年申请量在70件左右,说明该领域的技术正在稳步发展;第四阶段是从2012年至今,该时期专利申请量呈现井喷态势,由之前的年申请量不足100件增长到200件以上,说明该领域技术正在迎来发展的春天,其广阔的市场前景吸引了越来越多的研发力量投入其中,技术得到了飞速发展。

笔者针对手机语音识别领域的申请人进行排名统计发现,该领域专利申请量最多的申请人为中兴通讯(59件),紧随其后的申请人是三星(56件),联想和LG分列第三、四位,仅从专利申请数量来看,该领域暂未出现申请量遥遥领先、掌握绝对优势的申请人。

从申请人所属地域来看,在该领域排名前10位的申请人中,国内企业与国外企业各占5个席位,其中,国外企业所属国家分别为韩国(2家)、美国(2家)、日本(1家),这说明国内企业与国外企业在该领域的研发实力在伯仲之间。

从企业性质分析,在该领域排名前10位的申请人中,手机生产厂家有7家,占70%,其专利申请量占总量的79%,在数量上占据优势。虽然苹果的市场份额较高,但其在该领域的中国专利申请量并不显眼,这一部分是由于其专利战略布局的重心在美国,另一部分是由于苹果在语音识别技术方面通过不断收购相关公司来获取所需技术,在专利申请量上无法得以体现。

国内企业应当提升专利质量

专利的同族被引证次数在一定程度上可以作为评价专利质量的一个指标。被引证的次数越多说明该专利的质量越高,是该领域中的基础专利,可有效制约晚来竞争对手在该领域的专利布局。

笔者对该领域排名前10位的申请人的专利申请作进一步分析,统计各申请人专利申请的同族被引证次数后,得出以下2个信息:第一,各公司提交的专利申请中,有同族被引证情形的专利申请的总件数,国外公司均高于国内公司;第二,国外公司的专利申请均有被引证次数超过10次的情形,且被引证次数超过10次的专利申请的数量大多在9件以上,而除联想有1件专利申请存在被引证次数超过10次的情形外,其余国内公司都没有被引证次数超过10次的专利申请,且有近半数的国内公司的专利申请被引证次数在3次以下。笔者认为,造成国内外企业专利申请质量存在差异的原因,一方面是因为一件专利申请从开始被引用到大量被引用通常需要5年或更长的时间,而国内公司在该领域的专利申请起步时间均晚于国外公司;另一方面则说明国内公司提交的专利申请并非为基础专利,技术方案容易被竞争对手规避,不能构成有效威胁。

通过上述数据不难发现,国内公司在手机语音识别领域已经取得了长足的进步,在相关专利申请的数量上甚至略高于国外公司,但仍存在着很多不足,如在专利质量上与国外公司还存在差距,技术层面语音识别算法的深度以及相关应用的广度还有待挖掘。对此,笔者建议国内企业应加强语音识别技术的研究,提升识别准确性,这一准确性不仅仅是对语义内容的准确识别,还可以是对声音方位、具体对象、甚至对象情绪的准确识别等,从而对普及和拓宽语音识别的各项应用起到支撑作用;同时加强语音识别防干扰技术的研究,环境干扰是语音识别中的一个技术难点,将限制语音识别的应用场景,若能提升防干扰技术,可以拓展其应用范围。

随着移动互联网技术的不断发展,尤其是移动终端的小型化、多样化变化趋势,语音识别作为区别于键盘、触屏的人机交互手段之一,在需要解放双手的环境下、对于双手或视觉残障人士、对于无法通过触觉控制的微型设备都具有独特的优势。随着语音识别算法模型、自适应性的加强,相信在未来很长一段时间内,语音识别系统的应用将更加广泛与深入,更多丰富的移动终端语音识别产品将步入人们的日常生活。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇