语音识别(4)
语音识别类产品的分类及应用场景
媒体和AI巨头们乐于给大众描绘一幅幅精彩的未来生活蓝图:人工智能可以化身为你的爱车,在沙漠、森林或小巷中风驰电掣;可以是智慧公正的交警,控制红绿灯、缓解交通的拥挤;还可以是给人以贴心照顾的小助理,熟悉你生活中的每一处小怪癖。
在看到这些美妙的畅想之后,作为一个严谨认真的AI产品经理,我不禁想去探索上述美好未来的实现路径;今天,让我们从人工智能中的感知智能开始——聊聊“语音识别类产品”。
1
定义
语音识别是将人类的声音信号转化为文字的过程。
语音识别、人脸识别和OCR等都属于人工智能中的感知智能,其核心功能是将物理世界的信息转化成可供计算机处理的信息,为后续的认知智能提供基础。
2
语音识别能满足或支撑的需求层次
1、人与人之间的信息同步
转化成文字的语音信息,由于少了时间轴的约束,在同等量级的情况下,人类使用眼睛获取的速度远远快于耳朵。当然,确实也损失掉了一些信息,比如情绪。
2、检索&语义抽取
利用语义建模,对某些业务场景中比较关注的词/语义进行检索,或者将其抽取出来并进行结构化记录。
3、人机交互
使用更自然的方式与机器/虚拟助理进行交互,实现拟人对话、对设备的操控或者问题答案的获取。
4、数据挖掘
通过对数据的聚类或者与各维度数据体系打通,可以对个人/人群/特定领域的语义数据进行价值挖掘。
下面,我将以语音识别需求场景之“人机交互”为例,对业界的语音识别产品进行归类和说明。如果大家比较感兴趣,我后续文章可以再对其他的几类需求层次进行进一步的分析。
3
分类
根据识别内容的范围,语音识别可分为“封闭域识别”和“开放域识别”。
1、封闭域识别
识别范围为预先指定的字/词集合,即,算法只在开发者预先设定的封闭域识别词的集合内进行语音识别,对范围之外的语音会拒识。因此,可将其声学模型和语言模型进行裁剪,使得识别引擎的运算量变小;并且,可将引擎封到嵌入式芯片或者本地化的SDK中,从而使识别过程完全脱离云端,摆脱对网络的依赖,并且不会影响识别率。
业界厂商提供的引擎部署方式包括云端和本地化(如:芯片,模块和纯软件SDK)。
产品形态:流式传输-同步获取
典型的应用场景:不涉及到多轮交互和多种语义说法的场景,比如,对于简单指令交互的智能家居和电视盒子,语音控制指令一般只有“打开窗帘”、“打开中央台”等;或者语音唤醒功能“Alexa”。但是,一旦涉及到程序猿大大们在后台配置识别词集合之外的命令,如“给小编来一块钱打赏呗”,识别系统将拒识这段语音,不会返回相应的文字结果,更不会做相应的回复或者指令动作。
2、开放域识别
无需预先指定识别词集合,算法将在整个语言大集合范围中进行识别。为适应此类场景,声学模型和语音模型一般都比较大,引擎运算量也较大。如果将其封装到嵌入式芯片或者本地化的SDK中,耗能较高并且影响识别效果。因此,业界厂商基本上都只以云端形式提供(云端包括公有云形式和私有云形式)。至于本地化形式,只提供带服务器级别计算能力的嵌入式系统(如会议字幕系统)。
产品形态,按照音频录入和结果获取方式可分为3种——
1)产品形态1:流式上传-同步获取,应用/软件会对说话人的语音进行自动录制,并将其连续上传至云端,说话人在说完话的同时能实时地看到返回的文字。
语音云服务厂商的产品接口中,会提供音频录制接口和格式编码算法,供客户端边录制边上传,并与云端建立长连接,同步监听并获取中间(或者最终完整)的识别结果。
对于时长的限制,由语音云服务厂商自定义,一般有