语音识别（4）语音识别的种类

发表时间：2023-07-05 15:31:41

语音识别（4）

语音识别类产品的分类及应用场景

媒体和AI巨头们乐于给大众描绘一幅幅精彩的未来生活蓝图：人工智能可以化身为你的爱车，在沙漠、森林或小巷中风驰电掣；可以是智慧公正的交警，控制红绿灯、缓解交通的拥挤；还可以是给人以贴心照顾的小助理，熟悉你生活中的每一处小怪癖。

在看到这些美妙的畅想之后，作为一个严谨认真的AI产品经理，我不禁想去探索上述美好未来的实现路径；今天，让我们从人工智能中的感知智能开始——聊聊“语音识别类产品”。

定义

语音识别是将人类的声音信号转化为文字的过程。

语音识别、人脸识别和OCR等都属于人工智能中的感知智能，其核心功能是将物理世界的信息转化成可供计算机处理的信息，为后续的认知智能提供基础。

语音识别能满足或支撑的需求层次

1、人与人之间的信息同步

转化成文字的语音信息，由于少了时间轴的约束，在同等量级的情况下，人类使用眼睛获取的速度远远快于耳朵。当然，确实也损失掉了一些信息，比如情绪。

2、检索&语义抽取

利用语义建模，对某些业务场景中比较关注的词/语义进行检索，或者将其抽取出来并进行结构化记录。

3、人机交互

使用更自然的方式与机器/虚拟助理进行交互，实现拟人对话、对设备的操控或者问题答案的获取。

4、数据挖掘

通过对数据的聚类或者与各维度数据体系打通，可以对个人/人群/特定领域的语义数据进行价值挖掘。

下面，我将以语音识别需求场景之“人机交互”为例，对业界的语音识别产品进行归类和说明。如果大家比较感兴趣，我后续文章可以再对其他的几类需求层次进行进一步的分析。

分类

根据识别内容的范围，语音识别可分为“封闭域识别”和“开放域识别”。

1、封闭域识别

识别范围为预先指定的字/词集合，即，算法只在开发者预先设定的封闭域识别词的集合内进行语音识别，对范围之外的语音会拒识。因此，可将其声学模型和语言模型进行裁剪，使得识别引擎的运算量变小；并且，可将引擎封到嵌入式芯片或者本地化的SDK中，从而使识别过程完全脱离云端，摆脱对网络的依赖，并且不会影响识别率。

业界厂商提供的引擎部署方式包括云端和本地化（如：芯片，模块和纯软件SDK）。

产品形态：流式传输-同步获取

典型的应用场景：不涉及到多轮交互和多种语义说法的场景，比如，对于简单指令交互的智能家居和电视盒子，语音控制指令一般只有“打开窗帘”、“打开中央台”等；或者语音唤醒功能“Alexa”。但是，一旦涉及到程序猿大大们在后台配置识别词集合之外的命令，如“给小编来一块钱打赏呗”，识别系统将拒识这段语音，不会返回相应的文字结果，更不会做相应的回复或者指令动作。

2、开放域识别

无需预先指定识别词集合，算法将在整个语言大集合范围中进行识别。为适应此类场景，声学模型和语音模型一般都比较大，引擎运算量也较大。如果将其封装到嵌入式芯片或者本地化的SDK中，耗能较高并且影响识别效果。因此，业界厂商基本上都只以云端形式提供（云端包括公有云形式和私有云形式）。至于本地化形式，只提供带服务器级别计算能力的嵌入式系统（如会议字幕系统）。

产品形态，按照音频录入和结果获取方式可分为3种——

1）产品形态1：流式上传-同步获取，应用/软件会对说话人的语音进行自动录制，并将其连续上传至云端，说话人在说完话的同时能实时地看到返回的文字。

语音云服务厂商的产品接口中，会提供音频录制接口和格式编码算法，供客户端边录制边上传，并与云端建立长连接，同步监听并获取中间（或者最终完整）的识别结果。

对于时长的限制，由语音云服务厂商自定义，一般有

语音识别（4） 语音识别的种类

语音识别（4）

语音识别（4）语音识别的种类