科大讯飞/百度/阿里/腾讯(BAT)智能语音识别(ASR)性能对比选择预计价格分享科大讯飞的智能语音技术

发表时间：2023-07-24 07:18:43

科大讯飞/百度/阿里/腾讯(BAT)智能语音识别(ASR)性能对比选择预计价格分享

最近在做智能客服的时候需要使用到语音识别，所以了解和对比了各家平台的语音识别对比和分析！

一、科大讯飞

1、语音听写即在线音识别查看Demo

把语音(≤60秒)转换成对应的文字信息，让机器能够“听懂”人类语言，相当于给机器安装上“耳朵”，使其具备“能听”的功能

可以识别多种方言，识别率高支持Android，iOS，Windows，Java，Linux

2、语音转写即长语音识别查看Demo

语音转写（LongFormASR）基于深度全序列卷积神经网络，将长段音频（5小时以内）数据转换成文本数据，为信息处理和数据挖掘提供基础

支持标准版/电话专用版，可以单声道&多声道，返回json格式价格范围为4.9~9.9元/小时,提供5小时免费使用

3、实时语音转写查看Demo

实时语音转写（Real-timeASR）基于深度全序列卷积神经网络框架，通过WebSocket协议，建立应用与语言转写核心引擎的长连接，将音频流数据实时转换成文字流数据结果

WebSocket形式输入PCM实时音频流，导出json格式数据价格为2万元/路/年，新用户免费限时使用。

文档地址：https://doc.xfyun.cn/

二、阿里语音识别

阿里云语音识别为智能语音交互2.0，价格有免费和付费版本，免费版本最大并发为10，商务专用版最大为200/100两个并发，也可以按量付费。参考阿里语音识别报价

电联客服，告知每小时价格为3.5，超过900小时为3块，每条线路分开计时，即100条线路每天打8小时为800小时，需要支付2800元RMB

1、录音文件识别即长语音识别

目前未上架，官方提供了排期

2、实时语音识别

对长时间的语音数据流进行识别，适用于会议演讲、视频直播等长时间不间断识别的场景。支持PCM、OPU音频编码格式，支持Java,C++,iOS,Android；流程为先推送申请指令，然后实时传递语音流，然后发送结束指令。

3、一句话识别

对一分钟内的短语音进行识别，适用于对话聊天，控制口令等较短的语音识别场景。支持音频编码格式：PCM、OPUS、OPU,支持Java,C++,iOS,Android语言。其实是API模式，所有语言都支持。

三、百度语音

百度语音目前只支持语音识别，语音合成和语音唤醒，支持pcmwavamr三种格式，时长为60秒以内，价格为完全免费，调用量限制为无限制，文档地址百度语音

1、离线语音识别

百度离线语音识别目前只支持Android和IOS，Android平台的一体化离在线语音识别解决方案，以JAR包+SO库的形式发布。IOS移动设备的离在线语音识别解决方案，以静态库方式提供。

2、在线语音识别

通过API格式调用，支持Android,iOS,C#,Java,Node,PHP,Python,C++语言，其实是API模式，所有开发语言都支持

支持普通话，英语，粤语，四川话，普通话远场四、腾讯云语言识别

目前价格需要手动提交申请然后会给你推送报价，不对外提供报价（客服电话告诉我的），文档地址腾讯云语言识别

1、一句话识别即在线识别

识别60s内的短语音，当音频放在请求body中传输时整个请求大小不能超过1M，当音频以url方式传输时，音频时长不可超过60s。接口请求频率限制：20次/每秒

2、离线语音识别（RESTfulAPI）

离线语音识别服务使用RESTfulAPI识别语音文件，采用异步方式通知业务方全部文本结果。离线语音识别接口采用HTTPS协议，支持语音URL和本地语音文件两种请求方式。离线语音识别适用于多种标准语音格式的长段语音文件，通常应用于对识别结果返回时延要求不高的场景。目前支持的采样率为8K和16K，仅支持中文。可以应用于客服语音记录质检、UGC音频审核、会议语音记录转写和医生就诊录音转写等场景。

识别分为推送和获取识别结果两个步骤支持长语音识别五、总结

目前来看科大讯飞的产品比较完善，但是相比收费也是最高的，其次阿里相对比较完善，不过要线上使用相比价格还是比较高的，百度完全免费，不过只支持60秒以内识别，其次腾讯只支持两种模式识别。相比之下我在智能通话中会使用科大和阿里的在线识别，其次在语音质检过程中我会使用百度的识别，因为一般录音文件少于60秒（语音告知），如果超过部分可以提供剪裁！

科大讯飞助力智慧法院建设

同时，借助法院语音云平台效果优化服务，将方言模型、案件模型进行优化训练，对涉及的方言口音、专业词汇有针对性的进行升级优化。经过语音云平台对语料的不断训练优化，标准普通话语音识别正确率可达到98%，目前已支持28种方言口音以及粤语、四川话等纯方言的语音识别。

2019年3月，最高人民法院知识产权法庭通过对接法院语音云平台的学习训练服务，为知产法庭审理医药、机械、电子、通信等专业领域度较高的案件提供个案的专属模型优化服务，从而提升知产法庭开庭效率和笔录生成质量。

此外，智能语音应用在上海全市法院也起到了重要作用。2020年4月1日起，上海法院全面启动庭审记录改革试点工作。根据有关法律法规、司法解释规定，统筹兼顾司法体制综合配套改革试点精神与法院发展规划趋势，运用区块链存证、智能语音识别同步转换、全程录音录像等现代化科技手段，改革庭审记录方式，完善庭审记录内容，提高庭审记录的真实性、准确性和完整性。截至2020年12月底，智能语音应用已部署381个法庭，上海市1702名法官使用了这一系统，助力完成了5.35万场庭审。

庭审记录改革试点以来，针对简易案件，可减少30%的庭审时长，案件审理更加顺畅，法官不用等待书记员记录笔录的节奏，针对普通案件，可以解决法官与书记员开庭时间冲突问题。

同时，书记员进行集约化机制优化，解放了书记员与法官的强绑定关系，因为之前书记员都是一对多，实际开庭需要兼顾书记员的时间，法官可以灵活根据自己的时间来排庭。此外，书记员可以从笔录事务性工作中解放。书记员把节省的这部分庭审记录工作时间，更多地放在庭前准备工作、电子卷宗随案同步生成以及上诉案件的音字转换文本核对等审判辅助事务上面。

未来，科大讯飞将在“人工智能+法院”领域继续探索，深挖智能语音技术的同时，拓展知识推理服务的业务应用，并结合大数据、区块链等前沿技术，建立面向立案、审理、裁判、执行等法院业务的知识图谱，构建面向各类用户的人工智能感知交互体系和以知识为中心的人工智能辅助决策体系，推动审判体系和审判能力现代化，提升司法公信力，用人工智能建设美好世界。返回搜狐，查看更多

科大讯飞/百度/阿里/腾讯(BAT)智能语音识别(ASR)性能对比选择预计价格分享 科大讯飞的智能语音技术