博舍

语音识别 一句话识别 语音识别sdk开源什么意思啊

语音识别 一句话识别

1.接口描述

接口请求域名:asr.tencentcloudapi.com。

本接口用于对60秒之内的短音频文件进行识别。•支持中文普通话、英语、粤语、日语、越南语、马来语、印度尼西亚语、菲律宾语、泰语、葡萄牙语、土耳其语、阿拉伯语、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话。•支持本地语音文件上传和语音URL上传两种请求方式,音频时长不能超过60s,音频文件大小不能超过3MB。•音频格式支持wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac。•请求方法为HTTPPOST,Content-Type为"application/json;charset=utf-8"•签名方法参考公共参数中签名方法v3。•默认接口请求频率限制:30次/秒,如您有提高请求频率限制的需求,请前往购买。

推荐使用APIExplorer点击调试APIExplorer提供了在线调用、签名验证、SDK代码生成和快速检索接口等能力。您可查看每次调用的请求内容和返回结果以及自动生成SDK调用示例。2.输入参数

以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见公共请求参数。

参数名称必选类型描述Action是String公共参数,本接口取值:SentenceRecognition。Version是String公共参数,本接口取值:2019-06-14。Region否String公共参数,本接口不需要传递此参数。EngSerViceType是String引擎模型类型。电话场景:•8k_zh:中文电话通用;•8k_en:英文电话通用;

非电话场景:•16k_zh:中文通用;•16k_zh-PY:中英粤;•16k_zh_medical:中文医疗;•16k_en:英语;•16k_yue:粤语;•16k_ja:日语;•16k_ko:韩语;•16k_vi:越南语;•16k_ms:马来语;•16k_id:印度尼西亚语;•16k_fil:菲律宾语;•16k_th:泰语;•16k_pt:葡萄牙语;•16k_tr:土耳其语;•16k_ar:阿拉伯语;•16k_es:西班牙语;•16k_zh_dialect:多方言,支持23种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话);

SourceType是Integer语音数据来源。0:语音URL;1:语音数据(postbody)。VoiceFormat是String识别音频的音频格式,支持wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac、amr。Url否String语音的URL地址,需要公网环境浏览器可下载。当SourceType值为0时须填写该字段,为1时不填。音频时长不能超过60s,音频文件大小不能超过3MB。Data否String语音数据,当SourceType值为1(本地语音数据上传)时必须填写,当SourceType值为0(语音URL上传)可不写。要使用base64编码(采用python语言时注意读取文件应该为string而不是byte,以byte格式读取后要decode()。编码后的数据不可带有回车换行符)。音频时长不能超过60s,音频文件大小不能超过3MB(Base64后)。DataLen否Integer数据长度,单位为字节。当SourceType值为1(本地语音数据上传)时必须填写,当SourceType值为0(语音URL上传)可不写(此数据长度为数据未进行base64编码时的数据长度)。WordInfo否Integer是否显示词级别时间戳。0:不显示;1:显示,不包含标点时间戳,2:显示,包含标点时间戳。默认值为0。FilterDirty否Integer是否过滤脏词(目前支持中文普通话引擎)。0:不过滤脏词;1:过滤脏词;2:将脏词替换为*。默认值为0。FilterModal否Integer是否过语气词(目前支持中文普通话引擎)。0:不过滤语气词;1:部分过滤;2:严格过滤。默认值为0。FilterPunc否Integer是否过滤标点符号(目前支持中文普通话引擎)。0:不过滤,1:过滤句末标点,2:过滤所有标点。默认值为0。ConvertNumMode否Integer是否进行阿拉伯数字智能转换。0:不转换,直接输出中文数字,1:根据场景智能转换为阿拉伯数字。默认值为1。HotwordId否String热词id。用于调用对应的热词表,如果在调用语音识别服务时,不进行单独的热词id设置,自动生效默认热词;如果进行了单独的热词id设置,那么将生效单独设置的热词id。CustomizationId否String自学习模型id。如设置了该参数,将生效对应的自学习模型。ReinforceHotword否Integer热词增强功能。1:开启后(仅支持8k_zh,16k_zh),将开启同音替换功能,同音字、词在热词中配置。举例:热词配置“蜜制”并开启增强功能后,与“蜜制”同拼音(mizhi)的“秘制”、“蜜汁”的识别结果会被强制替换成“蜜制”。因此建议客户根据自己的实际情况开启该功能。HotwordList否String临时热词:用于提升识别准确率,临时热词规则:“热词|权重”,热词不超过30个字符(最多10个汉字),权重1-10,最多传入128个热词。举例:"腾讯云|10,语音识别|5,ASR|10"。“临时热词”和“热词id”的区别:热词id需要先在控制台或通过接口创建热词表,得到热词表id后才可以使用热词功能,本字段可以在每次请求时直接传入热词使用,但每次请求后云端不会保留相关的热词数据,需要客户自行维护相关数据InputSampleRate否Integer支持pcm格式的8k音频在与引擎采样率不匹配的情况下升采样到16k后识别,能有效提升识别准确率。仅支持:8000。如:传入8000,则pcm音频采样率为8k,当引擎选用16k_zh,那么该8k采样率的pcm音频可以在16k_zh引擎下正常识别。注:此参数仅适用于pcm格式音频,不传入值将维持默认状态,即默认调用的引擎采样率等于pcm音频采样率。3.输出参数参数名称类型描述ResultString识别结果。AudioDurationInteger请求的音频时长,单位为msWordSizeInteger词时间戳列表的长度注意:此字段可能返回null,表示取不到有效值。WordListArrayofSentenceWord词时间戳列表注意:此字段可能返回null,表示取不到有效值。RequestIdString唯一请求ID,每次请求都会返回。定位问题时需要提供该次请求的RequestId。4.示例示例1通过语音Url来调用接口

用户通过语音Url的方式(SourceType为0)请求一句话识别服务,请求模型为电话8k中文(EngSerViceType=8k_zh),音频格式为wav

输入示例POST/HTTP/1.1Host:asr.tencentcloudapi.comContent-Type:application/json;charset=utf-8X-TC-Version:2019-06-14X-TC-Region:ap-shanghaiX-TC-Action:SentenceRecognitionX-TC-Timestamp:1599140162Authorization:TC3-HMAC-SHA256Credential=AKIDYu6A16GdCxUlnbTSVItxvhxxx2gpbx2/2020-09-03/asr/tc3_request,SignedHeaders=content-type;host,Signature=0615f73a69c6b054affd69e4b1cbb68fbe84ae8024a9347df4aa5054933adac8{"UsrAudioKey":"test","SubServiceType":2,"Url":"http://tes.cos.ap-guangzhou.myqcloud.com/test.wav","ProjectId":0,"EngSerViceType":"8k_zh","VoiceFormat":"wav","SourceType":0}输出示例{"Response":{"RequestId":"41ed9283-0c09-46fb-917b-0b83fa95f0be","Result":"腾讯云语音识别欢迎您。","AudioDuration":2430,"WordSize":4,"WordList":[{"Word":"腾讯云","StartTime":120,"EndTime":810},{"Word":"语音识别","StartTime":810,"EndTime":1530},{"Word":"欢迎","StartTime":1530,"EndTime":1890},{"Word":"您","StartTime":1890,"EndTime":2250}]}}示例2通过语音数据来调用接口

用户通过上传语音数据(Data)的方式(SourceType为1)请求一句话识别服务,请求模型为电话8k中文(EngSerViceType=8k_zh),音频格式为wav

输入示例POST/HTTP/1.1Host:asr.tencentcloudapi.comContent-Type:application/json;charset=utf-8X-TC-Version:2019-06-14X-TC-Region:ap-shanghaiX-TC-Action:SentenceRecognitionX-TC-Timestamp:1599140479Authorization:TC3-HMAC-SHA256Credential=AKIDYu6A16GdCxUlnbTSVItxvhOr6B2xxxx2/2020-09-03/asr/tc3_request,SignedHeaders=content-type;host,Signature=aa5e2b8b16ced1ac9f877c9a92dab641dcd940837f5869a9e933688c181094de{"UsrAudioKey":"test","SubServiceType":2,"ProjectId":0,"EngSerViceType":"8k_zh","VoiceFormat":"wav","Data":"eGNmYXNkZmFzZmFzZGZhc2RmCg==","SourceType":1}输出示例{"Response":{"RequestId":"41ed9283-0c09-46fb-917b-0b83fa95f0be","Result":"腾讯云语音识别欢迎您。","AudioDuration":2430,"WordSize":4,"WordList":[{"Word":"腾讯云","StartTime":120,"EndTime":810},{"Word":"语音识别","StartTime":810,"EndTime":1530},{"Word":"欢迎","StartTime":1530,"EndTime":1890},{"Word":"您","StartTime":1890,"EndTime":2250}]}}5.开发者资源腾讯云API平台

腾讯云API平台是综合API文档、错误码、APIExplorer及SDK等资源的统一查询平台,方便您从同一入口查询及使用腾讯云提供的所有API服务。

APIInspector

用户可通过APIInspector查看控制台每一步操作关联的API调用情况,并自动生成各语言版本的API代码,也可前往APIExplorer进行在线调试。

SDK

云API3.0提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用API。

TencentCloudSDK3.0forPythonTencentCloudSDK3.0forJavaTencentCloudSDK3.0forPHPTencentCloudSDK3.0forGoTencentCloudSDK3.0forNodeJSTencentCloudSDK3.0for.NETTencentCloudSDK3.0forC++TencentCloudSDK3.0forRuby命令行工具TencentCloudCLI3.06.错误码

以下仅列出了接口业务逻辑相关的错误码,其他错误码详见公共错误码。

错误码描述FailedOperation.ErrorRecognize识别失败。FailedOperation.ServiceIsolate账号因为欠费停止服务,请在腾讯云账户充值。FailedOperation.UserHasNoFreeAmount账号本月免费额度已用完。FailedOperation.UserNotRegistered服务未开通,请在腾讯云官网语音识别控制台开通服务。InternalError内部错误。InternalError.ErrorConfigure初始化配置失败。InternalError.ErrorCreateLog创建日志失败。InternalError.ErrorDownFile下载音频文件失败。InternalError.ErrorFailNewprequest新建数组失败。InternalError.ErrorFailWritetodb写入数据库失败。InternalError.ErrorFileCannotopen文件无法打开。InternalError.ErrorGetRoute获取路由失败。InternalError.ErrorMakeLogpath创建日志路径失败。InternalError.ErrorRecognize识别失败。InvalidParameter.ErrorContentlength请求数据长度无效。InvalidParameter.ErrorParamsMissing参数不全。InvalidParameter.ErrorParsequest解析请求数据失败。InvalidParameterValue参数取值错误。InvalidParameterValue.ErrorInvalidAppidAppId无效。InvalidParameterValue.ErrorInvalidClientipClientIp无效。InvalidParameterValue.ErrorInvalidEngserviceEngSerViceType无效。InvalidParameterValue.ErrorInvalidProjectidProjectId无效。InvalidParameterValue.ErrorInvalidRequestidRequestId无效。InvalidParameterValue.ErrorInvalidSourcetypeSourceType无效。InvalidParameterValue.ErrorInvalidSubservicetypeSubserviceType无效。InvalidParameterValue.ErrorInvalidUrlUrl无效。InvalidParameterValue.ErrorInvalidUseraudiokeyUsrAudioKey无效。InvalidParameterValue.ErrorInvalidVoiceFormat音频编码格式不支持。InvalidParameterValue.ErrorInvalidVoicedata音频数据无效。InvalidParameterValue.ErrorVoicedataTooLong音频时长超过限制。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇