语音识别录音文件识别请求语音识别sdk开源失败怎么解决方法

发表时间：2023-07-14 00:35:02

语音识别录音文件识别请求

1.接口描述

接口请求域名：asr.tencentcloudapi.com。

本接口服务对时长5小时以内的录音文件进行识别，异步返回识别全部结果。•支持中文普通话、英语、粤语、日语、越南语、马来语、印度尼西亚语、菲律宾语、葡萄牙语、土耳其语、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话。•支持wav、mp3、m4a、flv、mp4、wma、3gp、amr、aac、ogg-opus、flac格式。•支持语音URL和本地语音文件两种请求方式。语音URL的音频时长不能长于5小时，文件大小不超过1GB。本地语音文件调用不能大于5MB。推荐使用腾讯云COS来存储&生成URL提交任务，无外网&流量下行费用，节约成本、提升任务速度。(COS桶权限需要设置公有读私有写，或URL设置外部可访问)•提交录音文件识别请求后，在3小时内完成识别（大多数情况下1小时音频约3分钟以内完成识别，半小时内发送超过1000小时录音或者2万条识别任务的除外），识别结果在服务端可保存7天。•支持回调或轮询的方式获取结果，结果获取请参考录音文件识别结果查询。•生成字幕场景可设置参数ResTextFormat为3，解析ResultDetail结构生成字幕，可参考生成字幕最佳实践。•签名方法参考公共参数中签名方法v3。•默认接口请求频率限制：20次/秒。

默认接口请求频率限制：20次/秒。

推荐使用APIExplorer点击调试APIExplorer提供了在线调用、签名验证、SDK代码生成和快速检索接口等能力。您可查看每次调用的请求内容和返回结果以及自动生成SDK调用示例。2.输入参数

以下请求参数列表仅列出了接口请求参数和部分公共参数，完整公共参数列表见公共请求参数。

参数名称必选类型描述Action是String公共参数，本接口取值：CreateRecTask。Version是String公共参数，本接口取值：2019-06-14。Region否String公共参数，此参数为可选参数。EngineModelType是String引擎模型类型。注意：非电话场景请务必使用16k的引擎。电话场景：•8k_zh：中文电话通用；•8k_en：英文电话通用；

非电话场景：•16k_zh：中文通用；•16k_zh-PY：中英粤;•16k_zh_medical：中文医疗；•16k_en：英语；•16k_yue：粤语；•16k_ja：日语；•16k_ko：韩语；•16k_vi：越南语；•16k_ms：马来语；•16k_id：印度尼西亚语；•16k_fil：菲律宾语；•16k_th：泰语；•16k_pt：葡萄牙语；•16k_tr：土耳其语；•16k_zh_dialect：多方言，支持23种方言（上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话）；

ChannelNum是Integer识别声道数。1：单声道（非电话场景，直接选择单声道即可，忽略音频声道数）；2：双声道（仅支持8k_zh电话场景，双声道应分别对应通话双方）。注意：双声道的电话音频已物理分离说话人，无需再开启说话人分离功能。ResTextFormat是Integer识别结果返回形式。0：识别结果文本(含分段时间戳)；1：词级别粒度的详细识别结果(不含标点，含语速值)；2：词级别粒度的详细识别结果（包含标点、语速值）；3:标点符号分段，包含每段时间戳，特别适用于字幕场景（包含词级时间、标点、语速值）。4：【付费功能】将对ASR结果按照语义分段，并展示词级别粒度的详细识别结果,目前仅支持中文引擎（注意：如果开启后付费，将自动计费）SourceType是Integer语音数据来源。0：语音URL；1：语音数据（postbody）。SpeakerDiarization否Integer是否开启说话人分离，0：不开启，1：开启(仅支持8k_zh/16k_zh，ChannelNum=1时可用)，默认值为0。注意：8k电话场景建议使用双声道来区分通话双方，设置ChannelNum=2即可，不用开启说话人分离，如果设置了ChannelNum=1，后台会先转码成单声道，说话人分离结果可能产生偏差。SpeakerNumber否Integer说话人分离人数（需配合开启说话人分离使用），取值范围：0-10，0代表自动分离（目前仅支持≤6个人），1-10代表指定说话人数分离。默认值为0。注：此功能结果仅供参考，请根据您的需要谨慎使用。CallbackUrl否String回调URL，用户自行搭建的用于接收识别结果的服务URL。如果用户使用轮询方式获取识别结果，则无需提交该参数。回调格式&内容详见：录音识别回调说明Url否String语音的URL地址，需要公网环境浏览器可下载。当SourceType值为0时须填写该字段，为1时不需要填写。注意：请确保录音文件时长在5个小时之内，否则可能识别失败。请保证文件的下载速度，否则可能下载失败。Data否String语音数据base64编码，当SourceType值为1时必须填写，为0可不写。音频数据要小于5MB。DataLen否Integer数据长度，非必填（此数据长度为数据未进行base64编码时的数据长度）。ConvertNumMode否Integer是否进行阿拉伯数字智能转换（目前支持中文普通话引擎）。0：不转换，直接输出中文数字，1：根据场景智能转换为阿拉伯数字，3:打开数学相关数字转换。默认值为1。FilterDirty否Integer是否过滤脏词（目前支持中文普通话引擎）。0：不过滤脏词；1：过滤脏词；2：将脏词替换为*。默认值为0。HotwordId否String热词表id。如不设置该参数，自动生效默认热词表；如设置了该参数，那么将生效对应的热词表。CustomizationId否String自学习模型id。如设置了该参数，将生效对应的自学习模型。Extra否String附加参数(该参数无意义，忽略即可)FilterPunc否Integer是否过滤标点符号（目前支持中文普通话引擎）。0：不过滤，1：过滤句末标点，2：过滤所有标点。默认值为0。FilterModal否Integer是否过滤语气词（目前支持中文普通话引擎）。0：不过滤语气词；1：部分过滤；2：严格过滤。默认值为0。EmotionalEnergy否Integer情绪能量值，取值为音量分贝值/10。取值范围：[1,10]。值越高情绪越强烈。0:不开启，1:开启ReinforceHotword否Integer热词增强功能。1:开启后（仅支持8k_zh,16k_zh），将开启同音替换功能，同音字、词在热词中配置。举例：热词配置“蜜制”并开启增强功能后，与“蜜制”同拼音（mizhi）的“秘制”的识别结果会被强制替换成“蜜制”。因此建议客户根据自己的实际情况开启该功能。SentenceMaxLength否Integer单标点最多字数，取值范围：[6，40]。默认为0，不开启该功能。该参数可用于字幕生成场景，控制单行字幕最大字数（设置ResTextFormat为3，解析返回的ResultDetail列表，通过结构中FinalSentence获取单个标点断句结果）。EmotionRecognition否Integer情绪识别能力(目前支持16k_zh)默认为0，不开启。1：开启情绪识别但是不会在文本展示“情绪标签”，2：开启情绪识别并且在文本展示“情绪标签”。（该功能需要设置ResTextFormat大于0）注意：本功能为增值服务，购买对应套餐包后，将参数设置为1或2时方可按对应方式生效，并消耗套餐包对应资源。参数设置为0时无需购买套餐包，也不会消耗对应资源。3.输出参数参数名称类型描述DataTask录音文件识别的请求返回结果，包含结果查询需要的TaskIdRequestIdString唯一请求ID，每次请求都会返回。定位问题时需要提供该次请求的RequestId。4.示例示例1通过语音Url来调用接口

用户通过语音Url的方式（SourceType为0）请求录音识别服务，请求模型为16k中文（EngineModelType=16k_zh），音频格式为wav（采样率为16k，单声道）

输入示例POST/HTTP/1.1Host:asr.tencentcloudapi.comContent-Type:application/json;charset=utf-8X-TC-Version:2019-06-14X-TC-Region:ap-shanghaiX-TC-Action:CreateRecTaskX-TC-Timestamp:1599142560Authorization:TC3-HMAC-SHA256Credential=AKIDYu6A16GdCxUlnbTSVItxvhOr6B2xxxxx/2020-09-03/asr/tc3_request,SignedHeaders=content-type;host,Signature=524ed61a4a71de417f4fa41249dcb428a0c51013890f24f3492068ca7cd16953{"Url":"http://test.cos.ap-guangzhou.myqcloud.com/test.wav","ChannelNum":1,"EngineModelType":"16k_zh","ResTextFormat":0,"SourceType":0}输出示例{"Response":{"RequestId":"3c140219-cfe9-470e-b241-907877d6fb03","Data":{"TaskId":1393265}}}示例2通过语音数据来调用接口

用户通过上传语音数据（Data）的方式（SourceType为1）请求录音识别服务，请求模型为16k中文（EngineModelType=16k_zh），音频格式为wav（采样率为16k，单声道）

输入示例POST/HTTP/1.1Host:asr.tencentcloudapi.comContent-Type:application/json;charset=utf-8X-TC-Version:2019-06-14X-TC-Region:ap-shanghaiX-TC-Action:CreateRecTaskX-TC-Timestamp:1599142560Authorization:TC3-HMAC-SHA256Credential=AKIDYu6A16GdCxUlnbTSVItxvhOr6B2xxxxx/2020-09-03/asr/tc3_request,SignedHeaders=content-type;host,Signature=524ed61a4a71de417f4fa41249dcb428a0c51013890f24f3492068ca7cd16953{"ChannelNum":1,"EngineModelType":"16k_zh","ResTextFormat":0,"Data":"eGNmYXNkZmFzZmFzZGZhc2RmCg==","SourceType":1}输出示例{"Response":{"RequestId":"3c140219-cfe9-470e-b241-907877d6fb03","Data":{"TaskId":1396665}}}5.开发者资源腾讯云API平台

腾讯云API平台是综合API文档、错误码、APIExplorer及SDK等资源的统一查询平台，方便您从同一入口查询及使用腾讯云提供的所有API服务。

APIInspector

用户可通过APIInspector查看控制台每一步操作关联的API调用情况，并自动生成各语言版本的API代码，也可前往APIExplorer进行在线调试。

SDK

云API3.0提供了配套的开发工具集（SDK），支持多种编程语言，能更方便的调用API。

TencentCloudSDK3.0forPythonTencentCloudSDK3.0forJavaTencentCloudSDK3.0forPHPTencentCloudSDK3.0forGoTencentCloudSDK3.0forNodeJSTencentCloudSDK3.0for.NETTencentCloudSDK3.0forC++TencentCloudSDK3.0forRuby命令行工具TencentCloudCLI3.06.错误码

以下仅列出了接口业务逻辑相关的错误码，其他错误码详见公共错误码。

错误码描述AuthFailure.InvalidAuthorization鉴权错误。FailedOperation.CheckAuthInfoFailed鉴权错误。FailedOperation.ErrorDownFile下载音频文件失败。FailedOperation.ErrorRecognize识别失败。FailedOperation.ServiceIsolate账号因为欠费停止服务，请在腾讯云账户充值。FailedOperation.UserHasNoFreeAmount账号本月免费额度已用完。FailedOperation.UserNotRegistered服务未开通，请在腾讯云官网语音识别控制台开通服务。InternalError.ErrorDownFile下载音频文件失败。InternalError.FailAccessDatabase访问数据库失败。InternalError.FailAccessRedis访问Redis失败。InvalidParameter参数错误。InvalidParameterValue参数取值错误。MissingParameter缺少参数错误。RequestLimitExceeded.UinLimitExceeded超出请求频率。UnknownParameter未知参数错误。

语音识别 录音文件识别请求 语音识别sdk开源失败怎么解决方法

语音识别 录音文件识别请求

语音识别录音文件识别请求语音识别sdk开源失败怎么解决方法

语音识别录音文件识别请求