语音识别 录音文件识别请求
1.接口描述接口请求域名:asr.tencentcloudapi.com。
本接口服务对时长5小时以内的录音文件进行识别,异步返回识别全部结果。•支持中文普通话、英语、粤语、日语、越南语、马来语、印度尼西亚语、菲律宾语、葡萄牙语、土耳其语、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话。•支持wav、mp3、m4a、flv、mp4、wma、3gp、amr、aac、ogg-opus、flac格式。•支持语音URL和本地语音文件两种请求方式。语音URL的音频时长不能长于5小时,文件大小不超过1GB。本地语音文件调用不能大于5MB。推荐使用腾讯云COS来存储&生成URL提交任务,无外网&流量下行费用,节约成本、提升任务速度。(COS桶权限需要设置公有读私有写,或URL设置外部可访问)•提交录音文件识别请求后,在3小时内完成识别(大多数情况下1小时音频约3分钟以内完成识别,半小时内发送超过1000小时录音或者2万条识别任务的除外),识别结果在服务端可保存7天。•支持回调或轮询的方式获取结果,结果获取请参考录音文件识别结果查询。•生成字幕场景可设置参数ResTextFormat为3,解析ResultDetail结构生成字幕,可参考生成字幕最佳实践。•签名方法参考公共参数中签名方法v3。•默认接口请求频率限制:20次/秒。
默认接口请求频率限制:20次/秒。
推荐使用APIExplorer点击调试APIExplorer提供了在线调用、签名验证、SDK代码生成和快速检索接口等能力。您可查看每次调用的请求内容和返回结果以及自动生成SDK调用示例。2.输入参数以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见公共请求参数。
参数名称必选类型描述Action是String公共参数,本接口取值:CreateRecTask。Version是String公共参数,本接口取值:2019-06-14。Region否String公共参数,此参数为可选参数。EngineModelType是String引擎模型类型。注意:非电话场景请务必使用16k的引擎。电话场景:•8k_zh:中文电话通用;•8k_en:英文电话通用;非电话场景:•16k_zh:中文通用;•16k_zh-PY:中英粤;•16k_zh_medical:中文医疗;•16k_en:英语;•16k_yue:粤语;•16k_ja:日语;•16k_ko:韩语;•16k_vi:越南语;•16k_ms:马来语;•16k_id:印度尼西亚语;•16k_fil:菲律宾语;•16k_th:泰语;•16k_pt:葡萄牙语;•16k_tr:土耳其语;•16k_zh_dialect:多方言,支持23种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话);
ChannelNum是Integer识别声道数。1:单声道(非电话场景,直接选择单声道即可,忽略音频声道数);2:双声道(仅支持8k_zh电话场景,双声道应分别对应通话双方)。注意:双声道的电话音频已物理分离说话人,无需再开启说话人分离功能。ResTextFormat是Integer识别结果返回形式。0:识别结果文本(含分段时间戳);1:词级别粒度的详细识别结果(不含标点,含语速值);2:词级别粒度的详细识别结果(包含标点、语速值);3:标点符号分段,包含每段时间戳,特别适用于字幕场景(包含词级时间、标点、语速值)。4:【付费功能】将对ASR结果按照语义分段,并展示词级别粒度的详细识别结果,目前仅支持中文引擎(注意:如果开启后付费,将自动计费)SourceType是Integer语音数据来源。0:语音URL;1:语音数据(postbody)。SpeakerDiarization否Integer是否开启说话人分离,0:不开启,1:开启(仅支持8k_zh/16k_zh,ChannelNum=1时可用),默认值为0。注意:8k电话场景建议使用双声道来区分通话双方,设置ChannelNum=2即可,不用开启说话人分离,如果设置了ChannelNum=1,后台会先转码成单声道,说话人分离结果可能产生偏差。SpeakerNumber否Integer说话人分离人数(需配合开启说话人分离使用),取值范围:0-10,0代表自动分离(目前仅支持≤6个人),1-10代表指定说话人数分离。默认值为0。注:此功能结果仅供参考,请根据您的需要谨慎使用。CallbackUrl否String回调URL,用户自行搭建的用于接收识别结果的服务URL。如果用户使用轮询方式获取识别结果,则无需提交该参数。回调格式&内容详见:录音识别回调说明Url否String语音的URL地址,需要公网环境浏览器可下载。当SourceType值为0时须填写该字段,为1时不需要填写。注意:请确保录音文件时长在5个小时之内,否则可能识别失败。请保证文件的下载速度,否则可能下载失败。Data否String语音数据base64编码,当SourceType值为1时必须填写,为0可不写。音频数据要小于5MB。DataLen否Integer数据长度,非必填(此数据长度为数据未进行base64编码时的数据长度)。ConvertNumMode否Integer是否进行阿拉伯数字智能转换(目前支持中文普通话引擎)。0:不转换,直接输出中文数字,1:根据场景智能转换为阿拉伯数字,3:打开数学相关数字转换。默认值为1。FilterDirty否Integer是否过滤脏词(目前支持中文普通话引擎)。0:不过滤脏词;1:过滤脏词;2:将脏词替换为*。默认值为0。HotwordId否String热词表id。如不设置该参数,自动生效默认热词表;如设置了该参数,那么将生效对应的热词表。CustomizationId否String自学习模型id。如设置了该参数,将生效对应的自学习模型。Extra否String附加参数(该参数无意义,忽略即可)FilterPunc否Integer是否过滤标点符号(目前支持中文普通话引擎)。0:不过滤,1:过滤句末标点,2:过滤所有标点。默认值为0。FilterModal否Integer是否过滤语气词(目前支持中文普通话引擎)。0:不过滤语气词;1:部分过滤;2:严格过滤。默认值为0。EmotionalEnergy否Integer情绪能量值,取值为音量分贝值/10。取值范围:[1,10]。值越高情绪越强烈。0:不开启,1:开启ReinforceHotword否Integer热词增强功能。1:开启后(仅支持8k_zh,16k_zh),将开启同音替换功能,同音字、词在热词中配置。举例:热词配置“蜜制”并开启增强功能后,与“蜜制”同拼音(mizhi)的“秘制”的识别结果会被强制替换成“蜜制”。因此建议客户根据自己的实际情况开启该功能。SentenceMaxLength否Integer单标点最多字数,取值范围:[6,40]。默认为0,不开启该功能。该参数可用于字幕生成场景,控制单行字幕最大字数(设置ResTextFormat为3,解析返回的ResultDetail列表,通过结构中FinalSentence获取单个标点断句结果)。EmotionRecognition否Integer情绪识别能力(目前支持16k_zh)默认为0,不开启。1:开启情绪识别但是不会在文本展示“情绪标签”,2:开启情绪识别并且在文本展示“情绪标签”。(该功能需要设置ResTextFormat大于0)注意:本功能为增值服务,购买对应套餐包后,将参数设置为1或2时方可按对应方式生效,并消耗套餐包对应资源。参数设置为0时无需购买套餐包,也不会消耗对应资源。3.输出参数参数名称类型描述DataTask录音文件识别的请求返回结果,包含结果查询需要的TaskIdRequestIdString唯一请求ID,每次请求都会返回。定位问题时需要提供该次请求的RequestId。4.示例示例1通过语音Url来调用接口用户通过语音Url的方式(SourceType为0)请求录音识别服务,请求模型为16k中文(EngineModelType=16k_zh),音频格式为wav(采样率为16k,单声道)
输入示例POST/HTTP/1.1Host:asr.tencentcloudapi.comContent-Type:application/json;charset=utf-8X-TC-Version:2019-06-14X-TC-Region:ap-shanghaiX-TC-Action:CreateRecTaskX-TC-Timestamp:1599142560Authorization:TC3-HMAC-SHA256Credential=AKIDYu6A16GdCxUlnbTSVItxvhOr6B2xxxxx/2020-09-03/asr/tc3_request,SignedHeaders=content-type;host,Signature=524ed61a4a71de417f4fa41249dcb428a0c51013890f24f3492068ca7cd16953{"Url":"http://test.cos.ap-guangzhou.myqcloud.com/test.wav","ChannelNum":1,"EngineModelType":"16k_zh","ResTextFormat":0,"SourceType":0}输出示例{"Response":{"RequestId":"3c140219-cfe9-470e-b241-907877d6fb03","Data":{"TaskId":1393265}}}示例2通过语音数据来调用接口用户通过上传语音数据(Data)的方式(SourceType为1)请求录音识别服务,请求模型为16k中文(EngineModelType=16k_zh),音频格式为wav(采样率为16k,单声道)
输入示例POST/HTTP/1.1Host:asr.tencentcloudapi.comContent-Type:application/json;charset=utf-8X-TC-Version:2019-06-14X-TC-Region:ap-shanghaiX-TC-Action:CreateRecTaskX-TC-Timestamp:1599142560Authorization:TC3-HMAC-SHA256Credential=AKIDYu6A16GdCxUlnbTSVItxvhOr6B2xxxxx/2020-09-03/asr/tc3_request,SignedHeaders=content-type;host,Signature=524ed61a4a71de417f4fa41249dcb428a0c51013890f24f3492068ca7cd16953{"ChannelNum":1,"EngineModelType":"16k_zh","ResTextFormat":0,"Data":"eGNmYXNkZmFzZmFzZGZhc2RmCg==","SourceType":1}输出示例{"Response":{"RequestId":"3c140219-cfe9-470e-b241-907877d6fb03","Data":{"TaskId":1396665}}}5.开发者资源腾讯云API平台腾讯云API平台是综合API文档、错误码、APIExplorer及SDK等资源的统一查询平台,方便您从同一入口查询及使用腾讯云提供的所有API服务。
APIInspector用户可通过APIInspector查看控制台每一步操作关联的API调用情况,并自动生成各语言版本的API代码,也可前往APIExplorer进行在线调试。
SDK云API3.0提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用API。
TencentCloudSDK3.0forPythonTencentCloudSDK3.0forJavaTencentCloudSDK3.0forPHPTencentCloudSDK3.0forGoTencentCloudSDK3.0forNodeJSTencentCloudSDK3.0for.NETTencentCloudSDK3.0forC++TencentCloudSDK3.0forRuby命令行工具TencentCloudCLI3.06.错误码以下仅列出了接口业务逻辑相关的错误码,其他错误码详见公共错误码。
错误码描述AuthFailure.InvalidAuthorization鉴权错误。FailedOperation.CheckAuthInfoFailed鉴权错误。FailedOperation.ErrorDownFile下载音频文件失败。FailedOperation.ErrorRecognize识别失败。FailedOperation.ServiceIsolate账号因为欠费停止服务,请在腾讯云账户充值。FailedOperation.UserHasNoFreeAmount账号本月免费额度已用完。FailedOperation.UserNotRegistered服务未开通,请在腾讯云官网语音识别控制台开通服务。InternalError.ErrorDownFile下载音频文件失败。InternalError.FailAccessDatabase访问数据库失败。InternalError.FailAccessRedis访问Redis失败。InvalidParameter参数错误。InvalidParameterValue参数取值错误。MissingParameter缺少参数错误。RequestLimitExceeded.UinLimitExceeded超出请求频率。UnknownParameter未知参数错误。