语音识别一句话识别语音识别sdk开源什么意思啊

发表时间：2023-07-21 12:06:48

语音识别一句话识别

1.接口描述

接口请求域名：asr.tencentcloudapi.com。

本接口用于对60秒之内的短音频文件进行识别。•支持中文普通话、英语、粤语、日语、越南语、马来语、印度尼西亚语、菲律宾语、泰语、葡萄牙语、土耳其语、阿拉伯语、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话。•支持本地语音文件上传和语音URL上传两种请求方式，音频时长不能超过60s，音频文件大小不能超过3MB。•音频格式支持wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac。•请求方法为HTTPPOST,Content-Type为"application/json;charset=utf-8"•签名方法参考公共参数中签名方法v3。•默认接口请求频率限制：30次/秒，如您有提高请求频率限制的需求，请前往购买。

推荐使用APIExplorer点击调试APIExplorer提供了在线调用、签名验证、SDK代码生成和快速检索接口等能力。您可查看每次调用的请求内容和返回结果以及自动生成SDK调用示例。2.输入参数

以下请求参数列表仅列出了接口请求参数和部分公共参数，完整公共参数列表见公共请求参数。

参数名称必选类型描述Action是String公共参数，本接口取值：SentenceRecognition。Version是String公共参数，本接口取值：2019-06-14。Region否String公共参数，本接口不需要传递此参数。EngSerViceType是String引擎模型类型。电话场景：•8k_zh：中文电话通用；•8k_en：英文电话通用；

非电话场景：•16k_zh：中文通用；•16k_zh-PY：中英粤;•16k_zh_medical：中文医疗；•16k_en：英语；•16k_yue：粤语；•16k_ja：日语；•16k_ko：韩语；•16k_vi：越南语；•16k_ms：马来语；•16k_id：印度尼西亚语；•16k_fil：菲律宾语；•16k_th：泰语；•16k_pt：葡萄牙语；•16k_tr：土耳其语；•16k_ar：阿拉伯语；•16k_es：西班牙语；•16k_zh_dialect：多方言，支持23种方言（上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话）；

SourceType是Integer语音数据来源。0：语音URL；1：语音数据（postbody）。VoiceFormat是String识别音频的音频格式，支持wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac、amr。Url否String语音的URL地址，需要公网环境浏览器可下载。当SourceType值为0时须填写该字段，为1时不填。音频时长不能超过60s，音频文件大小不能超过3MB。Data否String语音数据，当SourceType值为1（本地语音数据上传）时必须填写，当SourceType值为0（语音URL上传）可不写。要使用base64编码(采用python语言时注意读取文件应该为string而不是byte，以byte格式读取后要decode()。编码后的数据不可带有回车换行符)。音频时长不能超过60s，音频文件大小不能超过3MB（Base64后）。DataLen否Integer数据长度，单位为字节。当SourceType值为1（本地语音数据上传）时必须填写，当SourceType值为0（语音URL上传）可不写（此数据长度为数据未进行base64编码时的数据长度）。WordInfo否Integer是否显示词级别时间戳。0：不显示；1：显示，不包含标点时间戳，2：显示，包含标点时间戳。默认值为0。FilterDirty否Integer是否过滤脏词（目前支持中文普通话引擎）。0：不过滤脏词；1：过滤脏词；2：将脏词替换为*。默认值为0。FilterModal否Integer是否过语气词（目前支持中文普通话引擎）。0：不过滤语气词；1：部分过滤；2：严格过滤。默认值为0。FilterPunc否Integer是否过滤标点符号（目前支持中文普通话引擎）。0：不过滤，1：过滤句末标点，2：过滤所有标点。默认值为0。ConvertNumMode否Integer是否进行阿拉伯数字智能转换。0：不转换，直接输出中文数字，1：根据场景智能转换为阿拉伯数字。默认值为1。HotwordId否String热词id。用于调用对应的热词表，如果在调用语音识别服务时，不进行单独的热词id设置，自动生效默认热词；如果进行了单独的热词id设置，那么将生效单独设置的热词id。CustomizationId否String自学习模型id。如设置了该参数，将生效对应的自学习模型。ReinforceHotword否Integer热词增强功能。1:开启后（仅支持8k_zh,16k_zh），将开启同音替换功能，同音字、词在热词中配置。举例：热词配置“蜜制”并开启增强功能后，与“蜜制”同拼音（mizhi）的“秘制”、“蜜汁”的识别结果会被强制替换成“蜜制”。因此建议客户根据自己的实际情况开启该功能。HotwordList否String临时热词：用于提升识别准确率，临时热词规则：“热词|权重”，热词不超过30个字符（最多10个汉字），权重1-10，最多传入128个热词。举例："腾讯云|10,语音识别|5,ASR|10"。“临时热词”和“热词id”的区别：热词id需要先在控制台或通过接口创建热词表，得到热词表id后才可以使用热词功能，本字段可以在每次请求时直接传入热词使用，但每次请求后云端不会保留相关的热词数据，需要客户自行维护相关数据InputSampleRate否Integer支持pcm格式的8k音频在与引擎采样率不匹配的情况下升采样到16k后识别，能有效提升识别准确率。仅支持：8000。如：传入8000，则pcm音频采样率为8k，当引擎选用16k_zh，那么该8k采样率的pcm音频可以在16k_zh引擎下正常识别。注：此参数仅适用于pcm格式音频，不传入值将维持默认状态，即默认调用的引擎采样率等于pcm音频采样率。3.输出参数参数名称类型描述ResultString识别结果。AudioDurationInteger请求的音频时长，单位为msWordSizeInteger词时间戳列表的长度注意：此字段可能返回null，表示取不到有效值。WordListArrayofSentenceWord词时间戳列表注意：此字段可能返回null，表示取不到有效值。RequestIdString唯一请求ID，每次请求都会返回。定位问题时需要提供该次请求的RequestId。4.示例示例1通过语音Url来调用接口

用户通过语音Url的方式（SourceType为0）请求一句话识别服务，请求模型为电话8k中文（EngSerViceType=8k_zh），音频格式为wav

输入示例POST/HTTP/1.1Host:asr.tencentcloudapi.comContent-Type:application/json;charset=utf-8X-TC-Version:2019-06-14X-TC-Region:ap-shanghaiX-TC-Action:SentenceRecognitionX-TC-Timestamp:1599140162Authorization:TC3-HMAC-SHA256Credential=AKIDYu6A16GdCxUlnbTSVItxvhxxx2gpbx2/2020-09-03/asr/tc3_request,SignedHeaders=content-type;host,Signature=0615f73a69c6b054affd69e4b1cbb68fbe84ae8024a9347df4aa5054933adac8{"UsrAudioKey":"test","SubServiceType":2,"Url":"http://tes.cos.ap-guangzhou.myqcloud.com/test.wav","ProjectId":0,"EngSerViceType":"8k_zh","VoiceFormat":"wav","SourceType":0}输出示例{"Response":{"RequestId":"41ed9283-0c09-46fb-917b-0b83fa95f0be","Result":"腾讯云语音识别欢迎您。","AudioDuration":2430,"WordSize":4,"WordList":[{"Word":"腾讯云","StartTime":120,"EndTime":810},{"Word":"语音识别","StartTime":810,"EndTime":1530},{"Word":"欢迎","StartTime":1530,"EndTime":1890},{"Word":"您","StartTime":1890,"EndTime":2250}]}}示例2通过语音数据来调用接口

用户通过上传语音数据（Data）的方式（SourceType为1）请求一句话识别服务，请求模型为电话8k中文（EngSerViceType=8k_zh），音频格式为wav

输入示例POST/HTTP/1.1Host:asr.tencentcloudapi.comContent-Type:application/json;charset=utf-8X-TC-Version:2019-06-14X-TC-Region:ap-shanghaiX-TC-Action:SentenceRecognitionX-TC-Timestamp:1599140479Authorization:TC3-HMAC-SHA256Credential=AKIDYu6A16GdCxUlnbTSVItxvhOr6B2xxxx2/2020-09-03/asr/tc3_request,SignedHeaders=content-type;host,Signature=aa5e2b8b16ced1ac9f877c9a92dab641dcd940837f5869a9e933688c181094de{"UsrAudioKey":"test","SubServiceType":2,"ProjectId":0,"EngSerViceType":"8k_zh","VoiceFormat":"wav","Data":"eGNmYXNkZmFzZmFzZGZhc2RmCg==","SourceType":1}输出示例{"Response":{"RequestId":"41ed9283-0c09-46fb-917b-0b83fa95f0be","Result":"腾讯云语音识别欢迎您。","AudioDuration":2430,"WordSize":4,"WordList":[{"Word":"腾讯云","StartTime":120,"EndTime":810},{"Word":"语音识别","StartTime":810,"EndTime":1530},{"Word":"欢迎","StartTime":1530,"EndTime":1890},{"Word":"您","StartTime":1890,"EndTime":2250}]}}5.开发者资源腾讯云API平台

腾讯云API平台是综合API文档、错误码、APIExplorer及SDK等资源的统一查询平台，方便您从同一入口查询及使用腾讯云提供的所有API服务。

APIInspector

用户可通过APIInspector查看控制台每一步操作关联的API调用情况，并自动生成各语言版本的API代码，也可前往APIExplorer进行在线调试。

SDK

云API3.0提供了配套的开发工具集（SDK），支持多种编程语言，能更方便的调用API。

TencentCloudSDK3.0forPythonTencentCloudSDK3.0forJavaTencentCloudSDK3.0forPHPTencentCloudSDK3.0forGoTencentCloudSDK3.0forNodeJSTencentCloudSDK3.0for.NETTencentCloudSDK3.0forC++TencentCloudSDK3.0forRuby命令行工具TencentCloudCLI3.06.错误码

以下仅列出了接口业务逻辑相关的错误码，其他错误码详见公共错误码。

错误码描述FailedOperation.ErrorRecognize识别失败。FailedOperation.ServiceIsolate账号因为欠费停止服务，请在腾讯云账户充值。FailedOperation.UserHasNoFreeAmount账号本月免费额度已用完。FailedOperation.UserNotRegistered服务未开通，请在腾讯云官网语音识别控制台开通服务。InternalError内部错误。InternalError.ErrorConfigure初始化配置失败。InternalError.ErrorCreateLog创建日志失败。InternalError.ErrorDownFile下载音频文件失败。InternalError.ErrorFailNewprequest新建数组失败。InternalError.ErrorFailWritetodb写入数据库失败。InternalError.ErrorFileCannotopen文件无法打开。InternalError.ErrorGetRoute获取路由失败。InternalError.ErrorMakeLogpath创建日志路径失败。InternalError.ErrorRecognize识别失败。InvalidParameter.ErrorContentlength请求数据长度无效。InvalidParameter.ErrorParamsMissing参数不全。InvalidParameter.ErrorParsequest解析请求数据失败。InvalidParameterValue参数取值错误。InvalidParameterValue.ErrorInvalidAppidAppId无效。InvalidParameterValue.ErrorInvalidClientipClientIp无效。InvalidParameterValue.ErrorInvalidEngserviceEngSerViceType无效。InvalidParameterValue.ErrorInvalidProjectidProjectId无效。InvalidParameterValue.ErrorInvalidRequestidRequestId无效。InvalidParameterValue.ErrorInvalidSourcetypeSourceType无效。InvalidParameterValue.ErrorInvalidSubservicetypeSubserviceType无效。InvalidParameterValue.ErrorInvalidUrlUrl无效。InvalidParameterValue.ErrorInvalidUseraudiokeyUsrAudioKey无效。InvalidParameterValue.ErrorInvalidVoiceFormat音频编码格式不支持。InvalidParameterValue.ErrorInvalidVoicedata音频数据无效。InvalidParameterValue.ErrorVoicedataTooLong音频时长超过限制。

语音识别 一句话识别 语音识别sdk开源什么意思啊

语音识别 一句话识别

语音识别一句话识别语音识别sdk开源什么意思啊

语音识别一句话识别