语音转写 Java SDK 文档
#语音转写JavaSDK文档#1、简介语音转写(LongFormAutomaticSpeechRecognition):基于科大讯飞独立研究的深度全序列卷积神经网络语音识别框架(DeepFullyConvolutionalNeuralNetwork,DFCNN),针对语音的长时相关性进行语言建模,将音频数据转换成文本数据,为后续的信息处理和数据挖掘提供基础。具体表现形式为,将多种格式的长段音频文件(5小时以内)转换成包含时间戳、词句置信度、词属性以及句子标志的文字信息。文字信息提供分词形式以及整段文字形式以及发音人分离功能。
转写的是已录制音频(非实时),音频文件上传成功后进入等待队列,待转写成功后用户即可获取结果,返回结果时间受音频时长以及排队任务量的影响。如遇转写耗时比平时延长,大概率表示当前时间段出现转写高峰,即有任务积压排队,属正常现象,请耐心等待。为使转写服务更加通畅,请尽量转写5分钟以上的音频文件,上传大量的短音频易引起网络和服务器资源紧张,从而导致任务排队积压。另外,语音转写是SLA协议对象服务之一,我们对付费用户承诺有效任务耗时最大不超过5小时,赔偿标准等详情请参考SLA协议(opensnewwindow)。
SDK下载请点击语音转写JavaSDK下载(opensnewwindow),开发文档详见下方。
音频时长与理论返回时间可以参考下表(请注意,实际返回时长受上传的音频时长和任务总量影响,忙时会出现任务排队情况):
音频时长X(分钟)参考返回时间Y(分钟)X