一站式智能语音识别方案,语音审核快准省
(文章来源:砍柴网)
全球领先的实时音视频云PaaS服务商声网Agora近日宣布其推出的“一站式智能语音识别方案”将实现升级,在新的方案中,在原有合作伙伴“数美科技”基础上,将新增依图、阿里云这两家智能语音识别服务商,通过整合行业TOP3服务商的语音识别技术优势,帮助直播、语音聊天室等互联网平台更智能、高效的识别语音中存在的涉黄、涉政、广告等不良信息,实现全面、深入的净化平台网络环境。
近年来,随着直播、短视频、语音社交等行业的快速发展,由用户创造的UGC内容成为了互联网内容生态的重要构成,并丰富了人们的互联网生活。而另一方面,随着用户UGC内容越来越多,涉黄、涉政、不良广告等违法、违规的内容也频频出现,成为了“害群之马”,给很多平台带来了风险。同时,相对于图文和视频,音频审核本身在技术上也更具难度,又增加了平台方的内容审核压力。
在去年8月,声网Agora就推出了“一站式智能语音识别方案”,为企业提供可集成实时音视频、实时录制和实时智能语音识别的一站式服务,在语音识别服务方面接入了数美科技的“天净”智能语音审核系统,通过声纹检测、语音识别等技术,智能识别语音环境中的涉黄、涉政、广告等违法违规信息,受到了很多企业的好评。
而此次升级后的“一站式智能语音识别方案”再接入了阿里云、依图科技先进、智能的语音识别技术,整合了业界TOP3智能语音识别服务商的技术优势以提供目前互联网行业最全面、最高效的智能语音识别技术。例如,数美科技的“天净”智能语音识别,基于深度学习语音识别技术,多维度智能实时审核。
深挖场景需求,为直播视频流、UGC短视频、FM电台、语音广场、语音直播间等各类场景提供智能内容过滤服务,通过语音识别转文本的方式,识别文本内容中涉政、广告等不良信息;业内首创的娇喘语音识别,基于基于Bi-GRU、Attention模型,精准识别声音中含有娇喘、呻吟、耳骚、喊麦等违规音频,准确率达到90%以上。声纹识别与检索对比”技术可进行声纹聚类、关联,发现线上、线下语音广告与欺诈行为等。
而依图科技在公共安全领域早已深耕多年。依靠世界级算法团队自研的语音识别、自然语言理解和声纹算法,依图的“智能语音审核”拥有准、快、省三大特点。准——凭借世界级算法能力加已有场景数据的螺旋迭代提升,依图的召回和准确率居行业前列,帮企业最大程度的降低风险。快——实时监测并在3秒内返回结果。省——同步返回高精准转写文本和违规音频片段,帮人工审核员提高效率、节省时间。
声网Agora的“一站式智能语音识别方案”可为企业提供实时音视频+实时录制+实时智能语音识别的一站式高度集成服务,也是目前唯一一家打通人工智能、实时语音识别、实时音视频三大技术解决方案的服务商。使用声网的一站式服务,企业无需部署额外SDK、无需自己对接CDN厂商、更无需支付拉流成本,就可同时上线直播(实时音视频)和鉴黄(实时语音识别)功能,帮助企业大幅节省接入成本,真正做到一站式方便接入。
在智能语音识别方面,声网Agora整合了业界TOP3智能语音识别服务商的技术优势。而在实时音视频功能方面,声网自建的软件定义实时网SD-RTN专为实时音视频业务提供SLA/QoS质量保证,能为企业提供高并发、高可靠性、低延时和抗弱网等特性的实时音视频技术。
声网Agora目前在全球拥有250多个数据中心。在网络架构设计上能够应对10倍以上的负荷,具备千万级并发能力。声网的软件定义实时网SD-RTN拥有超低延时特性,可做到全球端到端延时小于400ms,延时中位数76ms,处于行业领先水平。声网还具备优秀的弱网传输和抗丢包算法,可以在60%的丢包环境下保障音视频流畅,70%的网络丢包环境下保障语音的流畅。在终端性能和适配方面,声网针对实时互联网lastmile做了深度优化,目前已经适配6000多款终端设备,网络覆盖全球200多个国家和地区,即使在网络环境差的偏远山区或跨国场景中用户也能实现顺畅互动。
此外,对于语音识别中常见的噪声、背景音等音质问题,声网的一站式智能语音识别解决方案还融合声网Agora语音引擎与AI音频降噪算法,可提供去除背景音、环境音之后的高音质音频源,在原来算法的基础上将不良信息的识别率有效提高30%以上。
通过声网Agora的“一站式智能语音识别方案”可以帮助企业严格、有效的净化平台内容质量,降低监管风险,提升用户体验,同时还能为企业大幅节省接入成本。据了解,接下来声网还将联合更多业界知名智能语音识别服务商,为企业持续提供业界最高效、最严格的内容审核机制,促进网络生态健康发展。
(责任编辑:fqj)
了解智能语音,智能语音的详细介绍
基本知识¶智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。智能语音解决的问题,就是使得设备可以用听觉感知周围的世界,用声音和人做最自然的交互,让操控和生活更为便捷。
智能语音的基础在于通过神经网络技术,提升语音识别的识别率,同时可以用语义理解分析出人的意图,进行相应的操控,反馈时可以通过播放预设的声音或通过语音合成来合成声音播放,输出结果。
当前处理智能语音有多种方式,常见的有在线语音、离线语音等分类。因为智能语音处理需要用到算力,所以刚开始都是用云端服务器提供算力来进行识别和语义处理,一个常见的智能语音处理流程如下图所示。
常见的智能语音处理流程
随着技术的不断发展,出现了专用的终端智能语音芯片,可以通过芯片上的终端算力,将语音识别、语义理解等功能直接在终端设备上处理,离线语音开始兴起。因为离线语音具备保护用户隐私,响应速度快,无需网络即可控制等优势,目前已成为很多控制类设备的标准语音控制方式。未来,语音处理会更多在边缘端实现,以降低服务器的消耗和网络带宽,更节省社会资源,云端作为服务和内容的提供商,和端侧语音配合,共同为人们的生活服务。
离线语音介绍¶离线语音方案采用本地处理语音识别等功能,其无需网络,响应速度、隐私安全等都优于在线方案。离线语音方案需要采用智能语音芯片处理智能语音功能,比较适合做控制类设备的处理,如控制类家电家居设备(空调、插座等)。
离线语音和在线语音功能的一个对比如下表所示。
项目离线语音在线语音是否联网不需联网需要联网响应速度很快(通常0.2S左右)较快(受网络质量影响)指令数量(语音库)1~1000条(本地语音库)无限量(云端语音库)模糊识别不支持,必须使用固定词条支持语音解析单片机查询本地语音库解析云端云计算查询数据库解析扩展功能无具备娱乐、生活服务等功能我司目前已推出多款离线语音解决方案,一个应用框图如下所示。
离在线语音介绍¶离线语音具备无需联网,响应速度快的优势;在线语音具备能获取丰富的云端内容和服务的优势。实际方案中可以将两者优势结合,控制类功能用离线语音实现,内容和服务用在线语音,这样既可以保障基本功能的不依赖网络使用,保护用户隐私,又可以在用户控制并许可的情况下通过网络获取需要的内容和服务,非常方便。目前已经在智能家电等家具设备中得到了应用。
我司目前已推出离在线语音方案,可以实现离线控制和在线音乐、视频、社交、新闻、百科、股票、菜谱、儿童教育等高频生活场景在内的数百种服务技能,能满足大部分产品的需求。一个应用框图如下所示。
AIoT语音介绍¶当前物联网已经非常成熟,各类设备都可以通过以太网、WIFI、蓝牙等方式进行连接,实现互联控制。IOT控制特别是家居类目前还是需要使用手机等设备作为中心,在实际使用中特别是当设备就在眼前时,用手机启动并不是最方便的操控方式,而且当手机等中心设备有故障时,各个设备之间缺乏控制方式无法使用,存在一定的局限性。当前语音作为一种最自然的交互方式,和IOT结合可以解决IOT控制中配网麻烦、需要中心的一些痛点,又可以让设备互联后共同为用户提供服务,实现一个语音入口设备控制全部IOT设备,非常方便。特别是随着专用智能语音芯片的出现,使得其方案成本大大降低,已经广泛应用到了中控屏、面板、插座、大小家电等IOT设备中。
我司目前已推出语音AIOT解决方案,一个应用框图如下所示。
审核编辑:符乾江