2023年中国智能语音公司排名TOP10 国内十大智能语音企业排名2023
2022年中国智能语音企业排名TOP10
1、科大讯飞
科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。自成立以来,一直从事智能语音、自然语言理解、计算机视觉等核心技术研究并保持了国际前沿技术水平;积极推动人工智能产品和行业应用落地,致力让机器“能听会说,能理解会思考”,用人工智能建设美好世界。2008年,公司在深圳证券交易所挂牌上市(股票代码:002230)。
2、百度
百度公司2000年1月1日创立于中关村,创始人是李彦宏。百度是拥有强大互联网基础的领先AI公司。是全球为数不多的提供AI芯片、软件架构和应用程序等全栈AI技术的公司之一,被国际机构评为全球四大AI公司之一。
3、腾讯
腾讯1998年成立于深圳,创始人是马化腾。腾讯是集电子游戏、云计算、广告、金融科技等一系列企业服务为一身的科技企业。
4、阿里巴巴
阿里巴巴集团创立于1999年,业务包括中国商业、国际商业、本地生活服务、菜鸟、云业务、数字媒体及娱乐以及创新及其他业务。除此之外,我们的非并表关联方蚂蚁集团为我们平台上的消费者、商家及其他企业提供数字支付服务和数字金融服务。
5、搜狗
搜狗成立于2003年,是中国搜索行业与ai领域的龙头企业。目前搜狗月活跃用户数仅次于BAT,是中国用户规模第四大互联网公司。
6、思必驰
思必驰,2007月创立于英国剑桥,08年回国落户苏州,拥有全链路的智能语音语言技术,自主研发了新一代人机交互平台(DUI),和人工智能芯片(TH1520);为车联网、IoT、金融等众多行业场景合作伙伴提供自然语言交互解决方案。
7、云知声
云知声成立于2012年,是一家专注于物联网人工智能,拥有自主知识产权的智能语音人工智能企业。
8、捷通华声
捷通华声成立于2000年,是一家专注于智能语音、智能语义等全方位人工智能技术研究与应用的企业。
9、平安科技
平安科技是平安集团旗下集人工智能、智能认知、云计算、区块链等科技为一体的全资子公司,2008年于深圳成立。
10、依图科技
依图科技成立于2012年,专注于人工智能创新型研究,致力于全面解决机器看、听、理解的根本问题,相信能在计算机视觉、自然语言理解、语音识别、知识推理、机器人等技术领域作出突破性贡献。
2023年中国智能语音行业研究报告
深度神经网络是智能语音技术近年达到落地可用的推动器
2011年,微软研究院提出的基于上下文相关深度神经网络和隐马尔可夫模型的声学模型在大词汇量连续语音识别任务上获得了显著的性能提升,从此大量研究人员开始转向深度学习在智能语音领域的研究,2016年,机器语音识别准确率第一次达到人类水平,意味着智能语音技术的落地期到来。近年,研究方向主要是端到端神经网络及针对实际应用中的算法优化。
所涉学科及其研究任务
本章小结
技术闭环完成度有待提升,面临长期的求索方能突破
智能语音背后涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未成熟到拼成一个没有明显短板的“木桶”,在交互体验、使用效果、场景性优化等方面都还有很长的路。与人工智能发展最快的分支计算机视觉相比,尽管二者都凭借深度学习取得重大突破,并在识别准确率上达到人类水平,但计算机视觉通过人脸识别这一大技术分支便高完成度地解决1:1或1:N比对问题,快速渗透到了各行各业;智能语音技术要解决的却远远不是1:1或1:N的比对,而是人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,这是一个宏伟的开放性课题,因此尽管智能语音已取得了一些商业上的成就,但仍面临长期的求索方能突破。
子研究:消费级市场
国内智能音箱卡位家庭流量迁移(1/3)
从PC与移动互联网看流量迁移模型
目前移动数据及互联网业务收入达到固定数据及互联网业务收入的三倍,说明互联网流量大量迁移到移动端。智能音箱厂商则希望在智能音箱从用户家庭场景流量中分一杯羹,成为家庭场景流量入口。借鉴移动互联网的经验,有三个关键因素将促成设备端口的流量增长:终端可得性、接入便利性、应用丰富性。
智能音箱的渗透情况
在我国城镇住房中渗透率达到20%
预计到2019年底,中国智能音箱累计出货量超过7200万台,在我国城镇住房中渗透率达到20%,接近2012年智能手机的渗透程度,“终端可得性”条件初步具备,跨过了家庭流量迁移的第一道门槛。
国内智能音箱卡位家庭流量迁移(2/3)
为什么说国内智能音箱会成为巨头的市场
2019年,尽管我国智能音箱硬件补贴已进入收缩阶段,补贴额依然达到15.8亿元(产品库存对该数值有一定影响),中小玩家难以支撑大量补贴,因此巨头占据了绝大部分市场。目前智能音箱市场主要由天猫精灵、小度音箱和小度在家、小爱音箱占据,互联网基因使它们在智能音箱产品上复制了互联网玩法——补贴攻城、低价策略、互联网服务运营回血,同时应用开发者的广泛聚拢、产品智能化提升的开发都需要强大的资金和资源支持,使智能音箱市场很难存在群雄并起的格局,智能音箱的流量也相应聚拢在大平台。而在智能音箱的生产成本中,麦克风阵列仍然是最大的部分。
国内智能音箱卡位家庭流量迁移(3/3)
流量的变现模式是下一步需要考虑的问题
目前终端设备销售以外的商业化还不是市场主要关注的问题,但已开始有一些尝试。智能音箱的应用/技能基本是以设备绑定形式存在,因此品牌设备方本身也是平台方(可以理解为智能音箱的核心预置应用、应用商店、主页、操作系统提供方),这为智能音箱更好地复制互联网变现模式打下了基础,电商购物、平台广告植入、应用推广和应用内购买(IAP)分成、用户增值服务付费、开发者服务等都是可能的变现方式,其中用户增值服务和电商购物已开始抢跑。与传统的互联网产品商业模式相比,由于前述智能音箱在活跃度、应用丰富性、流量质量等尚未取得突破,且口播广告不符合音箱产品使用逻辑、信息流及原生广告有待开发,因此广告形式、应用推广及IAP形式的变现还存在较大瓶颈。
本章小结
复盘消费级市场:商业模式多元化与技术落地曲线的加速度
在智能音箱部分我们探讨了品牌设备商如何形成多元化的变现模式,对于消费级市场另一大主力参与者——语音交互技术提供方而言,发展空间也远远不止下游B端品牌设备商在设备开发过程中支付的技术付费。一方面,技术提供方可以通过提供芯片、麦克风阵列解决方案、AI算法的全链方案,增加技术输出的“厚度”,同时实现技术与解决方案的研发中基础环节与模块标准化,降低客户的开发配置门槛;另一方面,强化对应用场景的理解,打磨交互功能和用户体验,给实际问题提供“向前一步”的解决能力,从而获得C端收费的可能。这两类发展空间的实现有赖于两点基础要素:(1)具备全链条语音交互技术能力;(2)有建立用户联系、获取用户体验反馈的场景。
子研究:企业级与公共级市场
企业级与公共级市场画像
平台化技术输出和解决方案两类模式,解决方案业务占比高
智能语音消费者业务主要通过硬件出售及相关互联网增值服务获利,而企业级和公共级业务则主要有两类合作模式:一是技术平台输出模式,将通用技术能力封装为SDK或API,下游客户或生态中的开发者使用时向技术提供方支付一定费用,当然为了促进生态的快速发展,一些平台如华为HiAI、百度语音技术采取面向开发者免费的策略;二是切入传统行业,提供解决方案(含核心设备),这种情形下涉及智能语音企业与传统行业集成商或最终客户进行定制化、深度合作。
智能语音与医疗健康(1/2)
核心价值在于提升输入效率和查询效率
医疗领域对于智能语音的需求主要来自电子病历系统上的语音功能,通过语音输入的方式生成结构化病例、执行病例检索,节约医师输入病历的时间,解决方案一般包括ASR/NLU技术和专用医疗麦克风。在导诊机器人、问诊小程序、诊后随访系统、住院病房管理系统、临床决策支持系统(CDSS)中也有应用。在落地过程中,需要重视针对医疗专业术语和各科室专有名词/符号/用药等知识进行模型训练和优化,建立筛选机制以过滤问诊无关信息,并进一步增强病例整理的语义标准化与深度结构化能力,以使系统便捷提取病例主症状、伴随症状、用药等重要特征信息。
智能语音与医疗健康(2/2)
发展速度受限于我国医疗信息化建设现状
Nuance是全球最大的智能语音公司,2018年其在医疗业务上取得9.9亿美元收入,占公司总收入的48%。相较而言,我国智能语音市场中2018年医疗健康仅占0.7%。这主要是由于美国医疗机构以私立为主,对诊疗服务人性化、医疗信息化关注度更高;我国医疗信息化发展水平相对落后,三级以下医院信息化建设经费有限、专项政策引导力度有待提升、数据孤岛普遍存在,因此目前市场处于单点式推进状态,短期内推进速度比较平稳。不过,智能临床决策支持系统和电子病历语音录入等应用与医疗信息系统打通集成、分级诊疗、医保控费、民生建设等都有直接关系,若相关政策引导加强、医疗数据标准建立和医疗数据跨机构整合推动加速,则有望复制海外市场的医疗业务体量。按照现状估计,预计到2022年,我国电子病历语音输入累计覆盖近1600家三级与二级医院(付费数,渗透率分别为36%和4.5%),180万医生受益。
智能语音与公检法
帮助公检法系统实现便捷办公和战法突破
智能语音与教育
应用于教、管、测、考等环节
智能教育领域,AI课堂的建设进入快车道,强调两点:一是解决家校之间、线上线下之间学习资源互通的问题,二是通过多模态识别收集课堂学情信息并做数据精准分析,因此通过语音转录、语音识别等技术实现授课语音转录为文字、利用多模态识别进行课堂质量监测不可或缺。另一方面,在线教育竞争呈白热化态势,用技术解决教育资源的复用、增加学习交互体验感等诉求也促进了智能语音技术在线上口语测评、虚拟教师等领域的应用。考试赛道方面,北京、上海、江苏、广东等省市近年推行在新中考、新高考英语考试中以机考形式进行口语测试,因此人机对话技术和智能语音评测技术开始应用于考试场景,以提升口语考试的效率。
智能语音与客服
从人机对话辐射到营销管理和通话服务质检
相对于前文所述的医疗健康、公检法、教育领域,客服领域的行业开放性相对较高,对AI应用迫切性强,参与者众多,未来一段时期内业务体量较大。目前AI客服可以为IVR、APP、小程序、网页等各端口提供自动对话功能,应用场景包括智能营销、呼入服务应答、电话质检、在线客服及辅助人工服务,在一定程度上满足了减轻传统客服中心一线人员工作负担、减少用户等待应答、低成本增加企业营销曝光等需求,应用渗透率较高。但目前AI客服营销转化率低、呼入服务应答转人工率高、业务场景适应性对话系统的建设成本与效果性价比较低、真实场景中对话异常处理灵活度不够等问题依然是行业痛点。传统客服产业由客服软件开发商、呼叫中心厂商、硬件设备厂商、电信运营商和软件集成商组成,AI客服则涉及多种类型的企业:近年来通讯云厂商一定程度上取代了传统呼叫中心,其呼叫中心和云客服业务可以集成提供客服机器人能力,AI客服机器人公司和客服SaaS也可通过渠道或者直销模式为客户提供AI客服服务。
智能语音与互联网内容审核监管
特定声音检测和语音识别技术帮助净化网络环境
互联网的变迁使音视频内容的传播得以快速发展,经统计,我国部分头部娱乐社交类App月度总有效使用时长达到每月70亿-90亿小时,用户每天将从娱乐社交平台接触大量信息。这也带来了垃圾信息审核难题,2019年上半年,多款语音社交App因通过语音传播违规信息下架。粗略估计娱乐社交类App背后产生的音视频内容时长接近每月4700万小时,这一数字如果用年来表示,相当于5400年,显然通过人工审核音视频的方式净化网络环境是不可能实现的,而如果依靠举报再人工审核的方式也只如沧海一粟、大量问题语音将被漏查。目前除使用图像识别技术审核图片和视频帧外,以依图科技为代表的AI公司开始通过特定声音检测和语音识别技术赋能实时语音流及音频文件的内容审核,弥补之前针对互联网语音内容的审核空白,提高审核效率与准确度。
智能语音与泛传媒
增加媒体产能,丰富传播形式
智能语音在泛传媒领域的应用主要包括合成主播自动播发稿件,将外语音视频新闻或节目自动翻译、根据画面同步匹配字幕,及为新闻稿件文字自动合成语音等。以自动播发稿件为例,2019年全国两会期间,新华社AI合成主播共播发稿件236条,为资讯内容的生产提供了新的方式;而音频与文字之间的转换则丰富了媒体的传播形式,使用户能够按需、按喜好获取资讯服务。
子研究:市场参与者
中国智能语音行业图谱
中国智能语音行业热度
市场较为理性,入局企业数量252家
据统计,我国人工智能创业项目中处于语音识别和语义分析赛道的共有252家,占比10.6%。同时,根据国家工业信息安全发展研究中心数据,截至2018年底,我国人工智能领域合计申请专利44.4万件,而语音识别与自然语言处理技术则合计申请专利6.1万件,占比达到13.6%,反映出智能语音领域单位技术产出情况高于行业整体,且发展也更倚重技术要素。
写在最后
写在最后
AI助理的真正形态:向多模态高密度交互升级
在5G快速发展的背景下,高带宽和低时延特性使多模态识别开始普及,未来支持多模态识别的AI芯片、支持多模态识别的物联网操作系统以及AI算法将受益。多模态识别的主要应用场景包括车载(第三空间)、智能机器人、身份鉴定,具体将会通过语音识别、人脸识别、表情分析、唇动状态、眼球跟踪、手势识别、触觉监控等智能人机交互手段综合识别人的情绪、疲劳状态、复核验证人的身份,对于更加精准、主动和个性化地提供人机交互方式十分重要。
另一方面,语音转写已经成为智能语音技术落地的重要场景,目前在短时间、对话人数少的场景下应用效果较好,但在企业级和公共级场景下往往面临对话时间很长的情况,仅做语音转文字和简单的结构化,不能甄别有效信息、语义结构分类不理想等将是限制语音转写规模化落地的最大问题,行业的高速发展有赖于准确地按照需求提取长时语音消息的有效内容。
各类企业行动方向
返回搜狐,查看更多