博舍

“智能语音助手”的竞品分析 —— 你好小悟&小爱同学(2) 小v智能语音助手有什么好玩的

“智能语音助手”的竞品分析 —— 你好小悟&小爱同学(2)

关于难点技术:ASR:对于ASR来说“远场”、“纠错”、“全双工”是3大难点;在“远场”上,是智能音箱们需要优化的问题,包括拾音后的预处理,以及对声源定位来保持对话的连续性是提升体验的关键;在“纠错”上,不同地区用户的口音各异,对AI数据、算法、算力都进行了考验,如何获得更多语料来建立不同口音的模型,如何以更高效的算法配合算力来快速识别出用户说的话并准确“纠错”,反应了产品的精准性,这非常重要;在“全双工”上,提前领先的厂家会以“全双工”作为其核心的竞争力之一,因为现在市面上大多的“智能语音助手”都是ONE-SHOT的能力,每次都要唤醒或操作的对话体验非常糟糕,“全双工”提供了相对流畅的多轮对话体验,但目前如何做好“全双工”还是比较困难的,这涉及了对话后该不该保持对话、打断的灵敏度等因素。NLP:对于NLP来说应该就是语料库的积累以及建模,同时还有上下文理解的能力,时下因为大多的企业不具备足够海量的数据的累积,AI反应出来的格式化还是非常的明显的,同时回溯的能力基本上等于0;通过我的了解,不少做语音的公司起步时是以NLP来切入的,其他能力接第三方,而对于NLP的底层技术,用的是SVM这种浅层机器学习算法来分的,这意味着灵活性大打折扣,也很难具备自主学习的能力;所以在这一点,具备灵活性,同时能通过上下文理解的能力来理解,甚至引导用户,应该是优质的“智能语音助手”需要具备的能力,这一点国外的一个软件叫做“Replika”做得还是很不错的(它可以流畅地主动引导用户进行对话),至少国内没有一款我体验过的“智能语音助手”在闲聊式的对话体验上能够与其比肩。TTS:在TTS上,主流的是“合成法”来合成语音,这样成本更低,但是带来的体验还是机械感十足、不自然、不人性化,虽然这并不是用户选择产品的重要因素,但是随着智能化达到瓶颈,这一块或许也将成为一个竞争的差异化点,不能忽视;未来的趋势也必然是“合成法”来输出语音,所以难点还是在于“算法”上,如何模拟出对应语境、情感的机器声音,据说谷歌提出的一个TTS算法在这方面有很大的改善,是以深度学习算法来拟合声音的,所以国内在技术上还是可以基于深度学习的思路来在这一块上有很大提升空间的。产品化:在产品方面,难点还是如何提升用户数量,来增加行为数据;对于任一的单个公司的产品而言,时下的用户规模还是不够多的,需要在在技术上不断优化“智能语音助手”的前提下筑起壁垒,不断寻找更贴近用户的场景;对于已经落地的产品来说,不断打磨优化自身,来对应核心用户的不断演变的需求,与此同时还需要加入运营的手段了。商业化:对于商业化,难点则是在于如何让B端和C端用户买单;时下许多AI公司开始与IOT设备厂商合作,来借助IOT硬件的规模化来放大自身价值,也有开始搭建自己的OS平台,通过SAAS的方式提供给B端用户,这都是需要自身实力硬了之后去拉业务,应该还是比较难的,要说服对方为什么要选你而不是大厂,而其中小厂在定制化上的执行力、竞争力就非常重要;对于纯2C的“智能语音助手”,我暂时还没有看到有好的商业模式,只能设想一下,是否它们在接入第三方软件并实现用户操作或付款后,第三方会以佣金的方式回馈,其次我发现我将要竞品分析的纯2C的“你好小悟”有一个比较隐蔽的操作,就是在这个“智能语音助手”上进行的所有O2O都需要先在软件上充钱,重点是这笔钱不能提现,这是不是就意味着公司的盈利模式就是拿着大量用户充值的钱去做一些投资理财来赚钱?(假设有20万用户,每人100块,来保证这个动态的现金流在2000万,去放一些高利贷或者P2P等一些风险理财,10%以上的年化,只要操作得当也能实现正向的盈利,这对于公司的一条小的产品线来说,公司一年也能多赚几百万呢,还是不错的)。

(未完待续)

“智能语音助手”的竞品分析——你好小悟&小爱同学(1)“智能语音助手”的竞品分析——你好小悟&小爱同学(2)“智能语音助手”的竞品分析——你好小悟&小爱同学(3)“智能语音助手”的竞品分析——你好小悟&小爱同学(4)

市场上的智能语音助理,主要的工作原理是什么

一个包括语音交互的chatbot的架构如下图所示:

一般chatbot由语音识别(ASR)、语音合成(TTS)、自然语言理解(NLU)、对话管理(DM)、自然语言生成(NLG)几个模块组成,其中:

语音识别:完成语音到文本的转换,将用户说话的声音转化为语音。

自然语言理解:完成对文本的语义解析,提取关键信息,进行意图识别与实体识别。

对话管理:负责对话状态维护、数据库查询、上下文管理等。

自然语言生成:生成相应的自然语言文本。

语音合成:将生成的文本转换为语音。

通常智能助理一个完整的交互流程是这样的:

首先:音频被记录在设备上,经过压缩传输到云端。通常会采用降噪算法来记录音频,以便云端“大脑”更容易理解用户的命令。然后使用“语音到文本”平台将音频转换成文本命令。通过指定的频率对模拟信号进行采样,将模拟声波转换为数字数据,分析数字数据以确定音素的出现位置。一旦识别出音素,就使用算法来确定对应的文本。

然后:使用自然语言理解技术来处理文本,首先使用词性标注来确定哪些词是形容词、动词和名词等,然后将这种标记与统计机器学习模型相结合起来,推断句子的含义。

最后:进入对话管理模块,确认用户提供的信息是否完整,否则进行多轮对话直至得到所需全部信息。根据得到的信息进行相应的业务处理,执行命令。同时将结果生成自然语言文本,并由语音合成模块将生成文本转换为语音。在这些模块中,对话管理(DM)模块的首要任务是要负责管理整个对话的流程。

通过对上下文的维护和解析,对话管理模块要决定用户提供的意图是否明确,以及实体槽的信息是否足够进行数据库查询或开始履行相应的任务。

当对话管理模块认为用户提供的信息不全或者模棱两可时,就要维护一个多轮对话的语境,不断引导式地去询问用户以得到更多的信息,或者提供不同的可能选项让用户选择。

对话管理模块要存储和维护当前对话的状态、用户的历史行为、系统的历史行为、知识库中的可能结果等。当认为已经清楚得到了全部需要的信息后,对话管理模块就要将用户的查询变成相应的数据库查询语句去知识库(如知识图谱)中查询相应资料,或者实现和完成相应的任务(如购物下单,或是类似Siri拨打xx的电话,或是智能家居去拉起窗帘等)。

实际实现中,对话管理模块因为肩负着大量杂活的任务,是跟使用需求强绑定的,大部分使用规则系统,实现和维护都比较繁琐。

规则的描述主要基于正则表达式或者类似正则表达式的pattern,用户的问题匹配到这样的pattern上,从而取得答案结果。

使用规则的好处是准确率高,但是缺点也很明显:用户的句式千变万化,规则只能覆盖比较少的部分。

而越写越多的规则也极其难维护,常常有可能会发生互相矛盾的规则,而往往一个业务逻辑的改动就要牵一发而动全身。另一个方法是维护一个庞大的问答数据库,对用户的问题通过计算句子之间的相似度来寻找数据库中已有的最相近的问题来给出相应答案。

目前任务导向chatbot也在逐渐使用基于深度学习的端到端来实现架构。

简要来说就是将用户输入的内容直接映射到系统的回答上,但是这种方式也存在需要大量的训练数据的问题,还不能完全取代传统规则系统。人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:人工智能快速发展的今天,语音识别现在发展到什么阶段了?http://www.duozhishidai.com/article-2278-1.html智能语音技术,主要面临哪些挑战?http://www.duozhishidai.com/article-1927-1.html语音的识别过程主要分哪几步,常用的识别方法是什么?http://www.duozhishidai.com/article-1739-1.html

多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

Win11语音助手怎么开启Win11语音助手开启的方法

自从Win10系统建成cortana小娜后,很多用户都非常喜欢这个AI人工智能,很多朋友更新到Win11,想用语音助手,但是不知道怎么打开。让我们来看看如何使用小编。 Win11打开语音助手的方法 1.首先,我们单击任务栏中的开始菜单。

2、然后点击上方搜索框,在其中搜索就可以打开“cortana”语音助手了。

3、开启之后,我们只需要在麦克风中说话就可以使用了。

4、如果我们无法使用,可能是因为没有开启语音功能,首先进入设置。

5、然后在左侧栏中找到“辅助功能”。

6、接着在右侧的交互下方找到“语音”进入。

7、最后再其中开启“Windows语音识别”就可以了。

 

“智能语音助手”的竞品分析 —— 你好小悟&小爱同学(1)

前言

    在上次面试后得到了提示,需要对实实在在的AI产品进行相对深度的体验以增强AI认知,遂改变目前的精力分配,由于B端产品很难去进行体验,所以选择唾手可得的“智能语音助手”进行把玩,以个人学习为目的,做一次简单的竞品分析。

    正常竞品分析所具有的其他的目的性,我会在进行比对的环节,再进行假设,总体的目的还是个人学习,所以前期酝酿的内容会略多,以求为认知建立基础。

起源

    随着“数据”、“算力”的瓶颈突破,深度学习这种“算法”的思路让AI的技术能力实现了跃迁,从而开始以技术推动AI的产品化、商业化的落地,AI也开始在“计算机视觉”、“自然语言处理”、“机器学习大数据”三大赛道上遍地开花。

    其中,“智能语音助手”即来自于“自然语言处理”。

    从2010年开始,互联网的巨头们开始陆续入局“智能语音助手”的业务,一直到2015年时的Magic项目才让“智能语音助手”真正火起来,希望用一句话就能实现用户的需求。

定义

    通俗来说,“智能语音助手”主要面对的是C端的用户,是为其高效地提供生活帮助的工具。

    而在技术角度来说的话,“智能语音助手”即是通过打造统一的VUI(语音交互界面),为用户提供一站式的信息整合服务。

关于定位

    时下面向C端的语音助手,主要搭载在手机、蓝牙音箱、车载系统中,针对用户在终端对应的不同场景下提供需求的满足,所以其定位也会根据不同场景下的用户群体而细分,比如对应某些依赖手机的都市青年的“实用型”,或是对应使用手机有障碍的老人儿童的“陪伴型”。

    “智能语音助手”几乎没有自己的功能,就像是用户开口提到需要什么功能,它就会帮用户找来那个功能,再为用户提供帮助。

    时下,高频功能都会被“APP”形式的应用占领(例如淘宝、携程等),“智能语音助手”支持调用这些高频功能来为用户解决问题,往往成为一个基本项而不是加分项。

    高频功能对应用户的高频需求,在“长尾理论”中是位于顶部的5%的需求,而用户还有95%的“长尾”需求等着去实现。

    “智能语音助手”通过其便捷性让用户更高效地调用高频功能获取其信任后,还逐渐让用户发现大量的“长尾”需求也能得到满足时,用户的粘性以及依赖性将逐步形成并稳固,也更易于去做一些商业变现的手段,这也是时下的“智能语音助手”在不同的细分场景中垂直深耕后,再进行横向扩展的原因。

关于现状

目前“智能语音助手”的形态如下:

手机:手机助理,主要便捷于手机中所有功能的操作,如Siri、小E等;APP向导,主要便捷于APP本身功能的操作,如小度、咪咕灵犀、夸克宝宝等;纯语音助手,主要便捷于多样化实用功能的操作,如小爱同学、你好小悟等。音箱:低端音乐音箱/家居音箱,主要便捷于播放音乐、控制智能家居,但面向中低端客户,价格偏低,如小爱音箱、小度音箱;高端音乐音箱,主要便捷于播放音乐,但更强调音质等发烧友需求,价格高,如LIBRATONE等;有声内容音箱,主要便捷于播放有声内容(听书、听课),如小雅音箱;购物音箱,主要便捷于购物,如天猫精灵;助理音箱,主要便捷于生活提醒,如AmazonEcho。车载:各种车载系统中搭载的助手,主要便捷于导航、收发信息、操控音乐。其他终端:家教机,主要便捷于家长育儿(陪伴、讲故事),如步步高家教机。

    由上可知,对于C端的“智能语音助手”目前基本上是没有独立的虚拟产品的,即独立作为一个软件的形式为用户提供服务,大多是选择依附在自家的硬件产品上进行捆绑售卖,来为自身的硬件本身进行赋能,而做硬件本身就具有比较高的门槛,根据2/8原则也是没有多少创业公司一上来就能做的。

    同时,由于基本上没有很刚需的场景,同时当下的“智能语音助手”还没用户想象中那么智能,所以C端用户对时下的“智能语音助手”的热情并没有想象的那么高。进而,在“智能语音助手”的商业化上,这些C端的“智能语音助手”更多的是来自于B2B2C中的“B2B”来进行变现的,有能力去做硬件的基本上是有平台的大公司。

    总之,对于做C端“智能语音助手”业务的公司来说,纯2C不好做。所以,时下主战场应该还是转向B端,即B2B2C,来抢夺为各大2C企业赋能的机会。在实现商业化后进一步充实能力,随实力、技术、用户认知等条件成熟后,或许才有在B2C施展的空间。

(未完待续)

“智能语音助手”的竞品分析——你好小悟&小爱同学(1)“智能语音助手”的竞品分析——你好小悟&小爱同学(2)“智能语音助手”的竞品分析——你好小悟&小爱同学(3)“智能语音助手”的竞品分析——你好小悟&小爱同学(4)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇