一篇看懂服务机器人语音交互与“三大技术”的因果关系
随着时代的发展和人工智能技术的愈加完善,智能服务机器人已越来越广泛地应用于各行业、各领域当中,如我们随处可见的迎宾机器人、智能讲解机器人、会场机器人等,为缓解劳动力短缺和工作人员的压力起到了重要作用。当我们与服务机器人进行语音对话时,是否想过,它是依靠什么技术接收到我们的声音,并给予及时、准确地回复的呢?比如说:“今天天气怎么样”?服务机器人马上会说:“今天天气晴朗,气温为10℃-22℃”,伴随有4-5级的东南风……其实,服务机器人的语音交互原理与我们人类是相似的,实现正常的互动必须满足三个条件:用耳朵听、用大脑理解、用嘴巴回答。服务机器人实现智能交互的“三大技术”分别为语音识别技术(ASR),相当于它的“耳朵”;自然语言处理技术(NLP),相当于它的“大脑”;语音合成技术(TTS),相当于它的“嘴巴”。当我们提出问题后,智能服务机器人将通过麦克风接收声音,声音将通过语音识别技术(ASR),把声学语音转换为服务机器人能够识别的文字、字母信息。如上图所示,在宁夏博物馆嘈杂的环境中,小笨智能服务机器人可通过语音识别技术(ASR)准确“倾听”游客声音,并转换为其能够识别的语言,为下一步对语义的分析、理解做准备。小笨智能服务机器人语音识别技术(ASR)采用国际先进算法,通过编码,把语音转换为小笨智能服务机器人可以识别的样式(即数字向量表示),因为声音信号是服务机器人没有办法直接识别的,需要将声音切割成一小段一小段音频,然后每一小段都按一定规则的数字向量来表示。然后就是解码的过程,即将数字向量拼接为文字、字母的过程。将编码好的向量放置于声学模型和语言模型中,就可得到每一小段对应的文字、字母,然后把翻译出来的文字、字母再经过语言模型,就可组成小笨可识别的单词。当然,声学模型和语言模型也是个神经网络,是小笨智能服务机器人通过大量的语音和语言数据训练出来的,这也是小笨智能服务机器人可以准确识别各种复杂语音的原因之一……解码完成后,可识别的单词信息将通过服务机器人的自然语言处理技术(NLP)来准确理解客户意图、情感倾向等信息,此为语音交互中的核心之一,也是最难的模块之一。自然语言处理技术(NLP)通过语法分析、句法分析、语义理解文本相似度处理、情感倾向分析等技术,具备衡量人们观点和倾向的能力,可精准区分出哪些话属于这个意图,哪些表达不是这一类意图。小笨智能自主研发的自然语言处理技术(NLP)可将接收到的信息进行分析、理解,上图为小笨智能服务机器人在济南能源集团办事大厅,前来办理业务的群众只需要说出需求,即可准确理解群众意图,并从“5G云端大脑”中提取出相对应答案,发出准确的回复指令。小笨智能服务机器人“5G云端大脑”储存着海量知识库,可支持生活常识、天气、机票等信息查询,并同步企业各类形式的信息,使企业信息通过语音、视频、动图等形式展现出来,满足访客98%以上的日常闲聊或企业业务问答。当服务机器人发出回复指令后,还需要用“嘴巴”说出来,这就需要使用语音合成技术(TTS),即把回复指令转换为人类能够听懂的声音。如下图,在济南长途汽车总站小笨智能服务机器人“理解”完游客的问题后,于“5G云端大脑”中提取出准确的回复指令,并转换为游客能够理解的语音、视频、图片等形式,让游客轻松掌握出行信息。语音合成技术(TTS)的工作流程可分为两步,第一步为文本处理,这一步做的事情是把文字或字母指令转化成音素序列,并标出每个音素的起止时间、频率变化等信息,这一步的作用不可小觑,比如拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定等。第二步为语音合成,这一步是指根据已经标注好的音素起止时间、频率变化等生成语音,最终通过扬声器准确表达出来。小笨智能语音合成技术(TTS)技术可对文本实现实时转换,转换时间可以按秒计算,文本输出的语音音律流畅,让听者在听取信息时感觉自然,几乎没有机器语音输出的冷漠与生涩感。小笨智能强大的自然语言处理能力,可满足在不同应用场景中高效、准确服务,针对不同的应用场景,同步不同的样本数据,所以,小笨智能已服务过的6000+客户中,覆盖政务大厅、法院、商场、机场等全行业场景,满足了不同企业的差异化需求。从语音识别到智能问答,从意图识别到情感分析,无不显示小笨智能服务机器人在当代对场景深层次服务的执着追求。未来,小笨智能将继续坚持为企业、为社会提供有价值的见解,使传统行业焕发新生力,让我们的生活更方便、更高效。智能机器人语音识别技术
图2检测结果的效果示意图
当话者带有呼吸噪声,或周围环境出现持续时间较短能量较高的噪声,或者持续时间长而能量较弱的噪声时,能零积门限检测算法就不能对这些噪声进行滤除,进而被判作语音进入识别模块,导致误识。图2(a)所示为室内环境,正常情况下采集到的带有呼气噪声的数字“0~9”的语音信号,利用能零积门限检测算法得到的效果示意图。最前面一段信号为呼气噪声,之后为数字“0~9”的语音。
从图2(a)直观的显示出能零积算法在对付能量较弱,但持续时间长的噪音无能为力。由此引出了双门限能零积检测算法。
所谓的双门限能零积算法指的是进行两次门限判断。第一门限采用能零积,第二门限为单词能零积平均值。也即在前面介绍的能零积检测算法的基础上再进行一次能零积平均值的判决。其中,第二门限的设定依据取决于所有实验样本中呼气噪声的平均能零积及最小的语音单词能零积之间的一个常数。如图2(b)所示,即为图2(a)中所示的语音文件经过双门限能零积检测算法得到的检测结果。可以明显看到,最前一段信号,即呼气噪声已经被视为噪音滤除。
1.2隐马尔可夫模型HMM
隐马尔可夫模型,即HMM是一种基于概率方法的模式匹配方法。它的应用是20世纪80年代以来语音识别领域取得的重要成果。
一个HMM模型可以表示为:
式中:π为初始状态概率分布,πi=P(q1=θi),1≤i≤N,表示初始状态处于θi的概率;A为状态转移概率矩阵,(aij)N×N,aij=P(qt+1=θj|qt=θi),1≤i,j≤N;B为观察值概率矩阵,B={bj(ot)},j=1,2,…,N,表示观察值输出概率分布,也就是观察值ot处于状态j的概率。
1.3模型训练
HMM有多种结构类型,并且有不同的分类方法。根据状态转移矩阵(A参数)和观察值输出矩阵(B参数)的不同有不同类型的HMM。
对于CHMM模型,当有多个观察值序列时,其重估公式由参考文档给出,此处不再赘述。
1.4概率计算
利用HMM的定义可以得出P(O|λ)的直接求取公式:
式(2)计算量巨大,是不能接受的。Rabiner提出了前向后向算法,计算量大大减小。定义前向概率:
那么有
(1)初始化
(2)递推
(3)终止
式(2)表示的是初始前向概率,bi(o1)为观察值序列处于t=1时刻在状态i时的输出概率,由于它服从连续高斯混合分布,故此值往往极小。根据大量实验观察,通常小于10-10,此值在定点DSP中已不能用Q格式表示。分析式(3)可以发现,随着时间t的增加,还会有大量的小数之间的乘法加法运算,使得新的前向概率值at+1更小,逐渐趋向于0,定点DSP采用普通的Q格式进行计算时便会负溢出,即便不发生负溢出也会大大丢失精度。因此必须寻找一种解决方法,在不影响DSP实时性的前提下,既不发生负溢出,又能提高精度。
2DSP实现语音识别
孤立词语音识别一般采用DTW动态时间规整算法。连续语音识别一般采用HMM模型或者HMM与人工神经网络ANN相结合。
为了能实时控制机器人,首先需要考虑的是能够实现实时地语音识别。而考虑到CHMM的巨大计算量以及成本因素,采用了数据处理能力强大,成本相对较低的定点数字信号处理器,即定点DSP。本实验采用的是TI公司多媒体芯片TMS320DM642。定点DSP要能准确、实时的实现语音识别,必须考虑2点问题:精度问题和实时性问题。
精度问题的产生原因已经由1.4节详细阐述,这里不再赘述。因此必须找出一种可以提高精度,而又不会对实时性造成影响的解决方法。基于以上考虑,本文提出了一种动态指数定标方法。这种方法类似于科学计数法,用2个32b单元,一个单元表示指数部分EXP,另一个单元表示小数部分Frac。首先将待计算的数据按照指数定标格式归一化,再进行运算。这样当数据进行运算时,仍然是定点进行,从而避开浮点算法,从而使精度可以达到要求。
对于实时性问题,通常,语音的频率范围大约是300~3400Hz左右,因而本实验采样率取8kHz,16b量化。考虑识别的实现,必须将语音进行分帧处理。研究表明,大约在10~30ms内,人的发音模型是相对稳定的,所以本实验中取32ms为一帧,16ms为帧移的时间间隔。
解决实时性问题必须充分利用DSP芯片的片上资源。利用EDMA进行音频数据的搬移,提高CPU利用率。采用PING—PONG缓冲区进行数据的缓存,以保证不丢失数据。CHMM训练的模板放于外部存储器,由于外部存储器较片内存储器的速度更慢,因此开启CACHE。建立DSP/BIOS任务,充分利用BIOS进行任务之间的调度,实时处理新到的语音数据,检测语音的起止点,当有语音数据时再进入下一任务进行特征提取及识别。将识别结果用扬声器播放,并送入到机器人的控制模块。
实验中,采用如图3的程序架构。
图3机器人识别软件框图
3机器人控制
机器人由自然条件下的语句进行控制。这些语句描述了动作的方向,以及动作的幅度。为了简单起见,让机器人只执行简单命令。由手机进行遥控,DSP模块识别出语音命令,送控制命令到ARM模块,驱动左右机械轮执行相应动作。
3.1硬件结构
机器人的硬件结构如图4所示。
图4机器人硬件结构
机器人主要有2大模块,一个是基于DSP的语音识别模块;另一个是基于ARM的控制模块,其机械足为两滑轮。由语音识别模块识别语音,由控制模块控制机器人动作。
3.2语音控制
首先根据需要,设置了如下几个简单命令:前、后、左、右。机器人各状态之间的转移关系如图5所示。其中,等待状态为默认状态,当每次执行前后或左右转命令后停止,即回到等待状态,此时为静止状态。
图5机器人状态
语音的训练模板库由4个命令加10个阿拉伯数字共14个组成,如下所示。
命令:“前”、“后”、“左”、“右”;
数字:“0~9”。
命令代表动作的方向,数字代表动作的幅度。当执行前后命令时,数字的单位为dm,执行左右转弯命令时,数字的单位为角度单位的20°。每句命令句法为命令+数字。例如,语音“左2”表示的含义为向左转弯40°,“前4”表示向前直行4dm。
机器人语音控制的关键在于语音识别的准确率。表1给出了5个男声样本的识别统计结果。
表1识别统计结果
4结语
工作中,成功地将CHMM模型应用于定点DSP上,并实现了对机器人的语音控制。解决了CHMM模型巨大计算量及精度与实时性之间的矛盾。提出了一种新的端点检测算法,对于对抗短时或较低能量的环境噪音具有明显效果。同时需要指出的是,当语音识别指令增多时,则需要定义更多的句法,并且识别率也可能会相应降低,计算量也会相应变大。下一步研究工作应更注重提高大词汇量时的识别率及其鲁棒性。返回搜狐,查看更多
人形机器人大涨,哪些是核心
0分享至大盘走势比较一般,主要是权重类的表现比较差,上证50这边跌得比较多,但是不影响板块的赚钱效应,只要在人工智能里面选择低吸,基本上都可以获得比较好的收益。盘面上,今天机器人整体出现大涨,特别是人形机器人这一块的炒作,资金的介入程度比较深,但是短期拉得比较快,没有仓位的,后面做起来就比较难受了。由于人形机器人最大的成本在于减速器,因此减速器的板块走得最好,其中国内谐波减速器龙头是绿的谐波,RV减速器龙头是双环传动,这段日子趋势都很明显。另外和特斯拉直接或者间接合作的公司,有拓普集团、三花智控、绿的谐波、鸣志电器等,可以明显发现这些大趋势都非常的流畅,短期如果出现回踩十日均线的情况,还是可以考虑低吸博弈,但是追涨的话,风险相对较大。另外昨天由于有充电桩的利好消息,早上开盘高开低走,相对来说就比较弱了,要在看看后期政策延续性,这一块只能做一些备选配置,因为主线还是人工智能,当市场主线仍然存在的时候,支线的延续性相对来说就没有那么好,这一点可以从之前汽车的炒作里面可以看出来。总的来说,目前人工智能依然是绝对主线,只是操作上面尽量选择调整下来的低吸,而不要选择追高,相对来说可以拿到一个比较不错的成本优势,后期持仓就会比较安心。01人形机器人事件:特斯拉于美国时间3月1日投资者日展示相关人形机器人视频。特斯拉人形机器人产业化提速,目前可直立行走,实现装配任务。2022年10月:特斯拉人形机器人首次亮相,需要人搀扶,无法正常工作;2023年3月:历时5个月开发,视频中显示人形机器人可以实现基础的直立行走,且能在另一台机器人上实现装配任务,手指关节可满足抓取电动工具、螺丝、覆盖在相框上的布等任务要求。工信部聚焦5G、人工智能等重点领域拓展,实施“机器人+”应用行动。3月1日工信部表示,新兴产业是引领未来发展的新支柱新赛道,将聚焦5G、人工智能、生物制造、工业互联网、智能网联汽车、绿色低碳等重点领域,不断丰富和拓展新的应用场景。扩大国家制造业创新中心在新兴产业领域的建设布局。实施“机器人+”应用行动,推动物联网产业规模化、集约化发展。我们认为“机器人+”,类比之前“互联网+”,战略意义重大,机器人行业发展将提速。AI行业发展有望提速,人形机器人商业化未来可期。近期微软向ChatGPT开发者OpenAI追加投资数十亿美元,OpenAI推出ChatGPT付费订阅版,谷歌开始测试ChatGPT竞品Bard,百度宣布ChatGPT项目“文心一言”将于3月完成内测,并面向公众开放。我们认为ChatGPT作为AIGC领域顶尖的模型,有望对现有生产力工具进行变革,其商业化有望加速推动语言AI及AI领域整体的显著进步。人机交互系统作为人形机器人的“大脑”,语音语义分析作为人机交互核心途径,可帮助机器人具备听、说、理解和思考的能力。伴随人机交互技术逐渐成熟,人形机器人商业化未来可期。人形机器人市场空间巨大,中性预计2021-2030年全球市场规模CAGR约71%。特斯拉投资者日,马斯克再次阐述愿景,认为未来人类和人形机器人的比例将不止是1:1,未来人形机器人可能超过人类数量。参照新能源汽车行业发展趋势,中性、乐观假设下,预估2030年全球人形机器人渗透率分别有望达0.2%、0.4%、0.6%,对应全球销量分别为39、61、100万台,按售价约2万美元(对应14万人民币)测算,对应全球市场规模分别约548、855、1400亿元,2021-2030年全球市场规模CAGR分别为62%、71%、80%。中性预估2030年人形机器人核心零部件市场规模约300亿元。假设未来单台人形机器人需搭载8个RV减速器、20个谐波减速器、28个伺服电机,中性预估2030年人形机器人有望分别拉动RV减速器、谐波减速器、伺服电机市场规模约122、93、85亿元。相关公司:1.拓普集团:直接对接了特斯拉,负责的是T人形机器人的执行器部分,目前在做3个线性执行器(T全部的线性执行器型号)和1个旋转执行器的开发,公司自供电机,行星滚珠丝杠自己设计量产找的非上市企业。2.鸣志电器:直接对接了特斯拉,根据专家反馈,2022年10月、12月分别为第一、第二轮送样,2023年3月第三轮送样,最近得到反馈,要求1.进一步轻量化、小体积,2.信号屏蔽方面需要改进(与竞品相比)。3.三花智控:直接对接特斯拉,拿到特斯拉机器人结构件、热管理甚至是总包的订单。4.绿的谐波:通过三花对接特斯拉。此前公告和三花合资在墨西哥扩产。(特别说明:文章中的数据和资料来自于公司财报、券商研报、行业报告、企业官网、百度百科等公开资料,本报告力求内容、观点客观公正,但不保证其准确性、完整性、及时性等。文章中的信息或观点不构成任何投资建议,投资人须对任何自主决定的投资行为负责,本人不对因使用本文内容所引发的直接或间接损失负任何责任。)特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.
/阅读下一篇/返回网易首页下载网易新闻客户端机器人有哪些:从工业到家庭的机器人应用
随着科技的不断发展,机器人已经逐渐被应用到工业、医疗、家庭等各个领域。机器人的出现使得生产效率大幅提升,同时也给人们的生活带来便利。在本文中,我们将介绍机器人在工业、医疗、家庭等领域的应用情况。
一、工业机器人
工业机器人是机器人应用的最早和最广泛的领域之一。工业机器人的主要任务是在工业生产线上完成过程控制、装配、搬运等重复性工作,以提高生产效率和质量。
近年来,随着人工智能技术的进步,工业机器人已经不再是单纯的执行机械任务。现代工业机器人具备了与人类类似的智能和感知能力,可以通过传感器等技术获取环境信息,进而自主地做出判断和决策,实现更加灵活、高效的生产。
二、医疗机器人
医疗机器人是应用最广泛的服务机器人之一。它们可以在手术、康复、辅助治疗等多个领域发挥作用。
手术机器人是医疗机器人的典型代表。它们可以通过高精度的机械臂和先进的视觉系统,精确地进行手术操作,降低手术风险和病人的恢复期。与传统手术相比,手术机器人的优势在于可以实现微创手术,减少术后疼痛和感染的风险。
另外,康复机器人也是医疗机器人中的重要一环。它们可以帮助病人恢复肌肉功能、平衡能力等,并监测病人的康复进程。在日本等国家,已经开始将康复机器人应用到老年人护理中,为老年人提供更加全面的护理服务。
三、家庭机器人
随着智能家居的不断普及,家庭机器人也逐渐成为人们生活中的重要一环。家庭机器人可以通过语音、图像等多种方式与人类进行交互,实现人机对话、家居控制等功能。
家庭机器人的应用场景非常广泛。例如,智能音箱可以为人们提供语音助手、音乐播放等服务;扫地机器人可以自主地清理家里的灰尘和杂物;安保机器人可以通过视觉和声音传感器实现家庭安全监测和警报等功能。
总结:
机器人已经成为现代化生产和生活的重要组成部分。无论是工业、医疗、家庭等领域,机器人都可以为人类带来更加便利和高效的服务。随着科技的不断进步,相信机器人的应用领域和功能将会更加广阔和丰富。
AskBot智能聊天机器人简介:基于深度学习、机器学习等构建的语言模型进行语义识别,同时提供基于意图场景的知识库构建功能,让用户轻松、低成本地构建和沉淀知识体系。支持文本分类、文本聚类、主题提取、实体抽取、语义相似度、阅读理解、模版规则等自然语言理解技术。同时将对话机器人流程配置采用“脑图”设计模式,大大简化了对话流程设计复杂度,同时采用模块化组件设计,轻松配置对话机器人的交互形式,同时保持非常好的扩展性。立即前往了解>>