新一代人工智能具有五大特点
科学技术部副部长李萌(刘健摄)
7月21日,国务院新闻办公室举行国务院政策例行吹风会,重点介绍《新一代人工智能发展规划》(以下简称《规划》)的编制情况。科技部副部长李萌在回答记者提问时表示,经过60多年的演进,人工智能出现了一些新特点,包括《规划》当中讲到“它呈现出深度学习、跨界融合、人机协同、群智开放和自主智能的新特点”。新一代的人工智能主要是大数据基础上的人工智能。
李萌指出,人工智能具有以下五个特点:一是从人工知识表达到大数据驱动的知识学习技术。二是从分类型处理的多媒体数据转向跨媒体的认知、学习、推理,这里讲的“媒体”不是新闻媒体,而是界面或者环境。三是从追求智能机器到高水平的人机、脑机相互协同和融合。四是从聚焦个体智能到基于互联网和大数据的群体智能,它可以把很多人的智能集聚融合起来变成群体智能。五是从拟人化的机器人转向更加广阔的智能自主系统,比如智能工厂、智能无人机系统等。
据了解,国际普遍认为人工智能有三类“弱人工智能、强人工智能还有超级人工智能”。弱人工智能就是利用现有智能化技术,来改善我们经济社会发展所需要的一些技术条件和发展功能。强人工智能阶段非常接近于人的智能,这需要脑科学的突破,国际上普遍认为这个阶段要到2050年前后才能实现。超级人工智能是脑科学和类脑智能有极大发展后,人工智能就成为一个超强的智能系统。从技术发展看,从脑科学突破角度发展人工智能,现在还有局限性。《规划》中的新一代人工智能,是建立在大数据基础上的,受脑科学启发的类脑智能机理综合起来的理论、技术、方法形成的智能系统。
跟以往相比,新一代人工智能不但以更高水平接近人的智能形态存在,而且以提高人的智力能力为主要目标来融入人们的日常生活。比如跨媒体智能、大数据智能、自主智能系统等。在越来越多的一些专门领域,人工智能的博弈、识别、控制、预测甚至超过人脑的能力,比如人脸识别技术。新一代人工智能技术正在引发链式突破,推动经济社会从数字化、网络化向智能化加速跃进。
版权所有,转载请注明出处。
人工智能之语音识别技术【科普】
03语音增强主要任务就是消除环境噪声对语音的影响。目前,比较常见的语音增强方法分类很多。其中基于短时谱估计增强算法中的谱减法及其改进形式是最为常用的,这是因为它的运算量较小,容易实时实现,而且增强效果也较好。此外,人们也在尝试将人工智能、隐马尔科夫模型、神经网络和粒子滤波器等理论用于语音增强,但目前尚未取得实质性进展。
声学特征提取人通过声道产生声音,声道的形状决定了发出怎样的声音。声道的形状包括舌头,牙齿等。如果我们可以准确的知道这个形状,那么我们就可以对产生的音素进行准确的描述。声道的形状在语音短时可以由功率谱的包络中显示出来。因此,准确描述这一包络的特征就是声学特征识别步骤的主要功能。接收端接收到的语音信号经过上文的预处理以后便得到有效的语音信号,对每一帧波形进行声学特征提取便可以得到一个多维向量。这个向量便包含了一帧波形的内容信息,为后续的进一步识别做准备
本文主要介绍使用最多的MFCC声学特征。
01MFCC简介
MFCC是Mel-FrequencyCepstralCoefficients的缩写,顾名思义MFCC特征提取包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析
Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征
02MFCC提取流程
MFCC参数的提取包括以下几个步骤:
预滤波:CODEC前端带宽为300-3400Hz的抗混叠滤波器。
A/D变换:8kHz的采样频率,12bit的线性量化精度。
预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。
分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。
加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。
快速傅立叶变换(FastFourierTransformation,FFT):将时域信号变换成为信号的功率谱。
三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。
求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。
离散余弦变换(DiscreteCosineTransformation,DCT):去除各维信号之间的相关性,将信号映射到低维空间。
谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。
倒谱均值减(CepstrumMeanSubtraction,CMS):CMS可以有效地减小语音输入信道对特征参数的影响。
差分参数:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。在本系统中,我们也用到了MFCC参数的一阶差分参数和二阶差分参数。
短时能量:语音的短时能量也是重要的特征参数,本系统中我们采用了语音的短时归一化对数能量及其一阶差分、二阶差分参数。
MFCC提取一般流程
模式匹配 和语言处理通过语音特征分析以后接下来就是模式匹配和语言处理
声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。
语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程,但是对机器来说,识别系统也要利用这些方面的知识,只是如何有效地描述这些语法和语义还有困难:
小词汇量语音识别系统。通常包括几十个词的语音识别系统。中等词汇量的语音识别系统。通常包括几百个词至上千个词的识别系统。大词汇量语音识别系统。通常包括几千至几万个词的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。模式匹配部是语音识别系统的关键组成部分,它一般采用“基于模式匹配方式的语音识别技术”或者采用“基于统计模型方式的语音识别技术”。前者主要是指“动态时间规整(DTW法”,后者主要是指“隐马尔可夫(HMM)法”。
隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。
动态时间归整)算法:在孤立词语音识别中,最为简单有效的方法是采用DTW(DynamicTimeWarping,动态时间归整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,用于孤立词识别。HMM算法在训练阶段需要提供大量的语音数据,通过反复计算才能得到模型参数,而DTW算法的训练中几乎不需要额外的计算。所以在孤立词语音识别中,DTW算法仍然得到广泛的应用。
小结:语音识别在移动终端上的应用最为火热,语音对话机器人、智能音箱、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用。语音识别技术也将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。尤其是在智能家居系统中语音识别将成为人工智能在家庭重要的入口,同时,未来随着手持设备的小型化,智能穿戴化也将成为语音识别技术的重要应用领域。返回搜狐,查看更多
更所资讯请关注我们!一个有维度的人工智能平台!dmindAI精彩等你来人工智能如何“向善”
0分享至本文转自:人民日报海外版本报记者刘峣《人民日报海外版》(2023年06月19日第09版)学生在河北省邯郸人工智能教育基地参观。郝群英摄(人民视觉)一段时间以来,以ChatGPT为代表的人工智能大模型搅动了全球人工智能技术发展的浪潮。从写代码到讲故事,从撰写文章到自动制作数据表格……人工智能正在给人类的工作、学习、生活带来诸多变化。我们距离“无所不能”的通用人工智能还有多远?人工智能的发展带来哪些安全隐患和挑战?近日召开的2023北京智源大会上,来自全球的人工智能专家学者围绕相关话题展开探讨。通用人工智能路途尚远“想象一下,未来10年,通用人工智能(AGI)几乎在每一个领域都超过人类的专业知识,最终可能超过所有大型公司的总体生产力,这将提高人们的生活水平。”OpenAI首席执行官山姆·阿尔特曼展现了一幅人工智能的未来图景。所谓AGI,是指能够像人类一样在各种领域进行智能任务的人工智能系统。这与目前人工智能应用只聚焦于特定任务或领域(如图像识别、语音识别、自然语言处理等)不同,对人工智能技术提出了更高要求。“通用人工智能可以比人类更好、更快地学习和执行任务,包括人类无法处理的任务。由于机器在速度、内存、通信和带宽方面的巨大优势,未来通用人工智能几乎在所有领域都将远超人类的能力。”美国加州大学伯克利分校计算机科学教授斯图尔特·罗素说。尽管人工智能已经有了“超越”人类的“时间表”,但在很多专家看来,目前的人工智能距离AGI还有不小的距离。罗素认为,当下火热的大语言模型并不“理解世界”,只是通用人工智能的一块“拼图”——“我们并不了解如何将它与其他部分连接起来,甚至还有一些缺失的拼图还没有找到。”北京智源人工智能研究院院长黄铁军指出,要实现通用人工智能,有3条技术路线:第一是大模型,通过海量高质量数据,让人工智能具备智能涌现能力;第二是具身智能,通过强化学习方法,训练出具身模型;第三是类脑智能,让机器达到或类似于人脑能力。对于人工智能的发展,图灵奖得主、纽约大学教授杨立昆提出了“世界模型”的概念——人工智能系统可以通过这一模型理解世界的运转方式,并以最优化、成本最小的方式来行动。加强安全治理领域国际合作根据普华永道会计师事务所预测,到2030年,人工智能将创造15.7万亿美元的经济价值。人工智能为经济发展提供了重要机遇,但也引发了安全性方面的担忧和争议。图灵奖得主、多伦多大学教授杰弗里·辛顿认为,目前的人工智能已经可以通过学习,掌握“欺骗”人类的方式。“一旦人工智能具备了‘欺骗’的能力,就有了‘控制’人类的能力。这样的超级智能可能会比预想中发生得更快。”在通用人工智能时代到来之前,人工智能的安全风险主要来自于“人”。“我们不应该假设机器是公正的,因为机器可能会试图改变人类的行为。更准确地说,是机器的所有者想要改变其他人的行为。”图灵奖得主、中国科学院院士姚期智说,当前人工智能的发展处于重要窗口期,各国应共同合作,搭建人工智能的治理结构。随着人工智能的本事越来越大,人工智能的“对齐”问题浮上水面。所谓“对齐”,即人工智能系统的目标要和人类的价值观与利益“对齐”,保持一致。如何让人工智能与人类“对齐”?阿尔特曼认为,人们应当负责任地将人工智能应用到世界中,重视和管理好安全风险。他建议在人工智能技术研发过程中建立平等、统一的国际规范和标准,并通过国际合作,以可验证的方式建立人工智能系统安全开发的信任体系。黄铁军认为,人工智能虽然会产生预料之外的新能力,但这并不意味着人类无法对人工智能进行管理。“如何管理人工智能这样一个创造性极强的系统,社会学、历史学等学科都能提供很好的借鉴意义。”今年2月,中国在《全球安全倡议概念文件》中提出加强人工智能等新兴科技领域国际安全治理,预防和管控潜在安全风险。在此次智源大会上,专家学者积极评价中国在推动人工智能国际治理上的贡献。阿尔特曼说,中国在人工智能领域拥有大量优秀的人才和产品系统,在人工智能的安全方面应发挥关键作用。麻省理工学院人工智能与基础交互研究中心教授马克斯·泰格马克表示,中国在塑造全球人工智能议程上的能力日益增长,可以在人工智能安全治理领域发挥领导作用。推动大模型共建共享当下,全球人工智能领域的科技竞赛日趋白热化。2023中关村论坛上发布的《中国人工智能大模型地图研究报告》显示,全国已发布了79个参数在10亿规模以上的人工智能大模型。从全球来看,中国和美国已发布的大模型数量超过全球总数的80%。中国自2020年起进入大模型快速发展期,在大模型方面已建立起涵盖理论方法和软硬件技术的体系化研发能力,形成了紧跟世界前沿的大模型技术群,涌现出多个具有行业影响力的预训练大模型。在此次大会上,全面开源的智源“悟道3.0”系列大模型及算法正式发布。据了解,“悟道3.0”涵盖了一系列领先成果,包括“悟道·天鹰”(Aquila)语言大模型系列、天秤(FlagEval)开源大模型评测体系与开放平台,“悟道·视界”视觉大模型系列以及一系列多模态模型成果等。黄铁军认为,人工智能大模型有3个特点:一是规模大;二是有“涌现性”,即能够产生预料之外的新能力;三是通用性,不限于解决专门问题或者专门领域。他表示,大模型不是任何一家机构或者一家公司垄断的技术,应当共建共享,推出一套智力社会所需的基础的算法体系。(实习生张伟纳对本文亦有贡献)特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.
/阅读下一篇/返回网易首页下载网易新闻客户端ai人工智能问答机器人,有哪些工具可以实现
0分享至在当今的数字化时代,人工智能已经成为了各个行业的热门话题。在这个领域中,有一种特别受欢迎的应用是人工智能问答机器人。这些机器人可以通过自然语言处理技术和机器学习算法,帮助用户解决问题和获取信息。不仅如此,还可以提高企业的效率和客户满意度,成为许多公司的必备工具之一。要实现一个能够回答用户问题的人工智能问答机器人,需要使用一些特定的工具和技术。以下是一些可以用来实现这样的机器人的工具:语义理解工具语义理解工具可以帮助机器人更加深入地理解用户的问题。以下是一些流行的语义理解工具:1.FunAi:FunAi软件是一款拥有先进的AI智能功能的软件。它可以通过自然语言理解和机器学习技术,快速准确地回答用户的提问。用户可以通过语音或者文字的方式向FunAi提问,不仅仅可以得到精准的答案,还能享受到智能推荐和个性化服务的体验。FunAi软件的AI智能问答功能不仅能够解决用户的问题,还能够帮助用户提升工作和学习效率,为用户带来更多的便利和智慧。2.Dialogflow:一个Google开发的自然语言处理平台,提供了强大的对话管理和语义分析功能。它可以帮助机器人理解各种不同的语言,并且可以在多个渠道上使用,如语音助手、聊天机器人和电话机器人等。3.MicrosoftLUIS:一个微软开发的语义理解工具,可以帮助机器人理解自然语言输入。它可以使用各种技术,如深度学习和自然语言理解,来提高机器人的性能和准确性。4.IBMWatson:一个IBM开发的语义理解和对话管理平台,提供了许多自然语言处理功能。它可以帮助机器人理解自然语言输入,并且可以在多个渠道上使用,如聊天机器人、电子邮件和社交媒体等。以上是一些可以用来实现人工智能问答机器人的工具。使用这些工具可以让机器人更好地理解和回答用户的问题,从而提高用户体验和满意度。当然,这些工具只是构建人工智能问答机器人的一部分,还需要考虑很多其他因素,如数据收集、模型训练和对话设计等。但是,通过使用这些工具,可以为机器人的开发和实现提供一个良好的起点。特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.
/阅读下一篇/返回网易首页下载网易新闻客户端