大数据与人工智能的区别以及二者之间的联系
(文章来源:多智时代)
大数据vs.人工智能是一种公平的比较吗?在某种程度上,它是,但首先让我们先厘清它们之间的区别。人工智能和大数据是人们耳熟能详的流行术语,但也可能会有一些混淆。人工智能和大数据有什么相似之处和不同之处?它们有什么共同点吗?它们是否相似?能进行有效的比较吗?
这两种技术所具有的一个共同点是兴趣。NewVantagePartners公司对企业管理人员进行的大数据和人工智能调查发现,97.2%的企业高管表示他们的公司正在投资、构建或启动大数据和人工智能计划。更重要的是,76.5%的企业高管认为人工智能和大数据密切相关,数据的更大可用性正在增强其组织内的人工智能和认知。
有人认为将人工智能与大数据结合在一起是一个很自然的错误,其部分原因是两者实际上是一致的。但它们是完成相同任务的不同工具。但首先要做的事是先弄清二者的定义。很多人并不知道这些。咨询巨头PriceWaterhouseCoopers公司的高级研究员AlanMorrison说:“我发现很多人对真正的大数据或大数据分析并不太了解,或者只是以几个突出的例子来了解人工智能。”
他说,人工智能与大数据一个主要的区别是大数据是需要在数据变得有用之前进行清理、结构化和集成的原始输入,而人工智能则是输出,即处理数据产生的智能。这使得两者有着本质上的不同。
人工智能是一种计算形式,它允许机器执行认知功能,例如对输入起作用或作出反应,类似于人类的做法。传统的计算应用程序也会对数据做出反应,但反应和响应都必须采用人工编码。如果出现任何类型的差错,就像意外的结果一样,应用程序无法做出反应。而人工智能系统不断改变它们的行为,以适应调查结果的变化并修改它们的反应。
支持人工智能的机器旨在分析和解释数据,然后根据这些解释解决问题。通过机器学习,计算机会学习一次如何对某个结果采取行动或做出反应,并在未来知道采取相同的行动。大数据是一种传统计算。它不会根据结果采取行动,而只是寻找结果。它定义了非常大的数据集,但也可以是极其多样的数据。在大数据集中,可以存在结构化数据,如关系数据库中的事务数据,以及结构化或非结构化数据。
它们在使用上也有差异。大数据主要是为了获得洞察力,例如Netflix网站可以根据人们观看的内容了解电影或电视节目,并向观众推荐哪些内容。因为它考虑了客户的习惯以及他们喜欢的内容,推断出客户可能会有同样的感觉。人工智能是关于决策和学习做出更好的决定。无论是自我调整软件、自动驾驶汽车还是检查医学样本,人工智能都会在人类之前完成相同的任务,但速度更快,错误更少。
虽然它们有很大的区别,但人工智能和大数据仍然能够很好地协同工作。这是因为人工智能需要数据来建立其智能,特别是机器学习。例如,机器学习图像识别应用程序可以查看数以万计的飞机图像,以了解飞机的构成,以便将来能够识别出它们。这是数据准备的重要步骤,Morrison指出,“人们开始使用的数据是大数据,但是为了训练模型,数据需要结构化和集成到足够好的程度,以便机器能够可靠地识别数据中的有用模式。”
大数据提供了大量的数据,而有用的数据必须首先从大量繁杂的数据中心分离出来,然后再做任何事情。人工智能和机器学习中使用的数据已经被“清理”了,无关的、重复的和不必要的数据已经被清除。所以这是第一步。
在此之后,人工智能可以蓬勃发展。大数据可以提供训练学习算法所需的数据。有两种类型的数据学习:初始培训可以定期收集数据。人工智能应用程序一旦完成最初的培训,并不会停止学习。随着数据的变化,它们将继续接收新数据,并调整它们的行动。因此,数据是最初的和持续的。
这两种计算方式都使用模式识别,但方式有所不同。大数据分析通过顺序分析来找到模式,有时候是冷数据,或者是没有收集到的数据。Hadoop是大数据分析的基本框架,它是最初设计用于在低服务器利用率的夜间运行的批处理过程。机器学习从收集的数据中学习并不断收集。例如,自动驾驶汽车从未停止收集数据,并且不断学习和磨练其流程。数据总是以新鲜的方式出现并始终采取行动进行处理。
人工智能一直在被人们关注。很多人对1999年推出的一部电影“黑客帝国”的情节记忆犹新,人类与那些变得聪明的机器殊死搏斗。但在现实的实施过程中,人工智能直到最近一直是边缘技术。人工智能实现最大的飞跃是大规模并行处理器的出现,特别是GPU,它是具有数千个内核的大规模并行处理单元,而不是CPU中的几十个并行处理单元。这大大加快了现有的人工智能算法的速度,现在已经使它们可行。
大数据可以采用这些处理器,机器学习算法可以学习如何重现某种行为,包括收集数据以加速机器。人工智能不会像人类那样推断出结论。它通过试验和错误学习,这需要大量的数据来教授和培训人工智能。人工智能应用的数据越多,其获得的结果就越准确。在过去,人工智能由于处理器速度慢、数据量小而不能很好地工作。也没有像当今先进的传感器,并且当时互联网还没有广泛使用,所以很难提供实时数据。
如今,人们拥有所需要的一切:快速的处理器、输入设备、网络和大量的数据集。毫无疑问,没有大数据就没有人工智能。(责任编辑:fqj)
人工智能、机器学习和深度学习之间的区别与联系(图文详解)
大家,都知道,在2016年,GoogleDeepMind的AlphaGo打败了韩国的围棋大师李世乭九段。在媒体描述DeepMind胜利的时候,将人工智能(AI)、机器学习(machinelearning)和深度学习(deeplearning)都用上了。这三者在AlphaGo击败李世乭的过程中都起了作用,但它们说的并不是一回事。
今天我就用最简单的方法——同心圆,可视化地展现出它们三者的关系和应用。
如上图,人工智能是最早出现的,也是最大、最外侧的同心圆;其次是机器学习,稍晚一点;最内侧,是深度学习,当今人工智能大爆炸的核心驱动。
五十年代,人工智能曾一度被极为看好。之后,人工智能的一些较小的子集发展了起来。先是机器学习,然后是深度学习。深度学习又是机器学习的子集。深度学习造成了前所未有的巨大的影响。
从概念的提出到走向繁荣
1956年,几个计算机科学家相聚在达特茅斯会议(DartmouthConferences),提出了“人工智能”的概念。其后,人工智能就一直萦绕于人们的脑海之中,并在科研实验室中慢慢孵化。之后的几十年,人工智能一直在两极反转,或被称作人类文明耀眼未来的预言;或者被当成技术疯子的狂想扔到垃圾堆里。坦白说,直到2012年之前,这两种声音还在同时存在。
过去几年,尤其是2015年以来,人工智能开始大爆发。很大一部分是由于GPU的广泛应用,使得并行计算变得更快、更便宜、更有效。当然,无限拓展的存储能力和骤然爆发的数据洪流(大数据)的组合拳,也使得图像数据、文本数据、交易数据、映射数据全面海量爆发。
让我们慢慢梳理一下计算机科学家们是如何将人工智能从最早的一点点苗头,发展到能够支撑那些每天被数亿用户使用的应用的。
人工智能(ArtificialIntelligence)——为机器赋予人的智能
早在1956年夏天那次会议,人工智能的先驱们就梦想着用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。这就是我们现在所说的“强人工智能”(GeneralAI)。这个无所不能的机器,它有着我们所有的感知(甚至比人更多),我们所有的理性,可以像我们一样思考。
人们在电影里也总是看到这样的机器:友好的,像星球大战中的C-3PO;邪恶的,如终结者。强人工智能现在还只存在于电影和科幻小说中,原因不难理解,我们还没法实现它们,至少目前还不行。
我们目前能实现的,一般被称为“弱人工智能”(NarrowAI)。弱人工智能是能够与人一样,甚至比人更好地执行特定任务的技术。例如,Pinterest上的图像分类;或者Facebook的人脸识别。
这些是弱人工智能在实践中的例子。这些技术实现的是人类智能的一些具体的局部。但它们是如何实现的?这种智能是从何而来?这就带我们来到同心圆的里面一层,机器学习。
机器学习——一种实现人工智能的方法
机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。
机器学习直接来源于早期的人工智能领域。传统算法包括决策树学习、推导逻辑规划、聚类、分类、回归、强化学习和贝叶斯网络等等(当然还有很多)。众所周知,我们还没有实现强人工智能。早期机器学习方法甚至都无法实现弱人工智能。
机器学习最成功的应用领域是计算机视觉,虽然也还是需要大量的手工编码来完成工作。人们需要手工编写分类器、边缘检测滤波器,以便让程序能识别物体从哪里开始,到哪里结束;写形状检测程序来判断检测对象是不是有八条边;写分类器来识别字母“ST-O-P”。使用以上这些手工编写的分类器,人们总算可以开发算法来感知图像,判断图像是不是一个停止标志牌。
这个结果还算不错,但并不是那种能让人为之一振的成功。特别是遇到云雾天,标志牌变得不是那么清晰可见,又或者被树遮挡一部分,算法就难以成功了。这就是为什么前一段时间,计算机视觉的性能一直无法接近到人的能力。它太僵化,太容易受环境条件的干扰。
随着时间的推进,学习算法的发展改变了一切。
深度学习——一种实现机器学习的技术
人工神经网络(ArtificialNeuralNetworks)是早期机器学习中的一个重要的算法,历经数十年风风雨雨。神经网络的原理是受我们大脑的生理结构——互相交叉相连的神经元启发。但与大脑中一个神经元可以连接一定距离内的任意神经元不同,人工神经网络具有离散的层、连接和数据传播的方向。
例如,我们可以把一幅图像切分成图像块,输入到神经网络的第一层。在第一层的每一个神经元都把数据传递到第二层。第二层的神经元也是完成类似的工作,把数据传递到第三层,以此类推,直到最后一层,然后生成结果。
每一个神经元都为它的输入分配权重,这个权重的正确与否与其执行的任务直接相关。最终的输出由这些权重加总来决定。
我们仍以停止(Stop)标志牌为例。将一个停止标志牌图像的所有元素都打碎,然后用神经元进行“检查”:八边形的外形、救火车般的红颜色、鲜明突出的字母、交通标志的典型尺寸和静止不动运动特性等等。神经网络的任务就是给出结论,它到底是不是一个停止标志牌。神经网络会根据所有权重,给出一个经过深思熟虑的猜测——“概率向量”。
这个例子里,系统可能会给出这样的结果:86%可能是一个停止标志牌;7%的可能是一个限速标志牌;5%的可能是一个风筝挂在树上等等。然后网络结构告知神经网络,它的结论是否正确。
即使是这个例子,也算是比较超前了。直到前不久,神经网络也还是为人工智能圈所淡忘。其实在人工智能出现的早期,神经网络就已经存在了,但神经网络对于“智能”的贡献微乎其微。主要问题是,即使是最基本的神经网络,也需要大量的运算。神经网络算法的运算需求难以得到满足。
不过,还是有一些虔诚的研究团队,以多伦多大学的GeoffreyHinton为代表,坚持研究,实现了以超算为目标的并行算法的运行与概念证明。但也直到GPU得到广泛应用,这些努力才见到成效。
我们回过头来看这个停止标志识别的例子。神经网络是调制、训练出来的,时不时还是很容易出错的。它最需要的,就是训练。需要成百上千甚至几百万张图像来训练,直到神经元的输入的权值都被调制得十分精确,无论是否有雾,晴天还是雨天,每次都能得到正确的结果。
只有这个时候,我们才可以说神经网络成功地自学习到一个停止标志的样子;或者在Facebook的应用里,神经网络自学习了你妈妈的脸;又或者是2012年吴恩达(AndrewNg)教授在Google实现了神经网络学习到猫的样子等等。
吴教授的突破在于,把这些神经网络从基础上显著地增大了。层数非常多,神经元也非常多,然后给系统输入海量的数据,来训练网络。在吴教授这里,数据是一千万YouTube视频中的图像。吴教授为深度学习(deeplearning)加入了“深度”(deep)。这里的“深度”就是说神经网络中众多的层。
现在,经过深度学习训练的图像识别,在一些场景中甚至可以比人做得更好:从识别猫,到辨别血液中癌症的早期成分,到识别核磁共振成像中的肿瘤。Google的AlphaGo先是学会了如何下围棋,然后与它自己下棋训练。它训练自己神经网络的方法,就是不断地与自己下棋,反复地下,永不停歇。
深度学习,给人工智能以璀璨的未来
深度学习使得机器学习能够实现众多的应用,并拓展了人工智能的领域范围。深度学习摧枯拉朽般地实现了各种任务,使得似乎所有的机器辅助功能都变为可能。无人驾驶汽车,预防性医疗保健,甚至是更好的电影推荐,都近在眼前,或者即将实现。
人工智能就在现在,就在明天。有了深度学习,人工智能甚至可以达到我们畅想的科幻小说一般。你的C-3PO我拿走了,你有你的终结者就好了。
参考
https://www.leiphone.com/news/201609/gox8CoyqMrXMi4L4.html