人工智能、机器学习、数据挖掘的区别人工智能与大数据的区别和联系

发表时间：2023-07-24 11:22:17

人工智能、机器学习、数据挖掘的区别

人工智能、机器学习、数据挖掘的区别导语总体来说分别解释人工智能机器学习数据挖掘区别总结导语

人工智能、机器学习、数据挖掘已然越来越火，我只是听了个耳熟，真正学习才刚刚开始，简单的说一下最近的学习成果：AIMLDM的区别。

总体来说

三者的区别是目的不同，但达到目的的方法有很大重叠之处。数据挖掘是用来理解事物的；机器学习是用来预测事物的；人工智能是用来生成行动的。

分别解释人工智能

人工智能1（ArtificialIntelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

用人话说就是要让机器的行为看起来像人表现出来的智能行为一样。其本质是用数据和模型为现有的问题提供解决方法。

机器学习

机器学习2(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

M代表计算机程序(ComputerProgram)，对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么就称这个计算机程序从经验E学习。

本质是自动地从过往经验中学习知识，其重要应用就是预测。通过数据训练的学习算法的研究都属于机器学习。

推理：从一般到特殊归纳：从特殊到一般数据挖掘

数据挖掘3（Datamining）又译为资料探勘、数据采矿。它是数据库知识发现（英语：Knowledge-DiscoveryinDatabases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

有目的的从现有的信息中提取数据的模式和模型，以用于未来机器学习和人工智能的数据使用。其核心目的是找到数据变量之间的关系，A和B可能存在相关关系，但是它无法告诉你A和B存在什么相关关系。数据挖掘不是一种用来证明假说的方法，而是用来构建各种各样的假说的方法。

区别总结

由以上的定义解释来看，机器学习是解决人工智能问题的一种手段；机器学习自己可以是一个单独学科，也可以包含在人工智能学科里面。数据挖掘的很多算法也来自机器学习但两者没有从属关系。

参考：数据挖掘(datamining)，机器学习(machinelearning)，和人工智能(AI)的区别是什么？数据科学(datascience)和商业分析(businessanalytics)之间有什么关系？如有错误，敬请指正，待真正学习完此门课程再来更新！

人工智能↩︎

机器学习↩︎

数据挖掘↩︎

大数据与统计学的关系

关键词：大数据与统计学的联系、大数据和统计的区别、大数据与统计学的区别

大数据和统计的区别主要有两个方面：其一是数据分析时不再进行抽样，而是采用population（n=all）；其二是分析方法，侧重所有变量之间的相关性，而不再根据背景学科理论筛选变量，进行假设检验。

这两点具体来说区别如下：

大数据的应用，解决了一般统计方法上主要误差来源：抽取样本以及假设检验中使用的前提假设。

一般统计方法中依据的中值定理和大数定律阐明我们可以通过增大样本容量，且多次抽取样本使得结果更加精确，但这一结论成立的条件在于所有样本的抽取满足i.i.d.（independentandidenticallydistributed，即假设变量分布独立且相同），而这一假设在现实中很难满足。样本的选择很难做到完全随机。一般商业案例中采用的隔多少位抽取样本的方法在统计学意义上不满足随机要求，所得结果误差在所难免。类似，多大的样本才算足够大也存在争议，而大数据直接采用全样本（population）来进行分析可以消除这一部分造成的误差。

再说分析方法。传统分析方法是对需要回答的问题作出一定的假设，例如教育背景对保险购买金额有影响，然后根据这一假设在所抽取的样本上进行检验。而检验假设这一方法就充满着现实数据不满足的前提假设，比如最著名的正态分布。正态分布是一个很好的假设，因为它能简化计算，而且通过对数据的各种变形，基本上也可以在一定置信区间内勉勉强强算为正态分布。再次，假设检验的结果只能不否认原假设，并不能得出完全支持的结论。

但大数据的情况就不一样。对大数据进行分析时，我们并不需要对问题提出假设，而是通过算法找出变量之间的相关度。同样以上面例子为例，如果教育背景和保险购买额这两个变量间相关度高（e.g.接近1），那么保险公司就应该更主要针对高教育背景的人推销保险。

大数据的应用可以说是在减少人类处理数据时带入的主观假设的影响，而完全依靠数据间的相关性来阐述。而由于消除人为因素带入的误差，已经分析人员作出假设的限制（如果教育背景和保险购买额是相关的，而分析人员没想到，那这个结论就不会被分析出来，这在实际案例中是很容易发生的，大数据的核心也就在于它能更充分的发掘数据的全部真实含义。

大数据和传统统计学的区别大数据（bigdata），是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言，如何利用这些大规模数据是成为赢得竞争的关键。大数据的价值体现在以下几个方面：1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;2)做小而美模式的中长尾企业可以利用大数据做服务转型;3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。

转载请注明：数据分析»大数据与统计学的关系_大数据和统计的区别

喜欢(14)or分享(0)

人工智能、机器学习和深度学习之间的区别与联系（图文详解）

不多说，直接上干货！

大家，都知道，在2016年，GoogleDeepMind的AlphaGo打败了韩国的围棋大师李世乭九段。在媒体描述DeepMind胜利的时候，将人工智能（AI）、机器学习（machinelearning）和深度学习（deeplearning）都用上了。这三者在AlphaGo击败李世乭的过程中都起了作用，但它们说的并不是一回事。

今天我就用最简单的方法——同心圆，可视化地展现出它们三者的关系和应用。

如上图，人工智能是最早出现的，也是最大、最外侧的同心圆；其次是机器学习，稍晚一点；最内侧，是深度学习，当今人工智能大爆炸的核心驱动。

五十年代，人工智能曾一度被极为看好。之后，人工智能的一些较小的子集发展了起来。先是机器学习，然后是深度学习。深度学习又是机器学习的子集。深度学习造成了前所未有的巨大的影响。

从概念的提出到走向繁荣

1956年，几个计算机科学家相聚在达特茅斯会议（DartmouthConferences），提出了“人工智能”的概念。其后，人工智能就一直萦绕于人们的脑海之中，并在科研实验室中慢慢孵化。之后的几十年，人工智能一直在两极反转，或被称作人类文明耀眼未来的预言；或者被当成技术疯子的狂想扔到垃圾堆里。坦白说，直到2012年之前，这两种声音还在同时存在。

过去几年，尤其是2015年以来，人工智能开始大爆发。很大一部分是由于GPU的广泛应用，使得并行计算变得更快、更便宜、更有效。当然，无限拓展的存储能力和骤然爆发的数据洪流（大数据）的组合拳，也使得图像数据、文本数据、交易数据、映射数据全面海量爆发。

让我们慢慢梳理一下计算机科学家们是如何将人工智能从最早的一点点苗头，发展到能够支撑那些每天被数亿用户使用的应用的。

人工智能（ArtificialIntelligence）——为机器赋予人的智能

早在1956年夏天那次会议，人工智能的先驱们就梦想着用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。这就是我们现在所说的“强人工智能”（GeneralAI）。这个无所不能的机器，它有着我们所有的感知（甚至比人更多），我们所有的理性，可以像我们一样思考。

人们在电影里也总是看到这样的机器：友好的，像星球大战中的C-3PO；邪恶的，如终结者。强人工智能现在还只存在于电影和科幻小说中，原因不难理解，我们还没法实现它们，至少目前还不行。

我们目前能实现的，一般被称为“弱人工智能”（NarrowAI）。弱人工智能是能够与人一样，甚至比人更好地执行特定任务的技术。例如，Pinterest上的图像分类；或者Facebook的人脸识别。

这些是弱人工智能在实践中的例子。这些技术实现的是人类智能的一些具体的局部。但它们是如何实现的？这种智能是从何而来？这就带我们来到同心圆的里面一层，机器学习。

机器学习——一种实现人工智能的方法

机器学习最基本的做法，是使用算法来解析数据、从中学习，然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同，机器学习是用大量的数据来“训练”，通过各种算法从数据中学习如何完成任务。

机器学习直接来源于早期的人工智能领域。传统算法包括决策树学习、推导逻辑规划、聚类、分类、回归、强化学习和贝叶斯网络等等（当然还有很多）。众所周知，我们还没有实现强人工智能。早期机器学习方法甚至都无法实现弱人工智能。

机器学习最成功的应用领域是计算机视觉，虽然也还是需要大量的手工编码来完成工作。人们需要手工编写分类器、边缘检测滤波器，以便让程序能识别物体从哪里开始，到哪里结束；写形状检测程序来判断检测对象是不是有八条边；写分类器来识别字母“ST-O-P”。使用以上这些手工编写的分类器，人们总算可以开发算法来感知图像，判断图像是不是一个停止标志牌。

这个结果还算不错，但并不是那种能让人为之一振的成功。特别是遇到云雾天，标志牌变得不是那么清晰可见，又或者被树遮挡一部分，算法就难以成功了。这就是为什么前一段时间，计算机视觉的性能一直无法接近到人的能力。它太僵化，太容易受环境条件的干扰。

随着时间的推进，学习算法的发展改变了一切。

深度学习——一种实现机器学习的技术

人工神经网络（ArtificialNeuralNetworks）是早期机器学习中的一个重要的算法，历经数十年风风雨雨。神经网络的原理是受我们大脑的生理结构——互相交叉相连的神经元启发。但与大脑中一个神经元可以连接一定距离内的任意神经元不同，人工神经网络具有离散的层、连接和数据传播的方向。

例如，我们可以把一幅图像切分成图像块，输入到神经网络的第一层。在第一层的每一个神经元都把数据传递到第二层。第二层的神经元也是完成类似的工作，把数据传递到第三层，以此类推，直到最后一层，然后生成结果。

每一个神经元都为它的输入分配权重，这个权重的正确与否与其执行的任务直接相关。最终的输出由这些权重加总来决定。

我们仍以停止（Stop）标志牌为例。将一个停止标志牌图像的所有元素都打碎，然后用神经元进行“检查”：八边形的外形、救火车般的红颜色、鲜明突出的字母、交通标志的典型尺寸和静止不动运动特性等等。神经网络的任务就是给出结论，它到底是不是一个停止标志牌。神经网络会根据所有权重，给出一个经过深思熟虑的猜测——“概率向量”。

这个例子里，系统可能会给出这样的结果：86%可能是一个停止标志牌；7%的可能是一个限速标志牌；5%的可能是一个风筝挂在树上等等。然后网络结构告知神经网络，它的结论是否正确。

即使是这个例子，也算是比较超前了。直到前不久，神经网络也还是为人工智能圈所淡忘。其实在人工智能出现的早期，神经网络就已经存在了，但神经网络对于“智能”的贡献微乎其微。主要问题是，即使是最基本的神经网络，也需要大量的运算。神经网络算法的运算需求难以得到满足。

不过，还是有一些虔诚的研究团队，以多伦多大学的GeoffreyHinton为代表，坚持研究，实现了以超算为目标的并行算法的运行与概念证明。但也直到GPU得到广泛应用，这些努力才见到成效。

我们回过头来看这个停止标志识别的例子。神经网络是调制、训练出来的，时不时还是很容易出错的。它最需要的，就是训练。需要成百上千甚至几百万张图像来训练，直到神经元的输入的权值都被调制得十分精确，无论是否有雾，晴天还是雨天，每次都能得到正确的结果。

只有这个时候，我们才可以说神经网络成功地自学习到一个停止标志的样子；或者在Facebook的应用里，神经网络自学习了你妈妈的脸；又或者是2012年吴恩达（AndrewNg）教授在Google实现了神经网络学习到猫的样子等等。

吴教授的突破在于，把这些神经网络从基础上显著地增大了。层数非常多，神经元也非常多，然后给系统输入海量的数据，来训练网络。在吴教授这里，数据是一千万YouTube视频中的图像。吴教授为深度学习（deeplearning）加入了“深度”（deep）。这里的“深度”就是说神经网络中众多的层。

现在，经过深度学习训练的图像识别，在一些场景中甚至可以比人做得更好：从识别猫，到辨别血液中癌症的早期成分，到识别核磁共振成像中的肿瘤。Google的AlphaGo先是学会了如何下围棋，然后与它自己下棋训练。它训练自己神经网络的方法，就是不断地与自己下棋，反复地下，永不停歇。

深度学习，给人工智能以璀璨的未来

深度学习使得机器学习能够实现众多的应用，并拓展了人工智能的领域范围。深度学习摧枯拉朽般地实现了各种任务，使得似乎所有的机器辅助功能都变为可能。无人驾驶汽车，预防性医疗保健，甚至是更好的电影推荐，都近在眼前，或者即将实现。

人工智能就在现在，就在明天。有了深度学习，人工智能甚至可以达到我们畅想的科幻小说一般。你的C-3PO我拿走了，你有你的终结者就好了。

参考

https://www.leiphone.com/news/201609/gox8CoyqMrXMi4L4.html

本文原载于微信公众号将门创业

作者：大数据和人工智能躺过的坑出处：http://www.cnblogs.com/zlslch/

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文链接，否则保留追究法律责任的权利。如果您认为这篇文章还不错或者有所收获，您可以通过右边的“打赏”功能打赏我一杯咖啡【物质支持】，也可以点击右下角的【好文要顶】按钮【精神支持】，因为这两种支持都是我继续写作，分享的最大动力！

人工智能、机器学习、数据挖掘的区别 人工智能与大数据的区别和联系