统计学,数据挖掘,机器学习和人工智能之间的区别及联系
统计学,数据挖掘,机器学习和人工智能之间的区别及联系首先,让我们来对这些学科进行大致的了解
①:统计学统计学是在资料分析的基础上,自17世纪中叶产生并逐步发展起来的一门学科,它是研究如何测定、收集、整理、归纳和分析反应数据资料,一边给出正确信息的科学。统计学广泛的应用在各门科学,从自然科学、社会科学到人文科学,甚至被用来做工商业和政府的情报决策。随着大数据时代的来临,统计的面貌也逐步被改变,与信息、计算机等领域密切结合,是数据科学(DataScience)中的重要主轴之一。
②:数据挖掘在当今大数据时代,企业有大量可用的数据,数量巨大,其价值和知识是不可估量的。如何从这些海量混乱的数据中获取有价值的信息,帮助企业更好地发展,是许多企业迫切需要解决的问题之一。
数据挖掘是指通过算法从大量数据中搜索隐藏在其中的信息的过程,通过数据挖掘我们可以从海量错综复杂,看似毫无关联的数据中提取出有用的信息,发挥出信息的价值;在我看来,数据挖掘更像是大数据处理的一个基础,为我们数据的处理并提取有用的信息打下了坚实的基础。
此外,传统的数据挖掘一般只能支持单机小规模数据处理。由于这种限制,传统的数据分析挖掘一般采用抽样方法来减少数据分析的规模,这也导致分析结果不准确。将计算机技术运用于数据挖掘之中,我们可以进行数据的可视化分析,数据挖掘算法,预测性分析,语义引擎及数据质量及数据管理。以上技术的发展提高了分析结果的准确性。
③:机器学习机器学习被认为是人工智能的一方面:给定一些可用离散术语(例如,在一些行为中,那个行为是正确的)描述的人工智能问题,并给出关于这个世界的大量信息,在没有程序员进行编程的情况下弄清楚「正确」的行为。典型的是,需要一些外部流程判断行为是否正确。在数学术语中,也就是函数:馈入输入,产生正确的输出。所以整个问题就是以自动化的方式建立该数学函数的模型。在二者进行区分时:如果我写出的程序聪明到表现出人类行为,它就是人工智能。但如果它的参数不是自动从数据进行学习,它就不是机器学习。
④:人工智能人工智能是计算机科学的一个子领域,创造于20世纪60年代,它涉及到解决对人类而言简单却对计算机很难的任务。详细来说,所谓的强人工智能系统应该是能做人类所能做的任何事。而深度学习是如今非常流行的一种机器学习。
而对于工作岗位,在一家创业公司,数据科学家通常要做很多类型的工作,其扮演的工作角色可能包括:执行、数据挖掘师、数据工程师或架构师、研究员、统计学家、建模师(做预测建模等等)和开发人员。
机器学习对比深度学习这些都是数据科学的分支。当这些算法被用于自动化的时候,就像在自动飞行或无人驾驶汽车中,它被称为人工智能,更具体的细说,就是深度学习。如果数据收集自传感器,通过互联网进行传输,那就是机器学习或数据科学或深度学习应用到了IoT上。机器学习一系列在数据集上进行训练的算法,来做出预测或采取形同从而对系统进行优化。
机器学习与统计学之间的区别《MachineLearningVs.Statistics》这篇文章试图解答这个问题。这篇文章的作者认为统计学是带有置信区间(confidenceintervals)的机器学习,是为了预测或估计数量。
数据科学对比机器学习机器学习和统计学都是数据科学的一部分。机器学习中的学习一词表示算法依赖于一些数据,来调整模型或算法的参数;这包含了许多的技术,比如回归、朴素贝叶斯或监督聚类。但不是所有的技术都适合机器学习;数据科学要比机器学习广泛。数据科学中的数据可能并非来自机器或机器处理(调查数据可能就是手动收集,临床试验涉及到专业类型的小数据)。
统计学,数据挖掘,机器学习和人工智能之间的区别及联系
统计学,数据挖掘,机器学习和人工智能之间的区别及联系首先,让我们来对这些学科进行大致的了解
机器之心之前编译的一篇文章《人工智能、机器学习、深度学习,三者之间的同心圆关系》也对此问题进行了探讨
①:统计学统计学是在资料分析的基础上,自17世纪中叶产生并逐步发展起来的一门学科,它是研究如何测定、收集、整理、归纳和分析反应数据资料,一边给出正确信息的科学。统计学广泛的应用在各门科学,从自然科学、社会科学到人文科学,甚至被用来做工商业和政府的情报决策。随着大数据时代的来临,统计的面貌也逐步被改变,与信息、计算机等领域密切结合,是数据科学(DataScience)中的重要主轴之一。
②:数据挖掘在当今大数据时代,企业有大量可用的数据,数量巨大,其价值和知识是不可估量的。如何从这些海量混乱的数据中获取有价值的信息,帮助企业更好地发展,是许多企业迫切需要解决的问题之一。
数据挖掘是指通过算法从大量数据中搜索隐藏在其中的信息的过程,通过数据挖掘我们可以从海量错综复杂,看似毫无关联的数据中提取出有用的信息,发挥出信息的价值;在我看来,数据挖掘更像是大数据处理的一个基础,为我们数据的处理并提取有用的信息打下了坚实的基础。
此外,传统的数据挖掘一般只能支持单机小规模数据处理。由于这种限制,传统的数据分析挖掘一般采用抽样方法来减少数据分析的规模,这也导致分析结果不准确。将计算机技术运用于数据挖掘之中,我们可以进行数据的可视化分析,数据挖掘算法,预测性分析,语义引擎及数据质量及数据管理。以上技术的发展提高了分析结果的准确性。
③:机器学习机器学习被认为是人工智能的一方面:给定一些可用离散术语(例如,在一些行为中,那个行为是正确的)描述的人工智能问题,并给出关于这个世界的大量信息,在没有程序员进行编程的情况下弄清楚「正确」的行为。典型的是,需要一些外部流程判断行为是否正确。在数学术语中,也就是函数:馈入输入,产生正确的输出。所以整个问题就是以自动化的方式建立该数学函数的模型。在二者进行区分时:如果我写出的程序聪明到表现出人类行为,它就是人工智能。但如果它的参数不是自动从数据进行学习,它就不是机器学习。
④:人工智能人工智能是计算机科学的一个子领域,创造于20世纪60年代,它涉及到解决对人类而言简单却对计算机很难的任务。详细来说,所谓的强人工智能系统应该是能做人类所能做的任何事。而深度学习是如今非常流行的一种机器学习。
而对于工作岗位,在一家创业公司,数据科学家通常要做很多类型的工作,其扮演的工作角色可能包括:执行、数据挖掘师、数据工程师或架构师、研究员、统计学家、建模师(做预测建模等等)和开发人员。
机器学习对比深度学习这些都是数据科学的分支。当这些算法被用于自动化的时候,就像在自动飞行或无人驾驶汽车中,它被称为人工智能,更具体的细说,就是深度学习。如果数据收集自传感器,通过互联网进行传输,那就是机器学习或数据科学或深度学习应用到了IoT上。机器学习一系列在数据集上进行训练的算法,来做出预测或采取形同从而对系统进行优化。
机器学习与统计学之间的区别《MachineLearningVs.Statistics》这篇文章试图解答这个问题。这篇文章的作者认为统计学是带有置信区间(confidenceintervals)的机器学习,是为了预测或估计数量。
数据科学对比机器学习机器学习和统计学都是数据科学的一部分。机器学习中的学习一词表示算法依赖于一些数据,来调整模型或算法的参数;这包含了许多的技术,比如回归、朴素贝叶斯或监督聚类。但不是所有的技术都适合机器学习;数据科学要比机器学习广泛。数据科学中的数据可能并非来自机器或机器处理(调查数据可能就是手动收集,临床试验涉及到专业类型的小数据)。
专业篇丨统计学类:人工智能时代的统计之美
写在前面
口碑极佳,推荐就读。
这一讲我们开始介绍统计学专业。统计学专业之前被归为应用数学的分支,现在已经是独立的二级学科。简单理解,统计学是借助各类数学工具,在自然科学和人文社科领域,通过收集、整理、分析、描述等手段来推测对象的本质,以此来预测未来现象的综合性科学。
从定义上我们已经可以看出统计学的特点。第一是统计学与数学有莫大的联系,统计学是从数学领域的延伸,更侧重于应用,经过发展之后二者之间的差异更为明显。
第二是统计学涉足的领域广泛。统计学无论在自然科学还是人文社科都有对应学科,比较常见的领域有计算机、医学、经济学和社会科学类专业。我们来具体了解下统计学与其他专业的交叉学科。
“统计学+计算机”就是人工智能专业。任正非在接受央视《面对面》采访中提到人工智能时说到中国没有人工智能,计算机与统计学就是人工智能。持相同观点的还有诺贝尔经济学奖获得者托马斯·萨金特,他在一次演讲中说过:“人工智能首先是一些很华丽的辞藻。人工智能其实就是统计学,只不过用了一个很华丽的辞藻,其实就是统计学。”
“统计学+医学”主要应用于公共卫生和药物检测等领域。公共卫生事件的统计、结果呈现及未来预测过程是统计学应用的重要领域,如新冠肺炎时期的疫情动态情况。药物检测领域是更为常见的情况,当一款新药上市前要做临床试验,需要研究怎么开展试验,获得什么数据,基于数据来判断新药是否有效。
“统计学+经济学”倾向于金融统计和风险管控方向。金融向来被认为是高精尖领域,是实现财富自由的黄金行业。在金融领域掌握统计技能是基本且重要的,例如不仅要能看得懂股市现在的涨跌,更要能从数据上分析未来趋势。
“统计学+社会科学”是社会科学对应专业领域内的王牌学科。在多数社会科学类专业里,对于统计研究方法的掌握和应用是做学术研究的坚实基础,也是能够继续进行学术的重要前提。如果一位社会科学专业的学生能够掌握统计学方法,来收集数据并对数据进行描述和分析,在社会科学领域将拥有非常好的发展前景。
第三是统计学既要能对现象进行描述,也要能对未来进行预测。举例来说,让你描述一个人,我们通常的描述是男性、个子高、偏瘦;而统计学的描述是研究对象性别男、身高185、BMI指数不到20。统计学的描述习惯用数据说话,如果是描述群体性现象,群体人数越多所说明的现象相对更准确。
统计学对于未来的预测也是用数据说话。我们平时的习惯是经验性的预测,根据个别人或个别现象的发生来进行预测;统计学的预测基于理论框架和数据分析,预测背后还需要经过系列的数理推断进行,个案或部分情况不具有代表性。
第四是统计学是一门科学。关于科学的讨论是学术讨论较多的内容,主流观点认为科学可以证伪,这对于很多偏向于自圆其说的学科来说很有冲击。而统计学是科学这个观点被学者广泛认可,也是学界对统计学的主流定义。
在介绍完统计学的基本内容之后,我们来聊一聊高校的统计学专业的具体培养情况。以南开大学为例,南开大学的录取是以数学类统一招生,通过笔试和面试进行专业细分,优秀学生进入伯苓班(以南开大学著名校长张伯苓命名的班级)。
其他学生进行数学学院和统计学院的被选择,由于统计学院比较年轻,二者之间还是数学学院的竞争更大。在进入统计学院之后,学生可以进入统计学和数据科学与大数据技术两个专业,二者本质上没有太大差别。
统计学和数据科学与大数据技术在培养上几乎完全一致,不同的是专业名称所赋予的专业性质,以及对应的未来就业的方向和可能性。
来源:南开大学统计与数据科学学院公众号
数据科学与大数据技术专业是统计学下的新兴专业,本科学制需要4年,毕业授予理学学士学位,课程培养上注重数学、统计学理论与技术以及其他可交叉学科的学习,以南开大学2018年的本科生培养方案为例,可交叉的学科包含计算机、医学、生物学、经济学等。
统计学专业出自数学,是应用数学的分支,学习统计学的重中之重是学好数学。虽然学好数学不能在短期内带来直接的应用,但是对于专业的统计学专业学者来说,数学学不好,犹如房子根基不稳,未来再想在本领域有所突破将会非常艰难。
统计学专业分布在各大高校,各个高校也因重点学科不同而有所差异,比如财经类院校注重经济统计学、医学院校注重医学统计学、理工类学校注重计算统计学等。大家报考前可以根据未来职业规划进行选择。
总体来说,统计学专业已经逐步迈入热门专业,越来越多的人意识到统计学的重要性,尤其是互联网发展引发的人工智能革命。在这种背景下,选择统计学专业,虽然充满挑战,其前景却充满光明。
下面是教育部阳光高考信息平台对统计学专业和应用统计学专业的官方解析:
要点总结:
1、统计学是借助各类数学工具,在自然科学和人文社科领域,通过收集、整理、分析、描述等手段来推测对象的本质,以此来预测未来现象的综合性科学;
2、统计学专业和数据科学与大数据技术专业在学生培养上无差别,但未来就业上可能会有不同;
3、统计学专业是可以与其他学科交叉的重要学科,要注重数学、统计学理论与方法以及相关课程的培养;
4、统计学专业未来前景一片光明,但部分学校仍处于由无到有的过渡中,需要客观判断专业优劣。
下期预告:
这一讲我们主要介绍了统计学和统计学专业的培养。下一讲我们来聊一聊不同类型院校的统计学专业,我们下一讲见。
特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。