博舍

数据科学、大数据、人工智能、机器学习的区别是什么 人工智能是一门自然科学,社会科学是指什么的科学

数据科学、大数据、人工智能、机器学习的区别是什么

数据科学

数据科学是研究处理大量数据并为预测、规范和规范分析模型提供数据的研究。它有助于使用各种科学方法、算法、工具和流程从大量数据集中区分有用的原始数据/见解。它包括从大量数据集中挖掘、捕获、分析和利用数据。它是各种领域的组合,例如计算机科学、机器学习、人工智能、数学、商业和统计学。

数据科学帮助我们将业务问题转化为研究项目,然后再次将其转化为实用的解决方案。数据科学一词是由于数理统计、数据分析和大数据的发展而出现的。

数据科学的整个工作流程包括:理解商业问题、数据收集、数据清洗和准备、模型构建、评估和部署、结果可视化。

数据科学所需的技能

如果希望在数据科学领域转行,那么必须对数学、统计学、编程和分析工具有深入的了解。以下是在进入该领域之前应该具备的一些重要技能。

·精通Python、R、SAS和Scala编程语言等。

·SQL领域的强大实践知识。

·能够处理各种格式的数据,例如视频、文本、音频等。

·了解各种分析功能。

·机器学习和人工智能的基础知识。

大数据

大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

研究机构Gartner是这样定义的:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。

大数据具有五大特点,称为5V。

1.多样(Variety)

大数据的多样性是指数据的种类和来源是多样化的,数据可以是结构化的、半结构化的以及非结构化的,数据的呈现形式包括但不仅限于文本,图像,视频,HTML页面等等。

2.大量(Volume)

大数据的大量性是指数据量的大小,采集、存储和计算的数据量都非常大。

3.高速(Velocity)

大数据的高速性是指数据增长快速,处理快速,每一天,各行各业的数据都在呈现指数性爆炸增长。在许多场景下,数据都具有时效性,如搜索引擎要在几秒中内呈现出用户所需数据。企业或系统在面对快速增长的海量数据时,必须要高速处理,快速响应。

4.低价值密度(Value)

大数据的低价值密度性是指在海量的数据源中,真正有价值的数据少之又少,许多数据可能是错误的,是不完整的,是无法利用的。总体而言,有价值的数据占据数据总量的密度极低,提炼数据好比浪里淘沙。

5.真实性(Veracity)

大数据的真实性是指数据的准确度和可信赖度,代表数据的质量。

大数据技术是继物联网、云计算之后IT产业的有一次颠覆性的技术改革,它包含了几层含义:

①数据价值的利用,包括数据采集、数据储存、数据分析、数据传输、数据挖掘、数据安全等。

②对数据的“加工”能力,比如数据处理的速度。大数据的意义不在于掌握庞大的数据信息,而在于对数据进行专业化处理,通过加工实现数据的价值和增值。

③大数据技术包括大规模并行处理数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算及平台、物联网和可扩展的存储系统。

大数据的意义不仅仅在于生产和掌握庞大的数据信息,更重要的是对有价值的数据进行专业化处理。

大数据所需的技能

·对机器学习概念有深入的了解

·了解数据库,如SQL、NoSQL等。

·深入了解各种编程语言,如Hadoop、Java、Python等。

·了解ApacheKafka、Scala和云计算

·熟悉Hive等数据库仓库。

人工智能

人工智能(ArtificialIntelligence),英文缩写为AI,通俗来讲就是用机器去做在过去只有人能做的事。

人工智能是一门边缘学科,属于自然科学和社会科学的交叉。

研究范畴有自然语言处理,知识表现,智能搜索,推理,规划,机器学习,知识获取,组合调度问题,感知问题,模式识别,逻辑程序设计软计算,不精确和不确定的管理,人工生命,神经网络,复杂系统,遗传算法等。

人工智能所需的技能

·精通编程语言,如Python、C++、Java

·数据建模和评估

·概率和统计

·分布式计算

·机器学习算法

机器学习

机器学习的核心是“使用算法解析数据,从中学习,然后对新数据做出决定或预测”。

也就是说计算机利用以获取的数据得出某一模型,然后利用此模型进行预测的一种方法,这个过程跟人的学习过程有些类似,比如人获取一定的经验,可以对新问题进行预测。

机器学习领域知名学者TomM.Mitchell曾给机器学习做如下定义:

如果计算机程序针对某类任务T的性能(用P来衡量)能通过经验E来自我改善,则认为关于T和P,程序对E进行了学习。

通俗来讲,计算机针对某一任务,从经验中学习,并且能越做越好,这一过程就是机器学习。

一般情况下,“经验”都是以数据的方式存在的,计算机程序从这些数据中学习。学习的关键是模型算法,它可以学习已有的经验数据,用以预测未知数据。

根据是否在人类的监督下进行学习这个问题,机器学习任务可以划分为:监督学习、半监督学习、无监督学习和强化学习。

机器学习(MachineLearning)是人工智能的一个分支,也是人工智能的一种实现方法。

大数据和数据科学的区别与联系

数据科学、人工智能、机器学习之间的关系

机器学习是连接数据科学和AI的纽带。这是因为机器学习是从数据中不断学习的过程。因此,AI是帮助数据科学获得结果和解决用于特定问题的方案的工具。机器学习有助于实现这一目标。

因此确切地说,数据科学涵盖AI,包括机器学习。机器学习有另一个子技术——深度学习。

深度学习是用于建立、模拟人脑进行分析学习的神经网络,并模仿人脑的机制来解释数据的一种机器学习技术,通过运用多层次的分析和计算手段来得到结果,最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。

总结:大数据产生方法,数据科学产生见解,机器学习产生预测,人工智能产生行为,大数据、数据科学、人工智能和机器学习相互重叠,但它们的具体功能不同,并且有各自的应用领域。

科学网—人工智能的基石是数学

中国科学院院士徐宗本:人工智能的基石是数学

 

■本报见习记者程唯珈

“人工智能的基石是数学,没有数学基础科学的支持,人工智能很难行稳致远。”近日,由联合国教科文组织和中国工程院联合主办的联合国教科文组织国际工程科技知识中心2019国际高端研讨会上,中国科学院院士、西安交通大学教授徐宗本在题为《AI与数学:融通共进》的主题报告上如是说。

在他看来,目前人工智能所面临的一些基础问题,其本质是来自数学的挑战。

数学家眼里的人工智能是什么?徐宗本给出的答案简洁明了:当下主要指机器学习。

如果给这个名词赋予一个说明,他认为这是人或者智能体,通过与环境的交互来提升自身行为和解决问题能力的智能化操作。“机器学习是把这种智能形式化为数学公式,转换成计算机可以操作的算法和软件。”他说。

进一步说,人工智能实际上是一个将数学、算法理论和工程实践紧密结合的领域。将其剖开来看,就是算法,也就是数学、概率论、统计学、各种数学理论的体现。

不过徐宗本认为,作为人工智能基石的数学,还存在五大核心问题待解,而这也是制约人工智能进一步发展的“绊脚石”。

第一是大数据的统计学基础。徐宗本认为,人工智能和大数据是一对“孪生姐妹”。人工智能更多指应用模式,强调与领域知识的结合。大数据则是最底层的信息技术,强调机器和机器、机器与人之间的内容交互与理解。但是当前,分析大数据的统计学基础面临颠覆,应用于复杂大数据分析的极限理论、统计推断方法、真伪判定等数学基础尚未完全建立起来。

第二是大数据计算基础算法。一般而言,理解和分析大数据都是通过数据处理或数据分析来实现的,而无论是数据处理还是数据分析,最终都归于求解一系列基本的数学问题,如线性方程组求解、图计算、最优化计算、高维积分等。不过,这些看似早已解决的问题在大数据情形下却成了“拦路虎”。

他以旅游为例,打了一个生动的比方来解释这种挑战。“比如从西安到北京,怎么走最近?过去地图分辨率不高,根据普通的地图可以获取基本的路线。但现在大数据背景下,地图的分辨率越来越高,不可能一次就涵盖西安至北京之间全部城市与道路的数据,只能一次一次地提供其中某些城市间的道路信息。到达北京需要多少时间,怎样走最近?要带多少钱?现在的机器还回答不了这些问题。这是由于在分布式图信息环境下,图计算的基础算法问题还没有解决。”徐宗本说。

第三是深度学习的数学理论。徐宗本认为,这个问题在当下尤为关键。新一轮的人工智能多以深度学习为基本模型,然而深度学习的设计基础在哪里,什么样的结构决定了什么样的性能,能不能有台劳公式和富里埃级数这样的数学表示理论,这些基本的理论问题还没有解决。正是由于这个原因,现在的人工智能还得靠“人工”来换“智能”,这也是造成当下“人工智能=人工+智能”的原因。

第四是非常规约束下的最优输运。人工智能的很多问题都可归纳为两个领域数据打通问题,即让两个对象在满足某一个特定的不变量情况下互相转移。“比如中英文互译,就是在保持语义的情况下将中文数据转换成英文数据。”

应用到现实,徐宗本畅想,将医院的CT和核磁共振图像相互转移或能很好地解决医疗诊断的信息不足问题。“因为照的是同一个人,这里人就是不变量。要解决这些问题,建立特定约束下实现最优传输的数学理论与方法是基本的。”

第五是关于学习方法论的建模与函数空间上的学习理论。徐宗本表示,研究生阶段学到的机器学习理论,需上升到方法论学习的阶段。

“从数学上说,无论函数空间上的学习理论怎么建立,本质是要适应不同的任务。由于任务本身是函数,是无穷的,那么就需要把过去机器学习中对样本、数据的选择、泛化,推广到对任务的选择、泛化中。”

如果辩证地看待数学和人工智能的关系,相辅相成可能是其最好的诠释。徐宗本表示,不仅数学可为人工智能提供基础,人工智能也为数学研究提供新的方法论。

“比如解偏微分方程,过去人们可能会使用计算机,现在用人工智能可以做得更好。”他认为,让数学中的模型方法与人工智能的数据方法结合,可将机器的深度学习应用得更加精确。

面对如今发展得如火如荼的人工智能产业,徐宗本也道出了自己对从业者的希冀。

“人工智能想要做得好,要靠数学问题尤其是算法的解决。”徐宗本再次强调,从业者应潜心从基础研究抓起,使我国的应用场景优势真正转化为技术优势和产业优势。

《中国科学报》(2019-11-04第4版综合)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇