博舍

数据挖掘技术现状及未来发展方向(转) 人工智能的数据挖掘技术包括

数据挖掘技术现状及未来发展方向(转)

2013-07-16

1. 数据挖掘的含义

近十几年来,信息数据增长之巨大已到了令人咂舌地步,大型数据库、数据仓库被用于商业管理、政府办公、科学研究和工程开发等等。于是,我们又面临了新的问题:如何从中及时发现有用的知识,提高信息利用率?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据只能成为包袱,甚至垃圾。因此,数据挖掘技术应运而生。

数据挖掘出现于20世纪80年代末,最早是在数据库领域发展起来的,称为数据库中的知识发现(KDD,KnowledgeDiscoveryinDatabase)。数据挖掘是KDD过程中的一个环节,它的历史虽然较短,但从20世纪90年代以来,发展速度很快,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义:

SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。

Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。

Handetal(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。

根据以上定义,我们可以把数据挖掘理解为:数据挖掘就是从海量的数据(包括结构化和非结构化)中挖掘出隐含在其中的、事先不为人知的、潜在的、有用信息和知识的技术。这些信息是可能有潜在价值的,是用户感兴趣的、可理解、可运用的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。

数据挖掘所能发现的知识有如下几种:

广义型知识,反映同类事物共同性质的知识;

特征型知识,反映事物各方面的特征知识;

差异型知识,反映不同事物之间属性差别的知识;

关联型知识,反映事物之间依赖或关联的知识;

预测型知识,根据历史的和当前的数据推测未来数据;

偏离型知识,揭示事物偏离常规的异常现象。

所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

2. 数据挖掘的功能

数据挖掘综合了各个学科技术,有很多的功能,当前主要功能如下:

(1)分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。

(2)聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。

(3)关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买尿布的人也有可能购买啤酒,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。

(4)预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。

(5)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。

需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中互相联系,发挥作用。

3. 数据挖掘应用现状

数据挖掘的应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用数据挖掘工具进行有目的的发掘分析。常见的应用案例多发生在零售业、制造业、财务金融保险、通讯及医疗服务:

(1)商场从顾客购买商品中发现一定的关联规则,提供打折、购物券等促销手段,提高销售额;

(2)保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高利润;

(3)在制造业中,半导体的生产和测试中都产生大量的数据,就必须对这些数据进行分析,找出存在的问题,提高质量;

(4)电子商务的作用越来越大,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计;

一些公司运用数据挖掘的成功案例,显示了数据挖掘的强大生命力:

美国AutoTrader.com是世界上最大的汽车销售站点,每天都会有大量的用户对网站上的信息点击,寻求信息,其运用了SAS软件进行数据挖掘,每天对数据进行分析,找出用户的访问模式,对产品的喜欢程度进行判断,并设特定服务,取得了成功。

Reuteres是世界著名的金融信息服务公司,其利用的数据大都是外部的数据,这样数据的质量就是公司生存的关键所在,必须从数据中检测出错误的成分。Reuteres用SPSS的数据挖掘工具SPSS/Clementine,建立数据挖掘模型,极大地提高了错误的检测,保证了信息的正确和权威性。

BassExport是世界最大的啤酒进出口商之一,在海外80多个市场从事交易,每个星期传送23000份定单,这就需要了解每个客户的习惯,如品牌的喜好等,BassExport用IBM的IntelligentMiner很好的解决了上述问题。

4.  数据挖掘技术的三大支柱

随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。

4.1      数据库技术

目前数据库专家除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅是查询吗?查询是数据库的奴隶,发现才是数据库的主人。

由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域——客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。

4.2     人工智能技术

专家系统曾经是人工智能研究工作者的骄傲。在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此,知识获取成为专家系统研究中公认的瓶颈问题。

其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难,知识表示又成为一大难题。

此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识相当缺乏,而人类专家知识是以拥有大量常识为基础的。

人工智能技术的三大难题:“知识获取、知识表示、缺乏常识”大大限制了专家系统的应用。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,从而与数据仓库技术相结合,转向数据挖掘技术。

4.3     概率与数理统计

数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了,迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力。一向以数理统计工具和可视化计算闻名的美国SAS公司,领先宣布进入DMKD行列。

 

5. 数据挖掘中存在的问题

同时数据挖掘技术也面临着许多的问题,这也为数据挖掘未来的发展提供了更大的空间。

(1)数据挖掘的基本问题就在于数据的数量和维数,数据结构也因此显的非常复杂,如何进行探索,选择分析变量,也就成为首先要解决的问题。

(2)面对如此大的数据,现有的统计方法等都遇到了问题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是值得研究的难题。

(3)既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。

(4)各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及到可靠性的问题。

(5)当前互联网的发展迅速,如何进行互联网的数据挖掘,还有文本等非标准数据的挖掘,都引起了极大的兴趣。

(6)数据挖掘涉及到数据也就碰到了数据的私有性和安全性。

(7)数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。

总之,数据挖掘只是一个工具,不是万能的,它可以发现一些潜在的用户,但是不会告诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的解释。

6. 数据挖掘研究热点

就目前来看,将来的几个热点包括网站的数据挖掘、生物信息或基因的数据挖掘及其文本的数据挖掘。

6.1     网站的数据挖掘(Websitedatamining)

随着Web技术的发展,各类电子商务网站风起云涌。如何让您的电子商务网站有效益,就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Log_files)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。

在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。

就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。

6.2     生物信息或基因的数据挖掘

生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。

对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。

6.3     文本的数据挖掘(TextualMining)

人们很关心的另外一个话题是文本数据挖掘。举个例子,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。从这个例子可以看出,无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正的分析功能。

随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、越来越复杂,数据挖掘将发挥出越来越大的作用。

7. 数据挖掘技术未来的研究方向

当前,DMKD研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:

(1)  形式化描述的语言,即研究专门用于知识发现的数据挖掘语言DMQL,类似SQL语言一样走向形式化和标准化;

(2)  可视化的数据挖掘过程,寻求数据挖掘过程中的可视化方法,使知识发现的过程易于被用户理解和操纵,可使数据挖掘过程成为用户业务流程的一部分,也便于在知识发现的过程中进行人机交互;包括数据用户化呈现与交互操纵两部分。

(3)  Web网络中数据挖掘的应用,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘,从而建立强大的数据挖掘引擎与数据挖掘服务市场。

(4)  融合各种异构数据的挖掘技术,加强对各种非结构化数据的开采(DataMiningforAudio&Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;

(5)  处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。

(6)  交互式发现;

(7)  知识的维护更新。

但是,不管怎样,需求牵引与市场推动是永恒的,DMKD将首先满足信息时代用户的急需,大量的基于DMKD的决策支持软件产品将会问世。

只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。

数据挖掘和数据架构 数据挖掘概念和技术

1.什么是数据挖掘?

数据挖掘是从大量数据中提取或“挖掘”知识,很多人也把数据挖掘视作“数据库中的知识发现”(KDD)。

数据挖掘的步骤包括:

数据清理(消除噪音或不一致数据)数据集成(多种数据源可以组合在一起) 数据选择(从数据库中提取与分析任务相关的数据)数据变换(数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作)数据规约(属性规约、数值规约)数据挖掘(基本步骤,使用智能方法提取数据模式)模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

2.什么是数据仓库?

数据仓库是一个从多个数据源收集的信息储存,存放在一个一致的模式下,并通常驻留在单个站点。通俗讲,数据仓库是通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造。通常,数据仓库用多维数据库结构建模。数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据分析,有利于有效的数据分析。构造数据仓库涉及数据清理和数据集成,是数据挖掘的一个重要的预处理步骤。

数据仓库是一个面向主题的,集成的,时变的,非易失的数据集合。

面向主题:数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是构造组织机构的日常操作和事务处理。因此,数据仓库排除对于决策无用的数据,提供特定主题的简明视图。

集成的:通常,构造数据仓库是将多个异种数据源,如关系数据库、一般文件和联机事务处理记录,集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量的一致性。

时变的:数据存储从历史的角度(例如,过去5-10年)提供信息。数据仓库中的关键结构,隐式或显式地包含时间元素。

非易失的:数据仓库总是物理地分离存放数据;这些数据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并行控制机制。通常,它只需要两种数据访问:数据的初始化装入和数据访问。

既然操作数据库存放了大量数据,为什么不直接在这种数据库上进行联机分析处理,而是另外花费时间和资源去构造一个分离的数据仓库?

分离的主要原因是为了提高两个系统的性能,操作数据库是为已知的任务和负载设计的,如使用主关键字索引和散列,检索特定的记录,和优化“罐装的”查询。另一方面,数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算,可能需要特殊的数据组织、存取方法和基于多维视图的实现方法。在操作数据库上处理OLAP查询,可能会大大降低操作任务的性能。

此外,操作数据库支持多事务的并行处理,需要加锁和日志等并行控制和恢复机制,以确保一致性和事务的强健性。通常,OLAP查询只需要对数据记录进行只读访问,以进行汇总和聚集。如果将并行控制和恢复机制用于这种OLAP操作,就会危害并行事务的运行,从而大大降低OLTP系统的吞吐量。

最后,数据仓库与操作数据库分离是由于这两种系统中数据的结构、内容和用法都不相同。决策支持需要历史数据,而操作数据库一般不维护历史数据。在这种情况下,操作数据库中的数据尽管很丰富,但对于决策,常常还是远远不够的。决策支持需要将来自异种源的数据统一(如,聚集和汇总),产生高质量的、纯净的和集成的数据。相比之下,操作数据库只维护详细的原始数据(如事务),这些数据在进行分析之前需要统一。由于两个系统提供很不相同的功能,需要不同类型的数据,因此需要维护分离的数据库。然而,许多关系数据库管理系统卖主正开始优化这种系统,使之支持OLAP查询。随着这一趋势的继续,OLTP和OLAP系统之间的分离可望消失。

3.什么是数据集市

数据集市搜集了整个组织的主题信息,因此,它是企业范围的。另一方面,数据集市是数据仓库的一个部门子集,它聚焦在选定的主题上,是部门范围的。

4.OLTP和OLAP区别

数据处理大致可以分成两大类:联机事务处理OLTP(on-linetransactionprocessing)、联机分析处理OLAP(On-LineAnalyticalProcessing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 

OLTP和OLAP的区别概述如下:

用户和系统的面向性:OLTP是面向顾客的,用于办事员、客户、和信息技术专业人员的事务和查询处理。OLAP是面向市场的,用于知识工人(包括经理、主管、和分析人员)的数据分析。

数据内容:OLTP系统管理当前数据。通常,这种数据太琐碎,难以方便地用于决策。OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。

数据库设计:通常,OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计。而OLAP系统通常采用星形或雪花模型(和面向主题的数据库设计。

视图:OLTP系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP系统常常跨越数据库模式的多个版本。OLAP系统也处理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP数据也存放在多个存储介质上。

访问模式:OLTP系统的访问主要由短的、原子事务组成。这种系统需要并行控制和恢复机制。然而,对OLAP系统的访问大部分是只读操作(由于大部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。

多维数据模型上的OLAP操作包含:上卷、下钻、切片和切块(切片在数据方的一个维上进行选择,切块是在两个或多维选择)、转轴等。

5.多维数据模型

数据仓库和OLAP工具基于多维数据模型,该模型将数据看作数据方形式。数据方允许以多维对数据建模和观察,它由维和事实定义。一般地,维是透视或关于一个组织想要记录的实体。例如,创建一个数据仓库sales,记录商店的销售,涉及维time,item,branch,和location。这些维使得商店能够记录商品的月销售,销售商品的分店和地点。每一个维都有一个表与之相关联。该表称为维表,它进一步描述维。例如,item的维表可以包含属性item_name,branch,和type。维表可以由用户或专家设定,或者根据数据分布自动产生和调整。

通常,多维数据模型围绕中心主题(例如,sales)组织。该主题用事实表表示。事实是数值度量的。例如,数据仓库sales的事实包括dollars_sold,units_sold和amount_budgeted。事实表包括事实的名称或度量,以及每个相关维表的关键字。

6.元数据

元数据是关于数据的数据。在数据仓库中,元数据是定义仓库对象的数据。对于给定数据仓库的数据名和定义,创建元数据。其它元数据包括对提取数据添加的时间标签、提取数据的源、被数据清理或集成处理添加的字段等。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇