博舍

数据挖掘时功能和一个聚类分析应用案例 数据挖掘和应用

数据挖掘时功能和一个聚类分析应用案例

数据挖掘时功能和一个聚类分析应用案例

数据挖掘的常用方法和数据挖掘的重要功能(出自MBA智库百科)。当然,横看成岭侧成峰,这些常用方法和重要功能也许并不完全正确或完整。除此以外,笔者尝试学习了SMARTBI公司中的SmartMining软件,并跟随其提供的示例教程进行了学习。为方便阅读,将其示例教程结合自己的体会作为文章的第三部分。

一、数据挖掘的常用方法

利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。

分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。

回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。

特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。

变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

Web页挖掘。随着Internet的迅速发展及Web的全球普及,使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。

二、数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。

自动预测趋势和行为:数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体。

关联分析:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

聚类:数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Michalski提出了概念聚类技术,其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。

概念描述:概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

偏差检测:数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。

三、数据挖掘实例–聚类分析应用之市场细分

聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。

从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。

从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。

从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。

聚类分析的核心思想就是物以类聚,人以群分。在市场细分领域,消费同一种类的商品或服务时,不同的客户有不同的消费特点,通过研究这些特点,企业可以制定出不同的营销组合,从而获取最大的消费者剩余,这就是客户细分的主要目的。在销售片区划分中,只有合理地将企业所拥有的子市场归成几个大的片区,才能有效地制定符合片区特点的市场营销战略和策略。金融领域,对基金或者股票进行分类,以选择分类投资风险。

下面以一个汽车销售的案例来介绍聚类分析在市场细分中的应用。

商业目标

业务理解:数据名称《汽车销售.csv》。该案例所用的数据是一份关于汽车的数据,该数据文件包含销售值、订价以及各种品牌和型号的车辆的物理规格。订价和物理规格可以从edmunds.com和制造商处获得。定价为美国本土售价。如下:

表1:数据视图

业务目标:对市场进行准确定位,为汽车的设计和市场份额预测提供参考。

数据挖掘目标:通过聚类的方式对现有的车型进行分类。

数据准备

通过数据探索对数据的质量和字段的分布进行了解,并排除有问题的行或者列优化数据质量。

第一步,我们使用统计节点审核数据的质量,从审核结果中我们发现存在缺失的数据,如下图所示:

第二步,对缺失的数据进行处理,我们选择使用缺失填充节点删除这些记录。配置如下:

建模

我们选择层次聚类进行分析,尝试根据各种汽车的销售量、价格、引擎、马力、轴距、车宽、车长、制动、排量、油耗等指标对其分类。

因为层次聚类不能自动确定分类数量,因此需要我们以自定义的方式规定最后聚类的类别数。层次聚类节点配置如下(默认配置):

可以使用交互表或者右击层次聚类节点查看聚类的结果,如下图所示:

再使用饼图查看每个类的大小,结果如下:从图中可见,分成的三个类样本数差异太大,cluster_0和cluster_1包含的样本数都只有1,这样的分类是没有意义的,因此需要重新分类。我们尝试在层次聚类节点的配置中指定新的聚类方法:完全。新的聚类样本数分布如下:cluster_0、cluster_1、cluster_2的样本数分别为:50、9、93。

执行后输出树状/冰柱图,可以从上往下看,一开始是一大类,往下走就分成了两类,越往下分的类越多,最后细分到每一个记录是一类,如下所示:

我们可以再使用条形图查看每类的销售量、平均价格,如下图所示:

每类总销量分布图

每类平均销量分布图

每类平均价格分布图

我们再看一下每类的销售额分布情况。首先,我们需要使用Java代码段节点或者派生节点生成销售额字段,配置如下:

再使用饼图查看销售额分布情况,cluster_0、cluster_1、cluster_2的市场份额分别为:32.39%、0.53%和67.08%,如下图所示:

案例小结

通过这个案例,大家可以发现聚类分析确实很简单。进行聚类计算后,主要通过图形化探索的方式评估聚类合理性,以及在确定聚类后,分析每类的特征。

个人体会

这是笔者第一次按照AOSP-SM方法来进行数据挖掘,虽然因为无法得到示例中的数据而更多的对教程进行了理论上的分析和体会,但是通过自己部分的操作感受到了SmartMining软件的人性化和功能强大。聚类与分类的不同之处在于,聚类所要求划分的类是未知的。简易的聚类分析是一种相对简单而有十分实用的方法,如果使用得当,将会在市场细分、媒体分级和异常诊断等多个问题中发挥巨大的作用。

四、小结

通过今天的学习分享,我们对数据挖掘有了进一步的认识,并尝试进行了第一次实际操作。虽然对于数据挖掘的了解仍然处于一个比较低级的层次,但笔者相信,通过不断地努力与探索,我们可以越来越深入的感受到数据挖掘的魅力。http://www.cda.cn/view/16665.html

111 空间数据挖掘 — GIS原理在线教程

11.1.空间数据挖掘¶11.1.1.空间数据挖掘的概念¶

1.空间数据挖掘的概念

随着空间数据库技术的高速发展,人类积累了大量的空间数据,尤其是地理信息系统、遥感、医疗影像,计算机辅助设计(CAD)、动植物生态领域等方面的广泛应用导致空间数据急剧地产生和增加,如美国国家航空和宇宙航行局(NationalAeronauticsandpaceAdministration,NASA)对地观测系统(EarthObservingSystem,EOS)每天都要产生1TB空间数据;中国建成的覆盖全国、全省的大型地理空间数据库和专题数据库的数据总量超过1250GB;有关火灾数据、地形分布数据等等,都收集大量、数据类型和特征繁多的空间数据。据统计:全球拥有的数据量每20个月翻一番,因此我们不仅拥有极其庞大的空间数据,而且其空间数据类型越来越复杂、结构越来越多样。日益丰富具有空间特征的数据在一定程度上已超出了人类大脑的分析能力,从而形成空间数据虽多,但知识贫乏、用处不大的局面。因此,迫切需要从这些空间数据中发现领域知识,从而一个多学科、多领域综合交叉的新兴研究领域——空间数据挖掘(SpatialDataMining)应运而生。

空间数据挖掘是指从空间数据库中提取用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其它一些隐含在数据库中的普遍的数据特征。简单地讲,空间数据挖掘是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式、普遍特征、规则和知识的过程(蒋良孝等,2003)。它可以发现普遍的几何知识、空间分布规律、空间关联规则、空间分类规则、空间特征规则、空间区分规则、空间演变规则等。空间数据挖掘需要综合数据挖掘、空间数据库、空间信息学、计算机科学等技术。它可用于对空间数据的理解,空间关系和空间与非空间数据间关系的发现,空间知识库的构造,空间数据库的充足和空间查询的优化。空间数据挖掘总体可以分为空间关联规则技术、空间同位、空间离群技术、空间分类、时空序列等技术。其在地理信息系统,地理市场(Geomarketing)、遥感、CAD、图像数据库探测、医学图像处理、导航、交通控制、环境研究等许多使用空间数据领域中有广泛的应用。

2.空间数据挖掘的知识类型

数据挖掘中常见的知识有广义型(Generalization)、分类型(Classification)、关联型(Association)和预测型(Prediction)四类,它们也同样适用于空间数据库。为了便于理解和应用,空间数据挖掘知识类型可以划分得如下更加具体几种类型。

(1)普遍的几何知识

普遍的几何知识是指某类目标的数量、大小、形态特征等普遍的几何特征。GIS空间数据库中的目标主要有点、线、面(多边形)三类。用统计方法可容易地在GIS中直接获取各类目标的数量和大小,但GIS中并不直接存储形态特征,需要运用专门的算法提取曲折度、方向、密集度等特征值,在此基础上归纳高水平的普遍几何特征。

(2)空间分布规律

空间分布规律是指目标在地理空间的分布规律,分成在垂直向、水平向以及垂直向和水平向的联合分布规律。垂直向分布即地物沿高程带的分布,如植被沿高程带分布规律、植被沿坡度坡向分布规律等;水平向分布指地物在平面区域的分布规律,如不同区域农作物的差异、公用设施的城乡差异等;垂直向和水平向的联合分布即不同的区域中地物沿高程分布规律。

(3)空间关联规则

空间关联规则是指空间目标间相邻、相连、共生、包含等空间关联规则。例如,村落与道路相连,道路与河流的交叉处是桥梁等。空间分布规律在本质上属于空间关联规则,它表达的是空间对象与空间位置和(或)高程的关联。

(4)空间聚类/分类规则

空间聚类/分类规则是指根据对象的空间或非空间特征将对象划分为不同类别的规则,可用于GIS的空间概括和综合。例如,将距离很近的散布的居民点聚类成居民区。聚类和分类都是对空间对象的划分,划分的标准是类内差别最小而类间差别最大,区别在于事先是否知道类别数和各类别的特征。

(5)空间特征规则

空间特征规则是指某类或几类空间目标的几何的和属性的普遍特征,即对共性的描述。普遍的几何知识属于空间特征规则的一类。如“宁夏的森林资源分布比较集中”描述宁夏森林资源的空间特征规则,也是普遍的几何知识。

(6)空间区分规则

空间区分规则是指两类或多类目标间几何的或属性的不同特征,即可以区分不同类目标的特征,是对个性的描述。

(7)空间演变规则

若空间数据库是时空数据库或空间数据库中存有同一地区多个时间数据的快照(Snapshot),则可以发现空间演变规则。空间演变规则是指空间目标依时间的变化规则,即哪些地区易变,哪些地区不易变,哪些目标易变、怎么变,哪些目标固定不变。

(8)面向对象的知识

指某类复杂对象的子类构成及其普遍特征的知识。可用的知识表达方法有:特征表、谓词逻辑、产生式规则、语义网络、面向对象的表达方法、可视化表达方法等,应根据不同的应用选取不同的表达方法,并且各种表达方法之间还可以相互转换。

11.1.2.空间数据挖掘的方法与过程¶

1.空间数据挖掘方法

空间数据挖掘和知识发现是多学科和多种技术交叉综合的新领域,它综合了机器学习、数库、专家系统、模式识别、统计、管理信息系统、基于知识的系统、可视化等域的有关技术,另外,空间数据挖掘并不是某一种具体的全新的方法,它的许多方法在地理信息系统、地理空间认知、地图数据处理、地学数据分析领域内早己广泛应用。因而,数据挖掘和知识发现方法是丰富多彩的,并且不仅包括一般数据挖掘的方法,同时也有很多针对空间数据库的方法。目前空间数据挖掘和知识发现主要有以下方法(王占全,2005;彭晶倩,2006):

(1)空间分析方法

空间分析能力是GIS的关键技术,是GIS系统区分于一般制图系统的主要标志之一。空间分析方法常作为数据预处理和特征提取方法与其他数据挖掘方法结合使用。

(2)统计分析方法

统计方法一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性的分析。它具有较强的理论性和成熟的算法,多用于处理数字型数据。统计分析方法中的回归分析、方差分析、主成分分析、因子分析等方法经常用于规律和模式的提取。统计方法的最大缺点是要假设空间分布数据具有统计不相关性,但在空间数据挖掘中,由于空间对象属性的相关性很强,在一定程度上限制了统计分析方法在空间数据挖掘中的使用。

(3)归纳学习方法

归纳学习是从大量的己知数据中归纳抽取出一般的判断规则和模式,一般需要相应的背景知识。归纳学习在数据挖掘中的使用非常广泛,己经有了成熟的理论算法,如著名的C4.5算法(由ID3算法发展而来),具有分类快和适用于大型数据库的特点;AOI(面向属性的归纳方法),能归纳出高层次的模式或特征。

(4)空间关联规则挖掘方法

关联规则反映一个事物与其他事物之间的相互依赖性或相互关联性。如果两个或多个事物之间存在关联,那么,其中一个事物就能从其他己知事物中预测得到。所谓关联规则是指数据集中支持度和信任度分别满足给定闭值的规则。经典的算法有R.Agrawal等人提出的Apriori算法,以及对其的改进算法:AprioriTid,APrioriHibrid等。

(5)聚类方法

空间聚类分析是要将空间数据库中的对象按照某些特征划分为不同的有意义的子类,同一子类中的对象具有高度相似的某种特征,并与不同子类的特征具有明显的差异(巩华荣,2007)。采用聚类分析的优点在于:想获取的结构或簇可以直接从数据中找到,不需要任何背景知识。

(6)分类方法

是指分析空间对象导出与一定空间特征有关的分类模式。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则。

①决策树分类

Fayyed等人使用决策树方法对星形结构对象的图像进行分类,从而探测行星与银河系。他们的方法是使用FOCAS系统为选中的对象,例如天空图像,生成区域、方向等的基本属性。训练集中的对象由宇航员来分类。基于这些分类,构成用于决策树算法的10个训练集,决策树是通过学习算法得到的。最后,由决策树生成一个健壮、通用、正确的最小分类规则集合。该方法处理的是图像数据库,并应用于天文研究领域。但它却不善于处理常用于GIS中的向量数据格式。

②贝叶斯分类

贝叶斯分类方法的关键是使用概率表示各种形式的不确定性。在选择某事件面临不确定性时在某一时刻假定此事件会发生的概率,然后根据不断获取的新的信息修正此概率。修正之前的概率称为先验概率,修正之后的概率称为后验概率。贝叶斯原理就是根据新的信息从先验概率得到后验概率的一种方法。贝叶斯方法在使用先验信息方面由于没有确定的理论依据,存在颇多争议。但是在大型数据集方面,贝叶斯分类方法具有高准确率和高运算速度。

(7)神经网络方法

人工神经网络是近年来的一个研究热点,在信号处理、模式识别、人工智能、自适应控制、决策优化等众多领域得到了广泛的研究和应用。神经网络由多个非常简单的处理单元(神经元)按某种方式相互连接而形成,靠网络状态对外部输入信息的动态响应来处理信息。神经网络在数据挖掘中主要用于获取分类知识,优点是分类精度高、对噪声具有稳健性;缺点是获得的知识隐含在网络结构中,不容易被人们理解和解释,而且网络训练时间一般比较长,不易利用领域知识。

(8)粗集理论

粗集理论是波兰华沙大学Z.Pawlak教授在1982年提出的一种智能数据决策分析工具,被广泛研究并应用于不精确、不确定、不完全的信息的分类分析和知识获取。粗集理论为空间数据的属性分析和知识发现开辟了一条新途径,可用于空间数据库属性表的一致性分析、属性的重要性、属性依赖、属性表简化、最小决策和分类算法生成等。粗集理论与其它知识发现算法结合可以在空间数据库中数据不确定的情况下获取多种知识。

(9)模糊集理论

模糊集理论是L.A.Zadeh教授在1965年提出的。它是经典集合理论的扩展,专门处理自然界和人类社会中的模糊现象和问题。利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。系统的复杂性越高,精确能力就越低,模糊性就越强,这是Zadeh总结出的互克性原理模糊集理论在遥感图像的模糊分类、GIS模糊查询、空间数据不确定性表达和处理等方面得到了广泛应用。

(10)云理论

云理论是李德毅院士提出的用于处理不确定性的一种新理论,云理论由云模型、虚拟云、云运算、云变换和不确定性推理等内容构成。云模型将模糊性和随机性相结合,解决了作为模糊集理论基础的隶属函数概念的固有缺点,为数据挖掘中定量与定性相结合的处理方法奠定了基础;虚拟云和云变换用于概念层次结构删除和概念提升;云推理用于不确定性预测等。云理论在知识表达、知识发现、知识应用等方面都可以得到充分的应用。

(11)遗传算法

遗传算法(简称GA)是模拟生物进化过程的算法,最先由美国的JohnHolland教授于20世纪60年代初提出,其本质是一种求解问题的高效并行全局搜索方法,它能在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最优解。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。数据挖掘中的许多问题,如分类、聚类、预测等知识的获取,可以表达或转换成最优化问题,进而可以用遗传算法来求解。

(12)空间趋势分析

空间趋势指离开一个给定的起始空间对象时,非空间属性的变化情况。例如,当离城市中心越来越远时经济形势的变化趋势。其分析结果可能是正向趋势、反向趋势或者没有趋势。一般在空间数据结构和空间访问方法之上分析空间趋势,需要使用回归和相关的分析方法。由于空间对象自身的特殊性,传统的回归模型可能并不合适。例如,传统的线性回归模型(y=Xβ+ε)对空间对象就不适用,需要使用空间自回归SAR模型:

                              y=ρWy+Xβ+ε(公式11-1)

(13)概念格理论

概念格是由R.Wille在1982年首先提出的,作为数据分析的有力工具,概念格己经被广泛地应用于知识发现和数据挖掘领域。它的每一节点称为一个概念,每个概念由概念格的外延和内涵两部分组成,概念的外延表示属于这个概念所有对象的集合,而内涵则表示为所有这些对象所共有的属性集合。概念格描述了对象和属性之间的关系,概念格的哈斯图清晰地表明了概念间的泛化和特化关系,并实现了知识的可视化。因此,概念格理论已经被广泛地应用于知识工程、知识管理、数据挖掘、信息检索及软件工程等领域。

(14)支持向量机

支持向量机(SupportVectorMachine,SVM)是一种新的机器学习技术,由Vapnik和他的同事于1995年提出(刘叶青,2008)。它能非常成功地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广于预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。目前国际上支持向量机在理论研究和实际应用两方面都正处于飞速发展阶段。它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器。

此外,还有空间特征,图像分析和模式识别方法,证据理论,数据可视化方法,地学信息图谱方法,计算几何方法等。上述每一种方法都有一定的适用范围。在实际应用中,为了发现某类知识,常常要综合运用这些方法。空间数据挖掘方法还要与常规的数据库技术充分结合。例如,在时空数据库中挖掘空间演变规则时,可利用GIS的叠置分析等方法首先提取出变化了的数据,再综合统计方法和归纳方法得到空间演变规则。总之,空间数据挖掘利用的技术越多,得出的结果精确性就越高,因此,多种方法的集成也是空间数据挖掘的一个有前途的发展方向。此外,空间数据挖掘除了发展和完善自己的理论和方法,还要充分借鉴和汲取数据挖掘和知识发现、据库、机器学习、人工智能、数理统计、可视化、地理信息系统、遥感、图形图像学、医疗、分子生物学等学科领域的成熟的理论和方法。

2.空间数据挖掘过程

空间数据挖掘是一个复杂的过程,这一过程分为三个阶段:空间数据的获取和预处理、空间数据挖掘、空间数据的评价和可视化解析,如图11-1所示。

(1)空间数据的获取和预处理

空间数据的获取和预处理需要经历三个步骤:

①数据准备:了解空间数据挖掘相关领域的基本情况,学习该领域的先决知识,分析挖掘的目的,构造概念分层。

②数据选择:根据需要从空间数据库中提取与空间数据挖掘相关的数据,使用合适的空间数据结构和数据访问方法。

③数据预处理:消除噪声数据,统一数据格式和数据源,对丢失数据利用统计方法进行填补,确保数据的完整性和一致性。

(2)空间数据挖掘

空间数据挖掘阶段又分为三个步骤:

①确定目标:对于空间数据挖掘的不同要求,会在具体的知识发现过程中采用不同的数据挖掘算法,所以首先要确定空间数据挖掘的目标。

②建立模型:根据空间数据挖掘的目标,选择合适的数据挖掘算法,建立空间数据挖掘的模型,并使得数据挖掘模型和整个空间数据挖掘的评判标准相一致。

③数据挖掘:运用选定的数据挖掘算法,从数据中提取用户所需要的知识,这些知识可以用特定的方式表示,也可以用常规的方式表示。

(3)空间数据的评价和可视化解析

空间数据的评价和可视化解析阶段包括模式解释、知识评价和可视化展示:

①模式解释:对于数据挖掘的模式进行解释,有时为了取得更有效的知识,可能返回到前面的步骤进行反复提取。

②知识评价:将数据挖掘得到的知识以能理解的方式展现,包括对结果的一致性检查,以确保本次发现的知识不与领域的相关知识相抵触。

③可视化展示:将数据挖掘的知识用可视化的方法展示,如GIS技术,将空间数据挖掘的结果展布于空间地图上。

11.1.3.空间数据挖掘的应用¶

空间信息约占数字地球总信息量的80%。空间数据挖掘是将这些信息转为有用的知识的有效工具之一,在“数字地球”海量空间数据处理中占有一十分重要的地位,有着广泛的应用前景,如在地理信息系统、遥感、图像数据库探测、医学图像处理、导航、交通控制、环境研究以及其它许多使用空间数据的领域中都有着十分广泛的应用。由于SDM获取的知识同现有GIS分析工具获取的信息相比更加概括、精炼,并可发现现有GSI分析工具无法获取的隐含的模式和规律,因此它的应用范围比GSI更广阔。空间数据挖掘的应用概括起来主要有以下几个方面:

(1)可用于对空间数据的理解,发现显示或隐含的空间目标或现象空间关系,指导科研人员进行更有效的工作;

(2)可用于空间数据库管理系统中对空间数据库的数据集进行重组和空间查询的优化;

(3)可作为辅助决策支持和分析的工具;

(4)可为空间数据仓库提供比SOLAP(SpatialOnlineAnalyticalProcess)更高级的分析工具;

(5)可与GIS和其它IT工具高度集成构成智能化软件包。

目前,空间数据挖掘的应用,主要表现在能够指导发现新空间实体、空间决策、游览空间数据库,理解空间数据,发现空间联系以及空间数据与非空间数据之间的关系,重组空间数据库,构造空间知识库,优化空间查询等。其中,具体的应用实例有在遥感影像中的应用,在公共卫生信息中的应用等等。

1.在遥感影像中的应用

空间数据挖掘适用于高分辨率遥感影像海量数据的特点,为知识获取以及基于知识的遥感目标识别和分类的自动化和智能化开辟了一个崭新的途径。利用它从遥感影像数据库中自动提取和利用已有的知识,可以解决当前困扰遥感数据自动处理所面临的瓶颈问题,实现对高光谱遥感影像精细光谱地物目标的自动识别、分析、提取、匹配和分类,扩展遥感影像目标识别和分类的能力,提高空间分辨率遥感影像中地物目标提取的精度和自动化分类程度,如SKTCAT己经发现了16个新的极其遥远的类星体;POSS系统将天空图像中的星体对象分类准确性从75%提高到94%。MagellanStudy系统通过分析启明星表面的大约30000幅高分辨率雷达图像,识别出火山位置,CONQUEST系统采用基于内容的空间和时间查询,发现出大气层中臭氧洞形成的样本知识。Tesic等人还利用关系规则发现算法从星云图像中发现知识。

2.在公共卫生信息中的应用

空间数据挖掘在公共卫生方面也有广泛的应用,主要是对疾病时空分布规律、疾病成因、和医疗资源的空间优化配置。通过空间自相关分析得出社会经济如失业率、居住空间、单亲家庭、社会等级以及人口密度等对人的健康影响,从而实现对疾病成因进行分析。提出利用空间区域性研究对于人群健康分布,同时指出地理分析技术在医疗资源平衡分配中的潜在应用意义。对小区域的医院分布和距离之间的关系进行了分析,为医疗资源优化配置提供了基础。对健康服务空间分布的均衡性进行分析,指出了疾病发病区之间均衡配置医疗资源具有重要意义。

空间数据挖掘在其它领域的应用还包括交通事故分析、空间数据融合、对电力负荷的空间分布进行预测、对土地覆盖情况进行分类、气候变化的空间分布规律、对农作物产量进行预测、对城市地区进行分类等。

数据挖掘在医学上的应用

本篇将再多讲一讲数据挖掘在医学上的应用,希望能对感兴趣的朋友有所启发,也供从事其他行业数据挖掘应用的同仁参考。

数据挖掘,又称知识发现(KDD),是从大量的数据中抽取潜在的、有价值的知识的过程。数据挖掘所探寻的模式是一种客观存在的、但隐藏在数据中未被发现的知识。例如,数据挖掘可直接挖掘疾病高发人群,发现疾病及症状间的未知联系,探索化验指标间的影响关系及化验指标与疾病间的潜在影响,对未知的实验室指标值进行预测,可以探索合并症之间的关系,还可以自动发现一组高维实验室指标变量的异常等等。再如,在科研设计中利用聚类分析,我们可以对数据进行科学分组,通过考察多因素的不同影响权重,可以帮助确定析因分析或嵌套分析等不同的科研设计等等。数据挖掘在医学中应用非常广泛,它必然为医学临床和科学研究提供传统方法不能企及的又一种前沿技术手段。

国外数据挖掘在医学应用上的案例

数据挖掘在国外各行各业得到广泛的应用,医学领域也不例外,很多数据挖掘技术被成功应用到医学临床和科研方面,下面就列举几个简单的案例。

1.聚类分析在医学上的应用

糖尿病是世界上一种常见的疾病,超过18万美国人患有糖尿病,另有16万人糖尿病处于糖尿病前期。糖尿病的临床诊断往往是从身体症状和化验值异常着手的。有些异常指标包括身体质量指数(BMI),血压(BP)指数等。利用聚类分析工具可以分析患者的疾病诊断数据,以进行探索性的数据分析,并考察产生的聚类结果的意义。至于糖尿病患者的数据,聚类分析工具试图按照年龄、种族、性别、体重指数和BP指数等产生聚类模式,并将数据划分到相应的自然组群中。

使用聚类分析工具探索性地分析糖尿病患者的基本指标数据,通过良好的划分类均值来产生聚类。本案例中,对于已有的3个不同的数据集进行聚类分析,产生的聚类数在5到8之间,每个聚类中的病人数量有多有少,运算聚类所消耗的时间大约在5秒钟到4分钟之间。

通过聚类分析,专家们在所有3个数据集中共得到4种类型的患者:

·患者为肥胖(体重指数>56),但血压正常;·患者基本指标(BMI,BP)是正常的;·患者血压在正常范围内,但体重指标异常;·患者基本指数(BMI,BP)异常;

以上4种糖尿病的聚类结果揭示了糖尿病患者典型的四个分型,在临床上具有重要意义。

2.关联规则分析在医学上的应用

关联规则是一个发现医疗数据中隐藏关联模型的有前途的技术。通常,关联规则在医疗数据中挖掘出大量的规则,规则数量不仅相当大,而且其中大部分规则在医学上是无关紧要的。对于有用的一些规则,医学专家寻找的速度很慢,而且发现了规则以后解释起来也很困难。在这项工作中,我们引入搜索约束,以只发现在医学上有意义的关联规则,并使规则搜索更有效。

例如,应用关联规则分析发现心脏灌注测量和病人危险因素与四个特殊的动脉狭窄程度紧密相关。我们通常用关联规则的支持度、置信度、以及LIFT指标来评价其在医学上的意义,如图一所示。

3.预测分析在医学上的应用

前列腺癌检查可早期发现癌症,但不是所有的病人都能受益于后继的治疗。因此,辨别出哪些病人最有可能患有侵入性癌症,将大大减少前列腺活检试验。我们收集了1,563例接受了前列腺活检的病人数据,采集10微克/毫升或更少的血清PSA数据,用预测模型对侵入性前列腺癌进行分析。用随机选取的70%的数据对预测模型进行训练,其余30%的数据用于对预测模型进行测试。在1,563例病例中,有406人患有癌症(26.1%),其中130人患有侵入性前列腺癌(8.3%)。预测模型创建了如下侵入性前列腺癌风险组规则:

1.PSAD大于0.165ng/ml/cc。

2.PSAD大于0.058ng/ml/cc且小于0.165ng/ml/cc,年龄大于57.5岁且前列腺量大于22.7cc。

预测模型经测试数据验证,模型对侵入性前列腺癌的敏感度为91.5%,特异性为33.5%。在测试数据中,当PSAD是0.058ng/ml/cc或更少时,侵入性前列腺癌的发病率是1.1%。因此,预测模型可以有效地识别侵入性前列腺癌风险组。当单一的高度前列腺癌诊断将导致后继的治疗时,预测模型可以减少33.5%的不必要的活检试验。

国外数据挖掘在医学上的应用

数据挖掘的很多理论和技术源自欧美国家,这些国家开展数据挖掘技术的研究和应用比较早,因此也有长年的数据挖掘的技术积累和经验积累。欧美国家对数据挖掘技术研发的投入比较大,不仅投入大量的资金,而且还配备了阵容强大的研发团队。这些国家对数据挖掘技术的应用意识比较高,因此他们对数据挖掘技术的研究热情较高,将最新技术应用于科学和商业的需求比较迫切,因此有大量的成熟的、应用稳定可靠的数据挖掘实际应用案例。由于他们比较早地应用前沿智能信息技术开展健康与医学方面的研究,现在无论从数据挖掘研究和应用的深度和广度上都走在了世界前列,并且很多科研成果已经转化为有形的技术与产品,直接得到了广泛的应用,并产生了显著的社会效益与经济效益。例如,数据挖掘在在医学应用于如下几个方面。

1、疾病和疾病风险的预测

通过对医学大数据的挖掘、分析,并应用智能决策技术,对常见疾病如心绞痛、心肌梗死、脑血管疾病、糖尿病、高血压病、肿瘤、哮喘病、结缔组织病等疾病发生几率的预测和疾病风险的预测,预测遗传性疾病和多发性多因素疾病,有重大的临床意义和广泛的社会效益。如图二所示,应用数据挖掘技术对不稳定心绞痛病人进行探索性分析。2、人群健康、生命质量的预测

现代人要应付快节奏的学习、工作和生活,而且要处理好各种错综复杂的社会人际关系。面对竞争和挑战,人们的生理和心理都不断在衰弱、老化和病变。最新流行疾病调查显示,某些城市人口甚至有70%的人群处于亚健康状态,而且亚健康人群、疾病人群还在增加。通过对大量医学数据的挖掘分析和应用智能决策技术,不仅可以发现各种健康的危险因素和相关性,并可进行个体化预测,而且基于相关的挖掘成果可建立的一套完善、周密和个性化的健康管理系统,帮助健康人群及亚健康人群建立有序、健康的生活方式,降低风险状态,远离疾病;并可帮助对亚健康人群对疾病早发现、早预防、早诊断、早治疗、早手术,提高生存率、降低致残率和病死率、提高生命的质量。如图三所示,应用数据挖掘的预测模型对“体重超重且血脂并不异常”的体检人群进行血红蛋白指标的预测分析。

3、医疗上各种缺陷发生几率的预测

通过对大量医学数据的挖掘分析,以及应用智能决策技术,可以揭示发生医疗缺陷的原因、趋向、相关因素,以便制定科学的管理,减少、甚至杜绝医疗缺陷和纠纷。例如,加拿大安大略省癌症防治中心通过研发、实施安大略省预防医学与癌症防治体系,对全省的肿瘤大数据进行数据挖掘,开展病人安全与事故的预防,即利用数据挖掘方法揭示临床事故的趋势,研究和辨别引起各种事故的关键因素,指导预防措施。

4、降低医疗费用,优化医疗资源

通过对医学大数据的挖掘,并应用智能决策技术还能够大幅度地降低医疗费用。基于大量医学数据分析的基础上进行科学的健康管理,可使医疗费用大幅下降,医疗费用可降少到原来的10%。正如美国密执安大学健康管理研究中心主任Dee.W.Edington博士提出的90%和10%的论断,即健康管理对于任何企业及个人都有这样一个秘密,即90%和10%。具体地说,就是90%的个人和企业通过健康管理后,医疗费用降到原来的10%;10%的个人和企业未做健康管理,医疗费用比原来上升90%。因此,数据挖掘在医学上的应用具有显著的经济效益。通过对医学大数据的挖掘与应用,可清楚了解疾病发生的几率和临床上预防和治疗的重点,可以优化现有的设备和人才,明确引进人才和新技术的方向,促进医疗的更新和建设,调整医疗布局,优化医疗资源,正确进行医疗决策。

国内数据挖掘在医学上的应用

数据挖掘的应用在中国得到了越来越多的重视与越来越广泛的认可,我们可以预言,数据挖掘的应用必将在各行各业上得到普及!

总的来说,在中国,数据挖掘在医学上得到了很多的尝试,人们在不断地探索和进步。我们在应用数据挖掘技术研究健康与疾病的领域中尚属摸索阶段,与业界领先的一些国家存在着一定的差距,主要体现在以下几个方面:

1、从数据挖掘的理论和技术上看,我们的很多认识和意识还是比较传统和陈旧的。很多人对数据挖掘的理论和技术的认识,还只是停留在几个常用的技术和算法上面,把数据挖掘认识得比较狭隘。实际上,数据挖掘发展到今天,虽然还只是初级阶段,但数据挖掘的内涵和外延已经较以前有了相当的拓展,数据挖掘不再是大家认识的常用的几个技术和算法,而是一切可以应用的用于发现大数据中隐藏规律的技术和手段。既然认识不足、意识不到,那必将影响到数据挖掘的研究与应用的效果,这是我们首要需要改进的。

2、从数据挖掘的研发与应用的人员结构上看,我们的很多数数据挖掘的从业人员大多是来自大专院校的老师、或医疗研究机构的技术人员、或其他IT技术人员,大多数人不是系统地从事医学数据挖掘的专业研究与应用,很难了解世界上先进的数据挖掘的完整体系和系统应用方法,甚至很多人还限于对某些传统算法的摸索,导致数据挖掘技术的研究和应用的起点不高。尤其在数据挖掘的应用层面,数据挖掘是个大知识的汇集区与融通体,它不仅需要对数据挖掘算法有深入掌握,还需要对大数据技术有深刻了解,包括数据库技术、数据建模技术、数据整合技术、超大规模数据优化技术等等,当然还需要对医学专业知识的深入了解。因此,做好数据挖掘在医学上的应用,应该需要复合型的人才,他们应是数学专家、信息专家和医学专家三位一体的人员或三位一体高度集成的团队。

3、从数据挖掘的应用经验上看,国内的很多从业人员没有长年的技术积累,更没有成熟的科研应用和医学应用经验,所以数据挖掘的应用大多仅限于某一局部的探讨性应用,鲜有成熟稳定的实际应用案例。

但是,我们坚信,只要我们知己知彼,博采众长,勇于探索、持之以恒,我们必将能够在数据挖掘应用与医学的事业上取得长足进步!

数据挖掘在医学上的应用需求

医学是一门知识体系庞大、复杂的学科,有太多的新知识、新规律有待人们去挖掘。数据挖掘作为一种主动式发现工具,在医学临床和科研中具有广泛用途。例如,

1、对体检人的医学数据和病人的医学数据,应用数据挖掘技术探索医学的潜在规律,研究各种人体指标在健康中的权重,以及在不同人群中的分布。

2、应用数据挖掘技术研究人体生理指标之间的关联,更深入的了解人体生理各个指标的综合意义,探索多个人体生理数据的内在关系以及这种关系健康的关系,可发现综合因素对健康的影响,从而探究出健康的原因。

3、通过健康体检数据和病人数据的挖掘分析,发现如何综合判别健康状态,分析导致疾病的影响因素,建立评估模型来预测危险度,并进一步建立疾病的预测模型等。

尤其是在医学科研方面,数据挖掘大有用武之地。我们在大量的医学科研支持与服务项目中,深刻体会了科研者面临的困境、以及他们的需求与寻求的帮助。例如,许多医学科研工作者时常感到科研思路枯竭,并为缺乏一个新颖的科研命题而苦恼。因为,科研的关键点和难点正是科研创新。有的医学家在使用精当、严谨的统计学进行科研分析方面感觉力不从心,统计学的应用成为科研工作的一个瓶颈。还有的学者感觉在学术上很难有所突破,他们希望提升科研成果的水平和档次。以上这些,都可以应用数据挖掘的技术和方法在科研中帮助他们的工作。

另一方面,医学工作的领导们也希望本单位的科研工作能蒸蒸日上。但事实上,领导们时常为本单位低落的科研热情和淡漠的学术氛围而感到无可奈何,为改变上述状况缺乏有效的方法和手段,总感到力不从心,为每年科研工作进展不利而心急如焚,为本单位科研成果在质和量上的落后局面而感到如若针毡。而要改变这种状况,一方面需要在科研人才上狠下功夫,另一方面需要在科研的技术和手段方面大力改进。科研人才的改进是在现有的人力、物力的条件下很难在短时间有显著成效的,科研技术和方法的提升相对来说稍好一些,而数据挖掘技术的应用正是改进科研技术的一种方法。

以数据挖掘为核心的智能医学科研工具

为了提升医学科研方法,提高医学科研的数量和质量,我们借鉴了国外的相关技术和经验,提出并研发了以数据挖掘为核心的智能医学科研系统。我们为医学科研提供了一整套方案,搭建了一个完整的智能化科研平台,从日积月累的大量临床数据中精心提炼所需的科研资料,全方位地提供智能化的科研工具,多、快、好、省地全面提升科研工作。

具体来讲,在我们的智能医学科研系统中,将最新应用数学、计算科学和智能计算等多种学科应用于医学科研,借鉴了国外的智能医学科研技术和经验,将我们在北美多年的成功经验和业界领先的技术相结合,并融合了中国医学专家的智慧,为中国医学用户量身打造的高端智能科研平台。智能医学科研系统是应用医院现有的电子化医学数据(HIS/LIS/PACS/电子病例/体检系统等)以及建设各医学专科数据库,开展局网在线共享式的多课题医学科研,提供智能化的工具使医学科研工作新颖、科学、严谨、高效、低成本,可望全面提升大型医院和科研单位的整体科研水平。如图四,智能医学科研系统的智能统计分析界面。

智能医学科研系统具有如下特点:

·以数据挖掘技术为核心的智能分析系统可以直接挖掘医学新知识,帮助科研者加速取得科研成果,甚至重大科研发现。

·运用多种数据挖掘技术探索数据规律,为科研设计提供科学依据,为科研命题指明方向,保证了科研的成功率。

·直接多课题交叉重复利用积累的现有医学数据,使科研成本大大降低,使利用节省下的科研经费再争取更多科研成果。

·强大易用的样本筛选系统,使科研数据的收集高效准确,能满足科研数据的严格要求。全在线科研平台提供科研全过程的一揽子工具,省去了繁琐复杂的人工数据处理。

·基于经典科研设计的智能式科研统计流程,使科研者不必因设计失误或误用统计方法而使科研功亏一篑。系统内嵌的统计算法自动运算结果,使科研者摆脱复杂的专用统计软件烦恼。

实践证明,医院应用智能医学科研系统,可获得显著的工作效益,使得医院的科研和临床工作得到良性发展。例如,医院的整体科研能力加强了,科研水平得到了提高,科研成果和论文数量和质量提高了,发表在国家级、国际级的论文和成果增加了,科研的影响指数也相应提升了,同时,获取更多的、更重大的国家级、省市级的课题的机会也更多了。总之,整体科研的提升使医院的学术权威性得到了提高,具有更广泛的社会的影响度,医院的软实力得到增强,同类医疗市场的竞争力加强了,相应地也提高了医院的经济效益。

当然,大力提升科研技术和方法是提高科研工作效果的一个必然手段,但更重要的还是在于发挥科研人员的主观能动性,以数据挖掘为核心的智能医学科研工具仅仅是一个好的工具而已。如果科研人员对于科研创新没有动力、缺乏积极性、或者急功急利、或者搞伪科研,甚至由于单位内部人事的复杂而争斗,即使建设了再好的、再先进的科研工具,也没人能利用它,科研工作的真正提高也只能是无稽之谈!

作者:

HongSongLin(洪松林)福安易数据技术(天津)有限公司(F&EDATATECHNOLOGYCORP.)创始人,外国专家局引智技术专家,加拿大OCP认证专家,有20年智能计算(数据仓库、商务智能及数据挖掘)方面的研究、设计、开发和培训经验。掌握北美先进的项目经验,曾在加拿大安大略省卫生部(OMH)、蒙特利尔银行(BMO)、加拿大研科电讯公司(TELUS)、安省高教委(OCAS)等大型机构参与多个大型智能计算项目。近年来在国内主持多个智能计算产品的总体设计和研发工作,将北美的智能计算技术及业务经验与中国的专业需求和数据环境有效地结合起来,开发了以数据仓库、数据挖掘和数据统计为技术核心的智能数据分析产品,国内首创,并在北京、天津等地得到成功应用。

作者:洪松林

版权声明:本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。在此留言

小提示:本篇资讯需要登录阅读,点击跳转登录

数据挖掘简答题

1.请列举你所学习过一些机器学习的算法?简要描述下其原理。

2.请分析下K近邻算法的优缺点?

3.自然语言典型的文本预处理步聚。

4.数据挖掘的两大目标分为预测和描述,监督学习和无监督学习分别对应哪类目标?

  监督学习和无监督学习的定义是什么?

  分别从监督类学习和无监督类学习中找一类算法的实例应用进行举例说明。

5.用文字的形式描述K-Means算法的过程?

6.你对于人工智能的未来怎么看?请谈谈它可能对人类社会造成哪些利弊?

 

1.**请列举你所学习过一些机器学习的算法?简要描述下其原理。**

  监督学习和无监督学习。

  监督学习:可以由输入数据中学到或建立一个模型,并依此模式推测新的结果。输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。

  无监督学习:可以由输入数据中学到或建立一个模型,并依此模式推测新的结果。输入数据是由输入特征值所组成。

2.**请分析下K近邻算法的优缺点?**

  优点:简单,易于理解,易于实现,无需估计参数,无需训练

  缺点:每次分类都会进行一次全局计算,数据量大时,计算开销大;必须指定K值,K值选择不当则分类精度不能保证;样本不均衡,预测偏差比较大

3.**自然语言典型的文本预处理步聚。**

  词条化,既形态学分割

  词干提取,是将不同词形的单词还原成其原型

  词型归一,和词干还原的目的一样,都是将单词的不同词性转换为其原型

  词性标注,既给定一个句子,确定每个单词的词性,例如,英语中“book”可以是名词或动词

4.**数据挖掘的两大目标分为预测和描述,监督学习和无监督学习分别对应哪类目标?**

  **监督学习和无监督学习的定义是什么?**

  **分别从监督类学习和无监督类学习中找一类算法的实例应用进行举例说明。**

  (1)监督学习:预测

    无监督学习:描述

   

  (2)监督学习:从标记的训练数据来推断一个功能的机器学习任务

   无监督学习:根据类别未知(没有标记)的训练样本解决模式识别中的各种问题。

  

  (3)监督学习举例:分类算法,利用分类算法进行垃圾电子邮件的分类。

   无监督学习举例:聚类算法。利用聚类算法,如网购平台,通过用户购物喜好等进行聚类,即客户群体的划分

5.**用文字的形式描述K-Means算法的过程?**

  (1)从一系列数据D中任意选择K个对象作为初始簇的中心

  (2)根据数据到聚类中心的距离,对每个对象进行分配

  (3)更新聚类中心位置,即计算每个簇中所有对象的质心,将聚类中心移动到质心位置 (1分)

  (4)重复过程2、3

  (5)直到聚类中心不再发生变化

6.**你对于人工智能的未来怎么看?请谈谈它可能对人类社会造成哪些利弊?**

【数据挖掘】属性的概念

【pytorch】查看torch的gpu是否可用

我们最后一次收割彼此从此仇深似海:啊我觉得挺有价值的啊?不比什么关注阅读一堆废话有价值吗?

【matlab】matlab安装liblinear包

AleXIS494697959:打开make.m文件,然后再命令行里面输入make就行了,哈哈哈我成功了歪打正着

【面试】word2vec中负采样原理及作用

bluesky233333:请问这个s(w_i)越大是词频越大吗

【算法】最大均值差异(MaximumMeanDiscrepancy,MMD)损失函数原理与python代码

星空,无光:感觉mmd计算速度还挺慢的,一下拉长了训练时间

【python】pytorch中如何使用DataLoader对数据集进行批处理

weixin_41865786:简单明了,写的太好了

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇