博舍

模式识别:聚类分析 模式识别案例分析

模式识别:聚类分析

1.聚类分析中距离函数的有效性

   聚类分析采用距离函数作为相似性测量的依据,此种方法是否有效,取决于特征向量的分布。如果向量点是一群一群出现的,同一群样本密集,不同群样远离,则方法有效。如果所有样本的向量分布成一团,那么就很难做聚类分析。

 

2.聚类分析中的特征选取

    做聚类分析时,选取的特征向量是否合适非常关键。例如许多不同品牌的酱油和可乐混杂放在一起,要将酱油和可乐分开来。如果以“味道”作为识别分类的特征,很容易就大道目的。如果以“颜色”作为识别分类的特征,那么就很难分别。

 

3.相似性测度,距离是一种相似性的测度

(1)欧式(Euclid)距离:距离越小,越相似

         D(X1,X2)=||X1-X2||,应该注意物理量的单位,同样物理意义的量要使用同样的单位,以免单位不统一造成不同分类结果。一般使用特征数据标准化的方法,使得特征与单位无关,此时描述的是一种相对的位置关系,只要相对位置关系不变,就不会影响分类。(特征数据标准化方法是怎样的?)

 

(2)马氏(Maharanobis)距离:距离越小,越相似

         D=[(X-M)^T]*[C^(-1)]*[(X-M],其中X为向量,M为某类模式的均值向量,C为该类模式总体的协方差矩阵。

         C=E{(X-M)*(X-M)^T},其中E是期望,协方差矩阵的对角线上的元素是每个分量的方差,非对角线上的元素两个不同分量的协方差,协方差矩阵的物理意义就是各分量到均值的距离。方差或者协方差越大,则距离值越远。

         优点:派出了模式样本之间的相关性影响。例如我们取的是相关特征,比如9个分量反映特征A,1个分量反映特征B,如果用欧式距离计算,则主要反映了特征A,如果用马氏距离计算,则可以避免这个缺点。

 

(3)明氏(Minkowaki)距离

          D(X1,X2)=[累加|X1(k)-X2(k)|^m]^(1/m),m=2时,为欧式距离,当m=1时,为“街坊”距离。例如,在二维空间中,D(X1,X2)=|X1(1)-X2(1)|+|X1(2)-X2(2)| ,即对应直角三角形的两条直角边之和。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇