模式识别：聚类分析模式识别案例分析

发表时间：2023-07-24 05:00:54

1.聚类分析中距离函数的有效性

聚类分析采用距离函数作为相似性测量的依据，此种方法是否有效，取决于特征向量的分布。如果向量点是一群一群出现的，同一群样本密集，不同群样远离，则方法有效。如果所有样本的向量分布成一团，那么就很难做聚类分析。

2.聚类分析中的特征选取

做聚类分析时，选取的特征向量是否合适非常关键。例如许多不同品牌的酱油和可乐混杂放在一起，要将酱油和可乐分开来。如果以“味道”作为识别分类的特征，很容易就大道目的。如果以“颜色”作为识别分类的特征，那么就很难分别。

3.相似性测度，距离是一种相似性的测度

（1）欧式（Euclid）距离：距离越小，越相似

D(X1,X2)=||X1-X2||，应该注意物理量的单位，同样物理意义的量要使用同样的单位，以免单位不统一造成不同分类结果。一般使用特征数据标准化的方法，使得特征与单位无关，此时描述的是一种相对的位置关系，只要相对位置关系不变，就不会影响分类。（特征数据标准化方法是怎样的？）

（2）马氏（Maharanobis）距离：距离越小，越相似

D=[(X-M)^T]*[C^(-1)]*[(X-M]，其中X为向量，M为某类模式的均值向量，C为该类模式总体的协方差矩阵。

C=E{(X-M)*(X-M)^T}，其中E是期望，协方差矩阵的对角线上的元素是每个分量的方差，非对角线上的元素两个不同分量的协方差，协方差矩阵的物理意义就是各分量到均值的距离。方差或者协方差越大，则距离值越远。

优点：派出了模式样本之间的相关性影响。例如我们取的是相关特征，比如9个分量反映特征A，1个分量反映特征B，如果用欧式距离计算，则主要反映了特征A，如果用马氏距离计算，则可以避免这个缺点。

（3）明氏（Minkowaki）距离

D(X1,X2)=[累加|X1(k)-X2(k)|^m]^(1/m)，m=2时，为欧式距离，当m=1时，为“街坊”距离。例如，在二维空间中，D(X1,X2)=|X1(1)-X2(1)|+|X1(2)-X2(2)| ，即对应直角三角形的两条直角边之和。

模式识别：聚类分析 模式识别案例分析