模式识别:聚类分析
1.聚类分析中距离函数的有效性
聚类分析采用距离函数作为相似性测量的依据,此种方法是否有效,取决于特征向量的分布。如果向量点是一群一群出现的,同一群样本密集,不同群样远离,则方法有效。如果所有样本的向量分布成一团,那么就很难做聚类分析。
2.聚类分析中的特征选取
做聚类分析时,选取的特征向量是否合适非常关键。例如许多不同品牌的酱油和可乐混杂放在一起,要将酱油和可乐分开来。如果以“味道”作为识别分类的特征,很容易就大道目的。如果以“颜色”作为识别分类的特征,那么就很难分别。
3.相似性测度,距离是一种相似性的测度
(1)欧式(Euclid)距离:距离越小,越相似
D(X1,X2)=||X1-X2||,应该注意物理量的单位,同样物理意义的量要使用同样的单位,以免单位不统一造成不同分类结果。一般使用特征数据标准化的方法,使得特征与单位无关,此时描述的是一种相对的位置关系,只要相对位置关系不变,就不会影响分类。(特征数据标准化方法是怎样的?)
(2)马氏(Maharanobis)距离:距离越小,越相似
D=[(X-M)^T]*[C^(-1)]*[(X-M],其中X为向量,M为某类模式的均值向量,C为该类模式总体的协方差矩阵。
C=E{(X-M)*(X-M)^T},其中E是期望,协方差矩阵的对角线上的元素是每个分量的方差,非对角线上的元素两个不同分量的协方差,协方差矩阵的物理意义就是各分量到均值的距离。方差或者协方差越大,则距离值越远。
优点:派出了模式样本之间的相关性影响。例如我们取的是相关特征,比如9个分量反映特征A,1个分量反映特征B,如果用欧式距离计算,则主要反映了特征A,如果用马氏距离计算,则可以避免这个缺点。
(3)明氏(Minkowaki)距离
D(X1,X2)=[累加|X1(k)-X2(k)|^m]^(1/m),m=2时,为欧式距离,当m=1时,为“街坊”距离。例如,在二维空间中,D(X1,X2)=|X1(1)-X2(1)|+|X1(2)-X2(2)| ,即对应直角三角形的两条直角边之和。