首页 理论教育两点距离:多元统计分析要领

两点距离:多元统计分析要领

【摘要】:,xjp)T 之间的距离,记为dij=d.欧氏距离欧氏距离是最常用的,它的主要优点是当坐标轴进行旋转时,欧氏距离是保持不变的.因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同.称为距离矩阵,其中dij=dji.绝对距离马氏距离其中,S 是由x1,x2,…

设有n 个样品的多元观测数据xi=(xi1,xi2,…,xipT,i=1,2,…,n.此时,每个样品可以看成p 维空间的一个点,n 个样品组成p 维空间的n 个点.我们自然用各点之间的距离来衡量各样品之间的相似性程度(或靠近程度).

设d(xi,xj)是样品xi 和xj 之间的距离,一般要求它满足下列条件:

(1)d(xi,xj)≥0,且d(xi,xj)=0当且仅当xi=xj

(2)d(xi,xj)=d(xj,xi);

(3)d(xi,xj)≤d(xi,xk)+d(xk,xj).

聚类分析中,有些距离不满足(3),我们在广义的意义下仍然称它为距离.

以下介绍聚类分析中常用的距离.常用的距离有欧氏(Euclidean)距离、绝对距离、马氏(Mahalanobis)距离等.

假定有n 个样品的多元数据,对于i,j=1,2,…,n,d(xi,xj)为p 维点(向量)xi=(xi1,xi2,…,xipT 和xj=(xj1,xi2,…,xjpT 之间的距离,记为dij=d(xi,xj).

(1)欧氏距离(www.chuimin.cn)

欧氏距离是最常用的,它的主要优点是当坐标轴进行旋转时,欧氏距离是保持不变的.因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同.

为距离矩阵,其中dij=dji(这说明距离矩阵是对称矩阵).

(2)绝对距离

(3)马氏距离

其中,S 是由x1,x2,…,xn 得到的协方差矩阵

显然,当S 为单位矩阵时,马氏距离即化简为欧氏距离.在实际问题中协方差矩阵S 往往是未知的,常需要用样本协方差矩阵来估计.需要说明的是,马氏距离对一切线性变换都是不变的,所以不受量纲的影响.

值得注意的是,当变量的量纲不同时,观测值的变异范围相差悬殊时,一般首先对数据进行标准化处理,然后再计算距离.