首页 理论教育生态数据分析与建模:数据标准化方法及实例

生态数据分析与建模:数据标准化方法及实例

【摘要】:为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。经过标准差标准化后,数据都是没有单位的纯数量。尽管如此,它还是当前用得最多的数据标准化方法,也是SPSS中最为常用的标准化方法。即第三步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。表13-7长江17个观测点的水质分析表数据转换步骤如下:1.数据的标准化处理。

一、为何要将数据标准化

数据标准化是为了消除不同属性或样方之间的不齐性,或者使得同一样方内的不同属性之间或同一属性在不同样方内数据的方差减小。不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1 000与5 000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。

有时是为了限制数据的取值范围,也就是说让数据处于0-1之间。主成分分析一般对数据进行中心化,对应分析则要求对排序坐标进行标准化。

二、数据标准化的方法

1.对变量的离差标准化。

也称为Min-Max标准化(Min-Max normalization),离差标准化是将某变量中的观察值减去该变量的最小值,然后除以该变量的极差。其转化函数为:

其中max{xj}为样本数据的最大值,min{xj}为样本数据的最小值。经过离差标准化后,各种变量的观察值的数值范围都将在〔0,1〕之间,并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲(单位)影响和变异大小因素的影响的最简单的方法。有一些关系系数(例如绝对值指数尺度)在定义时就已经要求对数据进行离差标准化,但有些关系系数的计算公式却没有这样要求,当选用这类关系系数前,不妨先对数据进行标准化,看看分析的结果是否为有意义的变化。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

2.对变量的标准差标准化。

也叫Z-score标准化(zero-mean normalization),经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:

其中为所有样本数据的均值,s为所有样本数据的标准差。

经过标准差标准化后,数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法,也是SPSS中最为常用的标准化方法。

在SPSS中,默认的标准化方法就是Z-score标准化法。操作步骤如下:

(1)Analyze→Deive Statistics→Deives。

(2)将需要标准化的变量Y选入Variable(s)框中,并勾选Save standardized values as variables,点击OK完成。

图13-1 标准化的变量Y选项框

(3)变量列表中生成一列新变量ZY,即Zscore(Y),也就是经过Z-score标准化转化后生成的新变量。

表13-5 经过标准差标准化(Z-score标准化)转化后生成的新变量ZY

(4)先对事例进行标准差标准化,再对变量进行标准差标准化。

第一步,先对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即

第二步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即

使用这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。

(5)先对变量、后对事例、再对变量的标准差标准化。

这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。具体做法是:

第一步,先对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即(www.chuimin.cn)

第二步,后对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即

第三步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即

进行了前两步之后,还要进行第三步的原因,主要是为了计算的方便。

除了上面提到的,还有log函数标准化,通过以10为底数的log函数将原始值转换为其对数值,转换后的值区间并不在[0,1]之间,故还要除以最大值的对数。

下面举一个数据转换的例子,并做详解。表13-6为水质评价标准。

表13-6 水质评价标准和依据

下表给出了长17个观测点的水质情况。分析水质的类别的确定可知:它是由首要污染物决定的见表13-6,请根据以上数据对长江当前的水质情况做出定量的综合评价。

表13-7 长江17个观测点的水质分析表

数据转换步骤如下:

1.数据的标准化处理。

溶解氧是极大型指标(指标越大,水质越好),pH值是居中型指标,其余两种是极小型指标,统一进行极小型处理。

(1)溶解氧:,i=1,2,…,17(共有17个观测点)

(2)pH值:,i=1,2,…,17

然后对进行规范化处理,即:

得到规范化矩阵X=(xij17×4,这里xij∈[0,1]且无量纲。

2.确定四种指标的权重(变权函数的确定)。

原则是能有效地区分六类水。

权重矩阵W=(wij17×4

3.综合评价指标。

4.评价结果对比与排序。

5.本问评分情况。

标准化公式4分;变权函数的确定4分;评价综合指标4分;评价结果与排序8分;共20分。