生态数据分析与建模：数据标准化方法及实例

2023-11-17 理论教育版权反馈

【摘要】：为了消除量纲影响和变量自身变异大小和数值大小的影响，故将数据标准化。经过标准差标准化后，数据都是没有单位的纯数量。尽管如此，它还是当前用得最多的数据标准化方法，也是SPSS中最为常用的标准化方法。即第三步，再对变量进行标准差标准化，即将某变量中的观察值减去该变量的平均数，然后除以该变量的标准差。表13-7长江17个观测点的水质分析表数据转换步骤如下：1．数据的标准化处理。

一、为何要将数据标准化

数据标准化是为了消除不同属性或样方之间的不齐性，或者使得同一样方内的不同属性之间或同一属性在不同样方内数据的方差减小。不同变量自身具有相差较大的变异时，会使在计算出的关系系数中，不同变量所占的比重大不相同。例如如果第1个变量（两水稻品种米粒中的脂肪含量）的数值在2%到4%之间，而第2个变量（两水稻品种的亩产量）的数值范围都在1 000与5 000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响，故将数据标准化。

有时是为了限制数据的取值范围，也就是说让数据处于0-1之间。主成分分析一般对数据进行中心化，对应分析则要求对排序坐标进行标准化。

二、数据标准化的方法

1．对变量的离差标准化。

也称为Min-Max标准化（Min-Max normalization），离差标准化是将某变量中的观察值减去该变量的最小值，然后除以该变量的极差。其转化函数为：

pagenumber_ebook=122,pagenumber_book=110

其中max｛xj｝为样本数据的最大值，min｛xj｝为样本数据的最小值。经过离差标准化后，各种变量的观察值的数值范围都将在〔0，1〕之间，并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲（单位）影响和变异大小因素的影响的最简单的方法。有一些关系系数（例如绝对值指数尺度）在定义时就已经要求对数据进行离差标准化，但有些关系系数的计算公式却没有这样要求，当选用这类关系系数前，不妨先对数据进行标准化，看看分析的结果是否为有意义的变化。这种方法有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

2．对变量的标准差标准化。

也叫Z-score标准化（zero-mean normalization），经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为：

pagenumber_ebook=123,pagenumber_book=111

其中为所有样本数据的均值，s为所有样本数据的标准差。

经过标准差标准化后，数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲（单位）影响和变量自身变异的影响。但有人认为经过这种标准化后，原来数值较大的的观察值对分类结果的影响仍然占明显的优势，应该进一步消除大小因子的影响。尽管如此，它还是当前用得最多的数据标准化方法，也是SPSS中最为常用的标准化方法。

在SPSS中，默认的标准化方法就是Z-score标准化法。操作步骤如下：

（1）Analyze→Deive Statistics→Deives。

（2）将需要标准化的变量Y选入Variable（s）框中，并勾选Save standardized values as variables，点击OK完成。

pagenumber_ebook=123,pagenumber_book=111