土壤无论对植物来说还是对土壤动物来说都是重要的生态因子。由于在土壤中运动要比大气中和水中困难得多,所以除了少数动物能在土壤中掘穴居住外,大多数土壤动物都只能利用枯枝落叶层中的孔隙和土壤颗粒间的空隙作为自己的生存空间。因此,土壤数据包括野外调查数据,比如枯枝落叶层的厚度、土壤类型、土壤厚度和剖面特征、土壤温度等。室内测定数据包括土壤结构、土壤容重、土壤水分、土壤物理特性及化学特性。......
2023-11-17
一、为何要将数据标准化
数据标准化是为了消除不同属性或样方之间的不齐性,或者使得同一样方内的不同属性之间或同一属性在不同样方内数据的方差减小。不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1 000与5 000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。
有时是为了限制数据的取值范围,也就是说让数据处于0-1之间。主成分分析一般对数据进行中心化,对应分析则要求对排序坐标进行标准化。
二、数据标准化的方法
1.对变量的离差标准化。
也称为Min-Max标准化(Min-Max normalization),离差标准化是将某变量中的观察值减去该变量的最小值,然后除以该变量的极差。其转化函数为:
其中max{xj}为样本数据的最大值,min{xj}为样本数据的最小值。经过离差标准化后,各种变量的观察值的数值范围都将在〔0,1〕之间,并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲(单位)影响和变异大小因素的影响的最简单的方法。有一些关系系数(例如绝对值指数尺度)在定义时就已经要求对数据进行离差标准化,但有些关系系数的计算公式却没有这样要求,当选用这类关系系数前,不妨先对数据进行标准化,看看分析的结果是否为有意义的变化。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
2.对变量的标准差标准化。
也叫Z-score标准化(zero-mean normalization),经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:
其中为所有样本数据的均值,s为所有样本数据的标准差。
经过标准差标准化后,数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法,也是SPSS中最为常用的标准化方法。
在SPSS中,默认的标准化方法就是Z-score标准化法。操作步骤如下:
(1)Analyze→Deive Statistics→Deives。
(2)将需要标准化的变量Y选入Variable(s)框中,并勾选Save standardized values as variables,点击OK完成。
图13-1 标准化的变量Y选项框
(3)变量列表中生成一列新变量ZY,即Zscore(Y),也就是经过Z-score标准化转化后生成的新变量。
表13-5 经过标准差标准化(Z-score标准化)转化后生成的新变量ZY
(4)先对事例进行标准差标准化,再对变量进行标准差标准化。
第一步,先对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即
第二步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即
使用这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。
(5)先对变量、后对事例、再对变量的标准差标准化。
这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。具体做法是:
第一步,先对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即(www.chuimin.cn)
第二步,后对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即
第三步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即
进行了前两步之后,还要进行第三步的原因,主要是为了计算的方便。
除了上面提到的,还有log函数标准化,通过以10为底数的log函数将原始值转换为其对数值,转换后的值区间并不在[0,1]之间,故还要除以最大值的对数。
下面举一个数据转换的例子,并做详解。表13-6为水质评价标准。
表13-6 水质评价标准和依据
下表给出了长17个观测点的水质情况。分析水质的类别的确定可知:它是由首要污染物决定的见表13-6,请根据以上数据对长江当前的水质情况做出定量的综合评价。
表13-7 长江17个观测点的水质分析表
数据转换步骤如下:
1.数据的标准化处理。
溶解氧是极大型指标(指标越大,水质越好),pH值是居中型指标,其余两种是极小型指标,统一进行极小型处理。
(1)溶解氧:,i=1,2,…,17(共有17个观测点)
(2)pH值:,i=1,2,…,17
然后对进行规范化处理,即:
得到规范化矩阵X=(xij)17×4,这里xij∈[0,1]且无量纲。
原则是能有效地区分六类水。
权重矩阵W=(wij)17×4
3.综合评价指标。
4.评价结果对比与排序。
5.本问评分情况。
标准化公式4分;变权函数的确定4分;评价综合指标4分;评价结果与排序8分;共20分。
有关生态数据分析与建模的文章
土壤无论对植物来说还是对土壤动物来说都是重要的生态因子。由于在土壤中运动要比大气中和水中困难得多,所以除了少数动物能在土壤中掘穴居住外,大多数土壤动物都只能利用枯枝落叶层中的孔隙和土壤颗粒间的空隙作为自己的生存空间。因此,土壤数据包括野外调查数据,比如枯枝落叶层的厚度、土壤类型、土壤厚度和剖面特征、土壤温度等。室内测定数据包括土壤结构、土壤容重、土壤水分、土壤物理特性及化学特性。......
2023-11-17
通过排序分析,既可以认识群落格局,也可以将排序轴跟我们已知的环境条件联系起来,看是否代表某一环境梯度。包括约束性排序和非约束性排序。5.非约束性排序:寻求潜在的或在间接的环境梯度来解释物种数据的变化。图16-1物种响应环境梯度模型但对于单峰响应模型,估计物种在环境梯度上最适值最简单的方法就是通过基于所有包含该物种的n个样方中环境因子值的加权平均得到。......
2023-11-17
表15-2数据视图中各类型的设定3.进行单因素方差分析。图15-6数据统计分析结果输出4.接下来再看方差齐性检验的结果。来自正态总体的两个样本进行均值比较常使用T检验的方法。同样是数据输入完成后,依次点击“分析—比较均值—独立样本T检验”。......
2023-11-17
灵敏度分析试图测量模型的一些参数、强制函数、状态变量初始值,或子模型对最重要状态变量的灵敏度。因此,对于参数P的灵敏度定义如下:S=[x/x]/[P/P]式中:x代表所考虑的状态变量。通常需要在两个或多个水平上发现参数变化的灵敏度,因为参数和状态变量之间的关系很少是线性的。如果发现所观察的状态变量对某个子模型很灵敏,应该考虑哪几个别的子模型可以替换使用,这些子模型应在野外或实验室做进一步的具体检验。......
2023-11-17
直线回归是回归分析中最简单的一种,又称为简单回归。(一)直线回归方程散点图上呈现直线趋势的两个变数,自变量x的每一个取值都有y的一个分布与之对应。试计算其直线回归方程。为简化手续,可从以下恒等式得出:(五)直线回归的数学模型和基本假定回归分析的依据是直线回归模型。......
2023-11-17
也可以用图16-6的形象方法解读,将变量B反向延长,物种1和物种分别投影于其上,可以很清楚地看出物种2的投影与B同向,代表正相关;同理,物种1为负相关。图16-12基于RDA双序图上分析物种沿海拔梯度分布情况2.基于单峰模型排序图的解读。......
2023-11-17
Origin是Windows平台下用于数据分析、项目绘图的软件,是科技工作者进行数据分析与科学绘图的高端软件作品,具有功能强大、使用方便的特点。Origin带给用户的是最直观、最简单的数据分析和绘图环境。Origin像Microsoft Word、Excel等一样,是一个多文档界面。Origin最突出的优点是使用简单,采用直观的、图形化的、面向对象的窗口菜单和工具栏操作。图17-1Origin的工作界面Origin目录下包括8个子目录,还有大量的模板文件和配置文件。......
2023-11-17
试验结果只能是“非此即彼”构成对立事件,将这种事件构成的总体称为二项总体,其概率分布称为二项分布。显然,二项分布是一种离散型随机变量的概率分布。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。关于正态分布的概率计算,我们先从标准正态分布着手。......
2023-11-17
相关推荐