首页 理论教育随机变量的统计参数优化

随机变量的统计参数优化

【摘要】:随机变量的概率分布完整地刻划了随机变量的统计规律。这种从侧面说明随机变量统计特性的某些特征数字,称为随机变量的统计参数。图X3.3Cv对密度曲线的影响图X3.4Cs对密度曲线的影响称Cv为样本变差系数或离势系数、离差系数,其式中,称为模比系数。

随机变量的概率分布完整地刻划了随机变量的统计规律。然而在许多实际问题中,还需要从某些侧面反映随机变量的统计特性。例如,对于年径流量,人们常常希望知道多年平均值多大,年际变化的离散程度如何等。这种从侧面说明随机变量统计特性的某些特征数字,称为随机变量的统计参数。

图X3.2 分布函数与密度函数关系示意图

统计参数有总体统计参数与样本统计参数之分。总体的统计参数与总体的分布有关,当总体未知时,总体的统计参数是未知的,只能通过样本统计参数来估计总体统计参数。

下面介绍水文计算中常用的样本统计参数。

1.样本均值

设某一随机变量的样本系列为x1,x2,…,xn,则样本的均值img

样本均值反映随机变量取值的平均情况,反映系列总水平的高低。例如,甲、乙两地年降水量的均值,即多年平均年降水量分别为1000mm和400mm,由此可反映两地年降水量的多寡。

设某一随机变量的样本系列为x1,x2,…,xn,则样本的均值img

样本均值反映随机变量取值的平均情况,反映系列总水平的高低。例如,甲、乙两地年降水量的均值,即多年平均年降水量分别为1000mm和400mm,由此可反映两地年降水量的多寡。

由式(X3.12)计算的样本均值img估计总体均值是无偏估计。所谓无偏估计,是指使用式(X3.12)估计总体均值时,样本均值img总是在总体均值左右徘徊,误差可能是正的,也可能是负的,多次使用此法进行估计时,平均情况下等于总体均值。无偏估计在工程技术中称为无系统误差。

由式(X3.12)计算的样本均值img估计总体均值是无偏估计。所谓无偏估计,是指使用式(X3.12)估计总体均值时,样本均值img总是在总体均值左右徘徊,误差可能是正的,也可能是负的,多次使用此法进行估计时,平均情况下等于总体均值。无偏估计在工程技术中称为无系统误差。

需要强调指出,无偏估计的概念,只是就平均意义而言的,在总体未知的情况下,由一个具体样本算得的样本均值img是大于还是小于总体均值,是不能确定的。

2.均方差和变差系数

均值能反映随机变量取值的平均情况,但不能反映随机变量取值的离散特征。例如有两个系列:A系列:5,10,15;B系列:1,10,19。

需要强调指出,无偏估计的概念,只是就平均意义而言的,在总体未知的情况下,由一个具体样本算得的样本均值img是大于还是小于总体均值,是不能确定的。

2.均方差和变差系数

均值能反映随机变量取值的平均情况,但不能反映随机变量取值的离散特征。例如有两个系列:A系列:5,10,15;B系列:1,10,19。

两系列均值相等img=10,且容易看出系列B的离散程度比系列A大。采用一个定量指标来衡量,引入

反映随机变量取值的离散特征,称s′为样本系列的均方差,也称为标准差。s′与随机变量的取值x的单位相同。

对于均值相同的系列,可由s′的大小判断系列离散程度的大小。s′越大,系列的离散程度越大。

容易算出,上述A、B系列的均方差分别为s′a=4.08,s′b=7.35。

数理统计研究表明,用式(X3.13)计算样本均方差去估计总体的均方差是系统偏小的。为纠正系统偏差要对s′进行修正,数理统计中导出修正的样本均方差的计算式为

式中,s称为修正的样本均方差,亦简称样本均方差。该式就是生产实际中样本均方差的常用计算式,用其估计总体的均方差。应该指出,对有限容量的样本由s估计总体的均方差仍系统偏小,但比s′有所改善。

对于均值不同的系列,用s比较系列的离散程度就不合适了。引入无因次数

两系列均值相等img=10,且容易看出系列B的离散程度比系列A大。采用一个定量指标来衡量,引入

反映随机变量取值的离散特征,称s′为样本系列的均方差,也称为标准差。s′与随机变量的取值x的单位相同。

对于均值相同的系列,可由s′的大小判断系列离散程度的大小。s′越大,系列的离散程度越大。

容易算出,上述A、B系列的均方差分别为s′a=4.08,s′b=7.35。

数理统计研究表明,用式(X3.13)计算样本均方差去估计总体的均方差是系统偏小的。为纠正系统偏差要对s′进行修正,数理统计中导出修正的样本均方差的计算式为

式中,s称为修正的样本均方差,亦简称样本均方差。该式就是生产实际中样本均方差的常用计算式,用其估计总体的均方差。应该指出,对有限容量的样本由s估计总体的均方差仍系统偏小,但比s′有所改善。

对于均值不同的系列,用s比较系列的离散程度就不合适了。引入无因次数

称Cv为样本变差系数或离势系数、离差系数,其式中img,称为模比系数。Cv值越大,系列的离散程度越大。Cv对密度曲线的影响如图X3.3所示。Cv越大,密度曲线形状越矮胖。对年降水量和年径流量系列来说,Cv的大小则反映了年降水量或年径流量的年际变化特征。Cv越大,年际变化越大,对水资源开发利用越不利。

3.偏态系数

引入反映随机变量取值相对于均值对称程度的特征参数,无因次数

称Cs为样本偏态系数,无因次。当Cs=0,称为对称分布;当Cs>0时,正离差立方和占优势,称为正偏分布;Cs<0时,负离差立方和占优势,称为负偏分布。

图X3.3 Cv对密度曲线的影响

图X3.4 Cs对密度曲线的影响

称Cv为样本变差系数或离势系数、离差系数,其式中img,称为模比系数。Cv值越大,系列的离散程度越大。Cv对密度曲线的影响如图X3.3所示。Cv越大,密度曲线形状越矮胖。对年降水量和年径流量系列来说,Cv的大小则反映了年降水量或年径流量的年际变化特征。Cv越大,年际变化越大,对水资源开发利用越不利。

3.偏态系数

引入反映随机变量取值相对于均值对称程度的特征参数,无因次数

称Cs为样本偏态系数,无因次。当Cs=0,称为对称分布;当Cs>0时,正离差立方和占优势,称为正偏分布;Cs<0时,负离差立方和占优势,称为负偏分布。

图X3.3 Cv对密度曲线的影响

图X3.4 Cs对密度曲线的影响

例如,对于系列A:3,4,5,6,7,可算得img,系列为对称分布。

例如,对于系列A:3,4,5,6,7,可算得img,系列为对称分布。

对于系列B:2,3,4,6,10,可算得img90,Cs=1.43,系列为正偏分布。

|Cs|越大,随机变量的分布越偏。Cs对密度曲线的影响如图X3.4所示。例X3.2中年降水量的频率密度图呈现了明显的正偏规律。

对于系列B:2,3,4,6,10,可算得img90,Cs=1.43,系列为正偏分布。

|Cs|越大,随机变量的分布越偏。Cs对密度曲线的影响如图X3.4所示。例X3.2中年降水量的频率密度图呈现了明显的正偏规律。

数理统计中可以证明正偏分布的一个结论:img。水文现象大多属于正偏分布,即Cs>0,这说明水文变量取值大于均值的机会比取值小于均值的机会少。

用式(X3.12)~式(X3.16)计算样本参数来估计总体参数的方法称为矩法。这些公式常称为参数估计的矩法公式。除式(X3.12)估计总体均值为无偏估计外,其余各式作为总体相应参数的估值公式是系统偏小的,特别是式(X3.16)估计总体偏态系数系统偏小更为明显[2-4]

需要指出,有些教科书中,认为式(X3.14)~式(X3.16)分别为总体均方差、变差系数、偏态系数的无偏估计公式是不正确的。

数理统计中可以证明正偏分布的一个结论:img。水文现象大多属于正偏分布,即Cs>0,这说明水文变量取值大于均值的机会比取值小于均值的机会少。

用式(X3.12)~式(X3.16)计算样本参数来估计总体参数的方法称为矩法。这些公式常称为参数估计的矩法公式。除式(X3.12)估计总体均值为无偏估计外,其余各式作为总体相应参数的估值公式是系统偏小的,特别是式(X3.16)估计总体偏态系数系统偏小更为明显[2-4]

需要指出,有些教科书中,认为式(X3.14)~式(X3.16)分别为总体均方差、变差系数、偏态系数的无偏估计公式是不正确的。