首页 理论教育概率和频率:总体和样本数理统计法中的随机变量系列

概率和频率:总体和样本数理统计法中的随机变量系列

【摘要】:4.总体和样本数理统计法中,随机变量系列的全体,亦即包括整体情况的全部系列,称为总体。

1.随机事件

概率论中,对随机现象的观测叫做随机试验,随机试验的结果称为事件。事件可以是数量性质的,例如某河某断面处最大洪峰流量值;也可以是属性性质的,例如刮风、下雨等。事件可以分为三种:

(1)必然事件。在每次试验中一定会出现的事件叫做必然事件。例如,长江汉口站年最大洪峰大于零,这是必然事件。

(2)不可能事件。在任何一次试验中都不会出现的事件叫做不可能事件。例如,流域内普遍连续降雨而河道出口处水位下降,这是不可能事件。

(3)随机事件。在一次随机试验中可能出现也可能不出现的事件叫做随机事件。例如,某河某断面每年出现的最大洪峰可能大于某一个数值,也可能小于某一个数值,事先不能确定,这是随机事件。

2.随机变量

在多次实验中,随机事件出现的种种结果,都以实数值来表示,这些数值就称为随机变量。用具体数值表示试验的结果,便于进行数学分析和运算。但随机变量的取值不能在试验前得知,只能决定于试验的结果,将倚随机事件试验结果而变化。随机变量能代表随机事件的出现结果,无论对于具有数值特征的和不具有数值特征的随机事件,都同样可以用随机变量来描述其试验结果。水文统计法就是利用流量、降雨量等实测水文资料(实际数量)作为随机变量,通过统计分析,推求水文现象(随机事件)的客观规律——统计规律。

随机变量分为两类:①随机变量在某个区间之内,可以取任意数值者,为连续型随机变量;②随机变量只能取某些间断的数值者,则为不连续型(或离散型)随机变量。水文资料都属于连续型随机变量,如流量、降雨量等实测水文资料,最大值和最小值之间的任何数值都有可能出现。

许多随机变量组成的一列数值,称为随机变量系列,一般简称为系列。系列的范围可以是有限的,也可以是无限的,水文资料一般都是无限系列。例如某河流的年最大流量值所组成的随机变量系列——年最大流量系列,应该包括该河流过去和未来无限长久年代中所有的每年最大洪峰流量值,就是一个无限系列。

3.概率和频率

对于随机事件,它在一定条件下可能出现也可能不出现,若用一个具体数值来表示客观上出现的可能程度(可能性大小),这个数值就称为该事件的概率(或几率)。

若试验的可能结果是有限的,而且所有事件出现的可能性都相等(是等可能性的),则为简单随机事件,可按概率的古典定义,采用下式计算它的概率:

式中 P(A)——一定条件下,随机事件A的概率;(www.chuimin.cn)

n——试验结果的总数;

m——随机事件A出现的总数。

m=n时,表示试验结果全部出现事件A,则事件A成为必然事件,P(A)=1;m=0时,表示每次试验结果都不出现事件A,则事件A成为不可能事件,P(A)=0。显然,随机事件的概率总介于0与1之间,不可能小于0(为负值),也不可能大于1,这是概率的一个基本性质。

在一系列重复的独立试验中,某一事件出现的次数与试验总次数的比值,则称为该事件的频率。由实践和理论证明,当试验次数较少时,事件的频率具有明显的偶然性,摆动的幅度较大,但随着试验次数的增多,事件的频率则逐渐趋于稳定,最终将十分接近于它的概率。例如掷硬币的试验,对于一个均质硬币,“出现正面(正面向上)”就属于简单随机事件,其概率为。法国科学家蒲丰(Buffon)曾掷硬币4040次,出现正面2048次,频率为0.5069;英国生物学家皮尔逊(Pearson)曾掷1.2万次,出现正面6019次,频率为0.5016,而掷2.4万次时,出现正面12012次,则频率为0.5005。可见试验次数愈多,其频率就愈接近概率。

频率与概率不同,概率是随机事件在客观上实际出现的可能程度,是事件固有的客观性质,不随人们试验的情况和次数而变动,是一个常数,是理论值;频率是利用有限的试验结果推算而得的,是一个经验值,将随试验次数的多少而变动,只有试验次数达到无限多时,才稳定在一个常数并等于理论值——概率。

数理统计法中,对于一些简单随机事件(如上述掷硬币试验),不必通过试验就能够事先得知的概率值,称为事先概率;对于那些事先不能得知概率的复杂随机事件,利用其频率估计出的概率值,称为经验概率。水文现象(如流量、水位、降雨量等)都是非常复杂的随机事件,无法得知其事先概率,只能利用实测水文资料(多次试验结果)计算其频率,作为经验概率,以寻求它们的变化规律,推测未来可能出现的情况,满足实际工程的需要。

4.总体和样本

数理统计法中,随机变量系列的全体,亦即包括整体情况的全部系列,称为总体。根据整个系列的情况,总体也可以分为有限总体和无限总体。从总体中抽出一部分随机变量系列,这部分系列就称为一个样本;一个总体可以划分成许多样本,样本都是随意抽取的(不带有主观性),故称为随机样本。总体或样本中随机变量的项数,分别称为总体或样本的容量。

很多情况下,“总体”是不需要或不可能取得的,因而在实际问题的分析研究中,最常用的是“随机样本”。样本是总体的一个组成部分,虽然不能完全代替总体,若样本具有足够的代表性,则在一定程度上反映总体的特征,因而可以借助样本的规律性推断总体的规律,但应注意,推断结果的可靠性与样本对总体的代表性有很大关系。水文现象的总体是无限的,实际上无法取得,只能利用已有的实测水文资料组成随机样本,以推算总体的规律,因而要求所使用的水文资料必须具有足够的代表性。

从总体中抽取样本的方法,称为抽样(或选样)。水文统计法中,推算设计流量时,最常用的抽样方法是“年最大值法”,就是从一个水文站的历年流量观测资料中,每年选取一个洪水成因相同的最大洪峰流量,n年的观测资料中,可以选出n个流量值,组成一个n项容量的随机样本,也称为“年最大流量值法”。

根据样本推断的规律性,不是总体的客观真实情况,存在着一定的误差。这种由抽样而引起的误差,数理统计法中称为抽样误差

水文统计法,就是利用已有的实测水文资料(数据)组成有限的随机变量系列,作为无限总体中的一个随机样本,以样本的规律推断总体的规律,来解决实际工程中的水文计算问题。