首页 理论教育多元统计分析:误判概率与误判损失分析

多元统计分析:误判概率与误判损失分析

【摘要】:设有两个总体X1 和X2,根据某一个判别规则,把实际上为X1 的个体判为X2 或者把实际上为X2 的个体判为X1 的概率称为误判(或错判)概率.一个好的判别规则应该使误判概率最小.除此之外还有一个误判损失问题,如果把X1 的个体判到X2 的损失比X2 的个体判到X1 严重得多,则人们在作前一种判断时就要特别谨慎.比如,在药品检验中把有毒的样品判为无毒比把无毒判为有毒严重得多,因此一个好的判别规则还

设有两个总体X1 和X2,根据某一个判别规则,把实际上为X1 的个体判为X2 或者把实际上为X2 的个体判为X1 的概率称为误判(或错判)概率.

一个好的判别规则应该使误判概率最小.除此之外还有一个误判损失问题,如果把X1 的个体判到X2 的损失比X2 的个体判到X1 严重得多,则人们在作前一种判断时就要特别谨慎.比如,在药品检验中把有毒的样品判为无毒比把无毒判为有毒严重得多,因此一个好的判别规则还必须使误判损失最小.

以下讨论两个总体的情况.设所考虑的两个总体X1 和X2 分别具有密度函数f1(x)与f2(x),其中x 为p 维向量.记Ω 为x 的所有可能观察值的全体,称它为样本空间,R1 为根据要判为X1 的那些x 的全体,而R2=Ω-R1 为根据要判为X2 的那些x 的全体.

某样本实际上是来自X1,但判为X2 的概率为

来自X2,但判为X1 的概率为

类似地,来自X1 判为X1 的概率,来自X2 判为X2 的概率分别为

设p1,p2 分别表示某样本来自总体X1 和X2 的先验概率,且p1+p2=1,于是,有

P (正确地判为X1)=P (来自X1,被判为X1

=P(x ∈R1|X1)P(X1)=P(1|1)p1,(www.chuimin.cn)

P (误判到X1)=P (来自X2,被判为X1

=P(x ∈R1|X2)P(X2)=P(1|2)p2

类似地有

P (正确地判为X2)=P(2|2)p2,P (误判到X2)=P(2|1)p1

设L(1|2)表示来自X2 误判为X1 引起的损失,L(2|1)表示来自X1 误判为X2 引起的损失,并规定L(1|1)=L(2|2)=0.

把上述误判概率与误判损失结合起来,定义平均误判损失ECM(expected cost of misclassification)如下:

一个合理的判别规则应使ECM 达到最小.