首页 理论教育基于规则的分类器及其基本概念

基于规则的分类器及其基本概念

【摘要】:基于规则的分类器利用IF-THEN规则集进行分类。如一个规则R 1可以表示为:R 1:IF age=youth AND student=yes THEN buys_computer=yesR 1也可以表示为:R 1:^=>其中,IF部分或=>前面的部分称为前件,后一部分称为后件。那么,覆盖率和精度的定义如式(4.1)和式(4.2)。当X只满足规则集中的一个规则R 1时,就可以判定X属于R 1后件的类别。后件为同一类别的规则不需排序,因为它们判断的结果不会有冲突;在基于规则的排序策略中,规则按其前件的质量排序。

规则是表达信息很好的方式。基于规则的分类器利用IF-THEN规则集进行分类。如一个规则R 1可以表示为:

R 1:IF age=youth AND student=yes THEN buys_computer=yes

R 1也可以表示为:

R 1:(age=youth)^(student=yes)=>(buys_computer=yes)

其中,IF部分或=>前面的部分称为前件,后一部分称为后件。给定一个记录,如果它满足一规则的前件,则称此规则覆盖了此记录[25]

一个规则R可以用它的覆盖率(coverage)和精度(accuracy)来衡量性能[25]。给定一分类记录集D,|D|表示其记录数。令ncovers表示D中被规则R覆盖的记录数;ncorrect表示被规则R覆盖的记录中类别标识与R后件吻合的记录数。那么,覆盖率和精度的定义如式(4.1)和式(4.2)。

对于D中的一个记录X,如果X满足某规则R 1,是否可以依据R 1的后件来判定X所属类别呢?当X只满足规则集中的一个规则R 1时,就可以判定X属于R 1后件的类别。但是,当X同时满足规则集中的多个规则,并且这些规则的后件不同时,或者当X不满足规则集中所有的规则时,X应该怎样判定呢?

当X同时满足规则集中的多个规则时,一般有两种解决方式,称为规格排序方式(size ordering)和规则排序方式(rule ordering)[25]

所谓规格排序,是在X满足的规则中选择条件最强的规则,以此规则的后件来判定X的类别。

规则排序方式则预先将所有规则按优先级从高到低排序,形成一个决策列表。X被判定为在列表中第一次遇到的满足其前件的规则的后件的类别,X还可能满足的排序在列表后面的规则被忽略掉了。

规则的优先级策略一般有基于类别的(class-based)和基于规则的(rulebased)两种。在基于类别的排序策略中,将规则按其后件类别的重要性从高到低排序,或者将规则按其后件类别误判的代价从高到低排序。后件为同一类别的规则不需排序,因为它们判断的结果不会有冲突;在基于规则的排序策略中,规则按其前件的质量排序。衡量前件的质量有很多种依据,如精度、覆盖率、尺寸(涉及属性的个数)和领域知识等。

当X不满足规则集中所有的规则时,一般将X指定为一个默认的类别。默认的类别可以是训练集中记录最多的类别,也可以是在训练集中没有被规则覆盖的多数记录的类别。