首页 理论教育算法分析-差异表达基因检测方法的比较分析

算法分析-差异表达基因检测方法的比较分析

【摘要】:在COPA方法的基础上,Tibshirani等人在2007年提出的OS方法引入了分位数做启发式规则附加表达值,进行差异表达基因检测。由于差异估算中用正常组样本中值代替了全部数据的中值,ORT方法比COPA方法和OS方法恰当地估计了两组数据的差异。COPA方法和OS方法随差异数目的增加,性能有所降低。Lian在2008年提出的MOST方法隐性地考虑了差异基因表达强度临界值所有可能的取值,通过确定其统计量最大值来确定阈值,从而检测差异表达基因。

T统计方法是假定癌症组样本相对于正常组样本普遍呈现过表达的情况,通过计算正常组样本和癌症组样本的均值及合并标准差,求得T统计量。当癌症组样本相对于正常组样本普遍呈现过高表达的情况时,T统计方法具有很强的功效。当癌症组样本的某个子集相对于正常组样本过表达的情况时,T统计方法会产生很高的误差。为了克服这种现象,Tomlins等人在2005年提出了COPA方法。COPA方法使用中值和中值绝对离差定义了一个COPA统计量,把经过中心化和归一化变换后的基因芯片数据按每个基因样本表达强度排序,取癌症组样本数据的第r分位数,表达值大于第r分位数值的表达强度值就是差异表达值。

在COPA方法的基础上,Tibshirani等人在2007年提出的OS方法引入了分位数做启发式规则附加表达值,进行差异表达基因检测。OS方法利用四分位数间距来度量数据的分散性,具有对异常数据抗扰性等特点,把癌症组样本表达强度大于基因表达强度的四分位上截断点或小于四分位下截断点的数据的基因作为差异表达基因。Wu在2007年提出的ORT方法和OS方法类似,都采用四分位截断点确定阈值,区别在于OS方法的基因表达数据是正常组样本和癌症组样本的全部数据一起使用,而ORT方法是相对正常组样本数据定义的。由于差异估算中用正常组样本中值代替了全部数据的中值,ORT方法比COPA方法和OS方法恰当地估计了两组数据的差异。COPA方法和OS方法随差异数目的增加,性能有所降低。Lian在2008年提出的MOST方法隐性地考虑了差异基因表达强度临界值所有可能的取值,通过确定其统计量最大值来确定阈值,从而检测差异表达基因。当活跃样本数未知时,MOST方法比其他方法更有效;当活跃样本的数目很少时,MOST方法性能与ORT方法性能相似;当异常表达样本的数目较多时,MOST方法执行的效果较好,PPST方法性能随k值的增加而变强。(www.chuimin.cn)