首页 理论教育基于差异表达基因检测数据分析的方法介绍

基于差异表达基因检测数据分析的方法介绍

【摘要】:在差异表达基因检测统计方法中,传统的T统计方法假设所有癌症组样本相对于正常组样本都是过表达的。Wu在2007年提出的ORT方法对OS方法进行了改进。Lian在2008年提出的MOST方法考虑了差异基因表达所有可能的临界值。当活跃样本数目未知时,MOST方法比其他方法更有效;当活跃样本数目较少时,其效果与ORT方法相似;当差异表达的样本数目较多时,MOST方法的效果较好[103]。

在差异表达基因检测统计方法中,传统的T统计方法假设所有癌症组样本相对于正常组样本都是过表达的。T统计方法通过定义均值和合并样本离差来确定统计量,通过FDR估计等条件确定一个阈值c,T统计量超过阈值c的基因被定义为差异表达基因。T统计方法对于具有较高均值分布的癌症差异表达基因检测具有较好的效果,当癌症组样本的一小部分样本过表达时,会出现很高的错误发现率,而多种类型的激活机制也使T统计方法检测这种基因表达谱情况的效果并不理想。

Tomlins等人在2005年提出的COPA方法是针对癌症组样本子集相对于正常组样本过表达的情况。COPA方法计算数据的中值和中值绝对离差,对数据进行归一化。用中值和中值绝对离差进行数据变换,不会过度地影响分布假设,从而可以保留差异表达值。COPA方法把经过中心化和归一化变换后的基因芯片数据按每个基因样本表达强度排序,取癌症组样本数据的第r分位数,表达值大于第r分位数的表达强度值就是差异表达值。COPA方法没有对所有样本定义阈值,r的选择取决于使用者的主观判断[99]

Tibshirani和Hastie在2007年对COPA方法进行了改进,提出了OS方法,OS方法引入分位数作为附加表达式来检测差异基因表达强度[105]。四分位极差能度量数据分散性,具有对异常数据的抗干扰性。OS方法把大于上四分位数和小于下四分位数的值所对应的基因识别为差异表达基因[105]

Wu在2007年提出的ORT方法对OS方法进行了改进。ORT方法在差异估算中用正常组样本中值代替全部数据的中值,用个别组中值估算中值绝对误差。与COPA方法相比,ORT方法用样本中值代替平均值,用绝对离差代替平方差异,其目的是获得一个较稳健的不一致估计。因此,ORT方法比COPA方法和OS方法恰当地估计了正常组与疾病组之间数据的差异[104]。(www.chuimin.cn)

Lian在2008年提出的MOST方法考虑了差异基因表达所有可能的临界值。当活跃样本数目未知时,MOST方法比其他方法更有效;当活跃样本数目较少时,其效果与ORT方法相似;当差异表达的样本数目较多时,MOST方法的效果较好[103]

Lyons-Weiler等人在2004年提出的PPST方法的思路是通过比较数千个基因对照样本和实验样本的基因表达水平,寻找在A组样本中表达值强度超过B组样本表达值强度一个特定百分比的基因,反之亦然[48,90]

COPA方法、OS方法、ORT方法和MOST方法的共同特点是采用样本基因表达强度的中值和中值绝对离差来定义差异基因表达的统计量,它们都利用基因表达的分位数检测差异基因表达。OS方法、ORT方法、MOST方法都试图使用统计标准来评定异常,使用标准化的、代数形式的表达值间的区别作为识别差异的标准,因此这几种方法实质上都是参数方法。与非参数的T统计方法比较,PPST方法要好于T统计方法,PPST方法的高度内部一致性说明PPST方法既能够识别全局范围内的生物标记,也能够识别样本子集中的生物标记。