许多研究者对此进行了研究,并提出了多种差异表达基因检测方法。OPA方法采用基因组数据异常分析的非参数方法对某特定基因进行检测,这个基因的基因芯片数据的一个组中只有一部分样本相对于另一组样本过高表达,剩余的样本没有差异表达的迹象。PACK方法、PADGE方法、PPRM方法、OPA方法、LRS方法也研究了假定癌症组子集样本相对于正常组样本有过高或过低表达的差异基因表达检测统计方法。......
2023-11-21
1.COPA方法
在癌症组样本的某个子集相对于正常组样本过表达的情况下,T统计方法会产生很大的错误[42]。因此,Tomlins等人在2005年提出了所谓的COPA方法[99,100]。COPA方法在癌症数据集中的情况下比传统的T统计方法执行的效果好。
COPA方法对每一个基因的差异表达检测是通过该基因的整体中值和中值绝对离差进行标准化的,并建立变量。COPA方法是基于癌症组样本数据的第r分位数来确定差异基因表达值的。COPA方法定义每一个基因的COPA统计量如下:
式中,是正常样本值减去全部样本中值的集合;是癌症样本值减去全部样本中值的集合;median({xij}1≤j≤n0∪{yij}1≤j≤n1)表示对第i个基因样本数据(包括正常样本和癌症样本)取中值;1.482 6×median(Xi∪Yi)为全部样本的中值绝对离差,这里采用了统计学家F.R.Hampel提出的中值绝对离差MAD=1.482 6×median(xij,yij),其被称为Hampel标识符的3δ编辑法则[107],其中使用中值和中值绝对离差(MAD)作为中心及周围数据的癌症组样本表达强度的一个确定的百分比。由于已知一些基因是有差异表达的,出于健壮性考虑,对每一个基因都首先利用该基因的整体中值和中值绝对离差来进行标准化。
COPA方法主要包括如下三个步骤。
第一,计算所有样本基因表达强度中值。
第二,计算绝对离差中值和每一个基因表达强度值被中值绝对差除后接近1的范围。重要的是中值和绝对离差值被用来进行数据标准化,根据均值和标准偏差,差异表达值没有过度地影响分布假设,因而保留后标准化。
第三,取每个基因变换表达值的75、90、95百分位数表达值,倘若异常点区分先后次序,就把它们的百分位打分排列。
COPA方法使用中值和中值绝对离差定义了一个COPA统计量,把经过中心化和归一化变换后的基因芯片数据按每个基因样本表达强度排序,取癌症组样本数据的第r分位数,表达值大于第r分位数值的表达强度值就是差异表达值。qr(i)是第i个基因样本表达值的第r百分位,r需要根据使用者的经验判断,通常r取75、90或95。Tibshirani和Hastie定义的COPAi统计量的阈值选择使用第90百分位。
2.OS方法
Tibshirani和Hastie在2006年提出了一种改进的COPA方法[103],即OS方法。OS方法计算OS*i统计量,并且引入启发式规则附加表达值,利用分位数的知识对基因芯片数据进行基因表达的差异表达基因检测。
统计量公式为
OS方法的主要步骤如下。
第一,标准化每个基因。
第二,令qr(i)是基因i的yij值的第r百分比,四分位数间距IQR(i)=q75(i)-q25(i)。其中上四分位为Q3=q75,下四分位为Q1=q25。四分位极差能度量数据分散性,具有对异常数据的抗扰性。大于限制q75(i)+IQR(i)或小于q25(i)-IQR(i)的值通常在统计意义上被称为差异表达基因。通过计算,定义异常癌症组样本的集合:
如果癌症组样本中异常很多或者一部分异常的值大,则OSi的值就大;如果没有异常,则OSi的值就是0。过高和过低表达异常一样,因此当有过低表达时,定义异常癌症组样本的集合:
3.ORT方法
Wu在2007年提出了类似OS方法的ORT方法,OS方法和ORT方法的区别是ORT方法的基因表达数据是相对正常组样本数据定义的,而OS方法是所有的数据一起使用,这样正常组样本和癌症组样本中的基因表达量分布有可能不同[104]。(www.chuimin.cn)
ORT方法的计算步骤如下。
第一,计算样本中值medix=medianj≤n0(xij),mediy=medianj>n1(xij),medix和mediy是正常组样本和癌症组样本中值。
第二,估计中值绝对离差,估计合并采样方差。
ORT方法的本质是用样本中值代替平均值,用中值绝对离差代替平方差,目的是获得一个较稳健的不一致估计结果。因为疾病和正常组样本是有差异的,所以使用全部中值作为癌症组样本中值普通估计不是最好的方法。如果癌症组样本中大部分样本有差异表达,它可能过高估计正常组均值,所以较合适的方法是采用正常组样本中值。
在差异估算中用正常组样本中值代替了全部数据的中值,用个别组中值估算中值绝对误差,发现ORT方法比COPA方法和OS方法,恰当地估计了两组数据的差异。
第三,计算异常癌症组样本过表达基因统计量,定义ORT*i统计量如下:
过高表达时,定义异常癌症组样本的集合为:
过低表达时,定义异常癌症组样本的集合为:
4.MOST方法
在OS方法和ORT方法中,差异表达基因的定义只根据传统数理统计中判定的方法,为了解决这个问题,Lian在2008年提出了MOST方法,隐性地考虑差异表达基因临界值所有可能的取值[105]。
MOST方法主要包括以下步骤。
第一,假定{yij}1≤j≤n1按i排序:yi1≥yi2≥…≥yij。如果癌症基因活跃的样本数目是已知的,定义MOST*i统计量为:
第二,当k值未知时,定义,z1>z2>…>zm是从标准正态分布中取出的m个样本的排序统计量。定义统计量为:
第三,定义统计量MOSTi为:
MOST方法将所有可能的值默认为差异表达阈值,从实际出发考虑每个可能的阈值,在其之上的yij被当作差异表达。在式(2.11)中,差异表达基因的数量默认为个。
COPA方法、OS方法、ORT方法和MOST方法的共同特点是以参数方法,采用样本基因表达强度的中值和中值绝对离差定义差异基因表达的统计量,都利用基因表达的分位数检测差异基因表达。
有关差异表达基因检测数据分析研究的文章
许多研究者对此进行了研究,并提出了多种差异表达基因检测方法。OPA方法采用基因组数据异常分析的非参数方法对某特定基因进行检测,这个基因的基因芯片数据的一个组中只有一部分样本相对于另一组样本过高表达,剩余的样本没有差异表达的迹象。PACK方法、PADGE方法、PPRM方法、OPA方法、LRS方法也研究了假定癌症组子集样本相对于正常组样本有过高或过低表达的差异基因表达检测统计方法。......
2023-11-21
在差异表达基因检测统计方法中,传统的T统计方法假设所有癌症组样本相对于正常组样本都是过表达的。Wu在2007年提出的ORT方法对OS方法进行了改进。Lian在2008年提出的MOST方法考虑了差异基因表达所有可能的临界值。当活跃样本数目未知时,MOST方法比其他方法更有效;当活跃样本数目较少时,其效果与ORT方法相似;当差异表达的样本数目较多时,MOST方法的效果较好[103]。......
2023-11-21
发现差异表达基因是微阵列实验研究的主要目的之一[44-47]。传统的差异表达基因检测方法基于癌症组所有样本的基因表达强度一致地为过高或过低表达这样一个假定[69,70],如传统的T统计方法是对比两组表达值分布的均值,从而检测其差异[25]。差异表达基因检测方法不仅在统计量方面发展迅速,而且加强了对FDR错误发现率的控制,以减少假阳性并充分发挥数据分析的作用[71,72]。常用的传统差异表达基因检测方法如下。......
2023-11-21
差异表达基因检测可以寻找相对于正常组织过高或过低调节的癌症组织,在医学临床诊断、药物疗效判断、揭示癌症疾病发生机制等方面都有重要的作用。本书总结了Tomlins等人关于癌症组样本子集过表达的差异表达基因检测统计方法,同时通过模拟研究和真实数据的检验,比较分析了这些差异表达基因检测方法,并提出了改进的差异表达基因检测方法。......
2023-11-21
Hu在2008年提出了LRS方法,LRS方法是基于似然性方法在基因表达谱数据中寻找癌症组样本基因表达强度的改变点,识别有差异表达的癌症基因,选取最大似然率进行癌症组样本检测。,n时,xij表示癌症组样本的基因表达强度。采用函数v=,其中Φ表示标准正态分布函数,对于0≤m0<m1<n和b>0,则有直接将LRS方法应用在相反的情况下,检测癌症组样本中过低调节的差异基因表达值。......
2023-11-21
在COPA方法的基础上,Tibshirani等人在2007年提出的OS方法引入了分位数做启发式规则附加表达值,进行差异表达基因检测。由于差异估算中用正常组样本中值代替了全部数据的中值,ORT方法比COPA方法和OS方法恰当地估计了两组数据的差异。COPA方法和OS方法随差异数目的增加,性能有所降低。Lian在2008年提出的MOST方法隐性地考虑了差异基因表达强度临界值所有可能的取值,通过确定其统计量最大值来确定阈值,从而检测差异表达基因。......
2023-11-21
差异表达基因检测不仅具有统计学意义,而且具有生物学意义,在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面都有重要的作用。在医学研究中,癌症差异表达基因检测就是一个重要的问题。差异表达基因检测统计方法的目的是识别由于实验环境变化而引起的表达水平改变的基因[43]。在基因芯片数据分析中,差异表达基因检测的传统方法通常是假定所有癌症组样本相对于正常组样本都具有过高或过低的表达。......
2023-11-21
样本三均值trimeani:正常组样本三均值trimeanix:癌症组样本三均值trimeaniy:基于ORT方法改进的TriORT方法的统计量TriORT*i定义如下:基因i的癌症组样本集合过高表达时的定义为:其过低表达时的定义为:TriORT方法和ORT方法的不同之处在于,ORT方法中表示数据转换变化的中值和中值绝对离差分别被三均值和三均值绝对离差来代替,这样使得数据稳健,能全面地反映样本数据特征。......
2023-11-21
相关推荐