差异表达基因检测不仅具有统计学意义,而且具有生物学意义,在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面都有重要的作用。在医学研究中,癌症差异表达基因检测就是一个重要的问题。差异表达基因检测统计方法的目的是识别由于实验环境变化而引起的表达水平改变的基因[43]。在基因芯片数据分析中,差异表达基因检测的传统方法通常是假定所有癌症组样本相对于正常组样本都具有过高或过低的表达。......
2023-11-21
在差异表达基因检测统计方法中,传统的T统计方法假设所有癌症组样本相对于正常组样本都是过表达的。T统计方法通过定义均值和合并样本离差来确定统计量,通过FDR估计等条件确定一个阈值c,T统计量超过阈值c的基因被定义为差异表达基因。T统计方法对于具有较高均值分布的癌症差异表达基因检测具有较好的效果,当癌症组样本的一小部分样本过表达时,会出现很高的错误发现率,而多种类型的激活机制也使T统计方法检测这种基因表达谱情况的效果并不理想。
Tomlins等人在2005年提出的COPA方法是针对癌症组样本子集相对于正常组样本过表达的情况。COPA方法计算数据的中值和中值绝对离差,对数据进行归一化。用中值和中值绝对离差进行数据变换,不会过度地影响分布假设,从而可以保留差异表达值。COPA方法把经过中心化和归一化变换后的基因芯片数据按每个基因样本表达强度排序,取癌症组样本数据的第r分位数,表达值大于第r分位数的表达强度值就是差异表达值。COPA方法没有对所有样本定义阈值,r的选择取决于使用者的主观判断[99]。
Tibshirani和Hastie在2007年对COPA方法进行了改进,提出了OS方法,OS方法引入分位数作为附加表达式来检测差异基因表达强度[105]。四分位极差能度量数据分散性,具有对异常数据的抗干扰性。OS方法把大于上四分位数和小于下四分位数的值所对应的基因识别为差异表达基因[105]。
Wu在2007年提出的ORT方法对OS方法进行了改进。ORT方法在差异估算中用正常组样本中值代替全部数据的中值,用个别组中值估算中值绝对误差。与COPA方法相比,ORT方法用样本中值代替平均值,用绝对离差代替平方差异,其目的是获得一个较稳健的不一致估计。因此,ORT方法比COPA方法和OS方法恰当地估计了正常组与疾病组之间数据的差异[104]。(www.chuimin.cn)
Lian在2008年提出的MOST方法考虑了差异基因表达所有可能的临界值。当活跃样本数目未知时,MOST方法比其他方法更有效;当活跃样本数目较少时,其效果与ORT方法相似;当差异表达的样本数目较多时,MOST方法的效果较好[103]。
Lyons-Weiler等人在2004年提出的PPST方法的思路是通过比较数千个基因对照样本和实验样本的基因表达水平,寻找在A组样本中表达值强度超过B组样本表达值强度一个特定百分比的基因,反之亦然[48,90]。
COPA方法、OS方法、ORT方法和MOST方法的共同特点是采用样本基因表达强度的中值和中值绝对离差来定义差异基因表达的统计量,它们都利用基因表达的分位数检测差异基因表达。OS方法、ORT方法、MOST方法都试图使用统计标准来评定异常,使用标准化的、代数形式的表达值间的区别作为识别差异的标准,因此这几种方法实质上都是参数方法。与非参数的T统计方法比较,PPST方法要好于T统计方法,PPST方法的高度内部一致性说明PPST方法既能够识别全局范围内的生物标记,也能够识别样本子集中的生物标记。
有关差异表达基因检测数据分析研究的文章
差异表达基因检测不仅具有统计学意义,而且具有生物学意义,在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面都有重要的作用。在医学研究中,癌症差异表达基因检测就是一个重要的问题。差异表达基因检测统计方法的目的是识别由于实验环境变化而引起的表达水平改变的基因[43]。在基因芯片数据分析中,差异表达基因检测的传统方法通常是假定所有癌症组样本相对于正常组样本都具有过高或过低的表达。......
2023-11-21
Tomlins等人在2005年提出了COPA方法,用于检测癌症组样本一小部分基因相对于正常组样本过表达的差异表达基因检测[101],许多学者由此受到启发,截至2010年9月13日,该文章的引用次数已经达到了763次。David A.Hanauer指出在不久的将来,COPA差异表达基因检测方法会提供较多的与癌症发生演化相关的重要基因,从而为揭开癌症的神秘面纱贡献力量[102]。通过模拟研究和应用到公共基因芯片数据,表明以上成果为综合分析和提高传统差异表达基因检测提供了方法。......
2023-11-21
许多研究者对此进行了研究,并提出了多种差异表达基因检测方法。OPA方法采用基因组数据异常分析的非参数方法对某特定基因进行检测,这个基因的基因芯片数据的一个组中只有一部分样本相对于另一组样本过高表达,剩余的样本没有差异表达的迹象。PACK方法、PADGE方法、PPRM方法、OPA方法、LRS方法也研究了假定癌症组子集样本相对于正常组样本有过高或过低表达的差异基因表达检测统计方法。......
2023-11-21
在国外涉及较早的变点研究是突变点,对于渐变式变点的研究也有一些结论,对于位置参数模型提出了变点的最小二乘法的估计。最小二乘法就是以观察值和理论值之差的平方和作为目标函数,将其达到极小值的点作为有关参数的点估计[8]。给出衡量最小二乘法识别多差异表达基因检测突变点能力的方法,模拟研究最小二乘法对不同具有差异表达基因的基因表达谱数据生成过程的多差异表达基因变点检测效果[10]。......
2023-11-21
样本三均值trimeani:正常组样本三均值trimeanix:癌症组样本三均值trimeaniy:基于ORT方法改进的TriORT方法的统计量TriORT*i定义如下:基因i的癌症组样本集合过高表达时的定义为:其过低表达时的定义为:TriORT方法和ORT方法的不同之处在于,ORT方法中表示数据转换变化的中值和中值绝对离差分别被三均值和三均值绝对离差来代替,这样使得数据稳健,能全面地反映样本数据特征。......
2023-11-21
在COPA方法的基础上,Tibshirani等人在2007年提出的OS方法引入了分位数做启发式规则附加表达值,进行差异表达基因检测。由于差异估算中用正常组样本中值代替了全部数据的中值,ORT方法比COPA方法和OS方法恰当地估计了两组数据的差异。COPA方法和OS方法随差异数目的增加,性能有所降低。Lian在2008年提出的MOST方法隐性地考虑了差异基因表达强度临界值所有可能的取值,通过确定其统计量最大值来确定阈值,从而检测差异表达基因。......
2023-11-21
RNA-Seq测序技术已成为研究基因表达的重要实验手段,比较不同样本中基因表达差异,为解决后续的生物问题提供了定量分析的依据。生物信息学科的研究工作者近年来也意识到了大数据带来的挑战,开发了一些基于云计算的分析软件,其中涉及RNA-Seq数据分析的主要有MyRNA、Crossbow等。本部分的研究即将要构建的基因差异表达分析流程就是针对RNA-Seq技术得到的原始数据进行设计和实现的。......
2023-11-21
在农作物的基因育种方面,基因芯片技术已经成为育种工作的一项重要手段,利用基因芯片技术可以在多样本、高通量群体中进行基因筛选,从而找到携带目的基因的优良个体,充分利用有利的基因序列资源,创造方便、快捷的育种工作环境。近几年来,以基因芯片技术为代表的生物芯片技术迅速发展,使人类科学技术的研究有了阶段性的进步,对科学技术的发展产生了巨大的影响[32-34]。......
2023-11-21
相关推荐