许多研究者对此进行了研究,并提出了多种差异表达基因检测方法。OPA方法采用基因组数据异常分析的非参数方法对某特定基因进行检测,这个基因的基因芯片数据的一个组中只有一部分样本相对于另一组样本过高表达,剩余的样本没有差异表达的迹象。PACK方法、PADGE方法、PPRM方法、OPA方法、LRS方法也研究了假定癌症组子集样本相对于正常组样本有过高或过低表达的差异基因表达检测统计方法。......
2023-11-21
差异表达基因检测普遍采用的是计算T统计方法,T统计方法通过两组样本的均值来判断基因是否存在差异表达。COPA方法使用中值和中值绝对离差来表示数据转换的变化,OS方法在COPA方法基础上增加了分位数作为附加表达式来识别癌症组样本表达强度,与OS方法类似的ORT方法是使用癌症组样本来表示数据转换的变化,而OS方法则是将所有样本一起使用。
在基因表达谱正常组样本和癌症组样本二分类的基因芯片数据研究中,一般基因芯片数据都是以g×n的矩阵形式存在的,包含的基因个数用p表示,样本的个数用n表示,并且样本个数n包括正常组样本数n0和癌症组样本数n1,因此n=n0+n1。用xij表示正常组样本的基因表达强度值,yij表示癌症组样本的基因表达强度值,其中i和j分别为基因和样本的循环指标。Zi为指示函数,其值取0和1,分别表示正常组样本和癌症组样本。
均值、中值(中位数)、三均值从不同侧面反映了数据的位置特征,综合应用这三个数据,以探索数据的本质特征。均值简易,但不稳健,难抗异常值;中位数较稳健,抗异常值;三均值较准确、稳健。三均值有较强的稳健性,并能充分利用样本信息,因此三均值能较好地概括数据位置的数字特征[113]。
对所有的基因芯片数据进行样本中基因表达的差异表达基因检测,可以利用分位数的知识。均值medx是x1,x2,…,xn的平均数,中位数medianx是描述数据中心位置的数字特征,三均值的计算公式是。因此,样本三均值、正常组样本三均值和癌症组样本三均值的定义如下。
样本三均值trimeani:
正常组样本三均值trimeanix:(www.chuimin.cn)
癌症组样本三均值trimeaniy:
基于ORT方法改进的TriORT方法的统计量TriORT*i定义如下:
基因i的癌症组样本集合过高表达时的定义为:
其过低表达时的定义为:
TriORT方法和ORT方法的不同之处在于,ORT方法中表示数据转换变化的中值和中值绝对离差分别被三均值和三均值绝对离差来代替,这样使得数据稳健,能全面地反映样本数据特征。
有关差异表达基因检测数据分析研究的文章
许多研究者对此进行了研究,并提出了多种差异表达基因检测方法。OPA方法采用基因组数据异常分析的非参数方法对某特定基因进行检测,这个基因的基因芯片数据的一个组中只有一部分样本相对于另一组样本过高表达,剩余的样本没有差异表达的迹象。PACK方法、PADGE方法、PPRM方法、OPA方法、LRS方法也研究了假定癌症组子集样本相对于正常组样本有过高或过低表达的差异基因表达检测统计方法。......
2023-11-21
差异表达基因检测不仅具有统计学意义,而且具有生物学意义,在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面都有重要的作用。在医学研究中,癌症差异表达基因检测就是一个重要的问题。差异表达基因检测统计方法的目的是识别由于实验环境变化而引起的表达水平改变的基因[43]。在基因芯片数据分析中,差异表达基因检测的传统方法通常是假定所有癌症组样本相对于正常组样本都具有过高或过低的表达。......
2023-11-21
发现差异表达基因是微阵列实验研究的主要目的之一[44-47]。传统的差异表达基因检测方法基于癌症组所有样本的基因表达强度一致地为过高或过低表达这样一个假定[69,70],如传统的T统计方法是对比两组表达值分布的均值,从而检测其差异[25]。差异表达基因检测方法不仅在统计量方面发展迅速,而且加强了对FDR错误发现率的控制,以减少假阳性并充分发挥数据分析的作用[71,72]。常用的传统差异表达基因检测方法如下。......
2023-11-21
Tomlins等人在2005年提出了COPA方法,用于检测癌症组样本一小部分基因相对于正常组样本过表达的差异表达基因检测[101],许多学者由此受到启发,截至2010年9月13日,该文章的引用次数已经达到了763次。David A.Hanauer指出在不久的将来,COPA差异表达基因检测方法会提供较多的与癌症发生演化相关的重要基因,从而为揭开癌症的神秘面纱贡献力量[102]。通过模拟研究和应用到公共基因芯片数据,表明以上成果为综合分析和提高传统差异表达基因检测提供了方法。......
2023-11-21
在国外涉及较早的变点研究是突变点,对于渐变式变点的研究也有一些结论,对于位置参数模型提出了变点的最小二乘法的估计。最小二乘法就是以观察值和理论值之差的平方和作为目标函数,将其达到极小值的点作为有关参数的点估计[8]。给出衡量最小二乘法识别多差异表达基因检测突变点能力的方法,模拟研究最小二乘法对不同具有差异表达基因的基因表达谱数据生成过程的多差异表达基因变点检测效果[10]。......
2023-11-21
RNA-Seq测序技术已成为研究基因表达的重要实验手段,比较不同样本中基因表达差异,为解决后续的生物问题提供了定量分析的依据。生物信息学科的研究工作者近年来也意识到了大数据带来的挑战,开发了一些基于云计算的分析软件,其中涉及RNA-Seq数据分析的主要有MyRNA、Crossbow等。本部分的研究即将要构建的基因差异表达分析流程就是针对RNA-Seq技术得到的原始数据进行设计和实现的。......
2023-11-21
在差异表达基因检测统计方法中,传统的T统计方法假设所有癌症组样本相对于正常组样本都是过表达的。Wu在2007年提出的ORT方法对OS方法进行了改进。Lian在2008年提出的MOST方法考虑了差异基因表达所有可能的临界值。当活跃样本数目未知时,MOST方法比其他方法更有效;当活跃样本数目较少时,其效果与ORT方法相似;当差异表达的样本数目较多时,MOST方法的效果较好[103]。......
2023-11-21
差异表达基因检测可以寻找相对于正常组织过高或过低调节的癌症组织,在医学临床诊断、药物疗效判断、揭示癌症疾病发生机制等方面都有重要的作用。本书总结了Tomlins等人关于癌症组样本子集过表达的差异表达基因检测统计方法,同时通过模拟研究和真实数据的检验,比较分析了这些差异表达基因检测方法,并提出了改进的差异表达基因检测方法。......
2023-11-21
相关推荐