发现差异表达基因是微阵列实验研究的主要目的之一[44-47]。传统的差异表达基因检测方法基于癌症组所有样本的基因表达强度一致地为过高或过低表达这样一个假定[69,70],如传统的T统计方法是对比两组表达值分布的均值,从而检测其差异[25]。差异表达基因检测方法不仅在统计量方面发展迅速,而且加强了对FDR错误发现率的控制,以减少假阳性并充分发挥数据分析的作用[71,72]。常用的传统差异表达基因检测方法如下。......
2023-11-21
传统的差异表达基因检测方法是假定癌症组所有样本相对于正常组样本都是过表达的,对于具有较高均值分布的癌症差异表达基因检测来说,T统计方法具有较好的识别能力。而许多研究发现很多基因出现在癌症组样本中都是过表达的,并且肿瘤具有异质性,因此对于数据量较大的基因芯片来说,假定癌症组所有样本相对于正常组都是过表达的,会有很高的错误发现率(False Discovery Rate,FDR)。许多研究者对此进行了研究,并提出了多种差异表达基因检测方法。
1.PACK方法
Andrew E.Teschendorff在2006年提出了PACK(Proile Analysis using Clustering and Kurtosis)方法,该方法是基于基因表达谱中混合模型和非高斯方法的特定选择程序,能识别相关的分类或在监督分析前排除可能的假阳性错误,同时该方法是一个普遍的特征选择模式识别方法[84]。PACK方法通过检测中值绝对离差或基因表达差异峰度,来识别有瘤子集标记的癌症标记,从一个给定数据组的所有样本出发考虑了表达值。使用模式识别推断单个基因表达谱中聚类的数目,有助于在较大集合中识别相关的标志,有效减少FDR。
PACK方法在基因芯片数据寻找新的生物或临床分类方面有重要价值,有助于进一步描述癌症分子分类系统的特点。
2.PADGE方法
Li Li等在2007年提出了PADGE(Percentile Analysis for Differential Gene Expression)方法,设计了百分比分析差异基因表达分析方法,通过识别两组不均匀样本来检测差异基因表达。该方法不仅可以在两个样本组间对比规模和多样性以及在样本组次组中定义不同的表达,还可以在任何以样本异构性为关注点的研究领域中广泛使用。生物样本是异构的,因为实验者常常不知道分子亚型或基因背景,样本次组中重要基因的不同表达会因基于样本均值差别的基因选择规则而出错[85]。PADGE方法从那些在所有癌症组样本中有普遍过表达的癌症组样本中区分出在癌症次组中的过表达基因,将在正常组样本和具体到癌症组样本的癌症基因活动的异构模式纳入考虑范围。
3.PPRM方法(www.chuimin.cn)
Mugdha Gadgil在2008年提出了PPRM(the Population Proportion Ranking Method)方法,在一个类的样本子集中寻找表达异常的基因,适用于计算内部样本比例并可用来说明计算不同表达基因的特点,这些基因在至少两类样本中的表达水平有明显的不同[86]。用DNA芯片研究两类样本和多类样本在基因表达上的差异基因,许多方法是在类间比较均值表达水平,而不是在一个类的样本子集中寻找表达差异的基因。临床上相似的表现型可能是由不同的分子结构引起的,在一个类的样本子集中差异表达的基因在这种情况下很重要[87-91]。这种方法使得使用者能提前定义在这两类样本中一个基因表达水平的差异所要求的量纲和类内部多样性所允许的水平,并能够定义可能在一个类的一个副样本中表达不同的基因和在一类个中有高度多样性的基因。
4.OPA方法
Debashis Ghosh在2008年提出了OPA(Outlier Profile Analysis)方法,该方法描述了一种一般的混合模型,用于评估一组样本的一部分相对于另一组样本的过表达[48]。OPA方法首先考虑到单基因情况,并得出估算可识别的结果,提出两个非参数估计过程,该过程与常用的多重测试程序相关,并发展了这种方法的多元扩展来解决基因组范围内的测量。OPA方法采用基因组数据异常分析的非参数方法对某特定基因进行检测,这个基因的基因芯片数据的一个组中只有一部分样本相对于另一组样本过高表达,剩余的样本没有差异表达的迹象。
5.LRS方法
Jianhua Hu在2007年提出了LRS方法,该方法是基于似然性的方法在癌症组样本的基因表达强度中寻找改变的点,选取最大似然率进行癌症组样本检测,检测癌症组样本中表达强度的转变。因为基因融合或染色体异位可能发生在活跃的基因和多样的癌症基因之间,一个异位在每个样本中只发生一次,这启发了一种以单独的基因为目标的方法,寻找在两个相互排斥的癌症组样本子集中过高或过低调节的基因对[92]。LRS方法从一个不同的角度看,在癌症组样本对基因表达强度的分布中检测改变点,把癌症异常样本看作从分布中得来,比正常组样本和其他癌症组样本有更高的表达强度,可以检测癌症组样本子集中过高或过低表达的样本。
PACK方法、PADGE方法、PPRM方法、OPA方法、LRS方法也研究了假定癌症组子集样本相对于正常组样本有过高或过低表达的差异基因表达检测统计方法。这些方法有力地促进了人们对差异基因表达检测在癌症组样本子集过表达,而不是对癌症组所有样本都过表达的研究[93-95]。
有关差异表达基因检测数据分析研究的文章
发现差异表达基因是微阵列实验研究的主要目的之一[44-47]。传统的差异表达基因检测方法基于癌症组所有样本的基因表达强度一致地为过高或过低表达这样一个假定[69,70],如传统的T统计方法是对比两组表达值分布的均值,从而检测其差异[25]。差异表达基因检测方法不仅在统计量方面发展迅速,而且加强了对FDR错误发现率的控制,以减少假阳性并充分发挥数据分析的作用[71,72]。常用的传统差异表达基因检测方法如下。......
2023-11-21
差异表达基因检测可以寻找相对于正常组织过高或过低调节的癌症组织,在医学临床诊断、药物疗效判断、揭示癌症疾病发生机制等方面都有重要的作用。本书总结了Tomlins等人关于癌症组样本子集过表达的差异表达基因检测统计方法,同时通过模拟研究和真实数据的检验,比较分析了这些差异表达基因检测方法,并提出了改进的差异表达基因检测方法。......
2023-11-21
差异表达基因检测不仅具有统计学意义,而且具有生物学意义,在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面都有重要的作用。在医学研究中,癌症差异表达基因检测就是一个重要的问题。差异表达基因检测统计方法的目的是识别由于实验环境变化而引起的表达水平改变的基因[43]。在基因芯片数据分析中,差异表达基因检测的传统方法通常是假定所有癌症组样本相对于正常组样本都具有过高或过低的表达。......
2023-11-21
样本三均值trimeani:正常组样本三均值trimeanix:癌症组样本三均值trimeaniy:基于ORT方法改进的TriORT方法的统计量TriORT*i定义如下:基因i的癌症组样本集合过高表达时的定义为:其过低表达时的定义为:TriORT方法和ORT方法的不同之处在于,ORT方法中表示数据转换变化的中值和中值绝对离差分别被三均值和三均值绝对离差来代替,这样使得数据稳健,能全面地反映样本数据特征。......
2023-11-21
在COPA方法的基础上,Tibshirani等人在2007年提出的OS方法引入了分位数做启发式规则附加表达值,进行差异表达基因检测。由于差异估算中用正常组样本中值代替了全部数据的中值,ORT方法比COPA方法和OS方法恰当地估计了两组数据的差异。COPA方法和OS方法随差异数目的增加,性能有所降低。Lian在2008年提出的MOST方法隐性地考虑了差异基因表达强度临界值所有可能的取值,通过确定其统计量最大值来确定阈值,从而检测差异表达基因。......
2023-11-21
2005年,Tomlins等人发现了一种不同的差异表达模型,一些致癌基因只在癌症组样本的一小部分中存在异常,这类基因的差异表达检测需要考虑癌症组样本子集相对于正常组样本是过表达的,即一个组中的一部分样本相对于另一个组样本有过高或过低的差异表达,这引起了许多学者的广泛关注[99]。基于假定癌症组所有样本相对于正常组样本都有过高或过低表达的差异表达基因检测统计方法,没有考虑到癌症基因的活化性特点。......
2023-11-21
在国外涉及较早的变点研究是突变点,对于渐变式变点的研究也有一些结论,对于位置参数模型提出了变点的最小二乘法的估计。最小二乘法就是以观察值和理论值之差的平方和作为目标函数,将其达到极小值的点作为有关参数的点估计[8]。给出衡量最小二乘法识别多差异表达基因检测突变点能力的方法,模拟研究最小二乘法对不同具有差异表达基因的基因表达谱数据生成过程的多差异表达基因变点检测效果[10]。......
2023-11-21
Tomlins等人在2005年提出了COPA方法,用于检测癌症组样本一小部分基因相对于正常组样本过表达的差异表达基因检测[101],许多学者由此受到启发,截至2010年9月13日,该文章的引用次数已经达到了763次。David A.Hanauer指出在不久的将来,COPA差异表达基因检测方法会提供较多的与癌症发生演化相关的重要基因,从而为揭开癌症的神秘面纱贡献力量[102]。通过模拟研究和应用到公共基因芯片数据,表明以上成果为综合分析和提高传统差异表达基因检测提供了方法。......
2023-11-21
相关推荐