首页 理论教育差异表达基因检测方法简介

差异表达基因检测方法简介

【摘要】:许多研究者对此进行了研究,并提出了多种差异表达基因检测方法。OPA方法采用基因组数据异常分析的非参数方法对某特定基因进行检测,这个基因的基因芯片数据的一个组中只有一部分样本相对于另一组样本过高表达,剩余的样本没有差异表达的迹象。PACK方法、PADGE方法、PPRM方法、OPA方法、LRS方法也研究了假定癌症组子集样本相对于正常组样本有过高或过低表达的差异基因表达检测统计方法。

传统的差异表达基因检测方法是假定癌症组所有样本相对于正常组样本都是过表达的,对于具有较高均值分布的癌症差异表达基因检测来说,T统计方法具有较好的识别能力。而许多研究发现很多基因出现在癌症组样本中都是过表达的,并且肿瘤具有异质性,因此对于数据量较大的基因芯片来说,假定癌症组所有样本相对于正常组都是过表达的,会有很高的错误发现率(False Discovery Rate,FDR)。许多研究者对此进行了研究,并提出了多种差异表达基因检测方法。

1.PACK方法

Andrew E.Teschendorff在2006年提出了PACK(Proile Analysis using Clustering and Kurtosis)方法,该方法是基于基因表达谱中混合模型和非高斯方法的特定选择程序,能识别相关的分类或在监督分析前排除可能的假阳性错误,同时该方法是一个普遍的特征选择模式识别方法[84]。PACK方法通过检测中值绝对离差或基因表达差异峰度,来识别有瘤子集标记的癌症标记,从一个给定数据组的所有样本出发考虑了表达值。使用模式识别推断单个基因表达谱中聚类的数目,有助于在较大集合中识别相关的标志,有效减少FDR。

PACK方法在基因芯片数据寻找新的生物或临床分类方面有重要价值,有助于进一步描述癌症分子分类系统的特点。

2.PADGE方法

Li Li等在2007年提出了PADGE(Percentile Analysis for Differential Gene Expression)方法,设计了百分比分析差异基因表达分析方法,通过识别两组不均匀样本来检测差异基因表达。该方法不仅可以在两个样本组间对比规模和多样性以及在样本组次组中定义不同的表达,还可以在任何以样本异构性为关注点的研究领域中广泛使用。生物样本是异构的,因为实验者常常不知道分子亚型或基因背景,样本次组中重要基因的不同表达会因基于样本均值差别的基因选择规则而出错[85]。PADGE方法从那些在所有癌症组样本中有普遍过表达的癌症组样本中区分出在癌症次组中的过表达基因,将在正常组样本和具体到癌症组样本的癌症基因活动的异构模式纳入考虑范围。

3.PPRM方法(www.chuimin.cn)

Mugdha Gadgil在2008年提出了PPRM(the Population Proportion Ranking Method)方法,在一个类的样本子集中寻找表达异常的基因,适用于计算内部样本比例并可用来说明计算不同表达基因的特点,这些基因在至少两类样本中的表达水平有明显的不同[86]。用DNA芯片研究两类样本和多类样本在基因表达上的差异基因,许多方法是在类间比较均值表达水平,而不是在一个类的样本子集中寻找表达差异的基因。临床上相似的表现型可能是由不同的分子结构引起的,在一个类的样本子集中差异表达的基因在这种情况下很重要[87-91]。这种方法使得使用者能提前定义在这两类样本中一个基因表达水平的差异所要求的量纲和类内部多样性所允许的水平,并能够定义可能在一个类的一个副样本中表达不同的基因和在一类个中有高度多样性的基因。

4.OPA方法

Debashis Ghosh在2008年提出了OPA(Outlier Profile Analysis)方法,该方法描述了一种一般的混合模型,用于评估一组样本的一部分相对于另一组样本的过表达[48]。OPA方法首先考虑到单基因情况,并得出估算可识别的结果,提出两个非参数估计过程,该过程与常用的多重测试程序相关,并发展了这种方法的多元扩展来解决基因组范围内的测量。OPA方法采用基因组数据异常分析的非参数方法对某特定基因进行检测,这个基因的基因芯片数据的一个组中只有一部分样本相对于另一组样本过高表达,剩余的样本没有差异表达的迹象。

5.LRS方法

Jianhua Hu在2007年提出了LRS方法,该方法是基于似然性的方法在癌症组样本的基因表达强度中寻找改变的点,选取最大似然率进行癌症组样本检测,检测癌症组样本中表达强度的转变。因为基因融合或染色体异位可能发生在活跃的基因和多样的癌症基因之间,一个异位在每个样本中只发生一次,这启发了一种以单独的基因为目标的方法,寻找在两个相互排斥的癌症组样本子集中过高或过低调节的基因对[92]。LRS方法从一个不同的角度看,在癌症组样本对基因表达强度的分布中检测改变点,把癌症异常样本看作从分布中得来,比正常组样本和其他癌症组样本有更高的表达强度,可以检测癌症组样本子集中过高或过低表达的样本。

PACK方法、PADGE方法、PPRM方法、OPA方法、LRS方法也研究了假定癌症组子集样本相对于正常组样本有过高或过低表达的差异基因表达检测统计方法。这些方法有力地促进了人们对差异基因表达检测在癌症组样本子集过表达,而不是对癌症组所有样本都过表达的研究[93-95]