首页 理论教育差异表达基因检测方法研究

差异表达基因检测方法研究

【摘要】:发现差异表达基因是微阵列实验研究的主要目的之一[44-47]。传统的差异表达基因检测方法基于癌症组所有样本的基因表达强度一致地为过高或过低表达这样一个假定[69,70],如传统的T统计方法是对比两组表达值分布的均值,从而检测其差异[25]。差异表达基因检测方法不仅在统计量方面发展迅速,而且加强了对FDR错误发现率的控制,以减少假阳性并充分发挥数据分析的作用[71,72]。常用的传统差异表达基因检测方法如下。

发现差异表达基因是微阵列实验研究的主要目的之一[44-47]。因此,涌现了许多差异表达基因检测的方法[48-57]

通常微阵列实验中的典型问题是在疾病组织和正常组织中实现两分类或多分类差异基因的识别问题[58-68]。传统的差异表达基因检测方法基于癌症组所有样本的基因表达强度一致地为过高或过低表达这样一个假定[69,70],如传统的T统计方法是对比两组表达值分布的均值,从而检测其差异[25]

差异基因表达数据检测方法的研究经历了不断发展和创新的过程,从无统计意义的倍数分析发展到需要计算等方差的T统计方法,进一步发展到不需要计算等方差的改进T统计方法,再发展到不受小方差数据影响的SAM以及贝叶斯模型。各种新方法不断提出,使基因芯片技术在数据挖掘方面不断得到提高和完善[51]。差异表达基因检测方法不仅在统计量方面发展迅速,而且加强了对FDR错误发现率的控制,以减少假阳性并充分发挥数据分析的作用[71,72]。本章对其中常用的差异基因表达方法做了简单的综述,并对其进行了分析。常用的传统差异表达基因检测方法如下。

1.T统计方法

T统计方法是差异表达基因检测中比较常用的方法,也是简单的统计方法,在差异表达基因检测中基于所有癌症组样本都过表达的思想。T统计方法通过合并样本间可变的数据来评价差异表达[73,74],用于判断某一基因在两个样本(两种实验条件)中表达是否有显著性差异。当T统计值超过根据可信度选择的标准时,可以认为比较的样本存在着差异。BH(Benjamini Hochberg)程序算法也应用到两分类T检验中[75]。但T统计方法也有局限性,该方法容易受到样本量的限制,小样本导致了不可信的变异估计。T统计方法在符合高斯曲线的数据中很强大,在不符合高斯曲线的数据中效果不好。

2.ANOVA方差分析方法(www.chuimin.cn)

ANOVA方差分析又称变异数分析或F检验[76,77],采用两两比较的技术手段,考虑了多于两个样本之间均数的比较,目的是推断两组或多组数据的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义[78-82]

3.SAM方法

SAM(Significance Analysis of Microarrays)方法,即筛选基因芯片差异表达基因的统计方法,由Tusher等人提出[82],它在基因特异性T统计方法的分母中加入一个较小的正值,使差异表达具有较小变化的基因不会因为具有很小的标准误差而被误判为差异表达基因。该方法减小了基因特异性T统计方法的不稳定性,有效降低了假阳性率。

4.基于两分步计划的差异表达基因检测

朱军等人在2004年提出了基于两分步计划分析基因芯片数据的混合模式方法的基因芯片数据分析方法,并进行差异表达基因检测。第一步:以宽松的确认标准选择潜在表达差异的基因集合;第二步:以严格的标准进一步分析和挖掘潜在的基因[83]