【摘要】:差异表达基因检测不仅具有统计学意义,而且具有生物学意义,在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面都有重要的作用。在医学研究中,癌症差异表达基因检测就是一个重要的问题。差异表达基因检测统计方法的目的是识别由于实验环境变化而引起的表达水平改变的基因[43]。在基因芯片数据分析中,差异表达基因检测的传统方法通常是假定所有癌症组样本相对于正常组样本都具有过高或过低的表达。
微阵列基因芯片技术可以同时检测成千上万个生物样本的基因表达水平,从而得到大量的基因表达谱数据。基因表达谱不仅数据量非常庞大,而且在数据中蕴含着丰富的生物学知识[39,40]。通过分析基因表达谱数据,比较相同基因在不同环境条件、不同组织(如癌症组织和正常组织)中的不同表达强度,发现那些有可能与疾病诊断相关的基因,这就需要从微阵列基因芯片样本中检测出差异表达基因,进行差异表达基因检测[41]。
在基因芯片数据生成过程中,差异基因虽然与数据主体来自同一分布,但其本身以极小的概率出现,对既定模型偏离很大,拟合效果很差,是既定分布中的极端观测点。单基因水平的基因表达谱数据分析利用统计学中的假设检验,从表达谱中筛选出潜在的差异表达基因。通过在不同实验条件下基因表达水平的变化来判断基因的差异,分析基因在正常组样本和癌症组样本之间的差异,通过组间比较,确定同一个基因在不同组织之间和同一组织的不同条件和状态(如正常与癌症)下,排除实验、检测等因素后有差异表达的、与条件相关的特异性基因[42]。差异表达基因检测不仅具有统计学意义,而且具有生物学意义,在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面都有重要的作用。在医学研究中,癌症差异表达基因检测就是一个重要的问题。
鉴于微阵列实验的费用昂贵,而且用来满足实验数据分析要求的足够多的微阵列实验不可能全部都做,因此运用统计方法分析基因表达谱数据就非常有价值。差异表达基因检测统计方法的目的是识别由于实验环境变化而引起的表达水平改变的基因[43]。
在基因芯片数据分析中,差异表达基因检测的传统方法通常是假定所有癌症组样本相对于正常组样本都具有过高或过低的表达。但2005年Tomlins等人指出差异基因表达是癌症组样本子集相对于正常组样本过表达的现象,并在Science杂志上发表文章,指出进行差异表达基因检测的研究必须考虑到基因活化的异质性,大多数人的前列腺癌症转录因子基因被雄激素异常调节,导致这类转录因子在前列腺癌症中过度表达,并推测在其他常见固体癌症中也存在这种过表达情况[1]。(www.chuimin.cn)
针对部分癌症组样本子集相对于正常组样本过表达的现象,Tomlins等人提出了检测差异基因表达的COPA(Cancer Outlier Profile Analysis)方法。受COPA方法启发,Tibshirani等人于2007年提出了OS(Outlier Sum)方法[2];Wu于2007年提出了ORT(Outlier Robust T-statistics)方法[3];Lian于2008年提出了MOST(Maximum Ordered Subset T-statistics)方法[4]。COPA方法、OS方法、ORT方法和MOST方法的共同特点是以参数方法采用样本基因表达强度的中值和中值绝对离差定义差异基因表达的统计量,并且都利用基因表达谱分位数来定义差异表达基因的表达强度。研究者针对差异表达基因检测癌症组样本子集相对于正常组样本过表达的情况,提出了TriMOST(Trimean Maximum Ordered Subset T-statistics)方法和TriORT(Trimean Outlier Robust T-statistics)方法[5,6]。
但COPA方法、OS方法、ORT方法、MOST方法、TriORT方法和Tri-MOST方法都需要通过对基因表达强度值重新排序,并通过分位数原理来确定过高表达或过低表达的基因。该问题从另一个角度来研究,即检测癌症组基因表达强度的变点。Hu于2008年提出了LRS(Likelihood Ratio Statistics test)方法,基于似然率来寻找癌症组样本中差异基因表达强度的变化[7]。LRS方法指出,变点是模型中的某个或某些量发生突然变化的点,而这种突然变化通常能够反映出事物的某种质的变化。癌症组数据中的癌症组样本的基因表达强度值可以看作基因表达谱数据中的变点异常值。研究发现基于似然率的LRS方法在检测癌症差异表达基因方面效果比其他方法略好。
相关推荐