首页 理论教育差异表达基因检测数据分析成果

差异表达基因检测数据分析成果

【摘要】:Tomlins等人在2005年提出了COPA方法,用于检测癌症组样本一小部分基因相对于正常组样本过表达的差异表达基因检测[101],许多学者由此受到启发,截至2010年9月13日,该文章的引用次数已经达到了763次。David A.Hanauer指出在不久的将来,COPA差异表达基因检测方法会提供较多的与癌症发生演化相关的重要基因,从而为揭开癌症的神秘面纱贡献力量[102]。通过模拟研究和应用到公共基因芯片数据,表明以上成果为综合分析和提高传统差异表达基因检测提供了方法。

Tomlins等人在2005年提出了COPA方法,用于检测癌症组样本一小部分基因相对于正常组样本过表达的差异表达基因检测[101],许多学者由此受到启发,截至2010年9月13日,该文章的引用次数已经达到了763次。David A.Hanauer指出在不久的将来,COPA差异表达基因检测方法会提供较多的与癌症发生演化相关的重要基因,从而为揭开癌症的神秘面纱贡献力量[102]

Tibshirani等人、Wu等人和Lian等人各自在OS方法、ORT方法、MOST方法[103-105]中采用基因表达强度值的样本中值和中值绝对离差表示转换的变化。通过模拟研究和应用到公共基因芯片数据,表明以上成果为综合分析和提高传统差异表达基因检测提供了方法。检测二分类的方法有COPA方法[100]、OS方法[105]、ORT方法[104]以及MOST方法[103]

在具有正常和癌症基因二分类样本的基因芯片数据研究中,检测差异基因表达通常采用的方法是计算T统计方法[106]。T统计方法可以判断一个基因是否差异表达,那些T统计值大于一定临界值的基因就是差异表达基因。(www.chuimin.cn)

Tomlins等人认为由染色体重排列的癌症基因活跃性表达的模型应该是异源的,对癌症基因的多种复杂活动模式进行了改进,由于在癌症组样本的检测中只有一部分子集有差异表达样本,因此提出了用COPA方法来检测异常样本,确定一个使用中值和中值绝对离差作为中心及周围数据的癌症组样本的表达强度百分比。COPA方法被MacDonald和Ghosh进行了改进,并嵌入在R语言的COPA方法包中,此软件包可在www.bioconductor.org上得到。COPA方法由于使用固定的r次位样本百分比,中值遍及所有样本,中值绝对离差不能以完全准确的统计来代替正常组样本均值。Tibshirani等人在2007年对统计方法设计做了进一步的改进,提出了改进的统计方法——OS方法[105]。Wu在2006年提出了与OS方法类似的ORT方法。OS方法和ORT方法的区别是后者的中心基因表达数据只使用控制的样本,周围的数据在一般分离的癌症组样本中,而前者则是所有的数据一起使用。ORT方法较OS方法的优越之处在于差异基因表达的定义不是相对于合并样本而是正常组样本。然而OS方法和ORT方法存在一个共同的缺点,即两者都没有给出具有说服力和公信力的关于异常的定义。为了解决这个问题,Lian在2008年提出了MOST方法[103]

在基因表达谱正常组样本和癌症组样本二分类的基因芯片数据研究中,一般基因芯片数据都是以g×n的矩阵形式存在,包含g个基因,n(n=n0+n1,其中n0是正常组样本数,n1是癌症组样本数)个样本。xij表示正常组样本的基因表达强度值,其中i(i=1,2,…,g)表示基因,j(j=1,2,…,n0)表示样本;yij表示癌症组样本的基因表达强度值,其中i(i=1,2,…,g)表示基因,j(j=1,2,…,n1)表示样本。Zi为指示函数,当其值为0时,表示正常组样本;当其值为1时,表示癌症组样本。