在国外涉及较早的变点研究是突变点,对于渐变式变点的研究也有一些结论,对于位置参数模型提出了变点的最小二乘法的估计。最小二乘法就是以观察值和理论值之差的平方和作为目标函数,将其达到极小值的点作为有关参数的点估计[8]。给出衡量最小二乘法识别多差异表达基因检测突变点能力的方法,模拟研究最小二乘法对不同具有差异表达基因的基因表达谱数据生成过程的多差异表达基因变点检测效果[10]。......
2023-11-21
Tomlins等人在2005年提出了COPA方法,用于检测癌症组样本一小部分基因相对于正常组样本过表达的差异表达基因检测[101],许多学者由此受到启发,截至2010年9月13日,该文章的引用次数已经达到了763次。David A.Hanauer指出在不久的将来,COPA差异表达基因检测方法会提供较多的与癌症发生演化相关的重要基因,从而为揭开癌症的神秘面纱贡献力量[102]。
Tibshirani等人、Wu等人和Lian等人各自在OS方法、ORT方法、MOST方法[103-105]中采用基因表达强度值的样本中值和中值绝对离差表示转换的变化。通过模拟研究和应用到公共基因芯片数据,表明以上成果为综合分析和提高传统差异表达基因检测提供了方法。检测二分类的方法有COPA方法[100]、OS方法[105]、ORT方法[104]以及MOST方法[103]。
在具有正常和癌症基因二分类样本的基因芯片数据研究中,检测差异基因表达通常采用的方法是计算T统计方法[106]。T统计方法可以判断一个基因是否差异表达,那些T统计值大于一定临界值的基因就是差异表达基因。(www.chuimin.cn)
Tomlins等人认为由染色体重排列的癌症基因活跃性表达的模型应该是异源的,对癌症基因的多种复杂活动模式进行了改进,由于在癌症组样本的检测中只有一部分子集有差异表达样本,因此提出了用COPA方法来检测异常样本,确定一个使用中值和中值绝对离差作为中心及周围数据的癌症组样本的表达强度百分比。COPA方法被MacDonald和Ghosh进行了改进,并嵌入在R语言的COPA方法包中,此软件包可在www.bioconductor.org上得到。COPA方法由于使用固定的r次位样本百分比,中值遍及所有样本,中值绝对离差不能以完全准确的统计来代替正常组样本均值。Tibshirani等人在2007年对统计方法设计做了进一步的改进,提出了改进的统计方法——OS方法[105]。Wu在2006年提出了与OS方法类似的ORT方法。OS方法和ORT方法的区别是后者的中心基因表达数据只使用控制的样本,周围的数据在一般分离的癌症组样本中,而前者则是所有的数据一起使用。ORT方法较OS方法的优越之处在于差异基因表达的定义不是相对于合并样本而是正常组样本。然而OS方法和ORT方法存在一个共同的缺点,即两者都没有给出具有说服力和公信力的关于异常的定义。为了解决这个问题,Lian在2008年提出了MOST方法[103]。
在基因表达谱正常组样本和癌症组样本二分类的基因芯片数据研究中,一般基因芯片数据都是以g×n的矩阵形式存在,包含g个基因,n(n=n0+n1,其中n0是正常组样本数,n1是癌症组样本数)个样本。xij表示正常组样本的基因表达强度值,其中i(i=1,2,…,g)表示基因,j(j=1,2,…,n0)表示样本;yij表示癌症组样本的基因表达强度值,其中i(i=1,2,…,g)表示基因,j(j=1,2,…,n1)表示样本。Zi为指示函数,当其值为0时,表示正常组样本;当其值为1时,表示癌症组样本。
有关差异表达基因检测数据分析研究的文章
在国外涉及较早的变点研究是突变点,对于渐变式变点的研究也有一些结论,对于位置参数模型提出了变点的最小二乘法的估计。最小二乘法就是以观察值和理论值之差的平方和作为目标函数,将其达到极小值的点作为有关参数的点估计[8]。给出衡量最小二乘法识别多差异表达基因检测突变点能力的方法,模拟研究最小二乘法对不同具有差异表达基因的基因表达谱数据生成过程的多差异表达基因变点检测效果[10]。......
2023-11-21
差异表达基因检测不仅具有统计学意义,而且具有生物学意义,在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面都有重要的作用。在医学研究中,癌症差异表达基因检测就是一个重要的问题。差异表达基因检测统计方法的目的是识别由于实验环境变化而引起的表达水平改变的基因[43]。在基因芯片数据分析中,差异表达基因检测的传统方法通常是假定所有癌症组样本相对于正常组样本都具有过高或过低的表达。......
2023-11-21
差异表达基因检测普遍采用的方法是计算T统计方法,T统计方法通过两组样本的均值来判断基因是否存在表达差异。差异基因表达检测研究通过在不同实验条件下基因表达水平的显著性变化来判断基因的差异性,通常采用假设检验原理,把样本分为正常组样本和癌症组样本两类,或者分为两种条件下的多次重复试验,并对此进行判断。T统计方法通常用于检测两组样本均值的显著差异性,在差异基因表达检测中,它也是常用的较简洁的统计方法。......
2023-11-21
RNA-Seq测序技术已成为研究基因表达的重要实验手段,比较不同样本中基因表达差异,为解决后续的生物问题提供了定量分析的依据。生物信息学科的研究工作者近年来也意识到了大数据带来的挑战,开发了一些基于云计算的分析软件,其中涉及RNA-Seq数据分析的主要有MyRNA、Crossbow等。本部分的研究即将要构建的基因差异表达分析流程就是针对RNA-Seq技术得到的原始数据进行设计和实现的。......
2023-11-21
在农作物的基因育种方面,基因芯片技术已经成为育种工作的一项重要手段,利用基因芯片技术可以在多样本、高通量群体中进行基因筛选,从而找到携带目的基因的优良个体,充分利用有利的基因序列资源,创造方便、快捷的育种工作环境。近几年来,以基因芯片技术为代表的生物芯片技术迅速发展,使人类科学技术的研究有了阶段性的进步,对科学技术的发展产生了巨大的影响[32-34]。......
2023-11-21
每个Reads片段都对应了一个基因的某个转录本,所以通过将Reads序列Mapping到参考基因组序列上,继而根据该参考基因组已有的基因注释信息,推定出各个基因在转录组中对应的表达量的高低。Reads序列Mapping的结果往往存储在Sam文件或者Bam文件中[180,181]。......
2023-11-21
许多研究者对此进行了研究,并提出了多种差异表达基因检测方法。OPA方法采用基因组数据异常分析的非参数方法对某特定基因进行检测,这个基因的基因芯片数据的一个组中只有一部分样本相对于另一组样本过高表达,剩余的样本没有差异表达的迹象。PACK方法、PADGE方法、PPRM方法、OPA方法、LRS方法也研究了假定癌症组子集样本相对于正常组样本有过高或过低表达的差异基因表达检测统计方法。......
2023-11-21
样本三均值trimeani:正常组样本三均值trimeanix:癌症组样本三均值trimeaniy:基于ORT方法改进的TriORT方法的统计量TriORT*i定义如下:基因i的癌症组样本集合过高表达时的定义为:其过低表达时的定义为:TriORT方法和ORT方法的不同之处在于,ORT方法中表示数据转换变化的中值和中值绝对离差分别被三均值和三均值绝对离差来代替,这样使得数据稳健,能全面地反映样本数据特征。......
2023-11-21
相关推荐