许多研究者对此进行了研究,并提出了多种差异表达基因检测方法。OPA方法采用基因组数据异常分析的非参数方法对某特定基因进行检测,这个基因的基因芯片数据的一个组中只有一部分样本相对于另一组样本过高表达,剩余的样本没有差异表达的迹象。PACK方法、PADGE方法、PPRM方法、OPA方法、LRS方法也研究了假定癌症组子集样本相对于正常组样本有过高或过低表达的差异基因表达检测统计方法。......
2023-11-21
发现差异表达基因是微阵列实验研究的主要目的之一[44-47]。因此,涌现了许多差异表达基因检测的方法[48-57]。
通常微阵列实验中的典型问题是在疾病组织和正常组织中实现两分类或多分类差异基因的识别问题[58-68]。传统的差异表达基因检测方法基于癌症组所有样本的基因表达强度一致地为过高或过低表达这样一个假定[69,70],如传统的T统计方法是对比两组表达值分布的均值,从而检测其差异[25]。
差异基因表达数据检测方法的研究经历了不断发展和创新的过程,从无统计意义的倍数分析发展到需要计算等方差的T统计方法,进一步发展到不需要计算等方差的改进T统计方法,再发展到不受小方差数据影响的SAM以及贝叶斯模型。各种新方法不断提出,使基因芯片技术在数据挖掘方面不断得到提高和完善[51]。差异表达基因检测方法不仅在统计量方面发展迅速,而且加强了对FDR错误发现率的控制,以减少假阳性并充分发挥数据分析的作用[71,72]。本章对其中常用的差异基因表达方法做了简单的综述,并对其进行了分析。常用的传统差异表达基因检测方法如下。
1.T统计方法
T统计方法是差异表达基因检测中比较常用的方法,也是简单的统计方法,在差异表达基因检测中基于所有癌症组样本都过表达的思想。T统计方法通过合并样本间可变的数据来评价差异表达[73,74],用于判断某一基因在两个样本(两种实验条件)中表达是否有显著性差异。当T统计值超过根据可信度选择的标准时,可以认为比较的样本存在着差异。BH(Benjamini Hochberg)程序算法也应用到两分类T检验中[75]。但T统计方法也有局限性,该方法容易受到样本量的限制,小样本导致了不可信的变异估计。T统计方法在符合高斯曲线的数据中很强大,在不符合高斯曲线的数据中效果不好。
2.ANOVA方差分析方法(www.chuimin.cn)
ANOVA方差分析又称变异数分析或F检验[76,77],采用两两比较的技术手段,考虑了多于两个样本之间均数的比较,目的是推断两组或多组数据的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义[78-82]。
3.SAM方法
SAM(Significance Analysis of Microarrays)方法,即筛选基因芯片差异表达基因的统计方法,由Tusher等人提出[82],它在基因特异性T统计方法的分母中加入一个较小的正值,使差异表达具有较小变化的基因不会因为具有很小的标准误差而被误判为差异表达基因。该方法减小了基因特异性T统计方法的不稳定性,有效降低了假阳性率。
4.基于两分步计划的差异表达基因检测
朱军等人在2004年提出了基于两分步计划分析基因芯片数据的混合模式方法的基因芯片数据分析方法,并进行差异表达基因检测。第一步:以宽松的确认标准选择潜在表达差异的基因集合;第二步:以严格的标准进一步分析和挖掘潜在的基因[83]。
有关差异表达基因检测数据分析研究的文章
许多研究者对此进行了研究,并提出了多种差异表达基因检测方法。OPA方法采用基因组数据异常分析的非参数方法对某特定基因进行检测,这个基因的基因芯片数据的一个组中只有一部分样本相对于另一组样本过高表达,剩余的样本没有差异表达的迹象。PACK方法、PADGE方法、PPRM方法、OPA方法、LRS方法也研究了假定癌症组子集样本相对于正常组样本有过高或过低表达的差异基因表达检测统计方法。......
2023-11-21
差异表达基因检测可以寻找相对于正常组织过高或过低调节的癌症组织,在医学临床诊断、药物疗效判断、揭示癌症疾病发生机制等方面都有重要的作用。本书总结了Tomlins等人关于癌症组样本子集过表达的差异表达基因检测统计方法,同时通过模拟研究和真实数据的检验,比较分析了这些差异表达基因检测方法,并提出了改进的差异表达基因检测方法。......
2023-11-21
在国外涉及较早的变点研究是突变点,对于渐变式变点的研究也有一些结论,对于位置参数模型提出了变点的最小二乘法的估计。最小二乘法就是以观察值和理论值之差的平方和作为目标函数,将其达到极小值的点作为有关参数的点估计[8]。给出衡量最小二乘法识别多差异表达基因检测突变点能力的方法,模拟研究最小二乘法对不同具有差异表达基因的基因表达谱数据生成过程的多差异表达基因变点检测效果[10]。......
2023-11-21
差异表达基因检测不仅具有统计学意义,而且具有生物学意义,在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面都有重要的作用。在医学研究中,癌症差异表达基因检测就是一个重要的问题。差异表达基因检测统计方法的目的是识别由于实验环境变化而引起的表达水平改变的基因[43]。在基因芯片数据分析中,差异表达基因检测的传统方法通常是假定所有癌症组样本相对于正常组样本都具有过高或过低的表达。......
2023-11-21
样本三均值trimeani:正常组样本三均值trimeanix:癌症组样本三均值trimeaniy:基于ORT方法改进的TriORT方法的统计量TriORT*i定义如下:基因i的癌症组样本集合过高表达时的定义为:其过低表达时的定义为:TriORT方法和ORT方法的不同之处在于,ORT方法中表示数据转换变化的中值和中值绝对离差分别被三均值和三均值绝对离差来代替,这样使得数据稳健,能全面地反映样本数据特征。......
2023-11-21
COPA方法是基于癌症组样本数据的第r分位数来确定差异基因表达值的。OS方法计算OS*i统计量,并且引入启发式规则附加表达值,利用分位数的知识对基因芯片数据进行基因表达的差异表达基因检测。在式中,差异表达基因的数量默认为个。COPA方法、OS方法、ORT方法和MOST方法的共同特点是以参数方法,采用样本基因表达强度的中值和中值绝对离差定义差异基因表达的统计量,都利用基因表达的分位数检测差异基因表达。......
2023-11-21
在COPA方法的基础上,Tibshirani等人在2007年提出的OS方法引入了分位数做启发式规则附加表达值,进行差异表达基因检测。由于差异估算中用正常组样本中值代替了全部数据的中值,ORT方法比COPA方法和OS方法恰当地估计了两组数据的差异。COPA方法和OS方法随差异数目的增加,性能有所降低。Lian在2008年提出的MOST方法隐性地考虑了差异基因表达强度临界值所有可能的取值,通过确定其统计量最大值来确定阈值,从而检测差异表达基因。......
2023-11-21
在农作物的基因育种方面,基因芯片技术已经成为育种工作的一项重要手段,利用基因芯片技术可以在多样本、高通量群体中进行基因筛选,从而找到携带目的基因的优良个体,充分利用有利的基因序列资源,创造方便、快捷的育种工作环境。近几年来,以基因芯片技术为代表的生物芯片技术迅速发展,使人类科学技术的研究有了阶段性的进步,对科学技术的发展产生了巨大的影响[32-34]。......
2023-11-21
相关推荐