差异表达基因检测不仅具有统计学意义,而且具有生物学意义,在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面都有重要的作用。在医学研究中,癌症差异表达基因检测就是一个重要的问题。差异表达基因检测统计方法的目的是识别由于实验环境变化而引起的表达水平改变的基因[43]。在基因芯片数据分析中,差异表达基因检测的传统方法通常是假定所有癌症组样本相对于正常组样本都具有过高或过低的表达。......
2023-11-21
在癌症组样本基因表达强度的分布中,检测差异表达基因,把癌症异常样本看作从分布中得来,具有比正常组样本和其他癌症组样本较高的表达强度。已知基因融合或染色体异位可能发生在活跃的基因和多样的癌症基因之间,一个异位在每个样本中只发生一次,在癌症组样本中只有一小部分的基因表现有规律的增长。在基因芯片数据所有样本中有一部分癌症组样本的基因表达强度值表现得显著过高或过低。这在癌症研究中十分有用,基因突变发生在少数样本中,它使基因表达放大或关闭[90]。在一个样本组中,仅一小部分样本集合中有过表达的基因,这种情况是十分重要的。
细胞内的表达基因按照一定的顺序进行表达,在发生突变或被异常激活的情况下,基因序列被改变,引起一定的表型变化,从而促使人或动物的正常细胞发生癌变,转化为肿瘤细胞。由癌症病例可知,癌症基因有异常表达,因此假设在生物芯片数据中癌症组样本只有一部分是具有活性的,通常称作异常值,这里可以认为是差异表达基因。
检测差异表达基因是生物芯片数据分析的核心问题,目前已经有多种统计方法用来发现正常组样本和癌症组样本之间的差别。但是,大多数方法都假定所有癌症组样本都一致表现为过高或过低表达[97]。2005年Tom lins等人在Science杂志上发表文章,指出在一种常见上皮细胞固态肿瘤中,首次发现非随机复发基因融合位点,而这样的重新排列以前只认为发生在肉瘤、白血病、淋巴瘤中。他们整理归类前列腺癌的基因复杂性,发现大多数人的前列腺肿瘤表现出一个特有的染色体重排,使编码特定转录因子的基因与来自另一个基因的调节序列融合。这种融合的结果是,转录因子基因被雄激素异常调节,导致这个转录因子在前列腺肿瘤中过表达。由于常见癌症的发生率高,总体上说明了实际在人类其他常见固体肿瘤(如乳腺癌、结肠癌等)中普遍有这么一种类似的基因重新排列现象[99]。因为癌症基因活化性的异样样本符合大多数癌症类型,所以可以假设病态样本中只有一个子集是活跃的(高活跃癌症组样本称作异常值)。
Lyons-Weiler和Tomlins等人注意到,对于特定基因,其癌症组样本相对于正常组样本并不是全部都过表达的,差异基因可能仅在样本的一个子集中被激活,剩余样本并没有异常表达的迹象[90,99]。统计学上的异常是指数据集中超过预期变化的量,通过差异表达基因检测试图寻找致癌基因假定和癌症的发展有关。(www.chuimin.cn)
传统的差异表达基因检测是基于癌症组样本的表达值相对于正常组样本都表现得过高或过低,而Tomlins等人研究的新发现是其中一组样本的一部分相对于另一组样本有过表达,这成为差异表达基因模式的一种不同类型。Gruetzmann等人在2005年检测了568个在胰腺癌中具有过高或过低一致调节的差异表达基因,这个也为胰腺癌的发生、诊断和治疗提供了新的线索[100]。
Tomlins等人于2005年发现在基因芯片数据中癌症组样本仅有一小部分被激活(通常指异常点),改变了传统的差异表达基因对所有样本都是过表达的观点,癌症基因通过癌症组样本趋向多种表达方式。Tomlins等人通过实验发现,ERG-ETV1基因有特殊的表达值。在一部分样本中,这些基因过高表达,而在其他样本中,这些基因则没有任何表达值[99]。癌症异常差异表达基因检测在医学探索中是一个重要的问题,它以检测基因差异表达为目标,近些年已成为研究的热点。
有关差异表达基因检测数据分析研究的文章
差异表达基因检测不仅具有统计学意义,而且具有生物学意义,在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面都有重要的作用。在医学研究中,癌症差异表达基因检测就是一个重要的问题。差异表达基因检测统计方法的目的是识别由于实验环境变化而引起的表达水平改变的基因[43]。在基因芯片数据分析中,差异表达基因检测的传统方法通常是假定所有癌症组样本相对于正常组样本都具有过高或过低的表达。......
2023-11-21
Tomlins等人在2005年提出了COPA方法,用于检测癌症组样本一小部分基因相对于正常组样本过表达的差异表达基因检测[101],许多学者由此受到启发,截至2010年9月13日,该文章的引用次数已经达到了763次。David A.Hanauer指出在不久的将来,COPA差异表达基因检测方法会提供较多的与癌症发生演化相关的重要基因,从而为揭开癌症的神秘面纱贡献力量[102]。通过模拟研究和应用到公共基因芯片数据,表明以上成果为综合分析和提高传统差异表达基因检测提供了方法。......
2023-11-21
在国外涉及较早的变点研究是突变点,对于渐变式变点的研究也有一些结论,对于位置参数模型提出了变点的最小二乘法的估计。最小二乘法就是以观察值和理论值之差的平方和作为目标函数,将其达到极小值的点作为有关参数的点估计[8]。给出衡量最小二乘法识别多差异表达基因检测突变点能力的方法,模拟研究最小二乘法对不同具有差异表达基因的基因表达谱数据生成过程的多差异表达基因变点检测效果[10]。......
2023-11-21
RNA-Seq测序技术已成为研究基因表达的重要实验手段,比较不同样本中基因表达差异,为解决后续的生物问题提供了定量分析的依据。生物信息学科的研究工作者近年来也意识到了大数据带来的挑战,开发了一些基于云计算的分析软件,其中涉及RNA-Seq数据分析的主要有MyRNA、Crossbow等。本部分的研究即将要构建的基因差异表达分析流程就是针对RNA-Seq技术得到的原始数据进行设计和实现的。......
2023-11-21
在农作物的基因育种方面,基因芯片技术已经成为育种工作的一项重要手段,利用基因芯片技术可以在多样本、高通量群体中进行基因筛选,从而找到携带目的基因的优良个体,充分利用有利的基因序列资源,创造方便、快捷的育种工作环境。近几年来,以基因芯片技术为代表的生物芯片技术迅速发展,使人类科学技术的研究有了阶段性的进步,对科学技术的发展产生了巨大的影响[32-34]。......
2023-11-21
每个Reads片段都对应了一个基因的某个转录本,所以通过将Reads序列Mapping到参考基因组序列上,继而根据该参考基因组已有的基因注释信息,推定出各个基因在转录组中对应的表达量的高低。Reads序列Mapping的结果往往存储在Sam文件或者Bam文件中[180,181]。......
2023-11-21
许多研究者对此进行了研究,并提出了多种差异表达基因检测方法。OPA方法采用基因组数据异常分析的非参数方法对某特定基因进行检测,这个基因的基因芯片数据的一个组中只有一部分样本相对于另一组样本过高表达,剩余的样本没有差异表达的迹象。PACK方法、PADGE方法、PPRM方法、OPA方法、LRS方法也研究了假定癌症组子集样本相对于正常组样本有过高或过低表达的差异基因表达检测统计方法。......
2023-11-21
在差异表达基因检测统计方法中,传统的T统计方法假设所有癌症组样本相对于正常组样本都是过表达的。Wu在2007年提出的ORT方法对OS方法进行了改进。Lian在2008年提出的MOST方法考虑了差异基因表达所有可能的临界值。当活跃样本数目未知时,MOST方法比其他方法更有效;当活跃样本数目较少时,其效果与ORT方法相似;当差异表达的样本数目较多时,MOST方法的效果较好[103]。......
2023-11-21
相关推荐