首页 理论教育生物芯片数据分析:癌症异常差异表达基因检测的研究进展

生物芯片数据分析:癌症异常差异表达基因检测的研究进展

【摘要】:由癌症病例可知,癌症基因有异常表达,因此假设在生物芯片数据中癌症组样本只有一部分是具有活性的,通常称作异常值,这里可以认为是差异表达基因。检测差异表达基因是生物芯片数据分析的核心问题,目前已经有多种统计方法用来发现正常组样本和癌症组样本之间的差别。癌症异常差异表达基因检测在医学探索中是一个重要的问题,它以检测基因差异表达为目标,近些年已成为研究的热点。

癌症组样本基因表达强度的分布中,检测差异表达基因,把癌症异常样本看作从分布中得来,具有比正常组样本和其他癌症组样本较高的表达强度。已知基因融合或染色体异位可能发生在活跃的基因和多样的癌症基因之间,一个异位在每个样本中只发生一次,在癌症组样本中只有一小部分的基因表现有规律的增长。在基因芯片数据所有样本中有一部分癌症组样本的基因表达强度值表现得显著过高或过低。这在癌症研究中十分有用,基因突变发生在少数样本中,它使基因表达放大或关闭[90]。在一个样本组中,仅一小部分样本集合中有过表达的基因,这种情况是十分重要的。

细胞内的表达基因按照一定的顺序进行表达,在发生突变或被异常激活的情况下,基因序列被改变,引起一定的表型变化,从而促使人或动物的正常细胞发生癌变,转化为肿瘤细胞。由癌症病例可知,癌症基因有异常表达,因此假设在生物芯片数据中癌症组样本只有一部分是具有活性的,通常称作异常值,这里可以认为是差异表达基因。

检测差异表达基因是生物芯片数据分析的核心问题,目前已经有多种统计方法用来发现正常组样本和癌症组样本之间的差别。但是,大多数方法都假定所有癌症组样本都一致表现为过高或过低表达[97]。2005年Tom lins等人在Science杂志上发表文章,指出在一种常见上皮细胞固态肿瘤中,首次发现非随机复发基因融合位点,而这样的重新排列以前只认为发生在肉瘤、白血病、淋巴瘤中。他们整理归类前列腺癌的基因复杂性,发现大多数人的前列腺肿瘤表现出一个特有的染色体重排,使编码特定转录因子的基因与来自另一个基因的调节序列融合。这种融合的结果是,转录因子基因被雄激素异常调节,导致这个转录因子在前列腺肿瘤中过表达。由于常见癌症的发生率高,总体上说明了实际在人类其他常见固体肿瘤(如乳腺癌、结肠癌等)中普遍有这么一种类似的基因重新排列现象[99]。因为癌症基因活化性的异样样本符合大多数癌症类型,所以可以假设病态样本中只有一个子集是活跃的(高活跃癌症组样本称作异常值)。

Lyons-Weiler和Tomlins等人注意到,对于特定基因,其癌症组样本相对于正常组样本并不是全部都过表达的,差异基因可能仅在样本的一个子集中被激活,剩余样本并没有异常表达的迹象[90,99]。统计学上的异常是指数据集中超过预期变化的量,通过差异表达基因检测试图寻找致癌基因假定和癌症的发展有关。(www.chuimin.cn)

传统的差异表达基因检测是基于癌症组样本的表达值相对于正常组样本都表现得过高或过低,而Tomlins等人研究的新发现是其中一组样本的一部分相对于另一组样本有过表达,这成为差异表达基因模式的一种不同类型。Gruetzmann等人在2005年检测了568个在胰腺癌中具有过高或过低一致调节的差异表达基因,这个也为胰腺癌的发生、诊断和治疗提供了新的线索[100]

Tomlins等人于2005年发现在基因芯片数据中癌症组样本仅有一小部分被激活(通常指异常点),改变了传统的差异表达基因对所有样本都是过表达的观点,癌症基因通过癌症组样本趋向多种表达方式。Tomlins等人通过实验发现,ERG-ETV1基因有特殊的表达值。在一部分样本中,这些基因过高表达,而在其他样本中,这些基因则没有任何表达值[99]。癌症异常差异表达基因检测在医学探索中是一个重要的问题,它以检测基因差异表达为目标,近些年已成为研究的热点