首页 理论教育差异表达基因检测方法总结及改进研究

差异表达基因检测方法总结及改进研究

【摘要】:差异表达基因检测可以寻找相对于正常组织过高或过低调节的癌症组织,在医学临床诊断、药物疗效判断、揭示癌症疾病发生机制等方面都有重要的作用。本书总结了Tomlins等人关于癌症组样本子集过表达的差异表达基因检测统计方法,同时通过模拟研究和真实数据的检验,比较分析了这些差异表达基因检测方法,并提出了改进的差异表达基因检测方法。

微阵列技术能同时检测成千上万个生物基因样本的表达水平,并产生蕴含着丰富生物学知识的基因表达谱数据。基因表达谱数据分析就是通过对有效数据的筛选和相关基因表达谱数据的统计检测,整合杂交点的生物学信息,从而发现基因的表达谱与功能可能存在的联系。根据研究的目的不同,基因表达谱数据分析方法通常有三个层次:差异表达基因检测、聚类分析判别分析,其中差异表达基因检测就是使用参照实验设计进行的重复实验,对两样本或多样本基因表达数据进行差异表达基因分析,利用统计学中的假设检验,研究单基因水平的基因表达谱数据。差异表达基因检测从表达谱数据中筛选出潜在的、有过差异表达的癌症样本,从而发现癌症特异性基因。差异表达基因检测可以寻找相对于正常组织过高或过低调节的癌症组织,在医学临床诊断、药物疗效判断、揭示癌症疾病发生机制等方面都有重要的作用。

获得差异表达基因检测微阵列基因表达谱数据的方法很多,传统的差异表达基因检测方法(如T统计方法)通常假定癌症组所有样本相对于正常组样本都过表达。2005年10月,Tomlins等人在Science杂志上发表文章指出人的前列腺肿瘤转录因子基因被雄激素异常调节,在前列腺肿瘤中过表达,并据此推测其他常见固体肿瘤(如乳腺癌、结肠癌等)中也存在这种过表达情况,导致这种过表达的特定差异基因可能仅在样本的子集中被激活,剩余样本没有差异表达的迹象。癌症基因活化性的异样样本符合大多数癌症类型,因此假设生物芯片癌症组样本仅子集一部分是具有活性的,在少数样本中发生突变,基因表达强度值表现得显著过高或过低。这种差异基因表达的特性为癌症研究提供了新的探索方式,许多学者对这一现象做了深入探讨和分析,并提出了多种统计检测方法。本书总结了Tomlins等人关于癌症组样本子集过表达的差异表达基因检测统计方法,同时通过模拟研究和真实数据的检验,比较分析了这些差异表达基因检测方法,并提出了改进的差异表达基因检测方法。

首先采集真实的癌症数据(如乳腺癌数据以及本地区多发性癌症肿瘤——胃癌数据等)作为基因芯片数据;其次对基因芯片数据进行整理,检验数据的正确性,去掉数据冗余等,并分析其统计特性;最后对比分析已有的基因表达数据方法(尤其是基于变点理论的),研究不同方法在基因表达数据分析中的不同效果。这部分研究的开展能够使我们进一步理解差异表达基因检测数据的特点,为本书后面的深入研究奠定基础。(www.chuimin.cn)

对于乳腺癌真实数据,一般需要合并重复数据、清除不完整的数据或丢失数据、行填补等数据清洗,根据分析的目的进行数据过滤,以及针对分析方法选择合适的数据转换方法等。进行基因芯片数据标准化,通过数据转换(如对数)来达到假设正态分布或者估计的经验分布,使用分位数标准化和对数变换可对处理的数据做统计分析。标准化后的数据再用差异表达基因检测方法进行检测。真实数据使用的数据集是乳腺癌微阵列数据,应用各种方法对标准化后的真实数据进行分析。通过使用Bioconductor提供的注释包hu6800,将这些基因从Affemetrix identifiers映射到UniGene cluster identifiers,然后在PubMed中搜索与乳腺癌相关的文献,找到目标基因。本书的研究成果将应用到本地区医院真实癌症疾病的诊断,搜集典型病例数据,查找致病基因[3]

传统的方法,如COPA方法、TriORT方法和TriMOST方法等都没有解决识别变点位置的问题。本书通过建立目标函数,求导得到参数的最小二乘估计,判断差异表达基因变点值是否存在并估计其位置,还可以对存在差异的样本进行估计。根据基因变点理论的非参数法检测差异表达基因的检测方法,把癌症异常点样本看作比所有正常组样本来自更高平均表达密度的分布,检测在癌症组中的基因表达强度的一个变点。根据分布变点的非参数统计算法思想,对一个独立的基因表达谱随机变量寻找估计的变点。