首页 理论教育差异表达基因数据集详解

差异表达基因数据集详解

【摘要】:真实数据的乳腺癌基因寻找结果采用乳腺癌的数据,即包含7 129个基因,49个乳腺癌样本,其中正常组样本数为25,癌症组样本数为24。单基因水平研究标准化最简单的方法是从所有log-ratios强度扣除一个它们值的均值或中值的常数,以实现数据转换[47]。

本章采用仿真和真实数据集对各种方法进行对比研究。仿真研究二分类差异表达基因检测方法,比较和仿真研究多分类差异表达基因检测方法,比较实验采用人工程序生成的方法,实验数据包括p个表达异常和正常的基因,其中正常组样本数为n1癌症组样本数为n2,癌症组样本过高或过低调节的差异表达样本数目为k(具有差异表达的样本数目),并且1≤k≤n2,当k=n2时,表明癌症组所有样本相对正常组样本都是过表达的。差异表达强度常量(模拟实验增加的表达强度值)为mμ,以此创建一个满足特定条件的差异基因表达谱数据。

真实数据的乳腺癌基因寻找结果采用乳腺癌的数据,即包含7 129个基因,49个乳腺癌样本,其中正常组样本数为25,癌症组样本数为24。基因表达谱数据在进行数据分析前进行基因芯片数据标准化,调整由于芯片技术引起的误差[46]。单基因水平研究标准化最简单的方法是从所有log-ratios强度扣除一个它们值的均值或中值的常数,以实现数据转换[47]。数据转换是将数据变换为适合数据挖掘的形式,根据需要构造出新的数据属性,以帮助理解分析数据的特点,或者将数据规范化,使数据分布更符合正态分布或者估计的经验分布,均衡差异,满足方法分析的要求。(www.chuimin.cn)