首页 理论教育Reads片段的Mapping:差异表达基因检测数据分析

Reads片段的Mapping:差异表达基因检测数据分析

【摘要】:每个Reads片段都对应了一个基因的某个转录本,所以通过将Reads序列Mapping到参考基因组序列上,继而根据该参考基因组已有的基因注释信息,推定出各个基因在转录组中对应的表达量的高低。Reads序列Mapping的结果往往存储在Sam文件或者Bam文件中[180,181]。

为了根据转录组RNA-Seq测序的结果获得每个基因的表达量情况,分析流程的第一步需要将RNA-Seq测序得到的短Reads序列“定位”到参考基因组序列上,以获得Reads序列在参考基因组序列中对应的位置,这种“定位”过程被称为Reads序列的Mapping操作。每个Reads片段都对应了一个基因的某个转录本,所以通过将Reads序列Mapping到参考基因组序列上,继而根据该参考基因组已有的基因注释信息,推定出各个基因在转录组中对应的表达量的高低。

在本流程中,我们选用了Bowtie软件[176]来完成这一任务,原因是:第一,很多相关研究都证明了Bowtie软件得出的Mapping结果较为可靠,也有很多相关的分析流程选用Bowtie作为Mapping工具[174,177-179];第二,Bowtie软件支持标准输入/输出流,我们可以通过Hadoop Stream技术来将其部署到云计算集群中。(www.chuimin.cn)

Reads序列Mapping的结果往往存储在Sam(Sequence Alignment/Map Format)文件或者Bam文件中[180,181]。由于该部分程序输出的结果是体积较大的Sam文件,我们需要将其转换为体积较小且读取性能更好的二进制Bam文件,方便后续的数据处理。具体地,我们使用了Samtools[182,183]提供的格式转换算法在Spark平台上实现了一套格式转换工具(Sam to Bed)来完成这项工作。