首页 理论教育Spark+Hadoop机器学习算法在基因表达数据中的应用

Spark+Hadoop机器学习算法在基因表达数据中的应用

【摘要】:Spark技术为基于内存的开源计算,Spark生态系统在机器学习领域的重要应用MLlib具有很多常用算法,实现了K-means等多种分布式机器学习算法。本章探讨Spark+Hadoop技术的机器学习的深度和广度提升了大数据分析的效率,适应迭代式机器学习模型的特定需求,分析数据中的关系以获得规律来预测新样本,对数据进行收集、统计和分析。

Hadoop技术在分布式平台开发和运行处理大规模数据方面功能强大,Mahout为一些机器学习算法框架库,但Mahout基于MapReduce计算框架,不适合处理迭代算法。Spark技术为基于内存的开源计算,Spark生态系统在机器学习领域的重要应用MLlib具有很多常用算法,实现了K-means等多种分布式机器学习算法。本章探讨Spark+Hadoop技术的机器学习的深度和广度提升了大数据分析的效率,适应迭代式机器学习模型的特定需求,分析数据中的关系以获得规律来预测新样本,对数据进行收集、统计和分析。随着信息技术深度的发展,积累的数据量产生了TB、PB、EB级数据量。传统计算机的软硬件不能支持足够庞大的数据量的存储、管理及数据分析能力,因此,针对大数据的分布式处理技术随之产生,主流的大数据处理技术有Hdoop和Spark。Hdoop技术能存储与处理大数据,但不能满足迭代运算需求;Spark技术作为基于内存计算大数据处理技术,以其高速、多场景适用等特点成为大数据处理技术的后起之秀。Spark中的Spark SQL、Spark Streaming、MLlib和graphX被广泛应用在各领域。作为人工智能分支的机器学习,其目标是机器不通过编程就能自学习并对特定对象实现问题的解决。大数据分析及机器学习技术之间有着高度的依赖,在相应领域中实现其特定功能,解决现实世界中不同领域的同一性质问题[159]。(www.chuimin.cn)