Spark+Hadoop机器学习算法在基因表达数据中的应用

2023-11-21 理论教育版权反馈

【摘要】：Spark技术为基于内存的开源计算，Spark生态系统在机器学习领域的重要应用MLlib具有很多常用算法，实现了K-means等多种分布式机器学习算法。本章探讨Spark+Hadoop技术的机器学习的深度和广度提升了大数据分析的效率，适应迭代式机器学习模型的特定需求，分析数据中的关系以获得规律来预测新样本，对数据进行收集、统计和分析。

Hadoop技术在分布式平台开发和运行处理大规模数据方面功能强大，Mahout为一些机器学习算法框架库，但Mahout基于MapReduce计算框架，不适合处理迭代算法。Spark技术为基于内存的开源计算，Spark生态系统在机器学习领域的重要应用MLlib具有很多常用算法，实现了K-means等多种分布式机器学习算法。本章探讨Spark+Hadoop技术的机器学习的深度和广度提升了大数据分析的效率，适应迭代式机器学习模型的特定需求，分析数据中的关系以获得规律来预测新样本，对数据进行收集、统计和分析。随着信息技术深度的发展，积累的数据量产生了TB、PB、EB级数据量。传统计算机的软硬件不能支持足够庞大的数据量的存储、管理及数据分析能力，因此，针对大数据的分布式处理技术随之产生，主流的大数据处理技术有Hdoop和Spark。Hdoop技术能存储与处理大数据，但不能满足迭代运算需求；Spark技术作为基于内存计算大数据处理技术，以其高速、多场景适用等特点成为大数据处理技术的后起之秀。Spark中的Spark SQL、Spark Streaming、MLlib和graphX被广泛应用在各领域。作为人工智能分支的机器学习，其目标是机器不通过编程就能自学习并对特定对象实现问题的解决。大数据分析及机器学习技术之间有着高度的依赖，在相应领域中实现其特定功能，解决现实世界中不同领域的同一性质问题［159］。(www.chuimin.cn)

Spark+Hadoop机器学习算法在基因表达数据中的应用

相关推荐