首页 理论教育基于大数据技术的机器学习算法应用分析

基于大数据技术的机器学习算法应用分析

【摘要】:Hadoop可编写和运行分布式应用以及处理大规模数据,Mahout为一些机器学习算法框架库,但Mahout基于MapReduce计算框架,不适合处理迭代算法。因此,基于Spark和Hadoop框架结合的机器学习算法,要解决Mahout在应用迭代算法处理数据时消耗资源过多和系统整体性能下降的缺陷,提高数据处理分析的速度。基于MapReduce框架编写的Mahout机器学习库,使用HDFS技术在云基础架构上能够满足对大数据的存储要求,但I/O资源消耗过大造成系统整体性能降低[155]。

Hadoop可编写和运行分布式应用以及处理大规模数据,Mahout为一些机器学习算法框架库,但Mahout基于MapReduce计算框架,不适合处理迭代算法。基于内存的Spark框架在大数据处理领域具有关键的作用,Spark读写过程都是基于内存的,减少了I/O转换时间的消耗,提高了运算速度。Spark技术是开源集群计算系统,是基于内存计算的,在进行数据分析时速度快。Hadoop能通过移动计算到这些存放数据的机器上,从而提高效率。因此,基于Spark和Hadoop框架结合的机器学习算法,要解决Mahout在应用迭代算法处理数据时消耗资源过多和系统整体性能下降的缺陷,提高数据处理分析的速度。机器学习是人工智能的核心,是多领域交叉学科融合,能够利用自我学习算法对人类的学习行为进行模拟或者实现人类的学习行为。

机器学习通过自我学习算法可以对原有的知识结构进行重新组织,从而获得新的知识和新的性能。机器学习是通过对机器模拟人类学习活动的研究,对现有知识进行理解,并获取新的知识和新的技能。数据量规模越来越大,原有的单机计算机系统已经不能够满足对大数据进行数据分析的需求,因此云计算技术应运而生。基于MapReduce框架编写的Mahout机器学习库,使用HDFS技术在云基础架构上能够满足对大数据的存储要求,但I/O资源消耗过大造成系统整体性能降低[155]。(www.chuimin.cn)