首页 理论教育大数据挖掘技术Mahout的特点和应用

大数据挖掘技术Mahout的特点和应用

【摘要】:Apache Mahout起源于2008年,当时是Apache Lucene的子项目,使用Hadoop库,可以将其功能有效地扩展到Apache Hadoop云平台。Mahout不久又吸收了名为Taste的开源协同过滤算法的项目。2010年4月,Apache Mahout最终成为Apache的顶级项目。Mahout的特点:Mahout的主要目的是实现针对大规模数据集的可伸缩的机器学习算法。Mahout的算法运行在Hadoop平台下,通过MapReduce模式实现。聚类算法,Canopy聚类、K均值算法、模糊K均值、EM聚类、均值漂移聚类、层次聚类、狄里克雷过程聚类、LDA聚类、谱聚类。

Apache Mahout起源于2008年,当时是Apache Lucene的子项目,使用Hadoop库,可以将其功能有效地扩展到Apache Hadoop云平台。Apache Lucene是一个著名的开源搜索引擎,实现了先进的信息搜索、文本挖掘功能。一些Apache Lucene的开发者最终转而开发机器学习算法,这些算法也就形成了最初的Apache Mahout。Mahout不久又吸收了名为Taste的开源协同过滤算法的项目。2010年4月,Apache Mahout最终成为Apache的顶级项目。

Mahout的特点:Mahout的主要目的是实现针对大规模数据集的可伸缩的机器学习算法(就是算法的M-R化)。Mahout的算法运行在Hadoop平台下,通过MapReduce模式实现。但其并不严格要求算法的实现基于Hadoop平台,单个节点或非Hadoop平台也可以,其目标是帮助开发人员快速建立具有机器智能的应用程序。目前比较成熟和活跃的类型主要有聚类、分类、推荐引擎、频繁项集的挖掘等。(www.chuimin.cn)

Mahout算法集主要包括:(1)分类算法,逻辑回归(Logistic Regression)、贝叶斯(Bayesian)、支持向量机(SVM)、感知器算法(Perceptron)、神经网络(Neural Network)、随机森林(Random Forests)、有限波尔兹曼机(Restricted Boltzmann Machines)。(2)聚类算法,Canopy聚类(Canopy Clustering)、K均值算法(KMeans Clustering)、模糊K均值(Fuzzy KMeans)、EM聚类(Expectation Maximization)、均值漂移聚类(Mean Shift Clustering)、层次聚类(Hierarchical Clustering)、狄里克雷过程聚类(Dirichlet Process Clustering)、LDA聚类(Latent Dirichlet Allocation)、谱聚类(Spectral Clustering)。(3)关联规则挖掘,并行FP Growth算法(Parallel FP Growth Algorithm)。(4)回归,局部加权线性回归(Locally Weighted Linear Regression)。(5)降维/维约简,奇异值分解(Singular Value Decomposition)、主成分分析(Principal Components Analysis)、独立成分分析(Independent Component Analysis)。