【摘要】:机器学习算法从数据中自动分析获得规律,并利用规律对未知数据进行预测。数据挖掘与传统联机分析处理OLAP不同,对大数据的深度分析主要基于大规模的机器学习技术。图1-11数据挖掘与机器学习
1.数据挖掘的内容
数据挖掘所发现的知识中最常见的有五类:广义知识(Generalization)、关联知识(Association)、分类知识(Classification & Clustering)、预测型知识(Prediction)、偏差型知识(Deviation)。
数据挖掘将数据转化为知识,其目的是从数据中揭示一些新的、有用的信息。数据挖掘所发现的知识最常见的有以下几类:(1)广义知识。广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物的共同性质,是对数据的概括、精炼和抽象。(2)关联知识。它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。(3)分类知识。它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。(4)预测型知识。它根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。(5)偏差型知识。偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例、数据聚类外的离群值等。
2.数据挖掘的特点
数据挖掘的显著特点:第一,处理大量的数据。数据挖掘要处理的数据库(数据仓库)的规模十分庞大,达到GB、TB,甚至更大。第二,没有明确查询、挖掘假设。由于用户不能形成精确的查询要求,因此要依靠数据挖掘技术为用户寻找他可能感兴趣的东西。第三,基于统计规律发现规则。所发现的规则不必适用于所有数据,而是当达到一定的“门槛”时,即认为具有此规则。由此,利用数据挖掘技术可能会发现大量的规则。第四,规则的动态性。数据挖掘所发现的规则是动态的,它只反映了当前状态的数据集合具有的规则,随着不断地向数据库(数据仓库)中加入新数据,需要不断地更新规则。
3.数据挖掘与机器学习(www.chuimin.cn)
并非所有的东西都是数据挖掘,以下这些系统不是数据挖掘系统:基于数据仓库的OLAP系统、机器学习系统、数据统计分析系统、信息系统。相比于上述系统,数据挖掘系统关注的范围更广,是一个多学科的融合。海量数据处理强调的是算法的可扩展性,例如,随着数据量的增加,算法运行时间的增长应该是接近线性的。
机器学习(Machine Learning)是研究机器获取新知识和新技能,并识别现有知识的学问,其理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法从数据中自动分析获得规律,并利用规律对未知数据进行预测。
数据挖掘与传统联机分析处理OLAP不同,对大数据的深度分析主要基于大规模的机器学习技术。
图1-11 数据挖掘与机器学习
相关推荐