数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
1.为什么进行数据预处理
为什么进行数据预处理?现实世界中的数据是“脏的”——数据多了,什么问题都会有;不完整,缺少数据值,缺乏某些重要属性,仅包含汇总数据,如occupation="";有噪声,包含错误或者孤立点,如Salary=-10;数据不一致,如在编码或者命名上存在差异,如有的等级标记为“1,2,3”,有的为“A,B,C”;重复记录间的不一致性,如Age=“42”Birthday=“03/07/1997”;存在不完整的、含噪声的和不一致的数据。预处理数据可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。
不完整数据的出现可能有多种原因。有些感兴趣的属性,如销售数据中顾客的信息,并非总是可用的。其他数据没有包含在内只是因为输入时认为其是不重要的。相关数据没有记录可能是由于理解错误,或者因为设备故障。与其他记录不一致的数据可能已经删除。此外,记录历史或修改的数据可能被忽略。缺失的数据,特别是某些属性上缺少值的元组可能需要推导出来。
数据含噪声(具有不正确的属性值)可能有多种原因:收集数据的设备可能出故障;人或计算机的错误可能在数据输入时出现;数据传输中的错误也可能出现。
不一致的数据,可能是由命名约定或所用的数据代码不一致,或输入字段(如日期)的格式不一致而导致的。
2.数据为什么会变“脏”
不完整数据的成因:数据收集的时候就缺乏合适的值;数据收集时和数据分析时的不同考虑因素;人为/硬件/软件问题。
噪声数据(不正确的值)的成因:数据收集工具的问题;数据输入时的人为、计算机错误;数据传输中产生的错误。
数据不一致性的成因:不同的数据源;违反了函数依赖性。
3.数据预处理为什么是重要的
数据预处理为什么是重要的?没有高质量的数据,就没有高质量的挖掘结果。高质量的决策必须依赖高质量的数据,例如,重复值或者空缺值将会产生不正确的或者误导性的统计;数据仓库需要对高质量的数据进行一致地集成;数据预处理将是构建数据仓库或者进行数据挖掘工作中占工作量最大的一个步骤。
数据质量的多维度量:精确度、完整度、一致性、合乎时机、可信度、附加价值、可解释性、跟数据本身的含义相关的、内在的、上下文的、表象的以及可访问性。
4.数据预处理的步骤及方法
数据预处理的步骤:第一,数据清理。填写空缺值、平滑噪声数据,识别、删除孤立点,解决不一致。第二,数据集成。集成多个数据库、数据立方体或文件。第三,数据变换,规范化和聚集。第四,数据归约。得到数据集的压缩表示,它小得多,可以得到相同或相近结果。第五,数据离散化。数据归约的一部分,通过概念分层和数据的离散化来规约数据。
数据描述对于获得数据的总体印象至关重要。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当被视为噪声或离群点,度量数据的中心趋势和离散程度。(www.chuimin.cn)
数据清理是指填充缺失值,光滑噪声并识别离群点,纠正数据中的不一致。
数据集成,是指合并来自多个数据存储的数据和可能需要将数据转换成适于挖掘的形式。
数据归约技术可以用来得到数据集的归约表示,它接近于保持数据的完整性,但数据量比原数据小得多。与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘更有效,并产生相同或几乎相同的分析结果。
描述性数据汇总动机是为了更好地理解数据,获得数据的总体印象,识别数据的典型特征,凸显噪声或离群点。度量数据的中心趋势有均值、中位数、众数(模)、中列数。度量数据的离散程度有四分位数、四分位数极差、方差等。
数据度量可以分为三类。分布式度量(Distributive Measure):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样,例如count(),sum(),min(),max()等。代数度量(Algebraic):可以通过在一个或多个分布式度量上应用一个代数函数而得到,例如平均值函数avg()[avg()=sum()/count()]。整体度量(Holistic):必须对整个数据集计算的度量,例如median(),mode(),rank()。
5.数据清洗
数据清洗主要是删除原始数据集中的无关数据和重复数据,平滑噪声数据,删掉与挖掘主题无关的数据,处理缺失值、异常值等。清洗内容主要包括缺失数据处理、相似重复对象检测、异常数据处理、逻辑错误检测和不一致数据等。缺失数据处理:删除记录、数据插补和不处理。
(1)数据缺失。常用处理方法:忽略含有数据缺失的记录,用一个常量或标识符号来取代所有缺失的数据值,以全体数据相同属性的均值取代某个记录缺失的该属性值,以最可能发生的值取代某个记录缺失的属性值。
(2)删除缺失数据处理。主要针对缺失值数量较少且删除数据对整体数据几乎没有影响的数据进行处理,也可以根据数据缺失挖掘信息。例如,利用五组医疗数据集测试缺失数据对于病情阳性概率的影响,以及对分类结果精确度的影响,并通过knn、判别分析和朴素贝叶斯三种方法在数据缺失不同比例的情况下,对分类结果进行分析比较。
(3)缺失数据插补。属性间的关联性在缺失值估计过程中非常重要,在数据挖掘方法中,关键是挖掘属性间的关系。数据插补的目的在于估计正确的替代值。
(4)相似重复对象检测。基于不完备数据聚类的缺失数据填补方法,针对分类变量不完备数据集定义约束容差集合差异度,从集合的角度判断不完备数据对象的总体相异程度,并以不完备数据聚类的结果对基础进行缺失数据的填补。基于进化算法的自适应聚类方法,其基本思想是将聚类问题转化成一个全局优化问题,利用聚类方法填充缺失值。
(5)异常数据清洗。异常数据的探测主要有基于统计学、基于距离和基于偏离三类方法。将数据按距离划分为不同的层,在每一层统计数据特征,再根据定义的距离计算各数据点和中心距离的远近来判断异常是否存在。基于关联方法,将置信度和支持度很低的点视为异常点。采用数据审计的方法实现异常数据的自动化检测,称为数据质量挖掘,由两步构成:采用数理统计方法对数据分布进行概化描述,自动获得数据的总体分布特征;针对特定的数据质量问题进行挖掘以发现数据异常。
(6)数据噪声的清洗。分组平滑:分组是将某项数据值按一定的顺序排成序列,然后将若干个连续排列的相邻数据组成一个组。回归平滑:回归是将原始数据拟合为某种回归函数,以该函数的的值取代相应的原始数据。聚类平滑:聚类是以原始数据各个相关特征属性值构成特征空间,根据原始数据在此空间中的分布状态进行聚类。
(7)数据集成。数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据库)中的过程。实体识别是指从不同数据源识别出现实世界的实体,任务是统一不同数据源的矛盾之处,例如,同名异义、异名同义、单位不统一。数据集成往往导致数据冗余,例如同一属性多次出现,同一属性命名不一致导致重复。仔细整合不同源数据能减少甚至避免数据冗余与不一致,对于冗余属性要先分析,检测到后再将其删除。
有关大数据挖掘技术及其在医药领域的应用的文章
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
打开VMware Workstation→点击文件→新建虚拟机。图9-2选择典型(推荐)选择“安装程序光盘映像文件”,选择指定的CentOS系统的.iso文件,点击“下一步〉”。图9-10在CentOS 6中安装VMware Tools重启CentOs 6。图9-11CentOS 6重启输入密码zkpk,登录进系统。图9-12CentOS 6安装完成下面克隆HadoopSlave。图9-14设置克隆虚拟机选项创建完整克隆。图9-16命名虚拟机图9-17正在准备克隆虚拟机图9-18正在克隆虚拟机点击“关闭”按钮后,发现“HadoopSlave”虚拟机已经在左侧的列表栏中。......
2023-11-08
表7-1数据采集按照数据来源划分,大数据的三大主要来源为商业数据、互联网数据与物联网数据。物联网数据的特点主要包括:物联网中的数据量更大,物联网中的数据传输速率更高,物联网中的数据更加多样化,物联网对数据真实性的要求更高。随着物联网技术、智能设备的发展,这种基于传感器的数据采集会越来越多,相应对于其的研究和应用也会越来越重要。......
2023-11-08
数据库由数据库管理系统统一管理,数据的插入、修改和检索均要通过数据库管理系统进行。软件主要包括操作系统、各种宿主语言、实用程序以及数据库管理系统。数据库管理系统是一种系统软件,它的主要功能是维护数据库并有效地访问数据库中任意部分数据。对数据库的维护包括保持数据的完整性、一致性和安全性。数据仓库的多维特征满足以多维数据为核心的多维数据分析。......
2023-11-08
在HBase Shell提示符下执行help命令可列出所有命令列表。命名空间类命令命名空间是对表的逻辑分组,HBase可以针对命名空间分配资源限额,指定HRegionServer子集,进行安全管理等。大多数配置更改后必须重新启动HBase集群才能生效,与HRegion压缩、拆分相关的参数可以动态更改,更改后在HBase Shell中执行update_all_config命令即可生效。......
2023-11-08
数据挖掘的功能是指数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等。关联分析的目的是找出数据库中隐藏的关联网。关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。聚类分析可以建立宏观的概念,发现数据的分布模式以及可能的数据属性之间的相互关系。......
2023-11-08
MapReduce编程:编写WordCount类,实现Mapper接口,实现Reducer接口,配置作业,代码测试,打包发布。其中,key为该行在文本中的偏移量,value值为这一行的内容。Map处理将分割好的〈key,value〉对作为map()方法的输入,然后由用户定义的map()方法进行Map处理,生成新的〈key,value〉对。Reduce处理首先,Reduce端接收到来自Map端的数据后,对数据进行排序,如图5-27Reduce端排序结果所示。......
2023-11-08
在数据处理方面:Flume对数据进行简单处理,并写到各种数据接收方处。为了保证配置数据的一致性,Flume引入了ZooKeeper,用于保存系统配置的数据。同时,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master间使用gossip协议同步数据。Flume-ng取消了集中管理配置的Master和Zookeeper,变为一个纯粹的传输工具。在Flume-og中,读入线程同样做写出工作。如果写出慢的话,它将阻塞Flume接收数据的能力。......
2023-11-08
相关推荐