Zhong Ning等人提出了一种基于距离的全局特异数据挖掘的构架[101]。其中,Mj和σj分别代表aj所有PF值的均值和标准差。Pr=RPF均值+γ×RPF的标准差(3.4)可以看出,此构架是基于距离的,并且找到的特异数据是全局的。从式(3.1)得出,属性xij和xkj间的距离d是后续计算的基础。由前述可知,此构架可以处理各类属性值,并且可以处理多个相关数据集的特异挖掘问题。......
2025-09-29
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识的,因此数据挖掘所得到的信息应具备先前未知性、有效性和实用性三个特征。
先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
数据挖掘可以针对任何类型的数据库进行,既包括传统的关系数据库,也包括非数据库组织的文本数据库、Web数据库以及复杂的多媒体数据库等[5]。
1.关系数据库
关系数据库具有坚实的数据基础、统一的组织结构、完整的规范化理论和一体化的查询语言等优点,是当前数据挖掘最重要、最流行、信息最丰富的数据源,是人们进行数据挖掘研究的主要形式之一。
2.数据仓库
数据仓库是数据库技术发展的高级阶段,它是面向主题的、集成的、内容相对稳定的、随时间变化的数据集合,可以用来支持管理决策的制定。数据仓库允许将各种应用系统、多个数据库集成在一起,为统一的历史数据分析提供坚实的平台。
数据挖掘需要有良好的数据组织和“纯净”的数据,数据的质量直接影响到数据挖掘的效果,而数据仓库的特点恰恰最符合数据挖掘的要求。它从各类数据源中抓取数据,经过清洗、集成、选择、转换等处理,为数据挖掘所需要的高质量数据提供了保证。可以说,数据仓库为数据挖掘准备了良好的数据源,数据挖掘为数据仓库提供了有效的分析处理手段。因此,随着数据仓库与数据挖掘的协调发展,数据仓库必然成为数据挖掘的最佳环境。(https://www.chuimin.cn)
3.文本数据库
文本数据库所记载的内容均为文字,这些文字并不是简单的关键词,而是长句子、段落甚至全文。文本数据库多数为非结构化的,也有些是半结构化的,如HTML、E-mail等。Web网页也是文本信息,由众多的Web网页组成的数据库就是最大的文本数据库。当然,如果文本数据具有良好的结构,也可以使用关系数据库来实现。
4.复杂类型的数据库
以复杂类型的数据库是指非单纯文本的数据库或能够表示动态序列数据的数据库,主要有以下几类[6]。
(1)空间数据库:主要指存储空间信息的数据库,其中数据可能以光栅格式提供,也可能用矢量图形数据表示。例如,地理信息数据库、卫星图像数据库、城市地下管道、下水道以及各类地下建筑分布数据库等。对空间数据库的挖掘可以为城市规划、生态规划、道路修建提供决策支持。
(2)时序数据库:主要用于存放与时间相关的数据,它可以用来反映随时间变化的即时数据或不同时间发生的不同事件,例如连续存放即时的股票交易信息、卫星轨道信息等。对时序数据的挖掘可以发现数据随时间的发展趋势、事物的演变过程和隐藏属性,这些信息对事件的计划、决策和预警是非常有用的。
(3)多媒体数据库:主要指用于存放图像、声音和视频信息的数据库。随着多媒体技术的发展以及相关研究(如可视化信息检索、虚拟现实技术)的进步,多媒体数据库也逐渐普及并应用于许多重要研究领域。目前,多媒体数据的挖掘主要集中在对图像数据的检索和匹配上,随着研究的深入将会拓展到对声音、视频信息的挖掘。
相关文章
 
                                
                                Zhong Ning等人提出了一种基于距离的全局特异数据挖掘的构架[101]。其中,Mj和σj分别代表aj所有PF值的均值和标准差。Pr=RPF均值+γ×RPF的标准差(3.4)可以看出,此构架是基于距离的,并且找到的特异数据是全局的。从式(3.1)得出,属性xij和xkj间的距离d是后续计算的基础。由前述可知,此构架可以处理各类属性值,并且可以处理多个相关数据集的特异挖掘问题。......
2025-09-29
 
                                
                                计算这些序列的频率和时间平均方差形成特征向量,利用此特征向量数据进行了多方面的实验,验证其在人的行为识别方面的有效性。实验表明,当分段长度达到30帧以上时,就可获得很高的分类精度,且分段长度的变化对识别精度影响就会很小了。......
2025-09-29
 
                                
                                4)探查例外或特异数据。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。在这些应用中,发现特异数据成为挖掘的目标。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。......
2025-09-29
 
                                
                                设某一属性的所有值的数据集为S,其平均值为Smean。根据这些想法,提出一种基于聚类的全局特异数据挖掘方法。构架仍由挖掘特异属性和挖掘特异记录两个层次构成。从原则上讲可以采用任何基于距离的聚类算法对S进行聚类,采用的聚类算法的效果好,可以减少后续的计算量。图3.2SimC聚类算法可以看出,k是控制聚类半径Cd的。现在根据式(3.9)计算每个类的特异因子,记为CPF。显然,CPF越小的类,其中的元素是特异数据的可能性越小。......
2025-09-29
 
                                
                                基于密度的局部特异数据挖掘方法的文献一般基于两个基本概念:k-distance和DB-outlier。显然,k-distance越大,p点附近的点密度越低,p的特异程度越高。从而确定了这类方法与统计方法的一致性。正态分布的特异定义DefNormal:p是特异的,当且仅当,此定义将正态分布中与均值距离不小于3的对象称为是特异的。说明了当参数μ=3时,泊松分布的特异数据界定。泊松分布的特异数据定义DefPoisson为:p是特异的,当且仅当,p≥8。......
2025-09-29
 
                                
                                数据挖掘就是综合应用一系列先进的技术从大量数据中提取人们感兴趣的信息和知识,它们是隐含的、事先未知且潜在有用的概念、规则、规律及模式等。这个概念诠释了数据挖掘的3个要点:数据挖掘要处理的数据量是巨大的。因此,高效率常常是数据挖掘算法研究的目标。4)数据转换:数据要被转换和整理,使其符合挖掘程序的格式。图2.1典型的数据挖掘系统构架......
2025-09-29
 
                                
                                本课程的研究对象是机械。图1-2指南车图1-3候风地动仪中华人民共和国成立后,我国的科学技术和机械工业有了较快的发展。1958 年我国制造的第一个原子反应堆和回旋加速器投入运行;1962 年制成第一架超声速歼击机“歼―7”;1965 年制成高精度万能外圆磨床,达到当时的世界先进水平;1970 年成功发射了第一颗人造地球卫星“东方红”。本单元将介绍关于机械的基础知识,使同学们对机械有一个初步的认识与了解。......
2025-09-29
 
                                
                                读取预处理后的交通事故数据,根据经纬度信息,与这195个网格进行空间连接,为交通事故数据赋予与空间位置相对应的网格编号,以便通过Apriori算法进行关联规则挖掘。对交通事故案件类别、时间段、网格编号等属性信息进行关联规则分析,选择合适的最小支持度和最小置信度。按照关联规则长度为2,提升度大于1.1的原则进行筛选,得到共计84条强关联规则。图4.5关联规则结果......
2025-09-29
相关推荐