在本书中,它是指从1644年起、迄于清道光十七年前后的历史时期。这无疑可视为以天主教传教士、特别是耶稣会士来主导的中西文化交往时代之终结。这是一个历史、文化与现实蕴含极为复杂的空间概念,不少学者曾撰专文对其予以探讨[3],本书不再赘辩。......
2023-11-28
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识的,因此数据挖掘所得到的信息应具备先前未知性、有效性和实用性三个特征。
先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
数据挖掘可以针对任何类型的数据库进行,既包括传统的关系数据库,也包括非数据库组织的文本数据库、Web数据库以及复杂的多媒体数据库等[5]。
1.关系数据库
关系数据库具有坚实的数据基础、统一的组织结构、完整的规范化理论和一体化的查询语言等优点,是当前数据挖掘最重要、最流行、信息最丰富的数据源,是人们进行数据挖掘研究的主要形式之一。
2.数据仓库
数据仓库是数据库技术发展的高级阶段,它是面向主题的、集成的、内容相对稳定的、随时间变化的数据集合,可以用来支持管理决策的制定。数据仓库允许将各种应用系统、多个数据库集成在一起,为统一的历史数据分析提供坚实的平台。
数据挖掘需要有良好的数据组织和“纯净”的数据,数据的质量直接影响到数据挖掘的效果,而数据仓库的特点恰恰最符合数据挖掘的要求。它从各类数据源中抓取数据,经过清洗、集成、选择、转换等处理,为数据挖掘所需要的高质量数据提供了保证。可以说,数据仓库为数据挖掘准备了良好的数据源,数据挖掘为数据仓库提供了有效的分析处理手段。因此,随着数据仓库与数据挖掘的协调发展,数据仓库必然成为数据挖掘的最佳环境。
3.文本数据库
文本数据库所记载的内容均为文字,这些文字并不是简单的关键词,而是长句子、段落甚至全文。文本数据库多数为非结构化的,也有些是半结构化的,如HTML、E-mail等。Web网页也是文本信息,由众多的Web网页组成的数据库就是最大的文本数据库。当然,如果文本数据具有良好的结构,也可以使用关系数据库来实现。
4.复杂类型的数据库
以复杂类型的数据库是指非单纯文本的数据库或能够表示动态序列数据的数据库,主要有以下几类[6]。
(1)空间数据库:主要指存储空间信息的数据库,其中数据可能以光栅格式提供,也可能用矢量图形数据表示。例如,地理信息数据库、卫星图像数据库、城市地下管道、下水道以及各类地下建筑分布数据库等。对空间数据库的挖掘可以为城市规划、生态规划、道路修建提供决策支持。
(2)时序数据库:主要用于存放与时间相关的数据,它可以用来反映随时间变化的即时数据或不同时间发生的不同事件,例如连续存放即时的股票交易信息、卫星轨道信息等。对时序数据的挖掘可以发现数据随时间的发展趋势、事物的演变过程和隐藏属性,这些信息对事件的计划、决策和预警是非常有用的。
(3)多媒体数据库:主要指用于存放图像、声音和视频信息的数据库。随着多媒体技术的发展以及相关研究(如可视化信息检索、虚拟现实技术)的进步,多媒体数据库也逐渐普及并应用于许多重要研究领域。目前,多媒体数据的挖掘主要集中在对图像数据的检索和匹配上,随着研究的深入将会拓展到对声音、视频信息的挖掘。
有关数据挖掘技术与应用的文章
在本书中,它是指从1644年起、迄于清道光十七年前后的历史时期。这无疑可视为以天主教传教士、特别是耶稣会士来主导的中西文化交往时代之终结。这是一个历史、文化与现实蕴含极为复杂的空间概念,不少学者曾撰专文对其予以探讨[3],本书不再赘辩。......
2023-11-28
关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2023-11-08
社会要素由人和人之间的互相关系结成,是人们的集合体。父家长、皇帝以及各种组织首脑是社会要素的重要成分,值得注意。需在社会经济中寻找社会结构产生与变化的原因,是社会经济结构、经济制度、分工与职业诸因素起着作用。经济制度对社会阶级结构有着规定性的作用。近代工业社会的经济结构和生产方式,产生了资产阶级和工人阶级,等级制消失,政权结构也发生变化。......
2023-07-02
数据清洗这是文本挖掘中关键的一步。因此文本内容无法用目前的数据挖掘技术直接进行处理,需要对文本进行预处理。通常文本型数据都具有相当大的维度空间,将导致在文本挖掘阶段消耗更多的计算机资源与处理时间。通过用户预定义的评估指标体系对文本挖掘所获取的知识进行评价,并根据评价结果抉择是否留用。文本挖掘的结果是面向各种应用的知识模式。通过评估可以改进文本挖掘的知识发现过程。......
2023-06-28
DeviceNet使用抽象的对象模型:1)使用通信服务系列。DeviceNet节点可用一个对象的集合建模。该产品内抽象对象模型的实现是非独立的,换言之,产品将以其特定执行方式内部映像该目标模型。对象行为则表示了它如何响应特定的事件。表9-3 服务代码的取值范围2.寻址范围DeviceNet定义的对象寻址报文的范围,即MAC ID的使用范围见表9-4。......
2023-11-22
常用的数据挖掘方法有四大类,分别对应四个问题,这四个问题是数据挖掘的基础,分别是聚类挖掘、分类挖掘、关联模式挖掘和异常值检测。1)K最近邻分类算法K最近邻分类算法可以说是整个数据挖掘分类技术中最简单的方法。目前,数据挖掘领域有大量的聚类算法。......
2023-06-21
图2-8常用药知名老中医马祥治疗胃炎的常用药物药性分析104张处方中出现的药性为平、温、寒、凉、微温、微寒,分析结果显示药性,所使用频率由高到低依次为温,平,微寒,寒,微温(72次),热(42次),凉(10次)。图2-9药性分布知名老中医马祥治疗胃炎的常用药物药味分析104张处方中,药味分布最多的是味苦的药物,药味分析结果以苦味为主,如图2-10所示。......
2023-11-08
Zhong Ning等人提出了一种基于距离的全局特异数据挖掘的构架[101]。其中,Mj和σj分别代表aj所有PF值的均值和标准差。Pr=RPF均值+γ×RPF的标准差(3.4)可以看出,此构架是基于距离的,并且找到的特异数据是全局的。从式(3.1)得出,属性xij和xkj间的距离d是后续计算的基础。由前述可知,此构架可以处理各类属性值,并且可以处理多个相关数据集的特异挖掘问题。......
2023-06-16
相关推荐