首页 理论教育大数据挖掘技术在医药领域中的数据库与数据仓库应用

大数据挖掘技术在医药领域中的数据库与数据仓库应用

【摘要】:数据库由数据库管理系统统一管理,数据的插入、修改和检索均要通过数据库管理系统进行。软件主要包括操作系统、各种宿主语言、实用程序以及数据库管理系统。数据库管理系统是一种系统软件,它的主要功能是维护数据库并有效地访问数据库中任意部分数据。对数据库的维护包括保持数据的完整性、一致性和安全性。数据仓库的多维特征满足以多维数据为核心的多维数据分析。

数据库技术的演化。20世纪60年代:网络数据库、层次数据库(hierarchical DB systems);20世纪70年代:关系数据库模型和原型系统;20世纪80年代:RDBMS各种高级数据模型(扩展关系模型、OO等),各类以应用为导向的数据库(地理科学计算等);20世纪90年代:数据挖掘、数据仓库、多媒体数据库、WEB;21世纪:数据管理和挖掘、数据挖掘及应用、WEB技术(XML等)。

数据库是依照某种数据模型组织起来并存放于二级存储器中的数据集合。数据库由数据库管理系统统一管理,数据的插入、修改和检索均要通过数据库管理系统进行。

数据库系统是一个实际可操作的存储、维护并向应用系统提供数据的软件系统,是存储介质、处理对象和管理系统的集合体。数据库系统通常由软件、数据库和数据管理员组成。软件主要包括操作系统、各种宿主语言、实用程序以及数据库管理系统。数据管理员负责创建、监控和维护整个数据库,使数据能被任何有权使用的人有效使用。

数据库管理系统是一种系统软件,它的主要功能是维护数据库并有效地访问数据库中任意部分数据。对数据库的维护包括保持数据的完整性、一致性和安全性。

利用数据库系统进行数据挖掘的缺点:第一,动态数据(Dynamic Data)。大多数数据库的基本特点是内容经常变化。在一个在线系统中,必须采用预警机制来保证数据库中的这些变化不会导致错误的数据挖掘结果。第二,噪声和不确定性(Noise & Uncertainty)。错误的数据对于现实世界中的数据库是在所难免的,这主要存在于数据采集的各个环节。不确定性表现在发现的模式可能只在一部分数据上有效。第三,不完整数据(Incomplete Data)。由于不完整的数据域和数据域上值的缺少造成的不完整数据当然会影响发现的结果,数据库的最初设计并没有考虑知识发现的应用。模式的发现、评价、解释很可能需要数据库中不存在的信息。第四,冗余信息(Redundant Information)。同一数据在数据库中的多处出现。这种冗余信息有时会误导知识的发现过程,人们对根据冗余信息发现的知识缺乏足够的兴趣。第五,稀疏数据(Sparse Data)。数据库中的信息在实例空间中可能是稀疏的,这会严重影响发现的效率

数据仓库是面向主题的、一致的、不同时间的、稳定的数据集合,从历史的角度组织和存储数据,并能集成地进行数据分析,用于支持经营管理和临床决策过程。数据仓库的多维特征满足以多维数据为核心的多维数据分析。在数据仓库基础上挖掘的知识可以方便地以图表、可视化、类自然语言等形式表示。数据仓库的常用工具:SQL 2005面向数据仓库的工具;建立数据仓库和应用的流程,包括创建数据准备区、创建数据仓库、从业务系统提取数据、清理和转换数据、加载数据、发布数据集市、SQL查询、OLAP应用、数据挖掘、Web访问、数据更新。

(www.chuimin.cn)

图1-9 数据仓库示例

表1-2 数据库与数据仓库之间的区别

图1-10 典型数据挖掘系统的体系结构