大数据管理系统及医药领域应用

2023-11-08 理论教育版权反馈

【摘要】：1976年IBM的Codd发表了一篇里程碑式的论文“R系统：数据库关系理论”，介绍了关系数据库理论和查询语言SQL。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。

数据管理软件：文件管理系统，操作系统；数据库系统，DBMS；大数据管理系统，分布式文件系统。

数据管理系统的演变：穿孔纸带，文件系统，数据库管理系统（DBMS），网状数据库、层次数据库、关系数据库、面向对象数据库，决策支持系统和数据仓库，MPP数据库（Massively Parallel Processing），Hadoop系统。

关系代数（Relation Algebra）。关系代数是一种抽象的查询语言，用对关系的运算来表达查询，作为研究关系数据语言的数学工具。集合运算：并、交、差、广义笛卡尔积。关系运算：选择（Selection）、投影（Projection）、连接（Join）、除（Division）。

结构化查询语言（SQL）。1974年，IBM的Boyce和Chamberlin将Codd关系数据库的12条准则的数学定义以简单的关键字语法表现出来，里程碑式地提出了SQL（Structured Query Language）语言。1976年IBM的Codd发表了一篇里程碑式的论文“R系统：数据库关系理论”，介绍了关系数据库理论和查询语言SQL。随后，Oracle的创始人Larry Ellison仔细地阅读了这篇文章，几个月后，Ellison他们就开发了Oracle 1.0。

关系型数据库的突出优势：保持数据的一致性（事务处理），由于以标准化为前提，数据更新的开销很小（相同的字段基本上都只有一处），可以进行JOIN等复杂查询，存在很多实际成果和专业技术信息（成熟的技术）。关系型数据库不擅长的方面：大量数据的写入处理，为有数据更新的表做索引或表结构（Schema）变更，字段不固定时应用，对简单查询需要快速返回结果的处理。(www.chuimin.cn)

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。数据仓库的四种类型：传统数据仓库、实时处理数据仓库、关联发现数据仓库、数据集市，数据仓库如图6-3所示。

pagenumber_ebook=211,pagenumber_book=200

图6-3　数据仓库

数据仓库架构的挑战：数据增长速度非常快，数据源的类型也越来越多，需要数据库虚拟化技术（关联）、数据挖掘和机器学习的支持。

大数据管理系统及医药领域应用

相关推荐