首页 理论教育大数据管理系统及医药领域应用

大数据管理系统及医药领域应用

【摘要】:1976年IBM的Codd发表了一篇里程碑式的论文“R系统:数据库关系理论”,介绍了关系数据库理论和查询语言SQL。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

数据管理软件:文件管理系统,操作系统;数据库系统,DBMS;大数据管理系统,分布式文件系统。

数据管理系统的演变:穿孔纸带,文件系统,数据库管理系统(DBMS),网状数据库、层次数据库、关系数据库、面向对象数据库,决策支持系统和数据仓库,MPP数据库(Massively Parallel Processing),Hadoop系统。

关系代数(Relation Algebra)。关系代数是一种抽象的查询语言,用对关系的运算来表达查询,作为研究关系数据语言的数学工具。集合运算:并、交、差、广义笛卡尔积。关系运算:选择(Selection)、投影(Projection)、连接(Join)、除(Division)。

结构化查询语言(SQL)。1974年,IBM的Boyce和Chamberlin将Codd关系数据库的12条准则的数学定义以简单的关键字语法表现出来,里程碑式地提出了SQL(Structured Query Language)语言。1976年IBM的Codd发表了一篇里程碑式的论文“R系统:数据库关系理论”,介绍了关系数据库理论和查询语言SQL。随后,Oracle的创始人Larry Ellison仔细地阅读了这篇文章,几个月后,Ellison他们就开发了Oracle 1.0。

关系型数据库的突出优势:保持数据的一致性(事务处理),由于以标准化为前提,数据更新的开销很小(相同的字段基本上都只有一处),可以进行JOIN等复杂查询,存在很多实际成果和专业技术信息(成熟的技术)。关系型数据库不擅长的方面:大量数据的写入处理,为有数据更新的表做索引或表结构(Schema)变更,字段不固定时应用,对简单查询需要快速返回结果的处理。(www.chuimin.cn)

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库的四种类型:传统数据仓库、实时处理数据仓库、关联发现数据仓库、数据集市,数据仓库如图6-3所示。

图6-3 数据仓库

数据仓库架构的挑战:数据增长速度非常快,数据源的类型也越来越多,需要数据库虚拟化技术(关联)、数据挖掘和机器学习的支持。