首页 理论教育大数据概述及其在医药领域的应用

大数据概述及其在医药领域的应用

【摘要】:表5-1传统数据和大数据的特点大数据的主要来源:信息管理系统,企业内部使用的信息系统,如办公自动化、业务管理系统等。表5-2传统数据分析与大数据分析图5-1数据工程的技术框架大数据的整体技术:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。大数据计算与存储层。图5-2互联网大数据处理的技术体系

大数据(Big Data)指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策并实现更积极目的的资讯。(1)大数据可以做到的事情:诊断分析,预测分析,在未知元素间寻找关联,规范的分析,监控发生的事件;(2)大数据不可以做到的事情:预测一个确定的未来,归咎于新的数据源,找到一个商业问题的创新解决方案,找到定义不是很明确的问题的解决方法,数据管理/简化新数据源的数据。

IT产业的几个发展阶段如下。(1)硬件时代(20世纪80年代),代表公司:IBM、HP、Apple、联想、东芝、索尼;代表产品:服务器、台式电脑、笔记本电脑。(2)软件时代(20世纪90年代),代表公司:微软、Oracle、Adobe、用友;代表产品:Windows、Oracle、Office、财务软件。(3)互联网时代(2000—2010年),代表公司:yahoo!、亚马逊、google、facebook、twitter、新浪阿里、腾讯、百度;代表产品:三大门户网站、百度搜索、QQ、人人网、淘宝、天猫、京东。(4)移动互联时代(2010—2020年),代表公司:腾讯、字节跳动、美图科技;代表产品:微信、今日头条、口袋购物、滴滴打车、美图秀秀、墨迹天气、高德地图。(5)物联网时代(现在),物联网时代智能硬件(智能手环、google眼镜等)只是物联网的一部分,电视冰箱洗衣机汽车、实时路况、空的车位都能连上网,可以实时查看,远程控制,互联网将真正实现连接人与信息,连接人与人(社交),连接人与商品(电商),连接人与服务(O2O),连接物与物(物联网),互联网将连接一切!

传统大数据和大数据的特点如表5-1所示。

表5-1 传统数据和大数据的特点

大数据的主要来源:(1)信息管理系统,企业内部使用的信息系统,如办公自动化、业务管理系统等。主要是通过用户输入和系统二次加工的方式生成的数据,多为结构化数据。(2)网络信息系统,如电子商务系统、社交网络、社会媒体等。这类系统多为半结构化或无结构化数据,与前者的区别在于内部使用,不接入外部公共网络。(3)物联网系统,通过传感器获取外界的物理、化学、生物等数据信息。(4)科学实验系统,主要用于学术科学研究,其环境是预先设定的,数据既可以是由真实实验产生,也可以通过模拟方式获取仿真的。

数据生成的三种主要方式:(1)被动式生成数据。采用数据库技术阶段数据的产生是被动的,数据是随着业务系统的运行产生的。(2)主动式生成数据。Web2.0、移动互联网的发展使人们可以随时随地通过移动终端生成数据,人们开始主动地生成数据。(3)感知式生成数据。感知技术的发展促进数据生成方式发生了根本性的变化,如遍布城市各个角落的摄像头等数据采集设备源源不断地自动采集、生成数据。

传统大数据与大数据的分析如表5-2所示,数据工程的技术框架如图5-1所示。

表5-2 传统数据分析与大数据分析

(www.chuimin.cn)

图5-1 数据工程的技术框架

大数据的整体技术:数据采集、数据存取、基础架构、数据处理统计分析、数据挖掘、模型预测和结果呈现等。

大数据的处理流程:第一步,获取结构化数据、半结构化数据、非结构化数据;第二步,数据抽取和数据集成;第三步,机器学习、数据挖掘、数据统计;第四步,可视化人机交互;第五步,终端用户。

大数据技术分类:(1)基础架构支持类,云计算平台、云存储、虚拟化技术、网络技术、资源监控技术;(2)数据采集类,数据总线、ETL工具;(3)数据存储类,分布式文件系统、关系型数据库、NoSQL技术、关系型数据库与非关系型数据库融合、内存数据库;(4)数据计算类,数据查询、统计与分析、数据预测与挖掘、知识图谱、业务智能;(5)展现与交互类,图形与报表、可视化工具、增强现实技术。

互联网大数据处理的技术体系与一般意义上的大数据技术体系的差别主要体现在:(1)数据获取层。这里所面对的更主要的是互联网上各种类型数据。(2)大数据计算与存储层。由于互联网大数据涉及的数据类型更丰富,对这些数据的计算处理与存储和普通的关系型数据有较大差异。(3)数据挖掘模型与算法层。由于数据类型、数据源更加丰富,也对数据挖掘提出了更多的需求,从而体现出与普通大数据技术体系不同的特点。

互联网大数据处理的技术体系如图5-2所示。

图5-2 互联网大数据处理的技术体系