大数据目前还没有公认的定义。麦肯锡研究院对大数据的定义:所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。我们正处于大数据时代的边缘,85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。如今的数据类型早已不是单一的文本形式,还包括订单、日志、音频等各种形式,从而对人们的大数据处理能力提出了更高的要求。......
2023-11-08
大数据(Big Data)指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策并实现更积极目的的资讯。(1)大数据可以做到的事情:诊断分析,预测分析,在未知元素间寻找关联,规范的分析,监控发生的事件;(2)大数据不可以做到的事情:预测一个确定的未来,归咎于新的数据源,找到一个商业问题的创新解决方案,找到定义不是很明确的问题的解决方法,数据管理/简化新数据源的数据。
IT产业的几个发展阶段如下。(1)硬件时代(20世纪80年代),代表公司:IBM、HP、Apple、联想、东芝、索尼;代表产品:服务器、台式电脑、笔记本电脑。(2)软件时代(20世纪90年代),代表公司:微软、Oracle、Adobe、用友;代表产品:Windows、Oracle、Office、财务软件。(3)互联网时代(2000—2010年),代表公司:yahoo!、亚马逊、google、facebook、twitter、新浪、阿里、腾讯、百度;代表产品:三大门户网站、百度搜索、QQ、人人网、淘宝、天猫、京东。(4)移动互联时代(2010—2020年),代表公司:腾讯、字节跳动、美图科技;代表产品:微信、今日头条、口袋购物、滴滴打车、美图秀秀、墨迹天气、高德地图。(5)物联网时代(现在),物联网时代智能硬件(智能手环、google眼镜等)只是物联网的一部分,电视、冰箱、洗衣机、汽车、实时路况、空的车位都能连上网,可以实时查看,远程控制,互联网将真正实现连接人与信息,连接人与人(社交),连接人与商品(电商),连接人与服务(O2O),连接物与物(物联网),互联网将连接一切!
传统大数据和大数据的特点如表5-1所示。
表5-1 传统数据和大数据的特点
大数据的主要来源:(1)信息管理系统,企业内部使用的信息系统,如办公自动化、业务管理系统等。主要是通过用户输入和系统二次加工的方式生成的数据,多为结构化数据。(2)网络信息系统,如电子商务系统、社交网络、社会媒体等。这类系统多为半结构化或无结构化数据,与前者的区别在于内部使用,不接入外部公共网络。(3)物联网系统,通过传感器获取外界的物理、化学、生物等数据信息。(4)科学实验系统,主要用于学术科学研究,其环境是预先设定的,数据既可以是由真实实验产生,也可以通过模拟方式获取仿真的。
数据生成的三种主要方式:(1)被动式生成数据。采用数据库技术阶段数据的产生是被动的,数据是随着业务系统的运行产生的。(2)主动式生成数据。Web2.0、移动互联网的发展使人们可以随时随地通过移动终端生成数据,人们开始主动地生成数据。(3)感知式生成数据。感知技术的发展促进数据生成方式发生了根本性的变化,如遍布城市各个角落的摄像头等数据采集设备源源不断地自动采集、生成数据。
传统大数据与大数据的分析如表5-2所示,数据工程的技术框架如图5-1所示。
表5-2 传统数据分析与大数据分析
(www.chuimin.cn)
图5-1 数据工程的技术框架
大数据的整体技术:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。
大数据的处理流程:第一步,获取结构化数据、半结构化数据、非结构化数据;第二步,数据抽取和数据集成;第三步,机器学习、数据挖掘、数据统计;第四步,可视化和人机交互;第五步,终端用户。
大数据技术分类:(1)基础架构支持类,云计算平台、云存储、虚拟化技术、网络技术、资源监控技术;(2)数据采集类,数据总线、ETL工具;(3)数据存储类,分布式文件系统、关系型数据库、NoSQL技术、关系型数据库与非关系型数据库融合、内存数据库;(4)数据计算类,数据查询、统计与分析、数据预测与挖掘、知识图谱、业务智能;(5)展现与交互类,图形与报表、可视化工具、增强现实技术。
互联网大数据处理的技术体系与一般意义上的大数据技术体系的差别主要体现在:(1)数据获取层。这里所面对的更主要的是互联网上各种类型数据。(2)大数据计算与存储层。由于互联网大数据涉及的数据类型更丰富,对这些数据的计算处理与存储和普通的关系型数据有较大差异。(3)数据挖掘模型与算法层。由于数据类型、数据源更加丰富,也对数据挖掘提出了更多的需求,从而体现出与普通大数据技术体系不同的特点。
互联网大数据处理的技术体系如图5-2所示。
图5-2 互联网大数据处理的技术体系
有关大数据挖掘技术及其在医药领域的应用的文章
大数据目前还没有公认的定义。麦肯锡研究院对大数据的定义:所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。我们正处于大数据时代的边缘,85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。如今的数据类型早已不是单一的文本形式,还包括订单、日志、音频等各种形式,从而对人们的大数据处理能力提出了更高的要求。......
2023-11-08
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。......
2023-11-08
表6-2NoSQL的类型1.键值存储Key-Value键值数据模型是NoSQL中最基本的、最重要的数据存储模型。列存储可以将数据存储在列族中,存储在一个列族中的数据通常是经常被一起查询的相关数据。列存储的数据模型具有支持不完整的关系数据模型,适合规模巨大的海量数据,支持分布式并发数据处理等特点。......
2023-11-08
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
打开VMware Workstation→点击文件→新建虚拟机。图9-2选择典型(推荐)选择“安装程序光盘映像文件”,选择指定的CentOS系统的.iso文件,点击“下一步〉”。图9-10在CentOS 6中安装VMware Tools重启CentOs 6。图9-11CentOS 6重启输入密码zkpk,登录进系统。图9-12CentOS 6安装完成下面克隆HadoopSlave。图9-14设置克隆虚拟机选项创建完整克隆。图9-16命名虚拟机图9-17正在准备克隆虚拟机图9-18正在克隆虚拟机点击“关闭”按钮后,发现“HadoopSlave”虚拟机已经在左侧的列表栏中。......
2023-11-08
关于分类和回归模型的各种评估方法,一种是处理分类任务的模型,一种是预测回归的模型,这两种模型的评估方法也不完全一致,下面就来分别介绍两种类型模型的各种评估手段。AUC可以说是用单个数字总结模型性能的最好方法,其实就是ROC曲线下方的面积大小。平均绝对误差可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小。MAE可以表示预测与实际结果的接近程度。以上即为两种模型的常用评估方法。......
2023-11-08
在HBase Shell提示符下执行help命令可列出所有命令列表。命名空间类命令命名空间是对表的逻辑分组,HBase可以针对命名空间分配资源限额,指定HRegionServer子集,进行安全管理等。大多数配置更改后必须重新启动HBase集群才能生效,与HRegion压缩、拆分相关的参数可以动态更改,更改后在HBase Shell中执行update_all_config命令即可生效。......
2023-11-08
图9-37解压Hadoop的jar文件2.配置Hadoop-env.sh使用gedit打开Hadoop-env.sh,配置JDK的路径。......
2023-11-08
相关推荐