大数据的表现形态。实时性,大数据的实时性,体现为数据更新的实时性。重新定义大数据的本质特征。大数据的其他特征。图1-1大数据的4V特性图1-2大数据的价值大数据价值,如传统实时路径只能监控主要道路的交通状况,而现在使用出租车或私家车的数据将产生海量实时轨迹数据。事实上,应该关注大数据的本质特征,关注实际的问题需求,关注大数据的思维,关注大数据的实践。......
2023-11-08
大数据的存储问题:容量,“大容量”通常是指可达PB级的数据规模;延迟,大数据应用不可避免地存在实时性的问题;安全,催生出了一些新的、需要重新考虑的安全性问题;成本,只有让每一台设备都实现更高的“效率”,才能控制住成本;灵活性,大数据存储系统的基础设施规模都很大,要保证存储系统的灵活性,使其能够随时扩容及扩展。大数据存储技术的发展:人工管理,文件系统,数据库,Google File System、HDFS、HBase etc。
数据存储面临的三大挑战:(1)系统问题,面对大数据的爆炸式增长,且具有大数据量、异构型、高时效性的需求时,数据的存储不仅给存储容量带来压力,还给系统的存储性能、数据管理乃至大数据的应用方面带来了挑战。(2)管理问题,这些大量的数据结构复杂、种类繁多,如何对分布、多态、异构的大数据进行管理的问题已经不期而至。传统的数据存储方式面对大数据的猛烈增长已不能满足需求,需要开展分布式存储的研究。(3)应用问题,随着数据量的爆炸式增长,不断刺激着计算机技术的发展,如何利用大数据为人们生活所用,即是大数据的应用问题。大数据的应用在人类活动中所涉及的范围越来越大,与我们已经密不可分。
数据转换:(1)数据转换是按照预先设计好的规则将抽取的数据进行转换,在转化过程中,我们需要对数据进行清洗、整理和集成,即发现数据中的错误数据并进行相应的改正,将原来不同规则的数据整理集成为统一的规则。(2)全量抽取发现空值并处理,发现源数据中字段空值,按照一定的规则进行加载或者替换,比如可以用“0”或者按照该字段的平均取值来替换。(3)规范数据格式,将不同源系统的不同数据格式统一规范。转化过程需要将这些不同的表示格式统一成为唯一的规范格式。(4)拆分数据,有时候需要一句业务需求对字段进行分解。比如,通话主叫号码02381322854,可进行区域码和电话号码分解,获得主叫地区023和主叫号码81322854。
数据存储系统能力的提升主要有三个方面,一是提升系统的存储容量,二是提升系统的吞吐量,三是提升系统的容错性。(1)存储容量,提升系统容量有两种方式:一种是提升单硬盘的容量,通过不断采用新的材质和新的读写技术实现。目前单个硬盘的容量已经进入TB时代。另外一种是在多硬盘的情况下如何提升整体的存储容量。(2)吞吐量,对于单个硬盘,提升吞吐量的主要方法是提高硬盘转速,改进磁盘接口形式或增加读写缓存等。而要提升数据存储系统的整体吞吐量,比较典型的技术是早期的专用数据库机体系。(3)容错性,数据存储容错是指当系统中的部件或节点由于硬件或软件故障,导致数据、文件损坏或丢失时,系统能够自动将这些损坏或丢失的文件和数据恢复到故障发生前的状态,使系统能够维持正常运行的技术。
提升系统的存储容量:(1)DAS直连式存储。直连式存储是最早出现的最直接的扩展数据存储模式,即将数据存储设备与数据使用设备(服务器或工作站)直接相连的模式。DAS结构有扩展性差,成本高,资源利用率低和备份、恢复与扩容过程复杂的不足之处。(2)NAS网络接入存储。NAS,网络接入存储顾名思义是通过网络与其他设备相连并提供具有文件访问能力的存储设备。由于架构的先天不足,也存在受局域网带宽的限制,不适用数据块级访问方式和无法实现集中备份这些与大数据处理不相适应的问题。(3)SAN存储区域网络。SAN是指提供格式统一的、数据块级访问能力的一种专用局域网络。它具有系统的整合度高、数据集中度高和高扩展性的优良特性。因此,在一些大数据处理的复杂环境下,NAS与SAN常常作为互补的两种技术同时使用。(4)云存储。云存储是指通过网络技术、分布式文件系统、集群应用、服务器虚拟化等技术将网络中海量的不同类型的存储设备构成可扩展、低成本、低能耗的共享存储资源池,并提供数据存储访问、处理功能的系统服务。
提升系统的吞吐量:(1)PPT每磁道专用处理器架构。每磁道专用处理器架构是由Slotnck在1970年提出的,这是最早的专用数据库机架构。20世纪70年代中期,提出了具有使用价值的PPT架构,包括CASSM、RAP、RARES。(2)每磁头专用处理器架构。每磁头专用处理器架构(PPH)是为了解决PPT架构的磁道容量限制缺陷。PPH架构面向的是采用移动技术的磁盘,每个磁头伴有一个专用处理器。因此,可以在磁盘的一次旋转周期内读取完一个整柱面的数据。(3)多处理器缓存架构。多处理器缓存架构将原来直接相连的处理器与存储组件分离,采用一个大容量的共享缓存将两者相连,目的是充分利用多处理器的并行读取的高速处理能力和通用大容量存储设备的低成本优势。(www.chuimin.cn)
提升数据存储系统的容错性:(1)磁盘镜像和磁盘双工,磁盘镜像和磁盘双工是中小型网络系统中经常使用的容错技术。磁盘镜像是指将两个硬盘接在同一个硬盘控制卡上,用同一个硬盘控制卡来管理两个硬盘的数据读写。当系统向服务器写入数据时,该部分数据将同时写入两个硬盘。当出现一个硬盘损坏时,可以从另一个硬盘获得数据,确保系统正常运行。(2)基于RAID的磁盘容。冗余磁盘阵列(Redundant Arrays of Inexpensive Disks,RAID)技术的基本原理是采用多块价格较便宜的磁盘,组成一个容量巨大的磁盘阵列,配合数据分散存储设计,提升数据存储容错性。RAID技术分为多个等级,以数字编号,比较常见的等级有RAID0、RAID1、RAID3、RAID5。(3)基于集群的数据容错。基于集群的数据容错是构建在多台存储节点上的容错技术。集群容错的基本思想是将同一份数据在集群中的不同节点中进行冗余存储,确保部分节点的故障不会影响系统整体的正常运行。其数据存储容错可以采用两种方式,即双机互援模式和双机热备模式。
管理问题的三个管理技术:(1)存储资源管理方法。为了解决集群存储环境下的存储资源管理问题,采用存储资源映射方法,通过在物理资源和虚拟存储资源请求之间建立合理的映射关系,来进行有效的存储资源管理。(2)支持多用户的资源使用和存储环境隔离机制。当用户数量增多,有限的存储资源已经不能满足用户对该类资源的需求时,用户与资源的矛盾就会凸显出来。解决这种矛盾的最有效的方法就是采取有效资源共享机制,将有限数量的资源按需求动态共享给多个用户使用。任何单体存储阵列所创建的物理卷的容量都是有限的,而多个异构的存储系统联合在一起就可以创建出一个更大的逻辑卷。(3)基于Hadoop的大数据存储机制。大数据的各类描述方式的多样性存在着结构化数据、半结构化数据和非结构化数据需要进行处理。对于结构化数据,通常的处理方式仍是采用关系型数据知识库进行处理,对于半结构和非结构化的知识,Hadoop框架提供了很好的解决方案。
应用问题:(1)大数据在高能物理中的应用。高能物理学科一直是推动计算机技术发展的主要学科。高能物理是一个天然需要面对大数据的学科。高能物理学家经常需要从大量的数据中去发现一些小概率的粒子事件,这跟大海捞针一样。万维网技术的出现就是源自高能物理对数据交换的需求。在大数据条件下计算、存储一直考验着高能所的数据中心系统。(2)搜索引擎。搜索引擎是简单与复杂的完美结合,目前最为常见的开源系统Hadoop就是按照谷歌的系统架构设计的。每一次搜索请求可能都会有大量服务响应。搜索引擎是一个典型且成熟的大数据系统,它的发展历程为大数据研究积累了宝贵的经验。(3)推荐系统。推荐系统在电子商务网站上的应用可以说是无处不在,当我们浏览网页时会看见某个位置出现一个商品推荐或者系统弹出一个商品信息,而这些商品可能正是我们自己感兴趣的或正希望购买的商品,这就是推荐系统在发挥作用。
面向大数据的存储基础设施特性:(1)存储基础设施。为了适应大数据系统的特性,存储基础设施应该能够向上和向外扩展,以动态配置适应不同的应用。(2)存储虚拟化。基于SAN的存储虚拟化在可扩展性、可靠性和安全性方面能够比基于NAS的存储虚拟化具有更高的性能。SAN需要专用的存储基础设施,从而带来较高的成本。(3)按数据类型与存储方式的不同,可分为MPP并行数据库和内存数据库、基于Hadoop开源体系的大数据系统、MPP并行数据库与Hadoop的混合集群。
从数据管理角度看大数据存储:(1)分布式文件系统,GFS、HDFS。(2)NoSQL数据库,键值(Key-value)存储数据库,Dynamo;列式存储数据库,BigTable、HBase;文档存储数据库,MongoDB。
有关大数据挖掘技术及其在医药领域的应用的文章
大数据的表现形态。实时性,大数据的实时性,体现为数据更新的实时性。重新定义大数据的本质特征。大数据的其他特征。图1-1大数据的4V特性图1-2大数据的价值大数据价值,如传统实时路径只能监控主要道路的交通状况,而现在使用出租车或私家车的数据将产生海量实时轨迹数据。事实上,应该关注大数据的本质特征,关注实际的问题需求,关注大数据的思维,关注大数据的实践。......
2023-11-08
确定数据挖掘所需要的数据,对数据进行描述,初步探索数据,检查数据的质量。对各个模型进行评价,选择数据挖掘模型,建立模型。把数据挖掘模型的结果送到相应的管理人员手中,对模型进行日常的监测和维护,定期更新数据挖掘模型。在结果分析部分,解释并评估结果,其使用的分析方法一般应依数据挖掘操作而定。图1-13根据医疗业务诉求确定数据处理方案......
2023-11-08
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。......
2023-11-08
表5-1传统数据和大数据的特点大数据的主要来源:信息管理系统,企业内部使用的信息系统,如办公自动化、业务管理系统等。表5-2传统数据分析与大数据分析图5-1数据工程的技术框架大数据的整体技术:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。大数据计算与存储层。图5-2互联网大数据处理的技术体系......
2023-11-08
大数据目前还没有公认的定义。麦肯锡研究院对大数据的定义:所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。我们正处于大数据时代的边缘,85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。如今的数据类型早已不是单一的文本形式,还包括订单、日志、音频等各种形式,从而对人们的大数据处理能力提出了更高的要求。......
2023-11-08
表6-2NoSQL的类型1.键值存储Key-Value键值数据模型是NoSQL中最基本的、最重要的数据存储模型。列存储可以将数据存储在列族中,存储在一个列族中的数据通常是经常被一起查询的相关数据。列存储的数据模型具有支持不完整的关系数据模型,适合规模巨大的海量数据,支持分布式并发数据处理等特点。......
2023-11-08
大数据存储方式:分布式系统。哈希方式是最常见的数据分布方式,其方法是按照数据的某一特征计算哈希值,并将哈希值与机器建立映射关系,从而将不同哈希值的数据分布到不同的机器上。然而NoSQL数据库则可省去这些麻烦,确实是方便快捷。另外,利用面向列的数据库的优势,把它作为批处理程序的存储器来对大量数据进行更新也是非常有用的。但是,由于面向列的数据库跟现行数据库存储的思维方式有很大不同,应用起来是非常困难的。......
2023-11-08
数据科学是一门以“数据”,尤其是“大数据”为研究对象,并以数据统计、机器学习、数据可视化等为理论基础,主要研究数据预处理、数据管理、数据计算、数据产品开发等活动的交叉性学科。首先,建立大数据思维方式,学习怎样利用数据;其次,应该了解数据清理、集成、探索等相关技术;最后,洞见和商业意识也至关重要。图1-3数据科学的基本流程......
2023-11-08
相关推荐