1988年,该委员会推出2.0版本,到1993年发布的DICOM标准3.0,已发展成为医学影像信息学领域的国际通用标准。DICOM标准3.0包括以下内容。按照标准描述,DICOM数据结构中的基本元素可以简述如下。图22.1DICOM数据集和数据元素结构图22.1中,数据集由多个数据元素构成,传输时是将一个个有序的数据元素字段进行传输。......
2023-10-28
Hadoop[1]是Lambda架构中聚焦于批处理层的软件系统。Hadoop是一个开源软件框架,使用Java语言开发,针对超大数据集的分布存储和处理,运行在常规硬件构建的计算集群上。
Hadoop框架最核心的设计是Hadoop Map Reduce和HDFS(Hadoop distributed file system),它们的灵感来自GFS(Google file system,Google文件系统)。
Hadoop是Apache Lucene[2]创始人Doug Cutting创建的,Lucene是一个广泛使用的文本搜索系统库。Hadoop起源于Apache Nutch,是一个开源的网络搜索引擎,它本身也是Lucene项目的一部分。Hadoop这个名字不是一个缩写,它是一个虚构的名字。
Nutch项目始于2002年,自此,一个可以运行的网页爬取工具和搜索引擎系统很快“浮出水面”。但后来,开发者认为这一架构的可扩展度不够,不能解决数十亿网页的搜索问题。2003年发表的一篇论文为此提供了帮助,文中描述的是Google公司的产品架构,该架构称为Google文件系统。GFS或类似的架构可以解决开发者在网页爬取和索引过程中产生的超大文件的存储问题。特别是GFS能够节省系统管理(如管理存储节点)所耗费的大量时间。2004年,开发者开始着手实现一个开源的实现,即Nutch的分布式文件系统(NDFS),后来就诞生了HDFS。
HDFS是一个面向数据存储和处理的分布式文件系统。HDFS设计为存储海量数据(超过100 TB)、可以并行、流式方式存取海量数据。HDFS数据会存储在跨集群的多个节点上,一个大文件存放在集群的多个节点上。这里的文件会分成块(blocks),每个块的默认大小为64(128)MB[3]。
Map Reduce是一个分布式数据处理框架,在多计算机构建的集群的节点机上并行处理海量数据。Map Reduce把输入数据处理成键/值(key/value)对。Map Reduce处理过程分为两个阶段:map阶段和reduce阶段。map阶段使用一个或多个mappers处理输入数据,reduce阶段使用零个或多个reducers处理map阶段的数据输出。
Hadoop中的计算节点分为两类:NameNode(名字节点)和DataNode(数据节点)。
1.NameNode
NameDode是一个核心成分,在系统中负责维护文件的命名系统和Hadoop集群管理的目录。HDFS按数据块存放数据,NameNode维护和管理文件/目录的数据块位置。客户请求数据时,NameNode跟踪数据放在哪里,提供被请求数据块的位置。客户想存储新数据时,NameNode提供数据可以存储的块位置。NameNode不存储数据本身,也不直接存取DataNode去读/写数据。
2.DataNodes(www.chuimin.cn)
DataNodes负责存放数据,按照NameNode给客户提供的块位置读数据或写入新数据。DataNodes在NameNode指令下创建块、复制块和删除块。
YARN是yet another resource negotiator的缩写,是Hadoop第二版的主要特征。YARN的基本思想是将原来Hadoop中Job Tracker[4]的两个主要功能(资源管理和作业调度/监控)分离,创建一个全局的Resource Manager(RM)和若干个针对应用程序的Application-Master(AM)。
3.YARN
YARN分层结构的一个主要成分是Resource Manager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。Resource Manager将各个资源部分(计算、内存、带宽等)精心安排给基础Node Manager(YARN的每节点代理)。Resource Manager还与Application-Master一起分配资源,与NodeManager一起启动和监视它们的基础应用程序。在此上下文中,Application Master扮演了以前的Task Tracker的一些角色,Resource Manager扮演了Job Tracker的角色。
YARN分层结构的另一个主要成分是Application Master,管理在YARN内运行的应用程序的每个实例。Application Master负责协调来自Resource Manager的资源,并通过Node-Manager监视容器的执行和资源使用(CPU、内存等的资源分配)。值得注意的是,尽管目前的资源很传统(CPU核心、内存),但未来会带来基于实际任务的新资源类型(比如图形处理单元或其他专用处理设备)。从YARN角度讲,Application Master是用户代码,因此存在潜在的安全问题。YARN假设Application Master存在错误或者甚至是恶意的,因此将它们当作无特权的代码对待。
4.Spark
Spark[5]是另外一个开源项目。具体地说,Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有Hadoop Map Reduce所具有的优点,但不同于Map Reduce的是,Job(作业)的中间输出结果可以保存在内存中,而不再需要读/写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。
Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还有一些不同之处,这些不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
有关分布式数据库技术的文章
1988年,该委员会推出2.0版本,到1993年发布的DICOM标准3.0,已发展成为医学影像信息学领域的国际通用标准。DICOM标准3.0包括以下内容。按照标准描述,DICOM数据结构中的基本元素可以简述如下。图22.1DICOM数据集和数据元素结构图22.1中,数据集由多个数据元素构成,传输时是将一个个有序的数据元素字段进行传输。......
2023-10-28
理想的电子病历应当具有以下两方面的功能。电子病历可以根据自身掌握的信息和知识进行判断,当个体健康状态需要调整时,会做出及时、准确的提示,并给出最优方案和实施计划。值得一提的是,健康档案概念与电子病历概念之间有所交叠和模糊。也有人认为,电子病历除专业医疗和健康机构产生的信息外,还应包括个人记录的健康信息。从时间跨度上,电子病历应当覆盖个人从生到死的全过程。......
2023-10-28
三阶段提交协议是为无阻塞协议而设计的。因此有必要对2PC协议进行修改。因为从INITIAL状态到COMMIT状态间有三个状态转换,所以我们称为三阶段提交协议。图10.173PC协议的状态转换图1.终止协议下面分析3PC协议每个状态在超时时的情况。协调者单边决定夭折该事务。因此它将abort记录写入日志,并发送″global-abort″消息给所有已经选择提交事务的参与者。3PC协议如图10.18所示。参与者可能处于INITIAL、READY、ABORT、PRECOMMIT状态。因此协调者将全局提交该事务,发送″global-commit″消息。......
2023-10-28
但是,分布式DBMS中的视图可以从存放在不同站点的分片关系中导出。如果视图定义没有存放在发布查询的站点,则使用该视图时必须实施对视图定义站点的远程访问。分布式数据库中,视图上所表达的从查询到基关系的映射可以像在集中式DBMS中的一样来处理。可以把数据库管理员管理的数据对象看成一个层次结构,其中叶子是数据片,从数据片中可以导出关系和视图。......
2023-10-28
某种程度上说,泛在计算是物联网的升华,是更高层次上的物联网。图20.5普适计算“计算机消失了”,而又到处都有,就是普适计算的基本思想。在这里,普适计算技术的支持是关键。人们在家生活,关系舒适、健康、安全、快乐,普适计算提供了技术基础。2008年7月28日,在ISO/IEC JTC1 SC25最终标准草案投票中,中国IGRS标准以96%的高支持率顺利通过,正式成为国际标准。......
2023-10-28
情景感知系统的一般要求如下。情景感知系统是一个能主动监视其工作环境或场景,并按照该场景的变化调整其行为的系统。图20.7情景的感知、处理和使用图20.7中的元素说明如下。这三者有机构成了一个情境感知系统的三部曲。Baldauf等在其论文《A survey on context-aware systems》中说:情景感知系统能够让自己的操作适应当前的情景,无须用户显式干预,从而借助环境上下文信息提高可用性与有效性。而中国的北斗系统在某些方面已经超越GPS。......
2023-10-28
懒副本协议也是一种变异,它并不试图在更新数据项的事务上下文中涉及的数据项的所有副本上实施写操作,而是将更新实施在一个或几个副本上,随后将改变传递给其他副本。拥有关系参数用于定义更新副本拷贝的许可。基于这四个参数,可以将懒副本协议分为两类。第一类由懒副本协议方法构成,所有副本都是可更新的。这种情况下,副本上存在群组关系。为这种模式实现的公共传播策略是延迟立即。刷新期间所有接收到的刷新事务都要执行。......
2023-10-28
格式化命令如下,该操作需要在HadoopMaster节点上执行。看到如图9-46所示的打印信息表示格式化成功,INFO util.ExitUtil:Exiting with status 1,INFO namenode.NameNode:SHUTDOWN_MSG;如果出现Exception/Error,则表示出问题。图9-48Web UI查看集群是否成功启动检查Yarn是否正常。在HadoopMaster上启动Firefox浏览器,在浏览器地址栏中输入http://master:18088/,页面如图9-49所示。进入Hadoop安装主目录,执行下面的命令:完成后,会看到如下的执行结果,输出:Estimated value ofPi is 3.20000000000000000000,集群正常启动。配置Hadoop时,路径和实际Hadoop安装路径必须一致。......
2023-11-08
相关推荐