确定数据挖掘所需要的数据,对数据进行描述,初步探索数据,检查数据的质量。对各个模型进行评价,选择数据挖掘模型,建立模型。把数据挖掘模型的结果送到相应的管理人员手中,对模型进行日常的监测和维护,定期更新数据挖掘模型。在结果分析部分,解释并评估结果,其使用的分析方法一般应依数据挖掘操作而定。图1-13根据医疗业务诉求确定数据处理方案......
2023-11-08
1.MapReduce编程过程
Hadoop 2.0生态系统中YARN下的MapReduce(MRv2)和Hadoop 1.0生态系统中的MapReduce(MRv1)都是基于Goolge的MapReduce思想实现的。虽然二者在框架上有所区别,但是两者的调用API及接口大部分都保持兼容,因此从编程实现方式上保持一致。MapReduce编程过程如图5-25所示。
图5-25 MapReduce编程过程
2.InputFormat
(1)文本输入。Text Input Format以文本文件中的一行作为记录来进行处理,其中,文本输入格式的Key为LongWriteable,Value为Text类型。Key Value Text Inpu tFormat用于有行号和内容的文本文件,其中,行号和文件内容是由分隔符隔开的。N Line Input Format用于对少量文件数据做一些分散的并行处理任务,然后产生汇总输出。Stream Input Format用于处理大型的XML文档。
(2)二进制输入。Sequence File Input Format用于处理二进制键值对的序列,其中Key的类型为IntWriteable,Value类型为Text。Sequence File As Text Input Format用于顺序文件作为流操作的输入,并将Key和Value都转换为Text对象。Sequence File As Binary Input Format用于处理任意二进制的数据类型,并将顺序文件的Key和Value作为二进制对象。
(3)多样式输入。MultipleInputs用于解决数据多样性的问题,可在每个文件上设置InputFormat类型。
(4)数据库输入。DBInputFormat是从关系型数据库中读取数据的一种格式,可将数据传到集群中进行处理。
3.Map
当完成数据读操作之后,就要将分片后的数据作为Map的输入,进行Map阶段。例如,当数据被分片为N时,默认会给N个Map来进行处理。Map阶段需要实现Mapper接口,同时继承MapReduceBase,最后再编写map方法。
IdentityMapper〈K,V〉将输入的〈key,value〉原封不动地输出为中间结果。
InverseMapper〈K,V〉将输入〈key,value〉map为输出〈value,key〉。
RegexMapper〈K〉为每一个匹配的正则表达式生成一个(match,1)键值对。
TokenCountMapper〈K〉当输入值被标记时,生成一个(token,1)键值对。
MultithreadedMapper〈K,V〉多线程执行map方法。
4.Combine/Partition(www.chuimin.cn)
图5-26 Combine/Partition
5.Reduce
IndentityReducer〈K,V〉将输入的〈key,value〉原封不动地输出为结果。
LongSumReducer〈K〉对长整型的value值求和。
IntSumReducer对整型的value值求和。
6.OutputFormat
(1)文本输出。Text Output Format是以一行的形式进行文件写入,Key和Value可以是任意类型,其分隔符默认为Tab符。
(2)二进制输出。Sequence File Output Format是将输出写入到一个顺序文件中,其格式紧凑,而且数据可以被压缩。Sequence File As Binary Output Format是将Key/Value对当作二进制写入到一个顺序文件中。Map File Output Format是将排序后的Key/Value对写入到一个mapfile文件中。
(3)多个输出。Multiple Text Output Format是将结果输出到多个文件中,其中根据Key/Value对进行分区。Multiple Sequence File Output Format是将结果输出到多个顺序文件中,其中根据Key/Value对进行分区。
(4)延迟输出。Lazy Output Format是延迟输出格式,可以保证在第一条记录输出的时候才真正创建文件。
(5)数据库输出。DBO utput Format是向关系型数据库中写入数据的一种格式。
有关大数据挖掘技术及其在医药领域的应用的文章
确定数据挖掘所需要的数据,对数据进行描述,初步探索数据,检查数据的质量。对各个模型进行评价,选择数据挖掘模型,建立模型。把数据挖掘模型的结果送到相应的管理人员手中,对模型进行日常的监测和维护,定期更新数据挖掘模型。在结果分析部分,解释并评估结果,其使用的分析方法一般应依数据挖掘操作而定。图1-13根据医疗业务诉求确定数据处理方案......
2023-11-08
健康医疗大数据典型应用。可以构建大数据平台来收集不同病例和治疗方案以及病人的基本特征,建立针对疾病特点的数据库,帮助医生进行疾病诊断。医疗行业的大数据应用一直在进行,但是数据并没有完全打通,基本都是孤岛数据,没办法进行大规模的应用。健康医疗大数据在医疗行业治理方面的典型应用:卫生体制改革评估监测。大数据在疾病预测中的作用。大数据在临床业务、付款和定价、研发、大数据基因等方面的应用。......
2023-11-08
,n),则3.贝叶斯定理贝叶斯,在《An Essay towards solving a Problem in the Doctrine of Chances》中给出了贝叶斯定理。其基本求解公式:贝叶斯公式:P(B|A)是根据A判断其属于类别B的概率,称为后验概率。......
2023-11-08
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。......
2023-11-08
大数据目前还没有公认的定义。麦肯锡研究院对大数据的定义:所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。我们正处于大数据时代的边缘,85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。如今的数据类型早已不是单一的文本形式,还包括订单、日志、音频等各种形式,从而对人们的大数据处理能力提出了更高的要求。......
2023-11-08
表3-11肺炎数据集的ID3实验结果将上述数据集作为输入构建决策树,其实验结果如下:表3-11肺炎数据集的ID3实验结果图3-11构建肺炎病人数据集决策树通过运行算法代码,计算数据集每个属性的信息增益值,将信息增益值作为第一影响因素,通过三次计算,全部的信息增益为0或1,分类结束,得出决策树分类模型。表3-12肺炎数据集的ID3决策树分类效果由图3-11可知,基于Python的决策树分类算法能够运行,并能够实现测试样本的正确分类。......
2023-11-08
表5-1传统数据和大数据的特点大数据的主要来源:信息管理系统,企业内部使用的信息系统,如办公自动化、业务管理系统等。表5-2传统数据分析与大数据分析图5-1数据工程的技术框架大数据的整体技术:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。大数据计算与存储层。图5-2互联网大数据处理的技术体系......
2023-11-08
表6-2NoSQL的类型1.键值存储Key-Value键值数据模型是NoSQL中最基本的、最重要的数据存储模型。列存储可以将数据存储在列族中,存储在一个列族中的数据通常是经常被一起查询的相关数据。列存储的数据模型具有支持不完整的关系数据模型,适合规模巨大的海量数据,支持分布式并发数据处理等特点。......
2023-11-08
相关推荐