医疗数据类型的多样化,包括数值型数据、类别型数据、图像、文字、信号、语音、视频。高科技的医学检查设备每天都会产生数千兆字节数据。数学特征不显著。数据归属权问题、数据安全问题、法律诉讼问题等。图1-6医疗数据可及性医学数据类型及特点主要包括多系统多类型、数据量大、增量迅速、结构复杂。绝大多数的医疗数据是处于归档状态,检索是十分复杂的。缺乏数据标准,导致无法统一。......
2023-11-08
近年来,与药品有关的事件越来越多,如毒胶囊、问题疫苗、假药等。这些药品事件的事实通过各种媒体报道在网络上飞速传开,引起了越来越多的人关注,产生了许多不良的影响。药品安全事件与人们的身体健康密切相关,大众对此关注度高,容易产生消极的非理性情绪。此外,信息传播在时空上呈现出不断变化的复杂趋势,不良情绪的叠加可能导致更严重的社会危机。有报告指出,近90%的药品安全舆情事件均未取得令人满意的结果。因此,迫切需要对大量的药品舆论信息进行处理并获得敏感信息,达到舆论信息的抓取、解析、观测、示警和跟踪。由于数据太大、信息不集中、数据结构不明显等特点,导致以前的服务器在处理数据上效果不理想,无法有效达到对药品安全舆论分类的目的。Hadoop技术的飞速发展,提高了对大量数据进行处理的效率。为此,本节研究了基于Hadoop的药物安全舆论主题跟踪模型和算法,实现了对药物安全舆论的快速分类,加快了对舆论分类的能力,为以后的研究提供了方向。
话题跟踪(Topic Tracking)技术可以帮助人们在社交媒体发布的众多信息中鉴别出已知话题并对其进行不断地、准确地跟踪,提供人们所需的信息。它主要包括下述概念:话题,是指某个事件的核心内容或与之关联的事件。事件,是指由特定的原因和条件引发的,包含人物、时间以及地点等。报道,对于某时间段的相关报道,过去主要是指未提及的新闻报道,延伸到社交媒体和社交信息,例如,一篇文章可被视为一篇报道。话题检测与跟踪技术是一项非常全面的技术,它要求多种技术相结合,而话题跟踪就是关键。
朴素贝叶斯分类(Naive Bayes,NB)算法十分简单,容易实现;朴素贝叶斯模型分类效率稳定;它能处理好小型的数据,可以同时处理多个分类,还可以增加数据进行训练;对于缺少的数据敏锐度不高,它经常被用于文本分类。采用朴素贝叶斯(NB)分类算法作为药品安全舆情话题的分类算法,对抓取的数据经过预处理之后将文本依据不同的类别分好类,然后将分好类的部分文本输入,训练话题模型,最后利用模型判定分好类的测试文本的类别。对于药品安全舆情信息,可以通过朴素贝叶斯(NB)分类算法的步骤一步一步实现药品安全舆情文档的分类,进而实现药品安全舆情话题的跟踪。但是由于药品安全舆情信息的数据量太大,仅仅依靠服务器处理难以满足药品安全舆情信息的跟踪。(www.chuimin.cn)
基于Hadoop的朴素贝叶斯分类。Hadoop作为一个能够处理大量数据的平台,它通过对药品安全舆情信息进行存储和处理,能够有效地提高数据的处理效果。本书的编程模型采用了MapReduce,可以更有效地提高朴素贝叶斯分类算法对药品安全舆情的分类能力。算法中的MapReduce,其包含Map和Reduce。首先,利用Map函数主要对原始数据进行清洗操作。然后,再利用Reduce进行数据加工,实现数据合并,获得分类结果,从而可以减少数据移动,并提高算法的处理速度。本书通过其构造基于Hadoop的药品安全舆情话题跟踪模型与算法,完成对药品安全舆情信息的跟踪。根据统计药品安全舆情文档中词语出现的概率、各个类别文档的数量等信息输入分类算法进行训练,构建模型分类器,达到药品安全舆情信息的分类处理的目的。
有关大数据挖掘技术及其在医药领域的应用的文章
医疗数据类型的多样化,包括数值型数据、类别型数据、图像、文字、信号、语音、视频。高科技的医学检查设备每天都会产生数千兆字节数据。数学特征不显著。数据归属权问题、数据安全问题、法律诉讼问题等。图1-6医疗数据可及性医学数据类型及特点主要包括多系统多类型、数据量大、增量迅速、结构复杂。绝大多数的医疗数据是处于归档状态,检索是十分复杂的。缺乏数据标准,导致无法统一。......
2023-11-08
打开VMware Workstation→点击文件→新建虚拟机。图9-2选择典型(推荐)选择“安装程序光盘映像文件”,选择指定的CentOS系统的.iso文件,点击“下一步〉”。图9-10在CentOS 6中安装VMware Tools重启CentOs 6。图9-11CentOS 6重启输入密码zkpk,登录进系统。图9-12CentOS 6安装完成下面克隆HadoopSlave。图9-14设置克隆虚拟机选项创建完整克隆。图9-16命名虚拟机图9-17正在准备克隆虚拟机图9-18正在克隆虚拟机点击“关闭”按钮后,发现“HadoopSlave”虚拟机已经在左侧的列表栏中。......
2023-11-08
表7-1数据采集按照数据来源划分,大数据的三大主要来源为商业数据、互联网数据与物联网数据。物联网数据的特点主要包括:物联网中的数据量更大,物联网中的数据传输速率更高,物联网中的数据更加多样化,物联网对数据真实性的要求更高。随着物联网技术、智能设备的发展,这种基于传感器的数据采集会越来越多,相应对于其的研究和应用也会越来越重要。......
2023-11-08
数据挖掘的功能是指数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等。关联分析的目的是找出数据库中隐藏的关联网。关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。聚类分析可以建立宏观的概念,发现数据的分布模式以及可能的数据属性之间的相互关系。......
2023-11-08
MapReduce编程:编写WordCount类,实现Mapper接口,实现Reducer接口,配置作业,代码测试,打包发布。其中,key为该行在文本中的偏移量,value值为这一行的内容。Map处理将分割好的〈key,value〉对作为map()方法的输入,然后由用户定义的map()方法进行Map处理,生成新的〈key,value〉对。Reduce处理首先,Reduce端接收到来自Map端的数据后,对数据进行排序,如图5-27Reduce端排序结果所示。......
2023-11-08
在HBase Shell提示符下执行help命令可列出所有命令列表。命名空间类命令命名空间是对表的逻辑分组,HBase可以针对命名空间分配资源限额,指定HRegionServer子集,进行安全管理等。大多数配置更改后必须重新启动HBase集群才能生效,与HRegion压缩、拆分相关的参数可以动态更改,更改后在HBase Shell中执行update_all_config命令即可生效。......
2023-11-08
关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2023-11-08
数据科学是一门以“数据”,尤其是“大数据”为研究对象,并以数据统计、机器学习、数据可视化等为理论基础,主要研究数据预处理、数据管理、数据计算、数据产品开发等活动的交叉性学科。首先,建立大数据思维方式,学习怎样利用数据;其次,应该了解数据清理、集成、探索等相关技术;最后,洞见和商业意识也至关重要。图1-3数据科学的基本流程......
2023-11-08
相关推荐