健康医疗大数据典型应用。可以构建大数据平台来收集不同病例和治疗方案以及病人的基本特征,建立针对疾病特点的数据库,帮助医生进行疾病诊断。医疗行业的大数据应用一直在进行,但是数据并没有完全打通,基本都是孤岛数据,没办法进行大规模的应用。健康医疗大数据在医疗行业治理方面的典型应用:卫生体制改革评估监测。大数据在疾病预测中的作用。大数据在临床业务、付款和定价、研发、大数据基因等方面的应用。......
2025-09-30
1.实验设计
实验环境。本节在PC上搭建整体测试环境,以保证后续系统测试的顺利进行。实验硬件配置:Intel(R)Core(TM)i5-5200U CPU@2.20GHz 2.19GHz,内存12.0GB,外部存储硬盘500G。实验软件环境:操作系统Windows8、centos7.3_1,Java环境JDK1.8,开发工具eclipse,Hadoop版本hadoop2.7.6。
评测机制。在文本分类中,评估是一个必要的工作,本节采用精确率(Precision)、召回率(Recall)和F1来评估话题跟踪的性能,其具体定义:
Precision P=TP/(TP+FP)
Recall R=TP/(TP+FN)
P和R的调和平均F1=2PR/(P+R)
TP是指统计初始情况下的分类和贝叶斯分类两种情况下各个类公有的文档数目(即针对各个类分类正确的文档数目);FN是指初始情况下的各个类总数目减去结果正确的数目;FP是指贝叶斯分类得到的各个类的总数目减去结果正确的数目。
2.实验数据
数据集:本节利用八爪鱼采集器从某医药网获取9888条医药新闻作为分析数据源,后续的实验数据均由原始数据处理后得到。数据预处理:在数据集中以手工标记的方式从原始数据集中选取八类药品安全领域数据共5667例作为后续实验数据。手工标记的实验数据类别分布情况如表5-15所示。利用中文分词技术进行文本的预处理,对标点符号及无意义虚词进行剔除,最终形成实验使用的语料库。(https://www.chuimin.cn)
表5-15 手工标记的实验数据类别

3.实验及结果
将上述数据集作为输入测试基于NB和Hadoop的话题跟踪算法,其实验结果如表5-16所示。
表5-16 基于NB和Hadoop的话题跟踪算法测试结果

由表5-16可知,基于Hadoop平台的朴素贝叶斯分类算法能够运行并实现测试样本的正确分类。实验结果表明,朴素贝叶斯返回相关实例的能力,即精确度相对较好;而识别所有相关实例的能力,即召回率相对较差;且调和平均指标,即F1的整体最佳模型出现在阈值0.57处,即话题4。
随着网络的高速发展和普及,各种社交媒体每天发布的信息呈指数性增长。面对大量的网络信息,传统的人工抓取数据和跟踪药品安全舆情的方式已经不能满足实际舆情工作的需求,Hadoop大量数据处理以及存储为解决该问题提供了有效途径。本书以医药新闻为数据源,使用人工标记提取相应的主题,在Hadoop平台上使用朴素贝叶斯算法对药品安全话题进行跟踪,虽然取得了一定的效果,但今后还需要提升算法的准确率、召回率以及调和平均指标F1值。
相关文章
健康医疗大数据典型应用。可以构建大数据平台来收集不同病例和治疗方案以及病人的基本特征,建立针对疾病特点的数据库,帮助医生进行疾病诊断。医疗行业的大数据应用一直在进行,但是数据并没有完全打通,基本都是孤岛数据,没办法进行大规模的应用。健康医疗大数据在医疗行业治理方面的典型应用:卫生体制改革评估监测。大数据在疾病预测中的作用。大数据在临床业务、付款和定价、研发、大数据基因等方面的应用。......
2025-09-30
机器学习算法从数据中自动分析获得规律,并利用规律对未知数据进行预测。数据挖掘与传统联机分析处理OLAP不同,对大数据的深度分析主要基于大规模的机器学习技术。图1-11数据挖掘与机器学习......
2025-09-30
关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2025-09-30
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2025-09-30
MapReduce编程:编写WordCount类,实现Mapper接口,实现Reducer接口,配置作业,代码测试,打包发布。其中,key为该行在文本中的偏移量,value值为这一行的内容。Map处理将分割好的〈key,value〉对作为map()方法的输入,然后由用户定义的map()方法进行Map处理,生成新的〈key,value〉对。Reduce处理首先,Reduce端接收到来自Map端的数据后,对数据进行排序,如图5-27Reduce端排序结果所示。......
2025-09-30
聚类分析的算法可以分为划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等,其中,前两种方法最常用。图4-6层次聚类法示例4.基于网格的方法基于网格的聚类方法采用一个网格数据结构,把对象空间量化为有限数目的单元,形成了一个网格结构。......
2025-09-30
医疗数据类型的多样化,包括数值型数据、类别型数据、图像、文字、信号、语音、视频。高科技的医学检查设备每天都会产生数千兆字节数据。数学特征不显著。数据归属权问题、数据安全问题、法律诉讼问题等。图1-6医疗数据可及性医学数据类型及特点主要包括多系统多类型、数据量大、增量迅速、结构复杂。绝大多数的医疗数据是处于归档状态,检索是十分复杂的。缺乏数据标准,导致无法统一。......
2025-09-30
以打鼾声声音特征提取为例,在基于机器学习的生物医学数据分析中,特征提取在大量医学数据中显得十分繁重而耗时。于月娜对宫颈细胞进行了图像分割和特征提取的研究。在对宫颈细胞特征提取方面的研究中,选取了合适的形状与纹理特征,通过KMeans算法进行深入研究。任丽晔对表面肌电信息进行特征提取,对不同的特征向量进行对比,选择最佳的特征向量,基于小波变换的特征提取反映信号局部性信息和时段信号变化的剧烈程度。......
2025-09-30
相关推荐