首页 理论教育大数据挖掘技术在医药领域的实验设计和结果分析

大数据挖掘技术在医药领域的实验设计和结果分析

【摘要】:数据预处理:在数据集中以手工标记的方式从原始数据集中选取八类药品安全领域数据共5667例作为后续实验数据。表5-16基于NB和Hadoop的话题跟踪算法测试结果由表5-16可知,基于Hadoop平台的朴素贝叶斯分类算法能够运行并实现测试样本的正确分类。实验结果表明,朴素贝叶斯返回相关实例的能力,即精确度相对较好;而识别所有相关实例的能力,即召回率相对较差;且调和平均指标,即F1的整体最佳模型出现在阈值0.57处,即话题4。

1.实验设计

实验环境。本节在PC上搭建整体测试环境,以保证后续系统测试的顺利进行。实验硬件配置:Intel(R)Core(TM)i5-5200U CPU@2.20GHz 2.19GHz,内存12.0GB,外部存储硬盘500G。实验软件环境:操作系统Windows8、centos7.3_1,Java环境JDK1.8,开发工具eclipse,Hadoop版本hadoop2.7.6。

评测机制。在文本分类中,评估是一个必要的工作,本节采用精确率(Precision)、召回率(Recall)和F1来评估话题跟踪的性能,其具体定义:

Precision P=TP/(TP+FP)

Recall R=TP/(TP+FN)

P和R的调和平均F1=2PR/(P+R)

TP是指统计初始情况下的分类和贝叶斯分类两种情况下各个类公有的文档数目(即针对各个类分类正确的文档数目);FN是指初始情况下的各个类总数目减去结果正确的数目;FP是指贝叶斯分类得到的各个类的总数目减去结果正确的数目。

2.实验数据

数据集:本节利用八爪鱼采集器从某医药网获取9888条医药新闻作为分析数据源,后续的实验数据均由原始数据处理后得到。数据预处理:在数据集中以手工标记的方式从原始数据集中选取八类药品安全领域数据共5667例作为后续实验数据。手工标记的实验数据类别分布情况如表5-15所示。利用中文分词技术进行文本的预处理,对标点符号及无意义虚词进行剔除,最终形成实验使用的语料库。(www.chuimin.cn)

表5-15 手工标记的实验数据类别

3.实验及结果

将上述数据集作为输入测试基于NB和Hadoop的话题跟踪算法,其实验结果如表5-16所示。

表5-16 基于NB和Hadoop的话题跟踪算法测试结果

由表5-16可知,基于Hadoop平台的朴素贝叶斯分类算法能够运行并实现测试样本的正确分类。实验结果表明,朴素贝叶斯返回相关实例的能力,即精确度相对较好;而识别所有相关实例的能力,即召回率相对较差;且调和平均指标,即F1的整体最佳模型出现在阈值0.57处,即话题4。

随着网络的高速发展和普及,各种社交媒体每天发布的信息呈指数性增长。面对大量的网络信息,传统的人工抓取数据和跟踪药品安全舆情的方式已经不能满足实际舆情工作的需求,Hadoop大量数据处理以及存储为解决该问题提供了有效途径。本书以医药新闻为数据源,使用人工标记提取相应的主题,在Hadoop平台上使用朴素贝叶斯算法对药品安全话题进行跟踪,虽然取得了一定的效果,但今后还需要提升算法的准确率、召回率以及调和平均指标F1值。