分类是一种基本的数据分析方式,根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。分类分析的用途:解释和预报。......
2023-11-08
1.实验设计
实验环境。本节在PC上搭建整体测试环境,以保证后续系统测试的顺利进行。实验硬件配置:Intel(R)Core(TM)i5-5200U CPU@2.20GHz 2.19GHz,内存12.0GB,外部存储硬盘500G。实验软件环境:操作系统Windows8、centos7.3_1,Java环境JDK1.8,开发工具eclipse,Hadoop版本hadoop2.7.6。
评测机制。在文本分类中,评估是一个必要的工作,本节采用精确率(Precision)、召回率(Recall)和F1来评估话题跟踪的性能,其具体定义:
Precision P=TP/(TP+FP)
Recall R=TP/(TP+FN)
P和R的调和平均F1=2PR/(P+R)
TP是指统计初始情况下的分类和贝叶斯分类两种情况下各个类公有的文档数目(即针对各个类分类正确的文档数目);FN是指初始情况下的各个类总数目减去结果正确的数目;FP是指贝叶斯分类得到的各个类的总数目减去结果正确的数目。
2.实验数据
数据集:本节利用八爪鱼采集器从某医药网获取9888条医药新闻作为分析数据源,后续的实验数据均由原始数据处理后得到。数据预处理:在数据集中以手工标记的方式从原始数据集中选取八类药品安全领域数据共5667例作为后续实验数据。手工标记的实验数据类别分布情况如表5-15所示。利用中文分词技术进行文本的预处理,对标点符号及无意义虚词进行剔除,最终形成实验使用的语料库。(www.chuimin.cn)
表5-15 手工标记的实验数据类别
3.实验及结果
将上述数据集作为输入测试基于NB和Hadoop的话题跟踪算法,其实验结果如表5-16所示。
表5-16 基于NB和Hadoop的话题跟踪算法测试结果
由表5-16可知,基于Hadoop平台的朴素贝叶斯分类算法能够运行并实现测试样本的正确分类。实验结果表明,朴素贝叶斯返回相关实例的能力,即精确度相对较好;而识别所有相关实例的能力,即召回率相对较差;且调和平均指标,即F1的整体最佳模型出现在阈值0.57处,即话题4。
随着网络的高速发展和普及,各种社交媒体每天发布的信息呈指数性增长。面对大量的网络信息,传统的人工抓取数据和跟踪药品安全舆情的方式已经不能满足实际舆情工作的需求,Hadoop大量数据处理以及存储为解决该问题提供了有效途径。本书以医药新闻为数据源,使用人工标记提取相应的主题,在Hadoop平台上使用朴素贝叶斯算法对药品安全话题进行跟踪,虽然取得了一定的效果,但今后还需要提升算法的准确率、召回率以及调和平均指标F1值。
有关大数据挖掘技术及其在医药领域的应用的文章
分类是一种基本的数据分析方式,根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。分类分析的用途:解释和预报。......
2023-11-08
打开VMware Workstation→点击文件→新建虚拟机。图9-2选择典型(推荐)选择“安装程序光盘映像文件”,选择指定的CentOS系统的.iso文件,点击“下一步〉”。图9-10在CentOS 6中安装VMware Tools重启CentOs 6。图9-11CentOS 6重启输入密码zkpk,登录进系统。图9-12CentOS 6安装完成下面克隆HadoopSlave。图9-14设置克隆虚拟机选项创建完整克隆。图9-16命名虚拟机图9-17正在准备克隆虚拟机图9-18正在克隆虚拟机点击“关闭”按钮后,发现“HadoopSlave”虚拟机已经在左侧的列表栏中。......
2023-11-08
在HBase Shell提示符下执行help命令可列出所有命令列表。命名空间类命令命名空间是对表的逻辑分组,HBase可以针对命名空间分配资源限额,指定HRegionServer子集,进行安全管理等。大多数配置更改后必须重新启动HBase集群才能生效,与HRegion压缩、拆分相关的参数可以动态更改,更改后在HBase Shell中执行update_all_config命令即可生效。......
2023-11-08
MapReduce编程:编写WordCount类,实现Mapper接口,实现Reducer接口,配置作业,代码测试,打包发布。其中,key为该行在文本中的偏移量,value值为这一行的内容。Map处理将分割好的〈key,value〉对作为map()方法的输入,然后由用户定义的map()方法进行Map处理,生成新的〈key,value〉对。Reduce处理首先,Reduce端接收到来自Map端的数据后,对数据进行排序,如图5-27Reduce端排序结果所示。......
2023-11-08
关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2023-11-08
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
表7-1数据采集按照数据来源划分,大数据的三大主要来源为商业数据、互联网数据与物联网数据。物联网数据的特点主要包括:物联网中的数据量更大,物联网中的数据传输速率更高,物联网中的数据更加多样化,物联网对数据真实性的要求更高。随着物联网技术、智能设备的发展,这种基于传感器的数据采集会越来越多,相应对于其的研究和应用也会越来越重要。......
2023-11-08
机器学习算法从数据中自动分析获得规律,并利用规律对未知数据进行预测。数据挖掘与传统联机分析处理OLAP不同,对大数据的深度分析主要基于大规模的机器学习技术。图1-11数据挖掘与机器学习......
2023-11-08
相关推荐