首页 理论教育大数据挖掘技术及医药领域应用背景

大数据挖掘技术及医药领域应用背景

【摘要】:药品安全事件与人们的身体健康密切相关,大众对此关注度高,容易产生消极的非理性情绪。有报告指出,近90%的药品安全舆情事件均未取得令人满意的结果。Hadoop技术的飞速发展,提高了对大量数据进行处理的效率。基于Hadoop的朴素贝叶斯分类。本书通过其构造基于Hadoop的药品安全舆情话题跟踪模型与算法,完成对药品安全舆情信息的跟踪。

近年来,与药品有关的事件越来越多,如毒胶囊、问题疫苗、假药等。这些药品事件的事实通过各种媒体报道在网络上飞速传开,引起了越来越多的人关注,产生了许多不良的影响。药品安全事件与人们的身体健康密切相关,大众对此关注度高,容易产生消极的非理性情绪。此外,信息传播在时空上呈现出不断变化的复杂趋势,不良情绪的叠加可能导致更严重的社会危机。有报告指出,近90%的药品安全舆情事件均未取得令人满意的结果。因此,迫切需要对大量的药品舆论信息进行处理并获得敏感信息,达到舆论信息的抓取、解析、观测、示警和跟踪。由于数据太大、信息不集中、数据结构不明显等特点,导致以前的服务器在处理数据上效果不理想,无法有效达到对药品安全舆论分类的目的。Hadoop技术的飞速发展,提高了对大量数据进行处理的效率。为此,本节研究了基于Hadoop的药物安全舆论主题跟踪模型和算法,实现了对药物安全舆论的快速分类,加快了对舆论分类的能力,为以后的研究提供了方向。

话题跟踪(Topic Tracking)技术可以帮助人们在社交媒体发布的众多信息中鉴别出已知话题并对其进行不断地、准确地跟踪,提供人们所需的信息。它主要包括下述概念:话题,是指某个事件的核心内容或与之关联的事件。事件,是指由特定的原因和条件引发的,包含人物、时间以及地点等。报道,对于某时间段的相关报道,过去主要是指未提及的新闻报道,延伸到社交媒体和社交信息,例如,一篇文章可被视为一篇报道。话题检测与跟踪技术是一项非常全面的技术,它要求多种技术相结合,而话题跟踪就是关键

朴素贝叶斯分类(Naive Bayes,NB)算法十分简单,容易实现;朴素贝叶斯模型分类效率稳定;它能处理好小型的数据,可以同时处理多个分类,还可以增加数据进行训练;对于缺少的数据敏锐度不高,它经常被用于文本分类。采用朴素贝叶斯(NB)分类算法作为药品安全舆情话题的分类算法,对抓取的数据经过预处理之后将文本依据不同的类别分好类,然后将分好类的部分文本输入,训练话题模型,最后利用模型判定分好类的测试文本的类别。对于药品安全舆情信息,可以通过朴素贝叶斯(NB)分类算法的步骤一步一步实现药品安全舆情文档的分类,进而实现药品安全舆情话题的跟踪。但是由于药品安全舆情信息的数据量太大,仅仅依靠服务器处理难以满足药品安全舆情信息的跟踪。(www.chuimin.cn)

基于Hadoop的朴素贝叶斯分类。Hadoop作为一个能够处理大量数据的平台,它通过对药品安全舆情信息进行存储和处理,能够有效地提高数据的处理效果。本书的编程模型采用了MapReduce,可以更有效地提高朴素贝叶斯分类算法对药品安全舆情的分类能力。算法中的MapReduce,其包含Map和Reduce。首先,利用Map函数主要对原始数据进行清洗操作。然后,再利用Reduce进行数据加工,实现数据合并,获得分类结果,从而可以减少数据移动,并提高算法的处理速度。本书通过其构造基于Hadoop的药品安全舆情话题跟踪模型与算法,完成对药品安全舆情信息的跟踪。根据统计药品安全舆情文档中词语出现的概率、各个类别文档的数量等信息输入分类算法进行训练,构建模型分类器,达到药品安全舆情信息的分类处理的目的。