数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
分类是一种基本的数据分析方式,根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。例如,表3-1是健康人(c=1)、硬化症患者(c=2)和冠心病患者(c=3)三种人群心电图的五个指标(x1-x5)数据,其中有19个样本是确定的分类,另又测出四个人的相关指标,试根据确定分类的样本对未确定的样本进行分类。
表3-1 心电图数据集
医院工作效率和医疗质量的评定是医院管理的一个基本课题,常要寻求用少数几项指标对整个医院工作做出快速可靠的评定。某单位曾对工作质量好、中、差的三类医院的治愈率、病死率、治愈者平均住院天数、临床初步诊断符合率等24项指标做了调查,现从中抽出质量优的(A类)和差的(B类)共20个医院的三项指标:X1床位使用率,X2治愈率,X3诊断指数进行研究,欲由这三项指标建立判别函数,Y=C1X1+C2X2+C3X3。求:各类别的描述特征。
表3-2 医院的三项指标数据集
肺炎是指由细菌、病毒、不典型致病菌等病原体感染导致的肺部组织炎症性病变。引起肺炎的病原复杂,患者有呼吸困难、浓痰等症状,但症多不典型,易发生漏诊、错诊。
表3-3 肺炎数据集
(续表)
隐形眼镜是一种戴在眼球角膜上,用以矫正视力或保护眼睛的镜片。它不仅从外观和方便性方面给近视、远视、散光等屈光不正患者带来了很大的改善,而且视野宽阔、视物逼真。根据材料的软硬,它可分为硬性、半硬性、软性三种。
表3-4 配置隐形眼镜的数据集
1.分类分析基本概念
分类被认为是监督学习的一个实例,即通过比较事物之间的相似性,把具有某些共同点或相似特征的事物归属于一个不确定集合的逻辑方法,即学习可以获得正确识别观察的训练集的情况。相应的无监督程序称为聚类,并将涉及基于固有相似性或距离的某种度量的数据分组。
通常,各个观察结果分析为一组可量化的属性,不同的称为解释变量或特征。对这些属性可以进行不同的分类(例如,“A”“B”“AB”“O”,对于血型),序数(例如“大”“中”“小”),整数值(例如,电子邮件中特定单词的出现次数)或实际值(例如血压的测量值)。
分类分析通常都要设法建立一个判别函数,利用此函数进行判别。(www.chuimin.cn)
分类函数的一般形式:
Y=a1x1+a2x2+…+anxn(i=1,2,…,n)
其中,Y为判别分数(判别值),xi为反映研究对象特征的变量,ai为系数,也称为判别系数。
为了建立判别函数必须使用一个训练样本。一般而言,样本量n应在所使用自变量个数p的10~20倍以上时,函数才比较稳定;自变量个数p在8~10个之间时,函数的判别效果才可能比较理想。
比如,根据一些体征为阑尾炎的不同类型建立判别函数,就可以在病人入院时快速地判断他是否为危险的化脓性阑尾炎,以便及时手术,避免因耽误病情而穿孔。
分类分析的一般适用条件:(1)各自变量为连续性或有序分类变量。如果存在无序多分类变量,可以使用哑变量方式纳入。(2)样本来自一个多元正态总体。(3)各组的协方差矩阵相等,该条件类似于方差分析中的方差齐性。(4)变量间独立,无共线性。但是判别分析在违反这些适用条件时显得非常稳健,它们对结果的影响其实不大。分类分析的目的:做出以多个判别指标判别个体分类的判别函数式或概率公式。分类分析的资料:个体分两类或多类,判别指标全部为数值变量或全部为分类变量。分类分析的用途:解释和预报(主要用于计量诊断)。
按资料类型可将分类分析分为两种:计量资料判别分析,目的是做出以定量指标判别个体属性分类或等级的判别函数;计数资料判别分析,目的是做出以定性或等级指标判别个体属性分类或等级的概率公式。
按方法名称可将分类分析分为Fisher判别(计量资料)、Bayes公式判别法(计数资料)、Bayes判别(计量资料)、逐步判别(计量资料)。
实现分类的算法,特别是在具体实现中,被称为分类器。术语“分类器”有时也指由分类算法实现的数学函数,其将输入数据映射到类别。
跨领域的术语是多种多样的。在统计中,通常使用逻辑回归或类似程序进行分类,观察的属性称为解释变量(或独立变量、回归量等),要预测的类别称为结果,被认为是因变量的可能值。在机器学习中,观察通常被称为实例,解释变量被称为特征(被分组为特征向量),并且要预测的可能类别是类。其他领域可能使用不同的术语,例如,在社区生态学中,术语“分类”通常是指聚类分析,即一种无监督学习,而不是本书中所描述的监督学习。
2.分类分析使用场景
分类的主要用途和场景是“预测”,基于已有的样本预测新样本的所属类别,例如信用评级、风险等级、欺诈预测等。同时,它也是模式识别的重要组成部分,广泛应用到机器翻译、人脸识别、医学诊断、手写字符识别、指纹识别的图像识别、语音识别、视频识别的领域。另外,分类算法也可以用于知识抽取,通过模型找到潜在的规律,帮助业务得到可执行的规则。
提炼应用规则:为数据化运用提供规则,也是分类分析的主要应用方向。
提取变量特征:输入变量的重要性特征,然后提取权重较高的几个特征是分类分析的重点应用之一,也是数据归约和数据降维的重要方式。获取原始数据集并对数据进行预处理,将数据集放到分类算法中进行训练,然后在冲算法模型中提取特征权重信息。
处理缺失值:将缺失字段作为目标变量进行预测,从而得到较为可能的补全值。
分类分析算法的选取:文本分类时用到最多的是朴素贝叶斯。训练集比较小,那么选择高偏差且低方差的分类算法效果更好,如朴素贝叶斯、支持向量机,这些算法不容易过拟合;训练集比较大,选取何种方法都不会显著影响准确度;省时好操作选择用支持向量机,不要使用神经网络;重视算法准确度,那么选择算法精度高的算法,例如支持向量机、随机森林;想得到有关预测结果的概率信息,使用逻辑回归;需要清洗的决策规则,使用决策树。
有关大数据挖掘技术及其在医药领域的应用的文章
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
关于分类和回归模型的各种评估方法,一种是处理分类任务的模型,一种是预测回归的模型,这两种模型的评估方法也不完全一致,下面就来分别介绍两种类型模型的各种评估手段。AUC可以说是用单个数字总结模型性能的最好方法,其实就是ROC曲线下方的面积大小。平均绝对误差可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小。MAE可以表示预测与实际结果的接近程度。以上即为两种模型的常用评估方法。......
2023-11-08
打开VMware Workstation→点击文件→新建虚拟机。图9-2选择典型(推荐)选择“安装程序光盘映像文件”,选择指定的CentOS系统的.iso文件,点击“下一步〉”。图9-10在CentOS 6中安装VMware Tools重启CentOs 6。图9-11CentOS 6重启输入密码zkpk,登录进系统。图9-12CentOS 6安装完成下面克隆HadoopSlave。图9-14设置克隆虚拟机选项创建完整克隆。图9-16命名虚拟机图9-17正在准备克隆虚拟机图9-18正在克隆虚拟机点击“关闭”按钮后,发现“HadoopSlave”虚拟机已经在左侧的列表栏中。......
2023-11-08
数据挖掘的功能是指数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等。关联分析的目的是找出数据库中隐藏的关联网。关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。聚类分析可以建立宏观的概念,发现数据的分布模式以及可能的数据属性之间的相互关系。......
2023-11-08
在HBase Shell提示符下执行help命令可列出所有命令列表。命名空间类命令命名空间是对表的逻辑分组,HBase可以针对命名空间分配资源限额,指定HRegionServer子集,进行安全管理等。大多数配置更改后必须重新启动HBase集群才能生效,与HRegion压缩、拆分相关的参数可以动态更改,更改后在HBase Shell中执行update_all_config命令即可生效。......
2023-11-08
MapReduce编程:编写WordCount类,实现Mapper接口,实现Reducer接口,配置作业,代码测试,打包发布。其中,key为该行在文本中的偏移量,value值为这一行的内容。Map处理将分割好的〈key,value〉对作为map()方法的输入,然后由用户定义的map()方法进行Map处理,生成新的〈key,value〉对。Reduce处理首先,Reduce端接收到来自Map端的数据后,对数据进行排序,如图5-27Reduce端排序结果所示。......
2023-11-08
关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2023-11-08
数据预处理:在数据集中以手工标记的方式从原始数据集中选取八类药品安全领域数据共5667例作为后续实验数据。表5-16基于NB和Hadoop的话题跟踪算法测试结果由表5-16可知,基于Hadoop平台的朴素贝叶斯分类算法能够运行并实现测试样本的正确分类。实验结果表明,朴素贝叶斯返回相关实例的能力,即精确度相对较好;而识别所有相关实例的能力,即召回率相对较差;且调和平均指标,即F1的整体最佳模型出现在阈值0.57处,即话题4。......
2023-11-08
相关推荐