4)探查例外或特异数据。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。在这些应用中,发现特异数据成为挖掘的目标。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。......
2023-06-16
服刑人员危险性评估在不同的国家、地区和不同时期有不同的称谓,研究及实际操作形式也不断发展,例如人身危险性评估、适用于减刑和假释的危险性评估、社区矫正人员危险性评估等。对服刑人员进行危险性评估主要是指对服刑人员的人身危险性进行评估,进而对服刑人员未来是否有暴力、自杀、脱逃等危险性行为进行预测。目前,危险性评估技术的应用主要集中在监狱内对服刑人员进行危险性评估、监狱外服刑人员的危险性评估。将服刑人员危险性评估(Risk Assessment)定义为通过一定的技术对服刑人员重新犯罪或者实施其他犯罪行为的可能进行预测,从而为控制这些危险提供根据。[24]在对服刑人员危险性评估的概念作了梳理之后,提出服刑人员危险性评估就是利用心理学、精神病学、社会学等学科的知识,探求确定犯因性因素及其这些因素对罪犯影响的不同程度,进而对是否存在危险性及危险性大小进行科学的评估。[25]
按照危险性评估的方法,我们将服刑人员危险性评估[26]分为:临床危险性评估和基于统计的危险性评估。临床危险性评估需要一个精神病医师或一个心理学者对服刑人员进行观察,临床医生的危险性评估基于他们的专业训练、理论上的知识及与服刑人员相处的经验,其评估方式是非结构性的。基于统计的危险评估是结构的、量化的,这种方法建立在犯罪危险性及相关变量的测量基础上,如年龄、犯罪记录、行为特征等,通过选择、提取危险性特征,建立模型,对服刑人员进行危险性评估。临床危险性评估方法对服刑人员危险性评估操作难度很大,因为使用临床危险性评估方法评估服刑人员危险需要由心理学家进行,而心理学家的培养需要过程,且数量少,最重要的是临床心理学家把握不住犯罪史的权重,临床心理学家可能被能把握人的性格的诈骗犯所迷惑,也可能错过重要的信息。由于临床危险性评估方法主观性过强,没有一个统一的评估标准,评估的一致性信度较低,因此在基层实务部门很难采用。监狱和社区矫正机构多采用基于统计的危险性评估方法。
有关基于大数据挖掘的服刑人员再犯罪预测的文章
4)探查例外或特异数据。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。在这些应用中,发现特异数据成为挖掘的目标。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。......
2023-06-16
基于密度的局部特异数据挖掘方法的文献一般基于两个基本概念:k-distance和DB-outlier。显然,k-distance越大,p点附近的点密度越低,p的特异程度越高。从而确定了这类方法与统计方法的一致性。正态分布的特异定义DefNormal:p是特异的,当且仅当,此定义将正态分布中与均值距离不小于3的对象称为是特异的。说明了当参数μ=3时,泊松分布的特异数据界定。泊松分布的特异数据定义DefPoisson为:p是特异的,当且仅当,p≥8。......
2023-06-16
E.Knorr和R.Ng等在文献[109]中同时提出了一种基于网格构架的挖掘DB-outlier的方法。首先,全部的数据空间被分割成边长为l的网格。①如果Cx,y中的对象数>k,那么Cx,y中的所有对象均不是特异对象。M.M.Breuning等认为文献[106]中关注一个对象是否是特异的,而很多的应用中,给出一个对象的特异程度值更有意义。从[定义2.7]和[定义2.8]出发,M.M.Breuning等定义了一个度量对象p的特异程度的因子Local Outlier Factor,记为LOF[106]。......
2023-06-16
设某一属性的所有值的数据集为S,其平均值为Smean。根据这些想法,提出一种基于聚类的全局特异数据挖掘方法。构架仍由挖掘特异属性和挖掘特异记录两个层次构成。从原则上讲可以采用任何基于距离的聚类算法对S进行聚类,采用的聚类算法的效果好,可以减少后续的计算量。图3.2SimC聚类算法可以看出,k是控制聚类半径Cd的。现在根据式(3.9)计算每个类的特异因子,记为CPF。显然,CPF越小的类,其中的元素是特异数据的可能性越小。......
2023-06-16
关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2023-11-08
Zhong Ning等人提出了一种基于距离的全局特异数据挖掘的构架[101]。其中,Mj和σj分别代表aj所有PF值的均值和标准差。Pr=RPF均值+γ×RPF的标准差(3.4)可以看出,此构架是基于距离的,并且找到的特异数据是全局的。从式(3.1)得出,属性xij和xkj间的距离d是后续计算的基础。由前述可知,此构架可以处理各类属性值,并且可以处理多个相关数据集的特异挖掘问题。......
2023-06-16
数据清洗这是文本挖掘中关键的一步。因此文本内容无法用目前的数据挖掘技术直接进行处理,需要对文本进行预处理。通常文本型数据都具有相当大的维度空间,将导致在文本挖掘阶段消耗更多的计算机资源与处理时间。通过用户预定义的评估指标体系对文本挖掘所获取的知识进行评价,并根据评价结果抉择是否留用。文本挖掘的结果是面向各种应用的知识模式。通过评估可以改进文本挖掘的知识发现过程。......
2023-06-28
常用的数据挖掘方法有四大类,分别对应四个问题,这四个问题是数据挖掘的基础,分别是聚类挖掘、分类挖掘、关联模式挖掘和异常值检测。1)K最近邻分类算法K最近邻分类算法可以说是整个数据挖掘分类技术中最简单的方法。目前,数据挖掘领域有大量的聚类算法。......
2023-06-21
相关推荐