首页 理论教育机器学习模型数据源分析

机器学习模型数据源分析

【摘要】:为提高机器学习模型的效用,我们采用5折交叉验证方法,随机从原始数据中选择10 000例,并均分成5个数据集,分别标记为1,2,…使用数据集训练机器学习模型时,每次随机选择其中一个数据集为测试集,其余4/5的数据作为训练集进行模型训练,从而建立模型。

目前,全国大部分监狱的信息化建设第一期工程已经完成,已经初步建立业务管理信息系统安防系统,但由于初期建设时更多考虑的是业务数据化,而较少考虑将数据业务化,没有将数据当作是一种资源,为业务服务。一方面,受限于监狱的人力及技术水平,监狱警察很难独自对服刑人员的危险性识别和预测情况进行数据化,更不可能长期收集这些数据对原有模型进行验证和反馈修正。另一方面,由于监狱信息化部分数据涉及服刑人员个人隐私,在没有国家法律或政策的强制要求下,监狱不愿意将服刑人员数据公开。因此,外界很难实时收集服刑人员数据来进行研究。因此文章以2004年美国人口普查局(ICPSR#4572)对司法统计局(BJS)所管辖的州和联邦监狱服刑人员的调查(SJSFCF)数据作为数据源进行模型的效用评估。SJSFCF提供从2003年10月到2004年5月关押在监狱的服刑人员相关数据,该数据主要包括服刑人员的罪行、判刑、犯罪史、家庭背景、毒品服用史、医疗卫生状况、枪支使用情况、在监狱的表现及劳动情况等信息。该数据集共包括14 499人,经过对数据进行清洗,实际有效数据为10 328人。为提高机器学习模型的效用,我们采用5折交叉验证方法,随机从原始数据中选择10 000例,并均分成5个数据集,分别标记为1,2,…,5,为降低某种机器学习技术的误差率,避免过拟合,K折交叉验证法在实践中被认为是标准方法[54][55]。使用数据集训练机器学习模型时,每次随机选择其中一个数据集为测试集,其余4/5的数据作为训练集进行模型训练,从而建立模型。通过对各子数据集进行观察,可以发现,每个数据集人口统计特征类似,其中大多为男性(80%~83%);非籍美国人近一半(45%~46%);年龄在20~35岁之间;近20%的人为已婚;超过一半(68%~70%)以上的人有工作;超过一半(73%~76%)人受过高中教育;在入狱2次以上的服刑人员中,第一次入狱的年龄在13~20岁之间;几乎一半人(47%~52%)使用毒品;约三分之一(28%~30%)的人有精神或人格障碍方面的疾病;几乎一半(46%~48%)人在监狱有暴力犯罪;超过一半(52%~54%)人至少违反了监狱一项规定。