聚类分析是一种原理简单、应用广泛的机器学习技术。聚类分析已成为机器学习研究中的一个热点。图6-3k-均值聚类算法步骤示例k-中心点聚类k-中心点算法与k-均值算法在原理上十分相近,它是针对k-均值算法易受极值影响这一缺点的改进算法。以密度聚类算法来详细说明,该方法将“簇”看作是数据空间中被低密度区域分割开的“稠密区域”,即密度相连样本点的最大集合。图6-7期望最大化聚类算法步骤示例......
2023-06-28
目前,全国大部分监狱的信息化建设第一期工程已经完成,已经初步建立业务管理信息系统和安防系统,但由于初期建设时更多考虑的是业务数据化,而较少考虑将数据业务化,没有将数据当作是一种资源,为业务服务。一方面,受限于监狱的人力及技术水平,监狱警察很难独自对服刑人员的危险性识别和预测情况进行数据化,更不可能长期收集这些数据对原有模型进行验证和反馈修正。另一方面,由于监狱信息化部分数据涉及服刑人员个人隐私,在没有国家法律或政策的强制要求下,监狱不愿意将服刑人员数据公开。因此,外界很难实时收集服刑人员数据来进行研究。因此文章以2004年美国人口普查局(ICPSR#4572)对司法统计局(BJS)所管辖的州和联邦监狱服刑人员的调查(SJSFCF)数据作为数据源进行模型的效用评估。SJSFCF提供从2003年10月到2004年5月关押在监狱的服刑人员相关数据,该数据主要包括服刑人员的罪行、判刑、犯罪史、家庭背景、毒品服用史、医疗卫生状况、枪支使用情况、在监狱的表现及劳动情况等信息。该数据集共包括14 499人,经过对数据进行清洗,实际有效数据为10 328人。为提高机器学习模型的效用,我们采用5折交叉验证方法,随机从原始数据中选择10 000例,并均分成5个数据集,分别标记为1,2,…,5,为降低某种机器学习技术的误差率,避免过拟合,K折交叉验证法在实践中被认为是标准方法[54][55]。使用数据集训练机器学习模型时,每次随机选择其中一个数据集为测试集,其余4/5的数据作为训练集进行模型训练,从而建立模型。通过对各子数据集进行观察,可以发现,每个数据集人口统计特征类似,其中大多为男性(80%~83%);非籍美国人近一半(45%~46%);年龄在20~35岁之间;近20%的人为已婚;超过一半(68%~70%)以上的人有工作;超过一半(73%~76%)人受过高中教育;在入狱2次以上的服刑人员中,第一次入狱的年龄在13~20岁之间;几乎一半人(47%~52%)使用毒品;约三分之一(28%~30%)的人有精神或人格障碍方面的疾病;几乎一半(46%~48%)人在监狱有暴力犯罪;超过一半(52%~54%)人至少违反了监狱一项规定。
有关基于大数据挖掘的服刑人员再犯罪预测的文章
聚类分析是一种原理简单、应用广泛的机器学习技术。聚类分析已成为机器学习研究中的一个热点。图6-3k-均值聚类算法步骤示例k-中心点聚类k-中心点算法与k-均值算法在原理上十分相近,它是针对k-均值算法易受极值影响这一缺点的改进算法。以密度聚类算法来详细说明,该方法将“簇”看作是数据空间中被低密度区域分割开的“稠密区域”,即密度相连样本点的最大集合。图6-7期望最大化聚类算法步骤示例......
2023-06-28
Hadoop可编写和运行分布式应用以及处理大规模数据,Mahout为一些机器学习算法框架库,但Mahout基于MapReduce计算框架,不适合处理迭代算法。因此,基于Spark和Hadoop框架结合的机器学习算法,要解决Mahout在应用迭代算法处理数据时消耗资源过多和系统整体性能下降的缺陷,提高数据处理分析的速度。基于MapReduce框架编写的Mahout机器学习库,使用HDFS技术在云基础架构上能够满足对大数据的存储要求,但I/O资源消耗过大造成系统整体性能降低[155]。......
2023-11-21
机器学习一般根据处理的数据是否存在人为标注可分为监督学习和无监督学习。因此,监督学习的根本目标是训练机器学习的泛化能力。总之,机器学习就是计算机在算法的指导下,能够自动学习大量输入数据样本的数据结构和内在规律,给机器赋予一定的智慧,从而对新样本进行智能识别,甚至实现对未来的预测。机器学习的一般流程如图6-1所示。......
2023-06-28
在该对话框中单击按钮,系统弹出图3.23.21所示的“信息”窗口,在弹出的“信息”窗口中会列出指定的信息,包括分析点的个数、两个对象的最小距离误差、最大距离误差、平均距离错误、最小角度误差、最大角度误差、平均角度误差以及各检查点的数据。图3.23.20 选择对象图3.23.21 “信息”窗口Step4.检查曲线至面的偏差。说明:进行曲线至面的偏差检查时,选取图3.23.22所示的曲线1和曲面为检查对象。......
2023-11-20
针对本章构建的迁移学习模型,根据上述实验设置的超参数值和最佳冻结层数,分别在KTH-TIPS和UMD纹理库上开展实验,对本章构建的迁移学习模型进行最终的测试,以便获得在测试集上的纹理识别精度。对UMD纹理库进行划分,其中每类的20个样本作为训练集,10个样本作为验证集,10个样本作为测试集。......
2023-06-29
决策树是最经典的机器学习方法之一,它以树形结构将决策/分类过程展现出来,简单直观、解读性强,根据适用情况的不同,有时也被称为分类树或回归树。决策树呈现倒置的树形,即最上端为树的根,最下端为树的叶。机器学习中的决策树可以分为两个主要类型:分类树和回归树。[2000,3000]),则属于分类树范畴。虽然目前已有了在运行效率等方面进一步完善的算法C5.0,但由于C5.0多用于商业用途,C4.5仍是更为常用的决策树算法。......
2023-06-28
基于Spark+Hadoop处理技术的机器学习使得样本数量大量增加,以大量样本作为基础实现问题的分类求解。Spark不仅具有Hadoop MapReduce数据处理技术的优点,而且可以适用于需要迭代MapReduce算法的数据处理与机器学习等。通过大数据技术Spark+Hadoop进行全量数据分析,解决统计/机器学习依赖于数据抽样且不能精准反映全集的问题,揭示其全量数据分析而能精准反映全集的机理。......
2023-11-21
在以学习者为中心的设计过程中,需要确保为学习者提供有吸引力的移动学习体验,从而吸引他们持续接受教育。教学设计、技术设计和可用性设计的最终目标是促进并保持学习者的高满意度。为了确保学习者的高满意度,移动学习设计的综合模型需要考虑地点、技术以及文化。......
2023-11-30
相关推荐