Spark MLlib中的K-means算法使用Map分布式读取数据集,并存储在内存里。计算时,用Map键值对表示随机挑选出来的k个聚类中心,Spark的驱动器节点负责把数据发送到各个工作节点,以实现具体的计算任务。Spark MLlib不同于传统的机器学习工具,它提供了简单易用的API,特别是Spark能够高效地处理大数据,并且在迭代计算时具有较强的优势。......
2023-11-21
对纽约市交通事故进行空间热点分析时,选用聚类和异常值分析法对计算出的结果进行挖掘。根据数据计算出每个样本的局部莫兰指数,从而鉴别出具有统计显著性的热点、冷点和空间异常值。
聚类和异常值算法通过计算局部莫兰指数、Z得分等,进而得到每个时空子路段具有统计显著性的聚类类型,包括以下四种:高值(HH)聚类、低值(LL)聚类、高值主要由低值围绕的异常值(HL)和低值主要由高值围绕的异常值(LH)(田鑫,2017),并据此绘制莫兰散点图,它主要描述某一空间单元的观测变量x与其空间滞后变量Wx(即该空间单元周围单元的观测变量值的加权平均值)之间的相关关系。
莫兰散点图分为四个象限,分别对应四种不同类型的局部空间关联模式:
①右上象限(H-H):观测值大于均值,其空间滞后也大于均值;②左下象限(L-L):观测值小于均值,其空间滞后也小于均值;③左上象限(L-H):观测值小于均值,但其空间滞后大于均值;④右下象限(H-L):观测值大于均值,但其空间滞后小于均值。
选取时空子路段的加权网络核密度估计值作为样本的属性值,计算每个时空子路段的聚类类型,并选取置信度为95%的统计显著性,聚类类型为高值(HH)聚类的时空子路段为研究区域内的交通事故发生的热点区域,如图4.2所示。底图为MN17区遥感影像,黄色边框为MN17区的边界,红色部分为置信度为95%的统计显著性的黑点时空子路段,将其分成A~I共9个区域,如黑色椭圆所示。识别出的黑点在不同时刻的分布情况,可以归纳出9个黑点区域的空间特征和变化规律,如图4.3所示。
A区域为百老汇大街与西55大街和西54大街交叉口路段,此区域内有许多银行、宾馆、餐厅等建筑,此区域从早上7时开始成为交通事故黑点区域,一直延续到上午10时,即此路段区域在早上7时至10时更容易发生严重的交通事故,需要加强防范。B区域为第六大道与西51大街和西57大街交叉口路段及其支路路段,此区域从凌晨1时到凌晨6时为交通事故黑点,且其变化规律是由中心沿南北方向向两端扩散。C区域为第五大道与东55大街和东58大街交叉口及其支路路段,此区域从中午12时开始成为交通事故黑点,黑点区域从12时至下午4时从中心向周围扩散,然后从下午4时至晚上8时从周围向中心收缩,最终收缩到第五大道与东56大街和东57大街交叉口。D区域为最大的黑点区域,为百老汇大街中部路段及其支路路段,黑点中心为时代广场,从凌晨0时至3时,以百老汇大街为中心线,两边呈对称分布,从4时至7时,支路的交通事故开始减少,交通事故主要集中在百老汇大街和百老汇大街右侧支路,从上午8时至下午1时,黑点区域重心转移至百老汇大街南侧路段,从下午2时至晚上12时,黑点区域沿百老汇大街向北侧扩散。E区域为东51大街与第五大道和公园大道交叉口路段,附近是纽约中央火车站,该黑点区域只在早上8时出现。F区域为第七大道与西29大街和西35大街交叉口路段,从凌晨0时至上午9时,该黑点区域逐渐缩小,然后又在晚上8时至11时重新成为交通事故黑点。G区域为西38大街和西39大街在第五大道与第六大道中间的路段,该黑点区域主要出现在早上8时、下午3时至晚上8时以及晚上10时至次日1时。H区域为西35大街和36大街在第五大道与第六大道中间的路段,从中午12时至下午5时,此区域为交通事故黑点路段。I区域为第五大道与32大街和34大街交叉口路段、西34大街东段和东32大街西段,此区域从早上8时开始成为黑点区域,一直持续到下午5时,期间下午3时黑点区域最大。
图4.2 交通事故黑点识别结果
图4.3 黑点路段时空分布情况
分析发现,MN17区的交通事故主要集中在百老汇大街中段与第七大道所形成的椭圆区域、第七大道与西29大街和西35大街交叉口及其邻近路段等黑色椭圆区域,为道路安全管理工作上应重点关注的区域路段。应该根据时间的不同对相应时间段内的交通事故黑点区域加强疏导和管理,有所侧重地调配警力资源,完善相应路段道路设施,从而减少黑点交通事故的发生及其造成的损失,最终消灭黑点。
有关应急大数据的空间分析与多因素关联挖掘的文章
Spark MLlib中的K-means算法使用Map分布式读取数据集,并存储在内存里。计算时,用Map键值对表示随机挑选出来的k个聚类中心,Spark的驱动器节点负责把数据发送到各个工作节点,以实现具体的计算任务。Spark MLlib不同于传统的机器学习工具,它提供了简单易用的API,特别是Spark能够高效地处理大数据,并且在迭代计算时具有较强的优势。......
2023-11-21
对声音进行数字化处理得到的结果称为音频。对音频,需要通过听觉特征进行检索。音频有别于一般数据,本身是一种正弦波,检索前需要进行预处理,以提取音频特征或文本描述。基于内容的音频检索系统的第一步是先建立数据库对音频数据进行特征提取,将音频数据装入数据库的原始音频库部分,将特征装入特征库部分,通过特征对音频数据聚类,将聚类信息装入聚类参数库部分。......
2023-11-01
Mean-Shift聚类是一个基于滑窗的算法,其目的是尝试找到数据点密集的区域。算法9.2M ean-Shift聚类确定滑动窗口半径r,以随机选取的中心点为C、半径为r的圆形滑动窗口开始滑动。Mean-Shift聚类的优点如下:不同于K-Means算法,均值漂移聚类算法不需要知道有多少类/组。基于密度的算法相比于K-Means受均值影响较小。Mean-Shift聚类的缺点:窗口半径r的选择可能是不重要的。......
2023-06-21
图9-2DBSCAN基本概念(见彩插)图9-3“直接密度可达”和“密度可达”概念示意描述根据前面基本概念的描述知道:由于有标记的各点M、P、O和R的Eps近邻均包含三个以上的点,因此它们都是核对象;M是从P“直接密度可达”;而Q则是从M“直接密度可达”;基于上述结果,Q是从P“密度可达”;但P从Q无法“密度可达”(非对称)。......
2023-06-21
算法9.1K-Means聚类选择一些类/组,并随机初始化它们各自的中心点,中心点是与每个数据点向量长度相同的位置。K-Means采用的启发式方式很简单,用下面一组图就可以形象地描述。图9-1K-Means的启发式方式(见彩插)......
2023-06-21
2000年和2013年两次聚类分析的分类特点基本一致,分类结果有相似之处也有变化较为明显的地方,以下分析造成变动的因素所在。这一变化情况在2013年的聚类结果中反映地更加明显。即从全国纵向发展水平上看,2013年相较于2000年经济发展水平提高的同时老龄化程度加重,但是不同省份间变化的差异程度较大,2013年的分类结果说明经济发展水平和老龄化水平之间的正相关关系大大减弱。......
2023-08-10
RNN算法对标准层次聚类的合并准则和相似度度量做了相应的改进,从而降低了其复杂度,使其更适用于大规模的数据集。当合并最近邻对得到一个新的簇时,需要重新计算该簇与其他各个簇的相似度,如果通过平均值的距离来度量两个簇的距离,其计算复杂度仅为O,但是由于本书采用的是平均距离,则需要通过更为有效的方法进一步降低复杂度。对于低维数据,还可以通过更为有效的最近邻搜索技术进一步降低复杂度。......
2023-06-28
聚类的定义与待处理对象特征有关。聚类的方法很多,不同的方法对于同一数据集聚类的结果可能不同。根据层次分解形式的方式,层次聚类方法可划分为凝聚的层次聚类和分裂的层次聚类方法。绝大多数层次聚类方法属于这一类,它们的不同表现在簇内与簇间相似度的定义不同。目前,一般将基于层次的聚类方法和其他聚类技术进行集成以形成多阶段聚类,从而提高聚类质量。它是一种结构辅助聚类的方法,在大型数据库中的速度和伸缩性较好。......
2023-06-16
相关推荐