首页 理论教育缺失值填补后的AOD水平显著高,与PM2.5浓度有强相关性

缺失值填补后的AOD水平显著高,与PM2.5浓度有强相关性

【摘要】:本研究中缺失值填补后的平均AOD 水平显著高于填补前的平均AOD 水平。从最终随机森林模型的自变量重要性顺序来看,补缺后的AOD 值和环境PM2.5 浓度具有较强的相关性。该地区与上海市西部直接接壤,因此其污染物扩散趋势可能影响上海市PM2.5 浓度的分布。最后,本模型具有较高的空间分辨率,可有效反映PM2.5 的空间变异,从而减少人群分布集中的流行病学研究中暴露错分的可能性。

使用随机森林模型构建了上海市2017-2018年高分辨率PM2.5 时空分布模型,并获得了较高的预测准确率(交叉验证R2=0.96)及较好的空间外推能力(空间交叉验证R2=0.96)。相较于该地区既往的预测模型而言,本研究所构建的模型具有更强的预测能力[13]。其原因可能在于:①上海市地面PM2.5 监测体系在近年来的不断发展提供了空间覆盖率更高的PM2.5 数据,从而有利于模型的训练和拟合;②AOD 及各校正因素与PM2.5 浓度之间并非单纯的线性关系,研究采用的机器学习模型相较于传统的混合效应回归模型可以更好地处理其统计学关联。

本研究中缺失值填补后的平均AOD 水平显著高于填补前的平均AOD 水平(2017年为0.89 vs 0.60、2018年为0.56 vs 0.38)。其原因可能在于气溶胶光学厚度和云量间固有的正相关关系[14,15]。综上,本研究所采用缺失值填补方式通过迭代计算的方式有效降低了随机误差对结果的干扰。从最终随机森林模型的自变量重要性顺序来看,补缺后的AOD 值和环境PM2.5 浓度具有较强的相关性。

研究发现,上海市PM2.5 浓度的空间分布呈现自东向西、由沿海到内陆逐渐升高的趋势,其原因可能在于:①人口分布,上海市东南部临海人口稀少,而中部及西部市区人口密集,人为因素可产生一定的PM2.5;②工业布局,上海市在松江区建有国家级工业区,相较东部而言可能具有更高的污染物排放;③邻近省份污染物扩散的影响,Xiao 等构建的长三角PM2.5 浓度预测模型显示,江苏省苏南地区(主要是南京-镇江-无锡-常州-苏州一带,工业发达且人口密集)具有较高的污染物浓度[8]。该地区与上海市西部直接接壤,因此其污染物扩散趋势可能影响上海市PM2.5 浓度的分布。此外,上海市PM2.5 分布情况表现出明显的季节性,即冬春高、夏秋低。其原因可能在于上海市属典型的亚热带季风气候,夏季盛行东南风,冬季盛行西北风。上海东临太平洋,夏季东南风多来自清洁的海洋上空,而冬季季风多来自污染物浓度较高的江苏南部。(www.chuimin.cn)

研究所构建的上海市PM2.5 浓度模型具有几点优势:首先,引入机器学习模型实现了对大气污染中各自变量间复杂的统计学结构的有效处理,该模型展现出较好的预测性能。其次,本研究提供了自变量在预测模型中的重要性排序,可作为后续研究方法学上的参考。最后,本模型具有较高的空间分辨率,可有效反映PM2.5 的空间变异,从而减少人群分布集中的流行病学研究中暴露错分的可能性。