首页 理论教育环评方法与模型构建-上海环境科学集

环评方法与模型构建-上海环境科学集

【摘要】:如图1 所示,构建上海市大气PM2.5 浓度预测模型共分两个主要步骤:①对含缺失值的AOD 原始数据进行补缺;②结合地面监测站PM2.5 浓度训练及评价模型,并预测全上海市日均PM2.5 浓度。

如图1 所示,构建上海市大气PM2.5 浓度预测模型共分两个主要步骤:①对含缺失值的AOD 原始数据进行补缺;②结合地面监测站PM2.5 浓度训练及评价模型,并预测全上海市日均PM2.5 浓度。

图1 上海市大气PM2.5 浓度预测模型构建流程

1.6.1 缺失AOD 观测值的多重填补

既往的缺失值填补方法假定数据中的缺失值可以完全由其他观测变量所解释。然而,由于填补过程必然引入随机误差,该类方法通常会提高数据的变异性[10]。而多重填补法则通过回归方程多次迭代填补同一缺失值以减小随机误差对整体数据的影响,因而具有更高的可靠性[11]

为了获取足够多的已知AOD 数据以增加补缺结果的稳健性,本研究采用7 d 滚动窗口的形式进行缺失值填补。即为某个给定日期Z 填补AOD 缺失值所用的AOD 观测值取自Z-3、Z-2、Z-1、Z、Z+1、Z+2 及Z+3 等7 d 中所有的AOD 观测值。最终的补缺方程如下:

式中,AODij——第i 天中,第j 个MAIAC 1 km 网格的气溶胶光学厚度;

β——各自变量的回归系数;

Xj,Yj——该网格的经、纬度坐标;

s()——平滑气溶胶空间分布的立方样条函数;

CFij——第i 天中,第j 个MAIAC 网格的云量;

Tij——第i 天中,第j 个MAIAC 网格的温度;

RHij——第i 天中,第j 个MAIAC 网格的相对湿度;(www.chuimin.cn)

SHij——第i 天中,第j 个MAIAC 网格的比湿度;

Ej——第j 个MAIAC 网格的海拔;

Dj——第j 个MAIAC 网格滚动窗口的哑变量;

ε——残差。

值得注意的是,为保证填充结果的可靠性,仅使用原始观测值填充未知AOD 数据,即通过多重填补法计算得的AOD 值不会进入新一轮的补缺计算。此外,若7 d 滚动窗口内累计AOD 数值不超过4 000 个,则该日数据不进行补缺,并记为完全缺失。在补缺过程中独立处理取自Terra 和Aqua 平台的AOD 数据。在补缺完成后,取Terra AOD 和 Aqua AOD 的平均值以最终构建环境PM2.5 浓度预测模型。

1.6.2 随机森林预测模型的构建及评价方法

采用随机森林回归模型构建上海市PM2.5 浓度预测模型并预测全市2017-2018年的日均PM2.5 浓度分布。该模型是一种以决策树(Decision Tree)为基本单元的集成学习方法[12]。相较于传统的回归模型而言,机器学习模型在自变量具有高度自相关及复杂交互作用时具有较大的优势。

随机森林算法的Bootstrap 方法决定了其在自变量维度较高时仍能有稳定的预测性能。因此,在建模时纳入了所有可能潜在影响模型性能的自变量以提升预测能力(见表2)。

表2 随机森林模型中纳入的自变量

采用均方误差的百分比提升(记为%IncMSE)这一指标来衡量不同自变量在随机森林预测模型中的重要性。该指标表示在其他自变量均不变的情况下,若某一特定自变量被随机重排,模型预测结果的均方误差所提升的百分比。百分比越高,则代表这一自变量在原预测模型中的不可替代性越强(即重要性越高)。作为一个无量纲的指标,%IncMSE 便于进行自变量的横向对比及排序。

模型评价体系包括:①袋外(OOB)R2 估计,该指标来自随机森林模型中的Bootstrap 方法,表示所有决策树在没有参与自身构建的样本中的预测结果与真实值之间的决定系数;②10 折交叉验证(10-fold Cross-Validation)法,即随机10 等分模型数据,每次用其中的9 份作为训练集构建随机森林模型,另一份作为验证集生成预测结果,并重复上述过程10 次直到所有观测值均有一个预测值相匹配,随后计算预测值-观测值间的决定系数、均方根误差(Root Mean Square Error,RMSE)及单因素回归方程的斜率以评价模型;③10 折空间验证(10-fold Spatial Validation),该PM2.5 在空间外推上的可行性需通过10 折空间验证来评价,即依据训练集的空间坐标将其随机分成10 等份,其中9 份作为训练集拟合模型,1 份作为验证集评价模型。该方法确保每次用以建模的训练集与验证集在空间坐标上不存在任何交叉,是无偏评价外推性能的最佳方法,其评价指标与10 折交叉验证相同,为预测值-观测值间的R2,均方根误差及相应回归方程斜率。