摘要

空气质量PM2.5的精确预测是提供空气污染预警的有效途径。本研究提出了一种新的深度学习模型—基于时间差分的图变换神经网络(Temporal Difference-based Graph Transformer Networks, TDGTN)模型，从时间序列PM2.5数据中学习出长期的时间相关性和复杂关系，并将其应用于空气质量PM2.5预测。TDGTN主体由基于图注意机制的编码和解码器组成。在预处理上，考虑到不同时刻的相似性以及相邻两个时刻的时间差分特性对空气质量预测的重要性，首先将不同时刻时间序列PM2.5数据构建为图结构数据，然后利用时间序列的差分动态信息和图结构的特殊性对自注意力机制进行改进，开发出一种新的图注意机制，最后将所开发的图注意机制嵌到所提出的TDGTN的编码器和解码器层中，从空气质量PM2.5预测任务中学习深层时间序列变化特征。

关键词

空气污染预警；深度学习；空气质量预测；图注意；时间序列

正文

1. 引言

城市化和工业化的深入推进，对大气环境造成了巨大的破坏，这严重影响了人们的生活水平，威胁着人们生命健康，并制约了经济社会的可持续发展。大气细颗粒物(PM_2.5)已经成为大气污染的主要因素，与大气大颗粒物相比较，PM_2.5体积小，重量轻且易附带大量有害物质，对居民健康的危害更为严重。有研究表明长期暴露于高浓度PM_2.5环境中，会使人患心脏病、中风、慢性阻塞性肺病、肺癌等疾病的几率大幅度升高^[5]。因此，怎样实时、准确、长期地预测PM_2.5浓度，对于空气污染防治、政府决策和保护人类健康等均具有重要意义。

已有研究探索了各种方法对空气质量PM_2.5预测的性能。目前，人们广泛关注的是几种混合深度学习框架对空气质量PM_2.5的预测。基于一维的CNN(1D-CNN)模型和用于时空特征学习的双向LSTMs的混合深度学习模型(CNN-LSTM)。

2. 实验材料与方法

2.1. PM_2.5数据集的建立

本文所用数据库为自主采集的台州PM_2.5数据库，该库的采集点位于浙江省台州市椒江城区(东经121°42′，北纬28°65′)。台州位于浙江省东南部，属亚热带季风区，是中国南方典型的潮湿地区。

数据库包含了自2017年1月1日至2019年12月31日的26000余条数据，数据采集时间间隔为1小时，包含8个特征参数：PM_2.5浓度(ug/m³)、露点、温度、压力、组合风向、累计风速(m/s)、降雨累积小时数、相对湿度累积小时数。图1、图2对PM_2.5值进行了简单的可视化描述。

图1 台州市2017全年PM_2.5(ug/m³)箱线图

图2 台州市2017年01月01日至01月31日PM_2.5小时变化情况

2.2实验方法

图3 基于时间差分的图变换神经网络架构

图3所示为用于空气质量PM_2.5预测的基于时间差分的图变换神经网络(TDGTN)模型概况。TDGTN模型在基于传统的Transformer构架上做了两处改进：其一，对输入数据进行一阶差分处理，再将处理后的一阶时间差分特性作为输入，进入编码器进行处理。目的在于使TDGTN模型能学习深层次时间序列变化特征，从而获得长期的依赖关系和图结构的复杂关系；其二，用图注意力机制代替传统的多头注意力机制嵌入到编码器与解码器中。

其中为原始一阶差分矩阵，为在两个图中相邻节点之间的一阶差分，代表两个相邻时刻之间的气象动态变化，用于对原始差分矩阵进行的线性变换。经过变换之后，图中中的边值就对应于中的元素值，从而将原始数据转化为图结构数据，见图4。

图4 从时间序列中在四个不同时刻的PM_2.5数据构造图结构数据

这种将数据重构为图结构数据对于PM_2.5时间序列模式的学习有三大优势，如下所述：

(1)为了衡量不同时间节点的相似性，采用注意力得分来衡量。不同节点的相似性越高，注意力分值就越大。

(2)考虑到PM_2.5时间序列数据中相邻时间的动态变化信息同样重要，采用一阶差分矩阵来衡量。

(3)为了同时权衡不同节点的相似性与数据动态变化特征，采用哈达玛积对差分矩阵进行注意力加权计算。

2.2.2图注意力机制

传统的Transformer中的自注意力机制难以对图结构数据进行深层特征挖掘，所以，我们采用了充分考虑时间差信息的图注意力机制替换了原有的自注意力机制。

首先通过执行缩放点积计算得到注意力得分：

（6）

如上节所提到的，图中相邻两个节点之间的一阶差分矩阵可以较好的表示两个相邻时间时刻的气象动态变化。这种差异信息对空气质量的预测很有帮助，我们将其嵌入到自注意力模型中，修改了式(6)中的注意力计算方式，得到图注意力机制：

（7）

对于基于图的时间序列PM_2.5数据预测，我们采用非线性正弦和余弦函数的固定位置编码来提供时间序列数据的位置信息，并将其用于图注意力的计算。

3. 结果与讨论

本研究所有实验均在GPU NVIDIA Quadro P6000的实验环境下进行，为了保证实验的平行性，所对比的机器学习和深度学习框架，均在Pytorch框架下进行，深度学习均采用Adam优化器进行优化，MSE作为损失函数。对于超参数的设置，初始学习率均为1e-4，批次大小为32，最大训练迭代次数为200，窗口大小为24。我们对本研究模型与其他代表性的PM_2.5预测模型进行了比较，对比模型包括传统、经典的自回归滑动平均模型(Autoregressive Moving Average Model, ARMA)，支持向量回归模型(Support Vector Regression, SVR)，以及近年来流行的卷积神经网络模型(Convolutional Neural Network, CNN)，长短期记忆网络模型(Long Short-Term Memory, LSTM)和Transformer模型。其中，对于原始Transformer模型和我们提出的TDGTN模型，均由三个编码器和两个解码器组成，以保证实验的平行性。

参考文献：

[1] 张莹, 田琪琪, 魏晓钰，等. 2022. 2016—2020年成都市控制PM_2.5和O_3-8h污染的健康效益评价[J]. 环境科学: 1-16.

[2] 陈莎, 刘影影, 李素梅，等. 2020. 京津冀典型城市PM_2.5污染的健康风险及经济损失研究[J]. 安全与环境学报, 20: 1146-1153.

[3] 曾贤刚, 阮芳芳, 彭彦彦. 2019. 基于空间网格尺度的中国PM_2.5污染健康效应空间分布[J]. 中国环境科学, 39: 2624-2632.

...

阅读全文

摘要

关键词