Python深度学习时序预测:从数据预处理到DGCRN/Informer模型对比
作者:Wu Yu
随着城市化和工业化的深度推进,细颗粒物(PM2.5)污染问题日益突出,精准预测PM2.5浓度对公众健康预警、应急减排措施制定以及环境治理政策优化至关重要。
数据预处理(插值、异常值、标准化)
│
特征分析与因子挖掘(周/年周期、GAUST 相似性)
│
模型构建与训练(DGCRN、Informer、LSTM、GRU)
│
多指标对比评估(RMSE、MAPE、MAE、R²)
│
模型改进展望(多尺度时序单元、空间注入)从数据驱动的视角看,这本质上是一个融合时空动态和长程依赖的复杂时间序列预测课题。本文综合运用时序特征分析、因子关联挖掘以及深度学习建模,对某区域184个站点连续三年的多变量记录进行系统分析,重点对比动态图卷积循环网络(Dynamic Graph Convolutional Recurrent Network, DGCRN)与长序列学习器Informer,并使用长短期记忆网络(Long Short-Term Memory, LSTM)和门控循环单元(Gated Recurrent Unit, GRU)作为基线模型。这项工作灵感来源于一次面向环保业务的咨询任务,经数据脱敏和方法沉淀后,形成可复现的学术分析框架,可为同类研究提供模型选型参考和实践经验。
拓展说明:时空预测任务的核心难点在于:① 污染物浓度受气象条件(风速、湿度、气压等)和排放源双重影响,具有强非线性;② 站点间污染物扩散存在空间传播延迟(例如上风向站点浓度升高后数小时影响下风向站点);③ 时间维度上同时存在日、周、年等多尺度周期模式。DGCRN和Informer分别从“时空同步建模”和“超长序列压缩”两个角度切入,代表了两种不同的技术路线。
一、数据预处理与特征工程
1. 数据探索与缺失填补
数据集包含184个监测点,时间跨度为2015年1月至2018年12月,采样频率为每3小时一次,每个时间点记录14个特征变量(包括PM2.5浓度、2米温度、边界层高度、风速、风向角、降水量、相对湿度、地面气压等)。经重新生成完整时间索引并逐条比对,发现由观测时间点和观测点构成的主键缺失11,776条记录,缺失时段主要集中在跨年夜附近,且表现为连续、短时中断模式——这可能是由于节假日期间监测设备维护或通讯故障所致。

图1 数据集的基本属性探索(含各特征统计分布、缺失率矩阵、时间覆盖范围)
缺失填补策略根据变量物理特性分类实施:
- 周期性插值:对具有明显日周期和年周期的2米温度、边界层高度,采用基于历史同期数据的周期性插值(取前后各24个周期的加权平均),以保留季节变化规律。
- 风向角处理:环形特征风向角(0°-360°存在边界不连续性)通过三角函数分解(sin和cos变换)展开为连续值后进行插值,再反变换回角度。
- 累计量插值:降水等累计量采用累计量插值法(即对非零降水的连续时段整体处理,避免破坏累积关系)。
- 突变变量插值:PM2.5、风速等易突变的变量采用分段线性插值,仅填补短时缺口(连续缺失不超过3个时间点),长时段缺失则不强行插补,以尽量保留突发波动特征。

图2 缺失记录可视化(热力图展示各站点、各月份的缺失分布)

图2(续) 缺失前后的数据对比示例
最受欢迎的见解
以下为平台读者高频关注的相关研究主题(供拓展参考):
- Python员工人力流失预测:ADASYN采样、CatBoost算法、LASSO特征选择与动态不平衡处理及多模型对比研究
- R语言分布式滞后非线性模型(DLNM)分析某城市空气污染与健康数据:多维度可视化优化滞后效应解读
- Python古代文物成分分析与鉴别研究:灰色关联度、岭回归、K-means聚类、决策树分析
- Python + TensorFlow + OpenCV的卷积神经网络(CNN)人脸识别系统构建与应用实践
- Python实现Transformer、SARIMAX、RNN、LSTM、Prophet时间序列预测对比分析(应用于用电量、零售销售、公共安全、交通事故数据)
- MATLAB贝叶斯超参数优化LSTM预测设备寿命应用——以航空发动机退化数据为例
- Python谷歌商店Google Play APP评分预测:LASSO、多元线性回归、岭回归模型对比研究
- Python+AI提示词糖尿病预测模型融合构建:伯努利朴素贝叶斯、逻辑回归、决策树、随机森林、支持向量机SVM应用
2. 异常值处理与标准化
结合物理阈值(如PM2.5浓度不超过500 μg/m³、风速不超过30 m/s)和统计方法(Z-score > 3或< -3、箱线图超出1.5倍四分位距)进行异常值检测。对于符合极端天气特征(如沙尘暴导致浓度骤升、台风期间风速极大)的“真实异常”予以保留,不作为异常剔除;对于传感器漂移或记录错误导致的孤立离群点,则采用中位数替代或邻近点均值修正。
随后通过Z-score标准化消除量纲影响:对每个特征独立计算均值和标准差,将数据转换为均值为0、标准差为1的分布,以保证不同量级变量(如温度数值在-10~40之间,气压在980~1030 hPa之间)对模型训练的贡献均衡。风向角用正余弦映射(构造sin(角度)和cos(角度)两个新特征)解决角度突变问题,同时保留方向信息的完整性。

图3 观测属性可视化特征(各特征箱线图、分布直方图)

图4 插值后可视化结果(插值前后时序曲线对比)

图4(续) 多站点插值效果验证图
专家建议:在环境时间序列的预处理中,不建议对所有缺失采用同一插值方法。应根据缺失模式(随机缺失 vs. 连续缺失)和变量物理意义(连续变量 vs. 环形变量 vs. 累积变量)分别处理。跨年夜连续缺失若超过6小时(两个采样点),建议直接标记为“无数据”而非强行插补,以避免引入虚假的浓度变化模式。
阅读原文进群获取完整内容及更多AI见解、行业洞察,与900+行业人士交流成长。
二、时序特征与因子分析
1. 多尺度周期特征
- 日周期:整体波动平缓,无显著的“早晚高峰、午后低谷”模式,表明该区域排放源结构以工业连续排放为主,交通源贡献相对较弱,气象驱动(如日间垂直扩散增强)对浓度的调节作用有限。
- 周周期:呈现出“周中稳态、周末抬升”的规律,周末波幅加大(标准差比工作日增加约12%)。可能的解释是周末部分工厂停工导致背景浓度变化,或居民出行模式的改变影响了二次转化条件。
- 年周期:呈现明显的“冬高夏低”季节锁定效应。冬季静稳天气(逆温层频繁出现、混合层高度降低)利于污染物累积,而夏季对流活动和降水冲刷显著降低浓度。三个年份间PM2.5中位数持续下降(2015→2016下降约11%,2016→2017下降约9%),箱体收窄,极端峰值减少,表明该区域污染治理措施(如燃煤锅炉改造、工业排放标准收紧)效果显著。

图5 日周期特性对比(各小时PM2.5均值及置信区间)

图6 周周期特性对比(周一至周日逐日分布盒图)

图7 月周期特性对比(1-12月PM2.5变化曲线)

图8 年周期特性对比(2015-2018逐年对比)

图9 PM2.5年度分布对比(小提琴图叠加箱线图)
2. 气象因子关联分析(GAUST)
在滑动时间窗口(窗口大小为30天,步长为5天)内计算各气象因子与PM2.5浓度的Pearson相关系数,形成时变相关曲线。结果显示:风速与PM2.5的时序趋势相似度最高(平均相关系数约-0.58,风速越大浓度越低),印证了水平扩散为主导的清除机制;地面气压次之(相关系数约-0.42,低压系统伴随辐合上升利于扩散);相对湿度与PM2.5呈弱正相关(相关系数约0.23,高湿条件下气溶胶吸湿增长促进二次生成);风向的影响表现为区域差异——当风向来自工业区方向时相关性转正。这些结果直接指导了后续建模中特征权重的差异化设计(如为风速特征分配更高的注意力分数)。
术语解释:GAUST(Granger-Augmented Spatio-Temporal)是一种结合格兰杰因果检验的时空关联分析方法。与传统相关系数不同,GAUST不仅考察两个变量的同期相关性,还评估一个变量的滞后值是否对另一个变量的预测有显著贡献,从而识别出“因果性”而非仅仅是“相关性”。

图10 气象因子与PM2.5 GAUST分析结果(包含各因子不同滞后阶数的贡献热图)
三、模型构建与代码实现
1. DGCRN:动态图卷积循环网络
DGCRN的核心在于自适应图生成与扩散图卷积的协同设计。具体而言:
- 自适应图生成:每个站点学习一个可训练的嵌入向量(embedding vector),嵌入向量之间的内积经过Softmax归一化后产生动态邻接矩阵。与传统预定义空间图(如基于地理距离或道路连接)不同,该矩阵在训练过程中自动更新,能够学习到数据驱动的潜在空间依赖(例如两个地理上相隔较远的站点,只因处于同一气流通道而产生高度相关的污染波动)。
- 扩散图卷积:模拟污染物在站点间的双向传播——既沿风向方向扩散,也反向回传(对应于污染物回流或区域背景均匀化)。每个时间步的图卷积操作聚合邻居节点的信息,更新当前节点的表征。
- 时序单元:使用改写的门控循环单元(GRU),将线性门(更新门、重置门)替换为扩散图卷积操作,形成DGCRM(动态图卷积循环模块)。这使得网络在每个时间步都能同时捕捉:
- 空间依赖(当前时刻各站点之间的相互影响)
- 时间依赖(各站点自身的历史序列模式)

图11 DGCRN模型总览图(含嵌入层、图卷积层、GRU循环层、输出层的完整数据流)
下面给出简化后的核心架构代码:
# 自适应图卷积与循环单元(变量名已重构)
class GraphDiffusionConv(nn.Module):
def __init__(self, in_dim, out_dim, K_steps=2):
super().__init__(); self.K_steps = K_steps
# 拼接多步扩散结果的全连接层
self.linear_combine = nn.Linear(in_dim * K_steps, out_dim)
def forward(self, x, adj_matrix):
B, N, _ = x.shape
adj_mod = adj_matrix + torch.eye(N, device=x.device) # 自环连接
deg_inv = (adj_mod.sum(1) + 1e-6).pow(-1) # 度矩阵的逆
norm_adjacency = torch.diag(deg_inv) @ adj_mod
spatial_supports, x_diffused = [x], x
for _ in range(1, self.K_steps): # 多步扩散模拟
x_diffused = torch.einsum('ij,bjk->bik', norm_adjacency, x_diffused)
spatial_supports.append(x_diffused)
combined = torch.cat(spatial_supports, dim=-1)
return self.linear_combine(combined)
class GraphConvGRUCell(nn.Module):
def __init__(self, in_dim, hid_dim, K_steps=2):
super().__init__(); self.hid_dim = hid_dim
self.update_conv = GraphDiffusionConv(in_dim + hid_dim, hid_dim, K_steps)
self.reset_conv = GraphDiffusionConv(in_dim + hid_dim, hid_dim, K_steps)
self.candidate_conv = GraphDiffusionConv(in_dim + hid_dim, hid_dim, K_steps)
def forward(self, x, h_state, adj_matrix):
concat_input = torch.cat([x, h_state], dim=-1)
# ......(省略门控计算与状态更新,完整代码请进群获取)
图12 DGCRN训练过程损失下降图(训练集与验证集损失曲线,约30个epoch后趋于收敛)
2. Informer:概率稀疏自注意力
Informer专门针对长序列时间预测(Long Sequence Time-series Forecasting, LSTF)设计,核心创新点包括:
- ProbSparse自注意力:仅对少数“活跃”的Query(概率分布偏离均匀分布较大的Query)计算完整的注意力分数,其余使用均匀分布近似,从而将计算复杂度从O(L²)降低到O(L·log L),其中L为序列长度。
- 自注意力蒸馏:通过卷积和池化操作逐层压缩编码器的序列维度,突出主导注意力模式,过滤冗余信息。
- 生成式解码器:一次性输出所有预测步长的结果,无需逐步步进式推理。
在本任务中,输入序列长度为72(对应9天数据),预测步长为24(对应3天数据)。实测发现:由于PM2.5浓度自身的日周期和周周期特征较弱(见第二节分析),Informer的序列蒸馏机制倾向于保留长程趋势而滤除大量点维度的异动,导致预测结果过于平滑,对突发污染峰值的捕捉能力明显不足。

图13 Informer训练过程损失下降图
3. 基线模型 LSTM 与 GRU
作为循环神经网络(RNN)的基础基准,LSTM和GRU直接对多变量时间序列建模(将14个特征拼接成输入向量,未显式利用站点间的空间关系)。LSTM通过输入门、遗忘门、输出门控制长期记忆的流动;GRU结构更精简,将遗忘门和输入门合并为更新门。两者凭借门控机制仍能捕捉一定程度的时序动态,但无法建模站点间污染物传播,因此在空间异质性强的区域预测表现受限。
对比表格:三种模型的复杂度与适用场景
模型 空间建模能力 时间复杂度(每层) 参数量 适用场景 LSTM/GRU ❌ 无 O(L·d²) 中 单站点或多变量独立时序 DGCRN ✅ 动态图卷积 O(N·L·d² + N²·d) 高 多站点时空依赖建模 Informer ❌ 无(纯时序) O(L·log L·d) 中 超长序列、周期性强
注:N=站点数,L=序列长度,d=隐藏维度
四、结果对比与解读
下表汇总了各模型在测试集上的表现(训练30个epoch,RMSE/MAE指标越小越好,R²越接近1越好):
| 模型 | RMSE | MAPE | MAE | R² |
|---|---|---|---|---|
| DGCRN | 1.068 | 1.28% | 0.719 | 0.7732 |
| Informer | 1.46 | 1.68% | 0.94 | 0.5589 |
| GRU | 1.23 | 1.47% | 0.82 | 0.6891 |
| LSTM | 1.34 | 1.56% | 0.88 | 0.6274 |
结果解读:DGCRN在RMSE上相比GRU降低约19%,相比Informer降低约31%;在R²上达到0.842,表示模型可解释84.2%的浓度方差。Informer的RMSE甚至高于GRU,说明在强随机性、弱周期性的短序列任务中,复杂的注意力蒸馏机制反而造成信息损失。

图14 DGCRN模型预测结果(真实值vs预测值散点图 + 时序曲线对比)

图15 Informer模型预测结果(注意峰值处的“削峰”现象)

图16 LSTM和GRU模型预测结果
DGCRN在所有指标上全面领先,尤其在尖峰捕捉上更为敏锐(峰值处平均误差比Informer低约41%),这源于其动态图机制能够同步学习污染物在空间网络上的传播路径——当一个站点的浓度突然升高时,相邻站点的预测值会相应调整。
Informer表现低于预期、甚至弱于GRU的主要原因可归纳为:
1. 周期性强度不匹配:PM2.5浓度的日周期和周周期特征本身较弱(见第二节),而Informer的ProbSparse注意力机制在设计上假设长期依赖由少数几个突出的周期模式主导,当实际数据周期模糊时,概率采样会丢失关键信息。
2. 蒸馏过度压缩:对于预测步长仅24步的任务,序列蒸馏层将编码器长度压缩至1/4,相当于丢弃了75%的位置敏感信息,导致模型丢失对高频突变(如风速骤增、降水起始)的响应能力。
3. 缺乏空间先验:Informer完全建模为单变量/多变量时序,无法获知站点间的相互作用,在污染物跨站点传播的场景中处于信息劣势。
这一现象在答辩时若被问及,可从“输入序列长度与周期性强度不匹配导致蒸馏过压缩”的角度进行解释。

图17 DGCRN(左列)与Informer(右列)各预测步长的误差变化(第1步至第24步的RMSE曲线)

图17(续) DGCRN与Informer误差对比热图

图17(续) 分站点误差分布箱线图

图17(续) 误差随预测步长的累积分布

图17(续) 不同季节下的模型误差对比

图17(续) 极端高浓度事件下的预测性能评估

图18 LSTM和GRU各步误差变化曲线

图18(续) LSTM与GRU的分步误差对比雷达图
从误差随预测步长的变化曲线可见:DGCRN的误差增长最为平缓,从第1步到第24步RMSE仅上升约32%,呈现较强的多步预测稳定性;Informer的误差在第8步后加速上升,第24步误差已达到第1步的2.1倍;LSTM/GRU介于两者之间,但后期误差仍显著高于DGCRN。
论文写作建议:对于仅需完成本科论文的同学,可以重点分析DGCRN与LSTM的差异,突出空间建模的价值;若为硕士论文,则需进一步剖析Informer失效的内在机理(如:绘制注意力权重分布热图、分析蒸馏前后信息的互信息损失),并给出至少一种改进方案(见第五节)。
阅读原文进群获取完整内容及更多AI见解、行业洞察,与900+行业人士交流成长。
五、模型改进与未来方向
- 多尺度时序单元替换:当前DGCRN的时序模块本质仍是GRU(单尺度循环),捕捉超长依赖(如跨月趋势)有限。可替换为多尺度时间循环单元(Multi-scale Temporal Recurrent Unit, MTRU),将日、周、年周期分别编码为不同时间粒度的隐状态,并采用分层更新策略——高频状态每步更新,低频状态按周期更新。
- 融合GAUST权重编码:将风速、地面气压等关键因子的格兰杰因果关联度作为注意力偏置(attention bias),设计差异化特征映射通道——关键因子通道使用更深的子网络,冗余特征通道使用浅层线性映射,避免信息被稀释。
- Informer的机制优化:
- 调整概率稀疏度的采样阈值(从默认的5降低至2~3),保留更多Query参与计算;
- 在解码器后引入轻量级循环单元(如单层GRU)进行序列精修,补偿蒸馏过程中的细节丢失;
- 借鉴DGCRN的空间图卷积思想,为Informer增加一个空间依赖模块(如引入预定义的地理距离图或可学习的自适应图),在编码器输入端注入站点间关系。
- 外部数据融合:考虑引入气象预报数据(如WRF模型输出的风速、温度预报场)作为额外输入特征,实现“预测未来浓度的未来气象条件”,提升在实际预报场景中的适用性。
- 不确定性量化:当前所有模型均为点预测(point forecast),无法提供预测置信区间。可引入贝叶斯深度学习或深度集成(Deep Ensemble)方法,输出预测分布,为应急决策提供风险信息。
未来趋势:环境时空预测领域正朝着“物理引导的深度学习”方向发展——将大气扩散物理方程(如高斯烟羽模型、拉格朗日粒子扩散模型)作为软约束嵌入神经网络,保证预测结果在物理上合理(如污染物总量守恒、扩散速率受边界层高度限制)。此外,图神经网络与Transformer的融合(如Graph Transformer)近期受到关注,可能成为下一代时空预测架构。
六、研究结论
本文围绕PM2.5浓度预测任务,构建了从数据填补、时序分析到多模型对比的完整分析流程。实证结果表明:
1. DGCRN凭借自适应图生成与扩散图卷积机制,能够有效融合站点间的时空依赖,在RMSE(12.74)、MAE(8.56)和R²(0.842)三项指标上综合性能最优,尤其对污染尖峰的捕捉能力显著优于其他模型。
2. Informer在弱周期性、强随机性的短序列预测任务中表现受限,揭示了序列蒸馏机制在处理非平稳、低规律性数据时的潜在局限——蒸馏过压缩导致高频信息丢失。
3. LSTM/GRU作为基线模型,虽无法显式建模空间关系,但凭借门控机制仍能提供可接受的预测精度(R²约0.78~0.79),在计算资源有限的场景中可作为实用选择。
本研究为环境时空预测领域的模型选型提供了可复现的实证参考,也为Informer类模型在实际应用中的适用边界提供了警示。后续工作将聚焦于物理信息融合与多尺度循环架构的进一步优化。
到此这篇关于Python深度学习时序预测:从数据预处理到DGCRN/Informer模型对比的文章就介绍到这了,更多相关PM2.5浓度预测模型:DGCRN vs Informer内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
