当天给大家引见一篇时空预测最新模型PredFormer,由上海交大等多所高校宣布,驳回纯Transformer模型结构,在多个数据集中取得SOTA成果。
背景
时空预测学习是一个领有宽泛运行场景的畛域,比如天气预测,交通流预测,降水预测,智能驾驶,人体静止预测等。
提起时空预测,不得不提到经典模型ConvLSTM和最经典的benchmark moving mnist,在ConvLSTM时代,关于Moving MNIST的预测存在肉眼可见的伪影和预测误差。而在最新模型PredFormer中,对Moving MNIST的误差到达肉眼难以分辨的近乎完美的预测结果。
在以前的时空预测上班中,关键分为两个流派,基于循环(自回归)的模型,以ConvLSTM/PredRNN//E3DLSTM/SwinLSTM/VMRNN等上班为代表;更近年来,钻研者提出无需循环的SimVP框架,由CNN Encoder-Decoder结构和一个时期转换器组成,以SimVP/TAU/OpenSTL等上班为代表。
RNN。系列模型的毛病在于,不可并行化,自回归速度慢,显存占用高,效率低;CNN系列模型无需循环提高了效率,得益于演绎偏置,但往往以就义泛化性和可裁减性为代价,模型下限低。
于是作者提出了疑问,时空预测,真的须要RNN吗?真的须要CNN吗?能否能够设计一个模型,可以智能地学习数据中的时空依赖,而不须要依赖于演绎偏置呢?
一个直觉的想法是应用Transformer,由于它在各种视觉义务中的宽泛成功,并且是RNN和CNN的有力代替者。在此前的时空预测上班中,已有钻研者把Transformer嵌入到上述两种框架中,比如SwinLSTM(ICCV23)融合了Swin Transformer和LSTM,比如OpenSTL(NeurIPS23)把各种MetaFormer结构(比如ViT,Swin Transformer等)作为SimVP框架中的时期转换器。然而,纯Transformer结构的网络鲜有探求。
但纯Transformer模型的应战在于,如何在一个框架中同时处置时期和空间消息。一个便捷的想法是兼并空间序列和时期序列,计算时空全留意力,由于Transformer的计算复杂度是序列长度的二次复杂度,这样的做法会造成计算复杂度较大。
在这篇文章中,作者提出了用于时空预测学习的新框架PredFormer,这是一个纯ViT模型,既没有自回归也没有任何卷积。作者应用精心设计的基于门控Transfomer模块,对3D Attention启动了片面的剖析,包含时空全留意力,时空分解的留意力,和时空交织的留意力。PredFormer 驳回非循环、基于Transformer的设计,既便捷又高效,更少参数量,Flops,更快推理速度,功能清楚优于以前的方法。在分解和实在数据集上启动的少量试验标明,PredFormer 成功了最先进的功能。在 Moving MNIST 上,PredFormer 相关于 SimVP 成功了 51.3% 的 MSE 降低,打破性地到达11.6。关于 TaxiBJ,该模型将 MSE 降低了 33.1%,并将 FPS 从 533 提高到 2364。此外,在 WeatherBench 上,它将 MSE 降低了 11.1%,同时将 FPS 从 196 提高到 404。这些准确度和效率方面的功能优化证实了 PredFormer 在实践运行中的后劲。
成功方法
PredFormer模型遵照规范ViT的设计,先对输入启动Patch Embedding,把输入为[B, T, C, H, W]的时空序列转换为[B, T, N, D]的张量。在位置编码环节,作者驳回了不同于普通ViT设计的可学习的位置编码,而是驳回了基于sin函数的相对位置编码,作者在消融试验中进一步论述了相对位置编码在时空义务中的优越性。
PredFormer的编码器局部,由门控Transfomer模块以不同的形式重叠而成。由于编码器局部是纯Transformer结构,没有任何卷积,也没有分辨率的降低,每一个门控Transformer模块都建模了全局消息,这准许模型只有经常使用一个便捷的解码器就可以造成一共功能弱小的预测模型。作者驳回了一个线性层作为解码器来启动Patch Recovery,这让模型的输入从[B, T, N, D]复原到[B, T, C, H, W]。
不同于规范Transformer模型驳回MLP作为FFN,PredFormer驳回了Gated Linear Unit(GLU)作为FFN,这是受GLU在NLP义务中优于MLP启示的改良。作者在消融试验中进一步论述了GLU相比于MLP在时空义务上的优越性。
作者对3D Attention启动了片面的剖析,并提出了9种PredFormer变体。在以前用于视频分类的Video ViT设计中,TimesFormer(ICML21), ViviT(ICCV21), TSViT(CVPR23)等上班也对时空分解启动了剖析,然而TimesFormer是在self-attention层面启动分解,也就是spatial attention和temporal attention共用一个MLP。ViviT则是提出了在Encoder层面(先空间后时期),self-attention层面和head层面启动时空分解。而TSViT发现先时期后空间的Encoder对卫星序列图像分类更有效。
不同于以上上班,PredFormer是在Gated Transformer Block(GTB)层面(多了基于Gated Linear Unit)启动时空分解。对时期和空间的self-attention都加GLU是至关关键的,由于它可以让学习到的特色相互作用并且增强非线性。
PredFormer提出了时空全留意力Encoder,时期在前和空间在前的2种分解Encoder和6种陈腐的时空交织的Encoder,一共9种模型。PredFormer提出了PredFormer Layer的概念,即一个既能建模空间消息,又能建模时期消息的最小单元。基于这种想法,作者提出了三种基本范式,二元组(由一个Temporal GTB和一个Spatial GTB组成,有T-S和S-T两种形式),三元组(T-S-T和S-T-S),四元组(两个二元组以相反的方向重组)。
这一设计源于不同的时空预测义务往往有着不同的空间分辨率和时期分辨率(时时期隔以及变动水平),这象征着不同的数据集上对时期消息和空间消息的依赖水平不同,作者设计了这些模型以提高PredFormer模型在不同义务上的顺应性。
试验成果
在试验局部,作者控制了提出的每种变体经常使用相反的GTB数目,这可以保障模型的参数量基本分歧,从而对比不同模型的功能。
试验发现了一些法令,(1)时期在前的分解Encoder模型优于时空全留意力模型,由于空间在前的分解Encoder模型 (2)时空交织的6种模型在大少数义务上表现都很好,都能到达sota,但最优模型由于数据集自身的不同时空依赖特性而不同,这表现了PredFormer这种框架和时空交织设计的长处 (3)作者在探讨环节提出了倡导,在其余的时空预测义务上,从四元组-TSST开局尝试,由于这个模型在三个数据集上都表现sota,先调整M个TSST(即4M个门控Transformer)的M参数,而后尝试M个TST和M个STS以确定数据集是时期依赖更强或空间依赖更强的模型。得益于Transformer构架的可裁减性,不同于SimVP框架的CNN Encoder-Decoder模型,对spatial和temporal的hidden dim以及block数都设置了不同的值,PredFormer对spatial和temporal GTB驳回相反的固定的参数,因此只有要调整M的值,在比拟少次数的调整后就可以到达最优功能。
ViT模型的训练理论要求较大的数据集,在时空预测义务上,大少数据集在几千到几万的量级,数据集少,因此很容易过拟合。作者还探求了不同的正则化战略,包含dropout和drop path,经过宽泛的消融试验,作者发现同时经常使用dropout和uniform的drop path(不同于普通ViT经常使用线性参与的drop path rate)会发生最优的模型成果。
作者还启动了可视化比拟,可以看到,在PredFormer相关于TAU清楚缩小了预测误差。作者还给出了一个不凡例子来证实PredFormerr模型相比于CNN模型在泛化性上的优越性。在交通流预测义务上,当第四帧相比前三帧清楚缩小流量时,TAU受限于演绎偏置依然预测了较高的流量,而PredFormer却能捕捉到这里的变动。PredFormerr预测猛烈变动的才干在交通流和天气预测中或者有十分贵重的运行价值。
本文转载自,作者: