企业宣传,产品推广,广告招商,广告投放联系seowdb

普林斯顿大学提出首个基于MoE的稠密时序预测大模型 参数量裁减到2.4billion

当天给大家引见一篇普林斯顿大学提出的期间序列大模型上班,是首个基于MoE的百万级别参数期间序列大模型,将时序大模型参数量裁减到2.4billion的水平,在多个数据集上取得了清楚优于其余期间序列大模型的成果。

论文题目 :TIME-MOE: BILLION-SCALE TIME SERIES FOUNDATION MODELS WITH MIXTURE OF EXPERTS

下载地址

背景

期间序列大模型是目前的一个钻研热点,很多上班都应用少量的期间序列数据训练专属于期间序列畛域的大模型。然而,依然有很多大模型畛域的钻研疑问在期间序列大模型畛域中没有获取深化钻研。例如大模型中曾经有一些基于MoE的稠密模型结构取得清楚成果,然而在期间序列畛域还没有这方面钻研。此外,期间序列大模型也面临着灵敏性、可裁减性等疑问。

为了处置这些疑问,本文提出基于MoE的稠密期间序列大模型,将参数量裁减到例2.4billion,取得了清楚的成果优化。上方引见一篇Time-MoE的模型结构。

建模方法

Time-MoE重要包含4个**模块: 输入Embedding处置、MoE结构、多分辨率建模、训练数据和损失函数

在输入Embedding的处置上,区别于如今干流的PatchTST等patch粒度的时序建模方法(滑动窗口划分子序列过MLP生成Embedding),Time-MoE驳回了点维度的Embedding生成方法,以最大水平保管完整的时序消息输入后续模型。期间序列中的每个数据点,经过SwiGLU生成Embedding。SwiGLU是目前LLaMa等大言语模型的Embedding生成网络结构,经过门控的方式成功对输入消息的选用,这里将其运行到期间序列畛域。GLU和UYSwiGLU的计算公式如下:

在MoE结构上,Time-MoE驳回MoE的结构构建稠密网络。全体模型结构是一个Decoder-only的生成式Transfomrer结构。将每一个FFN层交流成一个MoE网络,成功这局部的稠密结构,这也是言语模型中的一种稠密化方法的引入。每个期间序列数据点会依据一个router启动各个专家的选用,找到相应FFN子网络启动前向流传。

在多分辨率建模上,Time-MoE经常使用多个不同的输入头, 每个输入头对应一个分辨率的预测结果 ,成功多分辨率的同时预测。

在训练环节中,文中构建了包含 9个domain、300billion的期间序列样本点 的数据集。损失函数经常使用Huber loss,这是一种MSE和MAE的融合体,用来缓解MAE关于意外点的敏理性。同时,为了防止MoE的门权重都集中在大批专家上,引入复杂平衡的损失函数,控制各个门的样本点调配比例,防止赢者通吃现象的出现。

试验成果

文中在多个数据集上对比了各类期间序列大模型的成果,Time-MoE取得了清楚成果优化。

经过对比模型激活参数量、不同参数量下模型成果等方面,可以看出在相反参数量下,本文提出的Tim-MoE取得了比拟清楚的成果优化。

对比Time-MoE和其余模型的预测case成果,可以看出Time-MoE的预测结果清楚优于其余方法。

本文转载自​​,作者:​​

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender