论文标题:
Latte: Latent Diffusion Transformer for Video Generation
论文链接:
开源链接:
名目主页:
先来看下Latte的视频生功成果。
一、 方法引见
总体上,Latte 蕴含两个关键模块:预训练 VAE 和视频 DiT。预训练 VAE 编码器将视频逐帧从像素空间紧缩到隐空间,视频 DiT 对隐式表征提取 token 并启动时空建模,最后 VAE 解码器将特色映射回像素空间生成视频。为了获取最优的视频品质,作者着重探求了 Latte 设计中两个关键内容,(1) 视频 DiT 模型全体结构设计以及 (2) 模型与训练细节的最优设计(The best practices)。
1.1 Latte 全体模型结构设计探求
图 1. Latte 模型结构及其变体
作者提出了 4 种不同的 Latte 变体 (图 1),从时空留意力机制的角度设计了两种 Transformer 模块,同时在每种模块中区分钻研了两种变体(Variant):
1.单留意力机制模块 ,每个模块中只蕴含 期间或许空间留意力 。
时空交织式建模 (Variant 1): 期间模块拔出到各个空间模块之后。
时空顺序式建模 (Variant 2): 期间模块全体置于空间模块之后。
2. 多留意力机制模块 ,每个模块中 同时蕴含期间与空间留意力机制 (Open-sora所参考变体) 。
串联式时空留意力机制 (Variant 3): 时空留意力机制串行建模。
并联式时空留意力机制 (Variant 4): 时空留意力机制并行建模并特色融合。
试验标明 (图 2),经过对 4 种模型变体设置相反的参数量,变体 4 相较于其余三种变体在 FLOPS 上有着清楚的差异,因此 FVD 上也相对最高,其余 3 种变体总体功能相似,变体 1 取得了最优秀的功能,作者方案未来在大规模的数据上做愈加粗疏的探讨。
图 2. 模型结构 FVD
1.2 Latte 模型与训练细节的最优设计探求(The best practices)
除了模型总体结构设计,作者还探求了其余模型与训练中影响生功成果的要素。
1. Token 提取 :探求了单帧 token(a)和时空 token(b)两种方式,前者只在空间层面紧缩 token,后者同时紧缩时空消息。试验显示 单帧 token 要优于时空 token (图 4)。与 Sora 启动比拟,作者猜想 Sora 提出的时空 token 是经过视频 VAE 启动了期间维度的预紧缩,而在隐空间上与 Latte 的设计相似都只启动了单帧 token 的解决。
图 3. Token 提取方式,(a) 单
帧 token 和 (b) 时空 token
图 4. Token 提取 FVD
2. 条件注入形式 :探求了(a)S-AdaLN 和(b)all tokens 两种方式 (图 5)。S-AdaLN 经过 MLP 将条件消息转换为归一化中的变量注入到模型中。All token 方式将一切条件转化为一致的 token 作为模型的输入。试验证实, S-AdaLN 的方式相较于 all token 关于取得高品质的结果愈加有效 (图 6)。要素是,S-AdaLN 可以使消息被间接注入到每一个模块。而 all token 须要将条件消息从输入逐层传递到最后,存在着消息流动环节中的损失。
图 5. (a) S-AdaLN 和 (b) all tokens。
图 6. 条件注入方式 FVD
3. 时空位置编码 :探求了相对位置编码与相对位置编码。 不同的位置编码对最后视频品质影响很小 (图 7)。因为生成时长较短,位置编码的不同无余以影响视频品质,关于长视频生成,这一要素须要被从新思考。
图 7. 位置编码方式 FVD
4. 模型初始化 :探求经常使用 ImageNet 预训练参数初始化对模型功能的影响。试验标明, 经常使用 ImageNet 初始化的模型具有较快的收敛速度,但是,随着训练的启动,随机初始化的模型却取得了较好的结果 (图 8)。或许的要素在于 ImageNet 与训练集 FaceForensics 存在着比拟大的散布差异,因此未能对模型的最终结果起到促成作用。而关于文生视频义务而言,该论断须要被从新思考。在通用数据集的散布上,图像与视频的内容空间散布相似,经常使用预训练 T2I 模型关于 T2V 可以起到极大的促成作用。
图 8. 初始化参数 FVD
5. 图像视频联结训练 :将视频与图像紧缩为一致 token 启动联结训练,视频 token 担任优化所有参数,图像 token 只担任优化空间参数。 联结训练关于最终的结果有着清楚的优化 (表 2 和表 3),无论是图片 FID,还是视频 FVD,经过联结训练都获取了降落,该结果与基于 UNet 的框架 [2][3] 是分歧的。
6. 模型尺寸 :探求了 4 种不同的模型尺寸,S,B,L 和 XL (表 1)。 扩展视频 DiT 规模关于提高生成样本品质有着清楚的协助 (图 9)。该论断也证实了在视频分散模型中经常使用 Transformer 结构关于后续 scaling up 的正确性。
表 1. Latte 不同尺寸模型规模
图 9. 模型尺寸 FVD
三、定性与定量剖析
作者区分在 4 个学术数据集(FaceForensics,TaichiHD,SkyTimelapse 以及 UCF101)启动了训练。定性与定量(表 2 和表 3)结果显示 Latte 均取得了最好的功能,由此可以证实模型全体设计是具有优秀性的。
表 2. UCF101 图片品质评价
表 3. Latte 与 SoTA 视频品质评价
三、文生视频扩展
为了进一步证实 Latte 的通用功能,作者将 Latte 扩展到了文生视频义务,应用预训练 PixArt-alpha [4] 模型作为空间参数初始化,依照最优设计的准则,在经过一段期间的训练之后,Latte 曾经初步具有了文生视频的才干。后续方案经过扩展规模验证 Latte 生成才干的下限。
四、探讨与总结
Latte 作为全环球首个开源文生视频 DiT,曾经取得了很有前景的结果,但因为计算资源的渺小差异,在生成明晰度,流利度上以及时长上与 Sora 相比还具有不小的差距。团队欢迎并在踊跃寻求各种协作,宿愿经过开源的力气,打造出功能出色的自主研发大规模通用视频生成模型。
参考文献
[1] Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
[2] Ho, Jonathan, et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303 (2022)
[3] Wang, Yaohui, et al. "Lavie: High-quality video generation with cascaded latent diffusion models." arXiv preprint arXiv:2309.15103 (2023).
[4] Chen, Junsong, et al. "PixArt-: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis." arXiv preprint arXiv:2310.00426 (2023).
IllustrationFrom IconScout By22
本文转载自 将门创投 ,作者: