文章链接:名目链接:代码&模型链接:
亮点直击
总结速览
处置的疑问 :RAR(随机自回归建模)旨在优化图像生成义务的体现,同时坚持与言语建模框架的齐全兼容性。
提出的方案 :RAR驳回了一种便捷的方法,经过规范的自回归训练环节并结合下一个 token 预测目的,将输入序列随机打乱到不同的合成顺序。在训练环节中,经常使用概率 r 将输入序列的陈列顺序随机化,其中 r 从 1 开局并逐渐线性衰减至 0,以让模型学习一切合成顺序的希冀似然值。
运行的技术 :RAR在训练中运行了一种退火战略,使模型能够更好地利用双向高低文消息来建模,同时依然坚持自回归建模框架的完整性,从而成功了言语建模的齐全兼容性。
到达的成果 :在 ImageNet-256 基准测试中,RAR 取得了 1.48 的 FID 分数,逾越了之前最先进的自回归图像生成器,并优于上游的基于分散和掩码Transformer的方法。
方法
背景
RAR: 随机自回归建模
视觉信号自然存在双向关联,因此全局高低文建模在视觉义务中至关关键。但是,传统的自回归模型依赖因果留意力掩码,仅准许 token 序列呈单向依赖,这与视觉数据的双向关联性不符。已有钻研标明,关于视觉模态,双向留意力清楚优于因果留意力。
此外,图像 token 陈列成因果序列时没有一致的“正确”模式,罕用的光栅扫描顺序虽有成果,但在训练环节中引入了偏向,由于每个 token 仅依赖于扫描顺序中的前序 token,限度了模型学习来自其余方向的依赖相关。
为了处置这些疑问,本文提出了一种随机自回归建模方法,将双向高低文的优化目的归入自回归建模。
与 BERT 格调 或 MaskGIT 格调方法不同,本文的方法驳回了置换目的的方法,在一切或许的合成顺序上以自回归模式训练模型。这使得模型在坚持自回归框架的同时,能够在希冀上搜集双向高低文消息。公式示意如下:
虽然方法便捷,但这种修正清楚优化了图像生成性能,突显了双向高低文在优化自回归图像生成器才干方面的关键性。与自然言语处置 (NLP) 中的自回归训练观察结果分歧。
讨论 :虽然置换目的准许在自回归框架中成功双向高低文学习,但在生成环节中齐全捕捉“全局高低文”仍具应战性。这是由于在生成环节中,总会有一些 tokens 在其余 tokens 之前生成,无法齐全应用全局高低文。这种限度不只存在于自回归方法中,也存在于非自回归模型中。从新采样或精炼等技术或许有助于确保每个 token 都能在充沛的高低文下生成。但是,这些设计或许会参与系统的复杂性,因此探求这些处置方案超出了本文的范围,留待未来钻研。
随机退火 :虽然经过置换的随机自回归训练使模型能够在单向框架中捕捉双向高低文,但它或许会因两个关键起因此引入次优的视觉生成行为:(1) 或许的置换数量极多,或许造成模型过于关注如何处置不同的置换顺序,而不是提高生成品质。例如,关于长度为 256 的 token 序列,或许的置换数为 (256! > 10^{506}),这会让模型不堪重负,降落训练效率。(2) 虽然图像可以按恣意顺序处置,某些扫描顺序往往优于其余顺序。例如,[22] 评价了六种不同的扫描顺序(行优先、向内螺旋、向外螺旋、Z 曲线、子采样和交替顺序),并发现行优先(即栅格顺序)一直体现最佳,这使其成为视觉生成中最宽泛经常使用的顺序。
为了处置这些疑问,本文提出了 随机退火 战略,以平衡置换的随机性与行优先顺序的已知成果。此方法引入了一个控制随机置换和行优先顺序经常使用概率的繁多参数 r。在训练开局时,r = 1,象征着模型齐全经常使用随机置换。随着训练的启动,r 线性衰减至 0,逐渐将模型转换为行优先顺序。详细而言,定义了r 的训练调度,由两个超参数和控制,区分示意 r 开局退火和退火完结的训练轮次。公式如下:
其中,示意的训练轮次。在试验中,咱们将对超参数和启动消融试验。该调度战略准许模型在初期探求多种随机置换,以更好地学习双向示意,最终收敛到更有效的行优先扫描顺序,从而优化视觉生成品质,相似于其余典型的自回归方法。值得留意的是,该战略不只优化了生成性能,还坚持了与先前上班中经常使用的规范扫描顺序的兼容性。
试验结果
本节首先引见方法的成功细节。接这展现了关于关键设计选用的消融钻研。再讨论了关键结果,最后还包括了缩放钻研和可视化内容。
成功细节
本文在言语建模自回归框架的基础上成功了RAR方法,做了最小的改动。
VQ分词器 :驳回了与先前上班 [10, 22] 相似的VQ分词器,将输入图像转换为团圆的token 序列。咱们经常使用的是基于CNN的MaskGIT-VQGAN [10] 分词器,经常使用在ImageNet上训练的官网权重。该分词器将256 × 256的图像转化为256个团圆的token (下采样因子为16),并且字典大小(即词汇表大小)为1024。
自回归Transformer :本文经常使用不同性能的视觉Transformer(ViT),包括RAR-S(133M)、RAR-B(261M)、RAR-L(461M)、RAR-XL(955M)和RAR-XXL(1499M)。关于一切这些模型变体,咱们在自留意力模块中运行了因果留意力掩码,并经常使用QK层归一化来稳固大规模模型的训练。为了减速试验,在消融钻研中经常使用了个别的ViT,而在最终模型中增强了AdaLN 。架构性能和模型大小可以在下表1中找到。
位置嵌入 :本文为ViT中的原始位置嵌入和目的感知位置嵌入经常使用了可学习的嵌入。值得留意的是,由于咱们的模型在训练完结后会退火到基于栅格顺序的自回归图像生成,最终这两种位置嵌入可以兼并为一个,使得最终模型与传统的自回归图像生成器相反。
数据集 :钻研者们在ImageNet-1K训练集上训练咱们的模型,该数据集蕴含128,1167张图像,涵盖1000个物体类别。咱们经常使用MaskGIT-VQGAN分词器对整个训练集启动预分词,以减速训练。关于消融钻研,仅经常使用中心裁剪和水平翻转数据增强启动预分词,而关于最终模型,经常使用了十裁剪变换来增强数据集的多样性。
训练协定 :钻研者们一切模型变体经常使用相反的训练超参数。模型经常使用批量大小2048训练个epoch(250k步)。在前100个epoch(热身阶段)内,学习率从0线性参与到4 × 10⁻⁴,而后依照余弦衰减方案逐渐衰减至1 × 10⁻⁵。经常使用AdamW优化器,其中beta1为0.9,beta2为0.96,权重衰减为0.03。咱们对梯度启动了裁剪,最大梯度范数为1.0。在训练环节中,类别条件会以0.1的概率被放弃。消融钻研和关键结果中一切RAR模型变体的训练设置坚持分歧。
采样协定 :本文经常使用[18]的评价代码对50,000张图像启动FID计算。咱们不经常使用任何基于top-k或top-p的过滤技术。还遵照先前的上班经常使用无分类器指点。在消融钻研中,经常使用更便捷的线性指点调度,而在最终模型中经常使用改良的幂余弦指点调度。
消融钻研
本文钻研了RAR的不同性能,包括随机退火战略和RAR最终收敛的扫描顺序。
随机退火战略
:在下表2中,比拟了不同的随机退火战略。驳回了线性衰减的调度,并经过扭转超参数和来钻研何时应该开局和完结随机化退火,详细定义见公式(5)。关于继续个epoch的训练,咱们枚举了每100个epoch的一切或许组合。例如,当
start = 200
和时,模型在前200个epoch驳回随机陈列,在后100个epoch驳回栅格顺序。在第200到300个epoch之间,模型经过以概率启动随机陈列,或许以概率启动栅格顺序训练,其中依照公式(5)计算。值得留意的是,当
start = end = 0
时,模型仅经常使用栅格顺序启动训练,即规范的自回归训练;当
start = end =
时,模型一直经常使用随机陈列的输入序列启动训练。两种状况都是提出的随机退火方法的关键基准,区分到达了FID得分3.08和3.01。令人感兴味的是,咱们观察到一切其余变体都比这两个基准取得了清楚的改良。例如,便捷地将前100个epoch的栅格顺序交流为随机陈列(即,
start = 100
和),就将FID得分提高到了2.48,优化了0.6。此外,模型偏向于保管一些初期的epoch启动纯随机陈列训练,并且在最后一些epoch更好地顺应栅格顺序,这理论比其余变体体现更好。一切结果标明,经过引入带有陈列目的的随机化自回归训练,有助于自回归视觉生成器的性能,并优化FID得分,这得益于改良的双向示意学习环节。
此外,在一切变体中,发现当
start = 200
和时体现最佳,将基准(纯栅格顺序)的FID从3.08提高到2.18。该战略将稍多的计算调配给随机陈列顺序的训练,并将最后100个epoch专一于纯栅格顺序。因此,咱们自动驳回这种退火战略用于一切RAR模型。
不同的扫描顺序(除了栅格顺序) :虽然行主序(即栅格扫描)不时是视觉生成中理想上的扫描顺序,但不足系统的钻研来比拟它与其余扫描顺序的优劣。咱们留意到,四年前的上班 [22] 启动了相似的钻研。但是,思考到近年来生成模型取得的清楚停顿,值得从新扫视这一论断。详细来说,咱们思考了6种不同的扫描顺序(行主序、螺旋内、螺旋外、Z曲线、子采样和代替扫描顺序),这些扫描顺序是RAR或许最终收敛的目的。本文没有像那样报告训练损失和验证损失作为对比目的,而是间接评价它们的生成性能。结果总结在下表3中。幽默的是,咱们观察到一切变体的得分都相当不错,这标明RAR能够处置不同的扫描顺序。思考到行主序(栅格扫描)依然在其余扫描顺序中体现出长处,咱们因此为一切最终RAR模型经常使用栅格扫描顺序。
关键结果
本文报告了RAR与最先进的图像生成器在ImageNet-1K 256×256基准测试上的结果。
如下表4所示,RAR相较于之前的AR图像生成器体现出了清楚更好的性能。详细来说,最紧凑的RAR-B(仅有261M参数)就到达了FID得分1.95,曾经清楚逾越了最先进的AR图像生成器LlamaGen-3B-384(3.1B,FID 2.18,裁剪尺寸384)和 Open-MAGVIT2-XL(1.5B,FID 2.33),并且区分缩小了91%和81%的模型参数。它还逾越了宽泛经常使用的分散模型,例如DiT-XL/2(FID 1.95 vs. 2.27)和SiT-XL(FID 1.95 vs. 2.06),并且仅经常使用了相关于这些模型的39%的参数。
在表4中,进一步讨论了不同模型尺寸下的RAR(从261M到1.5B),咱们观察到RAR在不同尺寸下具备弱小的可裁减性,并且随着模型尺寸的增大,性能不时优化。特意地,最大的变体RAR-XXL在ImageNet基准测试上创下了新的最先进结果,FID得分为1.48。与其余两种近期方法VAR和MAR相比,这两种方法都尝试经过改良AR公式来优化视觉生成品质,RAR不只在性能上体现更优(RAR的FID为1.48,而VAR为1.73,MAR为1.55),而且坚持了整个框架与言语建模的兼容性,因此更适宜将成熟的优化和减速技术运行于大型言语模型,从而推进视觉生成的开展。
此外,RAR在不同框架中的体现逾越了最先进的视觉生成器。它在对比上游的自回归模型、分散模型和掩蔽Transformer模型时,体现得更好,区分逾越了LlamaGen-3B-384、MDTv2-XL/2和 MaskBit(RAR的FID为1.48,相比之下LlamaGen为2.18,MDTv2为1.58,MaskBit为1.52)。据所知,这是初次言语建模格调的自回归视觉生成器逾越最先进的分散模型和掩蔽Transformer模型。
采样速度 :自回归方法的一个关键长处是能够应用LLM中已建设的优化技术,如KV缓存。在表5中,咱们将RAR与其余类型的生成模型启动采样速度比拟(以每秒生成图像数为权衡规范),包括分散模型、masked transformer器、VAR和 MAR。其中,自回归模型(RAR)和VAR模型(VAR-d30)与KV缓存优化兼容,因此在生成速度上清楚优于其余方法。如表5所示,RAR不只在FID得分上到达了最先进的水平,同时在生成速度上也大大逾越了其余方法。例如,在FID得分约为1.5时,MaskBit和 MAR-H的生成速度区分为每秒0.7和0.3张图像。相比之下,RAR-XL不只取得了更好的FID得分,还能每秒生成8.3张高品质视觉样本——比MaskBit快11.9倍,比MAR-H快27.7倍。最大的RAR变体RAR-XXL进一步提高了FID得分,同时坚持了清楚的速度长处,速度是MaskBit的9.1倍,是MAR-H的21.3倍。此外,RAR或许进一步受益于LLM优化技术,例如vLLM,这一点与其余AR方法分歧。
裁减性行为
本文钻研了RAR的裁减性行为。详细来说,咱们绘制了训练损失曲线和FID得分曲线(有无无分类器疏导的状况)如下图4所示。如图所示,咱们观察到RAR在不同模型尺寸下均体现出良好的裁减性,较大的模型尺寸在训练损失和FID得分上继续体现出较好的性能,无论能否经常使用无分类器疏导增强。咱们留意到,由于RAR坚持了AR公式和框架的完整性,它也承袭了AR方法的可裁减性。
可视化
在下图5中可视化了不同RAR变体生成的样本,结果标明RAR能够生成高品质、具备高度保真度和多样性的样本。更多可视化结果见附录。
论断
本文提出了一种便捷而有效的战略,以增强与言语建模兼容的自回归图像生成器的视觉生成品质。经过驳回随机化陈列目的,本文的方法在坚持自回归结构的同时,改善了双向高低文学习。因此,所提出的RAR模型不只逾越了以前的最先进自回归图像生成模型,还超越了上游的非自回归Transformer和分散模型。宿愿本钻研有助于推进自回归Transformer朝着视觉了解与生成一致框架的方向开展。
原文链接: