从OmniGen的训练数据、模型设计与训练战略中深度了解多模态统永世成模型。
当天详细讲讲多模态大模型OmniGen~之前有总结过一篇多模态大模型的钻研趋向,
感兴味的小同伴也可以详细看一下这篇引见多模态大模型的文。
OmniGen就属于一致视觉模型这个方向中,将多个特定义务转化为具有通用才干的图像生成一致模型;本篇来详细引见OmniGen的细节,以及未来前瞻技术钻研或者值得自创的局部。
上方是一个快捷目录。
一、OmniGen简介
二、X2I数据集
三、OmniGen模型设计
四、OmniGen训练战略
五、一些启示
一、OmniGen简介
OmniGen,是用于一致图像生成的新分散模型,并且不须要额外的模块(如ControlNet或IP-Adapter)来解决多样化的控制条件。
2. 特点
另外,此模型也存在一些推理才干和链式思想机制的潜在运行,但这块不够成熟。
二、X2I数据集
OmniGen的训练数据集整个结构思绪是十分值得自创的,团体觉得这块甚至比模型自身更有学习意义,所以放在前面说,整个X2I数据集蕴含大概1亿张图像。
输入为纯文本,输入为图像。
1)开源数据
开源数据包括Recap-DataComp(5600万张图像的子集)、SAM-LLaVA 、ShareGPT4V 、LAION-Aesthetic (万张图像的子集)、ALLaVA-4V 、DOCCI、DenseFusion 和 JourneyDB。
2)分解数据
分解数据关键经常使用InternVL2 为外部数据和LAION-Aesthetic创立分解注释。
3)数据经常使用技巧
在训练初期,关键经常使用“文本到图像”数据集来学习宽泛的图像-文本婚配相关和多样化知识;经过第三阶段后,须要应用外部搜集的1600万张高品质图像来优化生成图像的美学品质。
1)经常出现混合模态揭示
义务类型包括图像编辑(SEED-Data-Edit 、MagicBrush 和 InstructPix2Pix )、人体静止(Something-Something )、虚构试穿(HR-VITON 和 FashionTryon)微格调迁徙(stylebooth )
数据结构方式:输入为恣意交织的文本和图像,输入为合乎文本和图像条件的新图像。
另外经常使用MultiGen数据集来学习应用额外的视觉条件启动细粒度空间控制,选用六种代表性视觉条件:Canny、HED、Depth、Skeleton、Bounding Box 和宰割
数据结构方式:输入为文本揭示和特定的视觉条件(如宰割图和人体姿态图);输入为合乎文本和图像条件的新图像。
2)主题驱动的图像生成
基于GRIT数据集中图像物体称号标注,运行Grounding DINO模型启动文本到边界框的对齐。基于边界框经常使用SAM宰割裁剪后的图像,取得物体掩码。进一步经常使用MS-Diffusion模型从新绘制物体图像,优化数据品质。结构了600万对数据。
基于结构的GRIT-Entity数据集因为间接提取原始图像中的输入数据,造成模型堕入便捷的复制粘贴形式。因此Web Images数据集经常使用出名人物的人造图像构建。
构建了蕴含533,000对图像的数据集。
输入是源图像和人造言语表白,输入是突出显示相应答象的图像。
这里的目的是为了增强模型的图像生成才干;把从传统计算机视觉义务中取得的知识转移到图像生成义务中,从而成功更复杂的图像生成才干。
低级义务包括低光图像增强、去雨、去含糊、修复、外推和着色,其中注释自身就是图像;并从GPT-4o生成的指令中随机抽取文本指令参与出来。
将一切注释示意为图像。
经常使用LAION作为源图像,并选取注释作为指标来构建图像对(如源图像及其人体姿态映射)。注释内容包括人体姿态、深度映射、Canny和宰割。
此外引入图像宰割的数据集,包括RefCOCO 、ADE20k 和ReasonSeg。
随机选用了一些示例,并将原始输入与这些示例联合构成新的输入。
三、OmniGen模型设计
1)通用性:接受任何方式的图像和文本输入以用于各种义务;
2) 繁复性,防止过于复杂的结构设计和泛滥的额外组件。
OmniGen的框架关键是VAE + 预训练大规模transformer。
输入文本被标志化为token,输入图像经过VAE转换为嵌入。OmniGen可以接受自在方式的多模态揭示,并经过修正流方法生成图像。
这里用的架构是SDXL,在训练中会先解冻。
Stable Diffusion XL是一个二阶段的级联分散模型,包括Base模型和Refiner模型:
SDXL和之前的版本也是基于latent diffusion架构,关于latent diffusion,首先会驳回一个auto encoder模型来图像紧缩为latent,而后分散模型用来生成latent,生成的latent可以经过auto encoder的decoder来重建出图像。
2)Transformer
文中关键是基于Phi-3初始化。
Phi-3是微软钻研院推出的一系列小型言语模型(SLM),包括phi-3-mini、phi-3-small和phi-3-medium三个不同规模的版本,区分适宜不同的运行场景和需求。详细模型结构可以见下图。
图援用自“2024最新大模型详查之:微软Phi-3系列”(
模型的输入是自在方式的多模态交织文本和图像。
1)文本:
应用Phi-3的分词器解决文本,无需任何修正。
2)图像:
3)文本和图像拼接
在将每个图像序列拔出到文本令牌序列之前,用两个不凡令牌:“<img>”和“<img>”封装,另外还在输入序列的末尾参与了期间步嵌入。
留意力机制这里,把图像应该作为一个全体来建模。
相关于LLM中的留意力机制,论文中修正了LLM中经常出现的因果留意力机制,对序列中的每个元素运行因果留意力,但在每个图像序列外部运行双向留意力。
目的是每个patch关注同一图像内的其余patch,同时确保每个图像只能关注之前出现过的其余图像或文本序列。
推理环节中,随机采样一个高斯噪声,而后运行流婚配方法来预测指标速度,经过屡次迭代取得最终的潜在示意。
最后,经常使用VAE将潜在示意解码为预测图像。自动的推理步数设置为50。
另外,因为留意力机制的存在,OmniGen可以经过经常使用kv缓存像LLMs一样减速推理;存储输入的之后期间步和期间步的键值形态在GPU过去计算留意力机制,而不须要冗余计算。
四、OmniGen训练战略
经常使用修正流来优化模型的参数,流婚配经过在线性插值噪声和数据之间启动前向环节。在步骤t, xt 定义为
其中 x 是原始数据,ϵ∼N(0,1) 是高斯噪声。模型被训练以间接回归给定的噪声数据 xt 、期间步 t 和条件消息 c 的指标速度。详细而言,指标是最小化均方误差损失:
这里, vθ 示意模型预测的指标速度,θ 是模型参数。经过最小化上述损失函数,模型能够学习如何从噪声中恢还原始数据,进而成功图像生成义务。
这种修正流方法在解决复杂的多模态数据时提供了一种有效的方式来训练分散模型,不只提高了模型的效率,而且经过缩小训练期间和资源消耗,使模型愈加易于优化。
关于图像编辑义务,指标是在坚持其余区域不变的同时修正输入图像的特定区域。
OmniGen会在图像出现变动的区域加大损失,来防止间接将输入图像复制为输入的状况,详细是依据输入图像 x′和指标图像 x的潜在示意来计算每个区域的损失权重:
在训练环节中须要逐渐参与图像分辨率。低分辨率在数据效率方面体现良好,而高分辨率可以提高生成图像的美学品质。
五、一些启示
1. 多模态模型中多义务数据十分关键
论文对比了跟SD3的成果,
这确实说明了多义务数据X2I在优化文本到图像才干方面的作用,以及多义务学习使模型能够展现出新兴才干。
2. 多模态一致模型曾经具有In-context learning才干
当提供一个示例后,OmniGen能够做出准确的预测,这标明高低文学习可以增强模型在不同畛域的泛化才干。因此也可以尝试用思想链来探求多模态一致大模型了。
3. 现阶段的多模态大模型还比拟软弱,针对这些点还有很大的探求和发论文的空间
关键体如今上方的点:
其实多模态大模型如何经过数据集、模型设计和训练战略来成功一致义务指令对齐这块还有很大的钻研空间,OmniGen确实是个很值得参考和学习的例子;还有其余的一些可以发论文的思绪大家也可以一同探讨~
参考文献:
[1]OmniGen: Unified Image Generation(
[2]
[3]