视觉backbone的数据瓶颈
CLIP是第一个衔接图像和文本的基础模型,但在大模型时代,仅凭对比学习的监视,曾经无余够让下游视觉-言语模型(VLM)取得足够好的功能,尤其是在OCR等细粒度、高分辨率视觉义务上。而且这类方法通常需要图像和文本数据严厉配对,这在实践运行中或者不事实(难以取得少量高品质内容严厉婚配的图文对,而且图文对表白的消息通常难以足够细粒度),曾经成为了视觉多模态大模型Scaling Law的数据瓶颈。
交织图像-文本数据是一种更具灵敏性和适用性的资源。此类数据通常从社交媒体、资讯网站等失掉,图像和文本之间的相关更为复杂,不总是严厉配对。这对预训练提出了新的应战,但也提供了新的时机。
Latent Compression Learning (LCL)
本文提出了一种新的预训练方法,旨在处置交织图像-文本数据预训练中的应战。该方法名为隐紧缩学习(Latent Compression Learning, LCL)。与传统的对比学习不同,LCL方法经过最大化因果留意力模型的输入和输入之间的互消息,成功了愈加高效的视觉示意学习。
LCL方法的**理想是经过对比学习和生成义务的联合,充沛应用图像和文本之间的潜在咨询。详细来说,该方法包含两个重要义务:
这种方法不只适用于严厉配对的图像-文本数据,也能有效处置交织数据,使得视觉模型的预训练愈加灵敏和高效。
应用两个互补损失来从头开局学习交织图像文本数据上的鲁棒视觉示意:对比损失确保了视觉潜在示意与其先前高低文之间的分歧性,而自回归损失增强了后续文本视觉示意的可预测性
试验结果标明,LCL方法在不同类型的数据集上体现优秀。特意是在配对预训练数据集(如LAION)和交织预训练数据(如MMC4)上,LCL均体现出了弱小的学习才干。与CLIP相比,LCL在交织数据上的体现尤为突出,显示出其在处置复杂数据相关方面的长处。
这个上班初次探求了经常使用交织图像文本数据,启动视觉模型预训练。这篇文章从实践上证实了latent compression等价于最大化因果模型的输入和输入之间的相互消息,并将该指标进一步合成为两个基本的训练义务(对比学习+生成义务),最终失掉了更鲁棒的视觉表征。在用作多模态大模型的视觉backbone时,这种方法能愈加充沛应用互联网数据,更能scaling数据集规模,或者有更多运行前景。
原文链接: