逾越CLIP 视觉大模型训练新范式_莆田市城厢区萌爵百货商行

萌子哥

2024-11-14 23:56:15发布
关注私信

367 422 451

视觉backbone的数据瓶颈

CLIP是第一个衔接图像和文本的基础模型，但在大模型时代，仅凭对比学习的监视，曾经无余够让下游视觉-言语模型（VLM）取得足够好的功能，尤其是在OCR等细粒度、高分辨率视觉义务上。而且这类方法通常需要图像和文本数据严厉配对，这在实践运行中或者不事实（难以取得少量高品质内容严厉婚配的图文对，而且图文对表白的消息通常难以足够细粒度），曾经成为了视觉多模态大模型Scaling Law的数据瓶颈。

交织图像-文本数据是一种更具灵敏性和适用性的资源。此类数据通常从社交媒体、资讯网站等失掉，图像和文本之间的相关更为复杂，不总是严厉配对。这对预训练提出了新的应战，但也提供了新的时机。

Latent Compression Learning (LCL)

本文提出了一种新的预训练方法，旨在处置交织图像-文本数据预训练中的应战。该方法名为隐紧缩学习（Latent Compression Learning, LCL）。与传统的对比学习不同，LCL方法经过最大化因果留意力模型的输入和输入之间的互消息，成功了愈加高效的视觉示意学习。

LCL方法的**理想是经过对比学习和生成义务的联合，充沛应用图像和文本之间的潜在咨询。详细来说，该方法包含两个重要义务：

这种方法不只适用于严厉配对的图像-文本数据，也能有效处置交织数据，使得视觉模型的预训练愈加灵敏和高效。

应用两个互补损失来从头开局学习交织图像文本数据上的鲁棒视觉示意：对比损失确保了视觉潜在示意与其先前高低文之间的分歧性，而自回归损失增强了后续文本视觉示意的可预测性

试验结果标明，LCL方法在不同类型的数据集上体现优秀。特意是在配对预训练数据集（如LAION）和交织预训练数据（如MMC4）上，LCL均体现出了弱小的学习才干。与CLIP相比，LCL在交织数据上的体现尤为突出，显示出其在处置复杂数据相关方面的长处。

这个上班初次探求了经常使用交织图像文本数据，启动视觉模型预训练。这篇文章从实践上证实了latent compression等价于最大化因果模型的输入和输入之间的相互消息，并将该指标进一步合成为两个基本的训练义务（对比学习+生成义务），最终失掉了更鲁棒的视觉表征。在用作多模态大模型的视觉backbone时，这种方法能愈加充沛应用互联网数据，更能scaling数据集规模，或者有更多运行前景。

原文链接：

版权声明 1、本网站名称：莆田市城厢区萌爵百货商行
2、本站永久网址：http://www.relax48.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#悟道 #CLIP #紫东太初 #孟子 #Agent #多模态 #OpenAI #GPT #视觉大模型 #日日新 #ChatGPT #LaMDA #清言 #混元 #Copilot #Bard #通义千问 #AIGC #AI #云雀 #Sora #言犀 #文心一言 #4 #盘古 #大模型 #AIGC运行 #人工自动 #开源大模型