最近,又一款国产 AI 神器吸引了众网友和圈内钻研人员的关注!它就是全新的 图像和视频生成控制工具 —— ControlNeXt,由思谋科技开创人、港科大讲座传授贾佳亚团队开发。
X 平台上出名 AI 博主「AK」介绍
从命名来看,ControlNeXt 「致敬」了斯坦福大学钻研团队在 2023 年 2 月提出的 ControlNet,经过引入一些额外的控制信号,让预训练的图像分散模型(如 Stable Diffusion)依据预设的条件调整和优化,成功线稿生成全彩图,还能做语义宰割、边缘检测、人体姿态识别。
假设说 ControlNet 开启了大模型多样化玩法的先河,那么 ControlNeXt 在生成速度、精准控制和用户友好性等方面迎来全方位优化。关键的是, ControlNeXt 只用不到 ControlNet 10% 的训练参数 ,可以称得上是下一代「小钢炮版」ControlNet 了。
截至目前,ControlNeXt 兼容了多款 Stable Diffusion 家族图像生成模型(包括 SD1.5、SDXL、SD3),以及视频生成模型 SVD。并且,ControlNeXt 对这些模型都做到即插即用,无需额外性能便能轻松玩转各种控制指令,方便性拉满。该名目的 GitHub 星标已达 1.1k。
名目地址:
实战效果终究如何?上方一波 ControlNeXt 的 Demo 示例会给咱们答案。
ControlNeXt 允许 Canny(边缘)条件控制,在 SDXL 中,经过提取下图(最左)输入图像的 Canny 边缘,输入不同格调的图像。
当然,更复杂的画面轮廓和控制线条也能轻松搞定。
ControlNeXt 还允许掩模(mask)和景深(depth)条件控制,下图区分为 SD 1.5 中掩模与景深可控生功效果,很有一笔成画的滋味。
雷同在 SD 1.5 中,ControlNeXt 允许姿态(pose)条件控制,并且无需训练即可无缝集成各种 LoRA 权重。配合经常使用人体姿态控制与 LoRA,在坚持举措相反的前提下,多样格调的人物跃然纸上,比如兵士(Warrior)、原神(Genshin)、国画(Chinese Painting)和动画(Animation)。
经常使用 ControlNeXt 后,SD3 允许了超分辨率(SR),让含糊图像「变身」超高清画质。
在视频生成模型 SVD 中,ControlNeXt 成功了对人体姿态举措的全体控制,尤其连手指举措的模拟都十分精准。
不夸张的说,在视觉条件生成这块,ControlNeXt 成为了更全能的「选手」。它的亮眼视效折服了网友,甚至有人以为「ControlNeXt 是游戏扭转者,在可控图像和视频生成方面体现出色,可以构想未来社区会拿它做更多二创上班。」
而 ControlNeXt 体验全方位优化的面前,离不开贾佳亚团队 在轻量级条件控制模块设计、控制注上天位和方式的选用、交叉归一化技术的经常使用等多个方面的独到思绪 。
正是有了这些翻新,才带来了 ControlNeXt 训练参数、计算开支和内存占用的片面「瘦身」,以及模型训练收敛和推理层面的「提速」。
架构翻新
让 ControlNeXt 更轻、更快、更强
在剖析 ControlNeXt 有哪些翻新之前,咱们先来了解一下可控生成方法的无余,这样更能看到贾佳亚团队在架构上「对症下药」的优化。
以 ControlNet、T2I-Adapter 等典型方法为例,它们经过参与并行分支或适配器来处置和注入额外条件。接上去与去噪主分支并行处置辅佐控制以提取细粒度特色,应用零卷积和交叉留意力来整合条件控制并指点去噪环节。
这些操作往往会带来计算老本和训练开支的清楚参与,甚至造成 GPU 内存参与一倍,还须要引入少量新的训练参数。尤其针对视频生成模型,须要重复处置每个独自帧,应战更大。
贾佳亚团队首先要做的便是架构层面的剪枝。他们以为,预训练的大型生成模型曾经足够弱小,无需引入少量额外参数来成功控制生成才干。 ControlNeXt 移除 ControlNet 中宏大的控制分支(control branch),改而经常使用由多个 ResNet 块组成的轻量级卷积模块 。
ControlNeXt 全体训练流程
该模块的规模比预训练模型小得多,用于从控制条件中提取景深、人体姿态骨骼、边缘图等特色示意,并与去噪特色对齐。环节中更多依赖模型自身来处置控制信号,在训练时期解冻大局部预训练模块,并有选用性地优化模型的一小局部可学习参数,最大水平降落训练环节中或者发生的忘记危险。
从结果来看,在适配 SD、SDXL、SVD 等预训练模型时, ControlNeXt 的训练参数量理论不迭 ControlNet 的 10%,计算开支和内存占用大大降落 。ControlNeXt 在 SD 1.5、SDXL 和 SVD 中的可学习参数量区分为 3000 万、1.08 亿和 5500 万,相较于 ControlNet 有了数量级缩小(3.61 亿、12.51 亿和 6.82 亿)。
同时轻量级模块的引入使得 ControlNeXt 在推理阶段不会发生清楚的提前,因此生成速度会更快。如下图所示,在 SD 1.5、SDXL 和 SVD 模型中,ControlNeXt 的推理时期更短,相较于 ControlNet 更具效率长处。
另一方面,ControlNeXt 在控制条件的注入层面做了翻新。他们观察到,在大少数可控生成义务中,条件控制的方式往往很方便或与去噪特色坚持高度分歧,因此没有必要在去噪网络的每一层重复注入控制信息。
贾佳亚团队选用 在网络两边层聚兼并对齐条件控制特色与去噪特色,这里用到了关键的交叉归一化(Cross Normalization)技术 。该技术让 ControlNeXt 不用像传统方法那样应用零初始化来引入额外学习参数,还处置了初始化阶段的训练不稳固性和收敛速度慢等疑问。
得益于交叉归一化,ControlNeXt 的训练速度失掉优化,并在训练初期也能确保生成控制的有效性,降落对网络权重初始化的敏感度。从下图可以看到,ControlNeXt 成功了更快的训练收敛和数据拟合,只有要 步左右便开局收敛。相比之下,ControlNet 则须要走完十倍甚至几十倍的训练步数。
可以说,ControlNeXt 很好处置了以往可控生成方法存在的较高计算老本、GPU 内存占用和推理时延,用更少参数、更低老本成功了与以往方法相当甚至更好的控制效果和泛化性能。
而跳出此次钻研自身,ControlNeXt 也是过去两年贾佳亚团队努力方向的写照,他们努力于拿少参数、少算力来深挖大模型潜能。这显然与大模型畛域的「摩尔定律」Scaling Law 走的是不同的路,后者理论仰仗大参数、大数据和大算力来优化模型性能。
不盲跟 Scaling Law
走出不一样的大模型之路
,Scaling Law 依然在施展着作用,经过「加码」参数、数据和算力来增效是大少数圈内玩家的干流做法,OpenAI 的 GPT 系列模型是其中的典型代表,对大模型畛域发生了深远的影响。
随之而来的是更高的训练老本、更多的数据和计算资源,这些不会对财力雄厚的大厂们形成太多压力。但对那些估算相对无余的科研机构和团体开发者而言,应战很大,尤其是当下 GPU 显卡还越来越贵。
其实,拼 Scaling Law 并不是模型提效的惟一路径,从常年看也有局限性。很多业内人士以为,随着时期推移,当模型参数规模到达必定水平时,性能优化速度或者会放缓。同时高品质训练数据的继续失掉也是亟需处置的一大难题。
往年 6 月,普林斯顿大学计算机迷信系传授 Arvind Narayanan 等二人在他们的文章《AI scaling myths》中示意 AI 行业正派历模型规模下行的压力,过去一年大部离开发上班落在了小模型上,比如 Anthropic 的 Claude 3.5 Sonnet、谷歌的 Gemini 1.5 Pro,甚至 OpenAI 也推出了 GPT-4o mini,参数规模虽小、性能雷同弱小且更廉价。
贾佳亚团队秉持相似理念,没有选用有限堆数据、参数和算力的传统做法。2024 环球机器人大会上,贾佳亚在接受采访时谈到了 Scaling Law,他示意在自己团队的钻研中不会对它启动明白的定义,经常使用 1 万张卡训练进去的模型或系统不必定就比 5000 张卡训练出的更好。
贾佳亚以为应该 更多地在模型算法层面启动翻新,在工程层面最大水高山提高 GPU 显卡的应用率、降落功耗,力图用更少的计算量到达雷同的效果 。
同时关注偏垂类的行业和场景,经过继续的技术迭代,把算力等资源投入集中在一点,将某个畛域的模型做得更精、更专,而不像其余玩家那样耗巨资开发超大规模通用大模型。
小算力也能出大成绩
包括 ControlNeXt 在内,不盲从 Scaling Law 的思绪曾经在贾佳亚团队过去两年的系列成绩中失掉了充沛验证,笼罩了多模态大模型、超长文本裁减技术和视觉言语模型等多个钻研方向。
2023 年 8 月,贾佳亚团队提出 LISA,解锁多模态大模型「推理宰割」才干。LISA 只有要 在 8 张 24GB 显存的 3090 显卡上启动 10000 次迭代训练,即可成功 70 亿参数模型的训练 。
结果标明,LISA 在训练中仅经常使用不蕴含复杂推理的宰割数据,就能在推理宰割义务上展现出优秀的零样本泛化才干,并在经常使用额外的推理宰割数据微调后让宰割效果更上一个台阶。
LISA 效果展现
LISA 的成功只是少算力探求的牛刀小试,贾佳亚团队在 2023 年 10 月提出了超长文本裁减技术 LongLoRA, 在单台 8x A100 设施上,LongLoRA 将 LLaMA2 7B 从 4k 高低文裁减到 100k, LLaMA2 70B 裁减到 32k 。LongLoRA 还被接纳为 ICLR 2024 Oral。
在喂给 LongLoRA 加持的 Llama2-13B 超长篇幅的科幻巨著《三体》后,它可以为你具体总结「史强对整团体类社会的关键性」。
该团队还于 2023 年 12 月提出 LLaMA-VID,旨在处置视觉言语模型在处置长视频时因视觉 token 过多造成的计算累赘,经过将视频中每一帧图像的 token 数紧缩到了 2 个,成功了单图之外短视频甚至 3 小时时长电影的输入处置。
LLaMA-VID 被 ECCV 2024 接纳。此外,贾佳亚团队还提供了 LLaMA-VID 试用版本, 由单个 3090 GPU 成功,允许 30 分钟的视频处置 。感兴味的小同伴可以尝试一下。
往年 4 月,贾佳亚团队又提出了 Mini-Gemini,从高清图像准确了解、高品质数据集、联合图像推理与生成三个层面开掘视觉言语模型的后劲。
为了增强视觉 token,Mini-Gemini 应用额外的视觉编码器来做高分辨率优化。同时 仅经常使用 2-3M 数据,便成功了对图像了解、推理和生成的一致流程 。试验结果标明,Mini-Gemini 在各种 Zero-shot 的榜单上毫不逊色各大厂用少量数据堆进去的模型。
在间断谷歌 Gemini 识别图片内容并给出倡导的才干基础上,Mini-Gemini 还能生成一只对应的毛绒小熊
关于开源社区最大的好信息是,Mini-Gemini 的代码、模型和数据所有开源,让开发者们体验「GPT-4 + Dall-E 3」的弱小组合。贾佳亚泄漏,Mini-Gemini 第二个版本行未来到,届时将接入语音模块。
得益于开源以及算力需求相对低的个性,贾佳亚团队的名目在 GitHub 上遭到了开发者的宽泛喜欢,LISA、LongLoRA 和 Mini-Gemini 的星标数区分到达了 1.7k、2.6k 和 3.1k。
从 LISA 到最新提出的 ControlNeXt,贾佳亚团队走稳了少参数、小算力打破这条路。因为计算资源投入不大,这些模型也更容易成功商业化运行落地。
可以预感,未来在继续技术翻新的驱动下,咱们将看到更多「小而弥坚」的大模型成绩发生。
原文链接: