又是颁布即开源!
Meta“宰割一切AI”二代在SIGGRAPH上刚刚亮相。
相较于上一代,它的才干从图像宰割拓展到 视频宰割 。
可实时处置恣意长视频,视频中没见过的对象也能轻松宰割追踪。
更关键的是,模型 代码、权重以及数据集 统统开源!
它和Llama系列一样遵照Apache 2.0容许协定,并依据BSD-3容许分享评价代码。
网友yygq:我就问OpenAI难堪不难堪。
Meta示意,此次开源的数据集蕴含51000个实在环球视频和600000个时空掩码(masklets,spatio-temporal masks),规模远超此前最大同类数据集。
可在线试玩的demo也同步上线,大家都能来体验。
在SAM之上参与记忆模块
相较于SAM一代,SAM2的才干更新关键有:
它启动交互式宰割的环节关键分为两步:选用和细化。
在第一帧中,用户经过点击来选用指标对象,SAM2依据点击智能将宰割流传到后续帧,构成时空掩码。
假设SAM2在某些帧中失落了指标对象,用户可以经过在新一帧中提供额外的揭示来启动校对。
假设在第三帧中须要须要复原对象,只有在该帧中点击即可。
SAM2的**理路是 将图像视作单帧视频 ,因此可以从SAM间接裁减至视频畛域,同时支持图像和视频输入。
处置视频惟一的区别在于,模型须要依赖内存来回想处置过的消息,以便在期间步长上准确宰割对象。
与图像宰割相比,视频宰割中,物体的静止、变形、遮挡和光线等都会出现剧烈变动。同时宰割视频中的对象须要了解实体逾越空间和期间的位置。
所以Meta关键做了三局部上班:
首先,团队设计了一个视觉宰割义务,将图像宰割义务推行到视频畛域。
SAM被训练成以图像中的输入点、框或掩码来定义指标并预测宰割掩码(segmentation mask)。
而后训练SAM在视频的恣意帧中接受prompt来定义要预测的时空掩码(masklet)。
SAM2依据输入揭示对帧上的掩码启动即时预测,并启动暂时流传,在一切帧上都可生成指标对象的掩码。
一旦预测到初始掩码,就可以经过任何帧中向SAM2提供额外揭示来启动迭代改良,它可以依据须要重复屡次,直到失掉到一切掩码。
经过引入 流式记忆 (streaming memory),模型可以实时处置视频,还能愈加准确宰割和跟踪指标对象。
它由记忆编码器、记忆库和记忆留意力模块组成。让模型一次性只处置一帧图像,应用先前帧消息辅佐帧的宰割义务。
宰割图像时,内存组件为空,模型和SAM相似。宰割视频时,记忆组件能够存储对象消息以及先前的交互消息,从而使得SAM2可以在整个视频中启动掩码预测。
假设在其余帧上有了额外揭示,SAM2可以依据指标对象的存储记忆启动纠错。
记忆编码器依据预测创立记忆,记忆库保管无关视频指标对象过去预测的消息。记忆留意力机制经过条件化帧特色,并依据过去帧的特色调整以发生嵌入,而后将其传递到掩码解码器以生成该帧的掩码预测,后续帧始终重复此操作。
这种设计也准许模型可以处置恣意时长的视频,不只关于SA-V数据集的注释搜集很关键,也关于机器人等畛域应有有影响。
假设被宰割对象比拟含糊,SAM2还会输入多个有效掩码。比如用户点击了自行车的轮胎,模型可以将此了解为多种掩码,或者是指轮胎、或者是指自行车所有,并输入多个预测。
在视频中,假设在一帧图像中仅有轮胎可见,那么或者须要宰割的是轮胎;假设视频后续帧中很多都出现了自行车,那么或者须要宰割的是自行车。
假设还是不能判别用户究竟想宰割哪个局部,模型会依照置信度启动选用。
此外,视频中还容易出现宰割对象被遮挡的状况。为了处置这个新状况,SAM2还参与了一个额外的模型输入“遮挡头”(occlusion head),用来预测对象能否出如今帧上。
此外,在数据集方面。
SA-V中蕴含的视频数量是现有最大同类数据集的4.5倍,注释量则是53倍。
为了搜集到如此多的数据,钻研团队构建了一个数据引擎。人工会应用SAM2在视频中注释时空掩码,而后将新的注释用来更新SAM2。屡次重复这一循环,就能始终迭代数据集和模型。
和SAM相似,钻研团队不对注释的时空掩码启动语义解放,而是愈加关注完整的物体。
这一方法让搜集视频对象宰割掩码速度也大幅优化,比SAM快8.4倍。
处置适度宰割、逾越SOTA
对比来看,经常使用SAM2可以很好处置适度宰割的疑问。
试验数据显示,和半监视SOTA方法比拟,SAM2各项功能都体现不错。
不过钻研团队也示意,SAM2还有无余,
比如或者会跟丢对象。假设相机视角变动大、在比拟拥堵的场景里,就容易出现这类状况。所以他们设计了实时交互的形式,支持手动批改。
以及指标对象移动过快,或者会细节上有缺失。
最后,模型不只开源支持无偿经常使用,并已在Amazon SageMaker 等平台上托管。
值得一提的是,有人发现论文中提到SAM2训练是在256块A100上耗时108小时成功,对比SAM1则花了68小时。
原文链接: