企业宣传,产品推广,广告招商,广告投放联系seowdb

何恺明组新论文 只用ViT做骨干也可以做好指标检测

的指标检测器通常由一个与检测义务有关的骨干特色提取器和一组蕴含检测公用先验常识的颈部和头部组成。颈部 / 头部中的经常出现组件或者包括感兴味区域(RoI)操作、区域候选网络(RPN)或锚、特色金字塔网络(FPN)等。假设用于特定义务的颈部 / 头部的设计与骨干的设计解耦,它们可以并行开展。从阅历上看,指标检测钻研受益于对通用骨干和检测公用模块的少量独立探求。常年以来,由于卷积网络的实践设计,这些骨干不时是多尺度、分层的架构,这重大影响了用于多尺度(如 FPN)指标检测的颈 / 头的设计。

在过去的一年里,视觉 Transformer(ViT)曾经成为视觉识别的弱小支柱。与典型的 ConvNets 不同,最后的 ViT 是一种便捷的、非档次化的架构,一直坚持繁多尺度的特色图。它的「极简」谋求在运行于指标检测时遇到了应战,例如,咱们如何经过抢先预训练的便捷骨干来处置下游义务中的多尺度对象?便捷 ViT 用于高分辨率图像检测能否效率太低?丢弃这种谋求的一个处置打算是在骨干中从新引入分层设计。这种处置打算,例如 Swin Transformer 和其余网络,可以承袭基于 ConvNet 的检测器设计,并已取得成功。

在这项上班中,何恺明等钻研者谋求的是一个不同的方向: 探求仅经常使用个别、非分层骨干的指标检测器 。假设这一方向取得成功,仅经常使用原始 ViT 骨干启动指标检测将成为或者。在这一方向上,预训练设计将与微调需求解耦,抢先与下游义务的独立性将坚持,就像基于 ConvNet 的钻研一样。这一方向也在必定水平上遵照了 ViT 的理念,即在谋求通用特色的环节中缩小演绎偏置。由于非部分自留意力计算可以学习平移等变特色,它们也可以从某种方式的监视或自我监视预训练中学习尺度等变特色。

在这项钻研中,他们的指标不是开发新的组件,而是经过最小的调整克制上述应战。详细来说,他们的检测器仅从一个个别 ViT 骨干的最后一个特色图构建一个便捷的特色金字塔(如图 1 所示)。这一打算丢弃了 FPN 设计和分层骨干的要求。为了有效地从高分辨率图像中提取特色,他们的检测器经常使用便捷的非堆叠窗口留意力(没有 shifting)。他们经常使用大批的跨窗口块来流传消息,这些块可以是全局留意力或卷积。这些调整只在微调环节中启动,不会扭转预训练。

这种便捷的设计收获了令人惊讶的结果。钻研者发现,在经常使用个别 ViT 骨干的状况下,FPN 的设计并不是必要的,它的好处可以经过由大步幅 (16)、繁多尺度图构建的便捷金字塔来有效地取得。他们还发现,只需消息能在大批的层中很好地跨窗口流传,窗口留意力就够用了。

更令人惊讶的是,在某些状况下,钻研者开发的名为「ViTDet」的个别骨干检测器可以媲美抢先的分层骨干检测器(如 Swin、MViT)。经过掩蔽自编码器(MAE)预训练,他们的个别骨干检测器可以优于在 ImageNet-1K/21K 上启动有监视预训练的分层检测器(如下图 3 所示)。

在较大尺寸的模型上,这种增益要愈加清楚。该检测器的低劣功能是在不同的指标检测器框架下观察到的,包括 Mask R-CNN、Cascade Mask R-CNN 以及它们的增强版本。

在 COCO 数据集上的试验结果标明,一个经常使用无标签 ImageNet-1K 预训练、带有个别 ViT-Huge 骨干的 ViTDet 检测器的 AP^box 可以到达 61.3。他们还在长尾 LVIS 检测数据集上展现了 ViTDet 颇具竞争力的结果。只管这些强有力的结果或者部分来自 MAE 预训练的有效性,但这项钻研标明, 个别骨干检测器或者是有出路的,这应战了分层骨干在指标检测中的积重难返的位置

该钻研的指标是消弭对骨干网络的分层解放,并经常使用个别骨干网络启动指标检测。因此,该钻研的指标是用起码的改动,让便捷的骨干网络在微调时期顺应指标检测义务。经过改动之后,准则上咱们可以运行任何检测器头(detector head),钻研者选用经常使用 Mask R-CNN 及其裁减。

便捷的特色金字塔

FPN 是构建用于指标检测的 in-network 金字塔的经常出现处置打算。假设骨干网络是分层的,FPN 的动机就是将早期高分辨率的特色和前期更强的特色结合起来。这在 FPN 中是经过自上而下(top-down)和横向衔接来成功的,如图 1 左所示。

假设骨干网络不是分层网络,那么 FPN 动机的基础就会隐没,由于骨干网络中的一切特色图都具备相反的分辨率。该钻研仅经常使用骨干网络中的最后一张特色图,由于它应该具备最弱小的特色。

钻研者对最后一张特色图并行运行一组卷积或反卷积来生成多尺度特色图。详细来说,他们经常使用的是尺度为 1/16(stride = 16 )的自动 ViT 特色图,该钻研可如图 1 右所示,这个环节被称为「便捷的特色金字塔」。

从单张特色图构建多尺度特色图的战略与 SSD 的战略有关,但该钻研的场景触及对深度、低分辨率的特色图启动上采样。在分层骨干网络中,上采样通罕用横向衔接启动辅佐,但钻研者经过试验发现,在个别 ViT 骨干网络中横向衔接并不是必须的,便捷的反卷积就足够了。钻研者猜想这是由于 ViT 可以依赖位置嵌入来编码位置,并且高维 ViT patch 嵌入不必定会摈弃消息。

如下图所示,该钻研将这种便捷的特色金字塔与雷同建设在个别骨干网络上的两个 FPN 变体启动比拟。在第一个变体中,骨干网络被人为地划分为多个阶段,以模拟分层骨干网络的各个阶段,并运行横向和自上而下的衔接(图 2(a))。第二个变体与第一个变体相似,但仅经常使用最后一张特色图(图 2(b))。该钻研标明这些 FPN 变体不是必须的。

骨干网络调整

指标检测器受益于高分辨率输入图像,但在整个骨干网络中,计算全局自留意力关于内存的要求十分高,而且速度很慢。该钻研重点关注预训练骨干网络口头全局自留意力的场景,而后在微调时期顺应更高分辨率的输入。这与最近经常使用骨干网络预训练间接修正留意力计算的方法构成对比。该钻研的场景使得钻研者能够经常使用原始 ViT 骨干网络启动检测,而无需从新设计预训练架构。

该钻研探求了经常使用跨窗口块的窗口留意力。在微调时期,给定高分辨率特色图,该钻研将其划分为惯例的非堆叠窗口。在每个窗口内计算自留意力,这在原始 Transformer 中被称为「受限」自留意力。

与 Swin 不同,该方法不会跨层「移动(shift)」窗口。为了准许消息流传,该钻研经常使用了极少数(默以为 4 个)可跨窗口的块。钻研者将预训练的骨干网络平均分红 4 个块的子集(例如关于 24 块的 ViT-L,每个子集中蕴含 6 个),并在每个子集的最后一个块中运行流传战略。钻研者剖析了如下两种战略:

这种骨干网络的调整十分便捷,并且使检测微调与全局自留意力预训练兼容,也就没有必要从新设计预训练架构。

消融钻研

在消融钻研中,钻研者获取了以下论断:

1、一个便捷的特色金字塔就足够了。在表 1 中,他们比拟了图 2 所示的特色金字塔构建战略。

2、在几个流传块的协助下,窗口留意力就足够了。表 2 总结了本文提出的骨干调整方法。简而言之,与只要窗口留意力、无跨窗口流传块的基线(图中的「none」)相比,各种流传方式都可以带来可观的收益。

3、掩蔽自编码器可以提供弱小的预训练骨干。表 4 比拟了骨干预训练的战略。

与分层骨干的对比

下表 5 显示了与分层骨干网络的比拟结果。

下图 3 显示了几种模型的准确率与模型尺寸、FLOPs 和测试时期三者的相关。

与之前系统的对比

下表 6 给出了几种方法在 COCO 数据集上的系统级比拟结果。

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender