时间:2022-11-04 12:22:24
然后,为了进一步提高ViT的泛化能力,我们分别设计了结合对抗学习、信息论和自监督学习的三种泛化能力提升的ViT。通过研究这三种类型的泛化增强ViT,我们观察到了ViT模型针对梯度的敏感性,并设计了一个更平滑的学习策略,以实现稳定的训练过程。通过修改的训练方案,我们实现了相较于原始ViT在OOD数据下的泛化性能4%左右的提升。通过将这三种泛化增强的ViT与它们对应的CNN模型进行综合比较,得到以下结论:
从单个特征图构建多尺度特征图的策略与SSD的策略有关。然而,本文的场景涉及从深度、低分辨率的特征图进行上采样,而SSD利用了较浅的特征图。在分层主干中,上采样通常由横向连接辅助;在普通的ViT主干中,作者凭实验发现这不是必需的,简单的反卷积就足够了。作者认为这是因为ViT可以依赖位置嵌入来编码位置,并且还因为高维ViT补丁嵌入不一定会丢弃信息。
在本文的研究中,作者的目标不是开发新组件。相反,作者进行了足以克服上述挑战的最小调整。特别是,本文的检测器仅从普通ViT主干的最后一个特征图构建一个简单的特征金字塔(见上图)。这放弃了FPN设计并放弃了分层主干的要求。为了有效地从高分辨率图像中提取特征,本文的检测器使用简单的非重叠窗口注意力。少量的跨窗口块(例如4个)可能是全局注意力或卷积,用于传播信息。这些调整仅在微调期间进行,不会改变预训练。
在这项工作中,作者追求不同的方向:探索仅使用普通、非分层主干的目标检测器。如果这个方向成功,它将能够使用原始ViT主干进行目标检测;这将使预训练设计与微调需求脱钩,保持上游与下游任务的独立性,就像基于ConvNet的研究一样。这个方向也部分遵循了ViT在追求通用特征时“减少归纳偏置”的哲学。由于非局部自注意力计算可以学习平移等变特征,它们还可以从某些形式的监督或自监督预训练中学习尺度等变特征。
*摘要:在本文中,我们提出了转换图像和视觉变压器(VIT)模型的组合使用,该模型用秘密键转换。我们首次展示了经过普通图像训练的模型可以直接转换为根据VIT体系结构训练的模型,并且使用测试图像时,转换模型的性能与经过纯图像训练的模型相同用钥匙加密。此外,提出的方案不需要任何特殊准备的数据进行培训模型或网络修改,因此它还使我们可以轻松更新秘密密钥。在实验中,在CIFAR-10数据集中的图像分类任务中,根据性能降解和模型保护性能评估了提出方案的有效性。
ViTDet这个工作系统地探讨了如何将ViT更好地应用在下游检测任务,它不直接对改变原生ViT的预训练过程,而是在适应下游任务上做适当地改进,并实现了和层级ViT模型类似甚至更好的性能,而且也证明了MAE预训练对性能的提升所起到的巨大作用。