阿里巴巴-浙江大学前沿技术联合研究中心

AZFT团队在全球计算机视觉顶会CVPR上发表4篇研究论文

Fri Jul 01 15:21:39 CST 2022

6月22日，CVPR 2022 正式公布了最佳论文、最佳学生论文等奖项。来自 ETH Zürich、华盛顿大学、佐治亚理工学院、捷克理工大学多个机构的研究者共同获得了最佳论文奖。来自阿里巴巴和同济大学的合作论文获得最佳学生论文奖项。AZFT视觉与视频分析实验室、IDEA Lab 和认知智能实验室三个实验室共4篇署名论文在会上发表。

01 Meta-attention for ViT-backed Continual Learning
论文简介：
持续学习是一个长期的研究课题，因为它在处理不断到来的任务中起着关键作用。到目前为止，计算机视觉中持续学习的研究主要限于卷积神经网络（CNN）。然而，最近有一种趋势，即新出现的视觉变换器（Vision Transformers - ViTs）正在逐渐主导计算机视觉领域，作为CNN的一个有竞争力的替代方法，它具有差不多的性能，同时还具有一些有趣的特性。
在本篇论文中，团队研究了基于ViT的持续学习，以争取在ViT的最新进展上获得更高的性能。受CNN中基于掩码的持续学习方法的启发，我们提出了MEta-ATtention（MEAT），即对自我注意力的关注，以使预训练的ViT适应新的任务，而不牺牲已学任务的性能。与先前基于面具的方法如Piggyback不同，MEAT利用ViTs的特点，只对其部分参数进行屏蔽。这使得MEAT更有效率和效果，开销更少，精度更高。实验表明，MEAT比其最先进的CNN同行表现出明显的优越性，准确率提升了4.0%到6.0%。

02 Oriented RepPoints for Aerial Object Detection
论文简介：
与一般物体相比，航空物体有十个非轴对齐的任意方向，并且其周围环境非常混乱。因此航空遥感检测具有相当的挑战性。
本文提出了一种有效的在空中进行物体检测的方法，利用自适应点作为细粒度表示，能够捕捉到任意方向、杂乱和非轴对齐目标的关键几何特征。为了有效地学习自适应点，我们引入了质量评估和样本分配方案，以衡量和选择高质量的点样本进行训练。此外，我们还采用了空间约束条件来惩罚定向框外的点，以实现稳健的自适应点学习。在四个航空遥感数据集（DOTA、HRSC2016、UCAS-AOD和DIOR-R）的结果，证明了方法的有效性。

03 Few-Shot Incremental Learning for Label-to-Image Translation
论文简介：
在标签到图像的翻译模型从语义标签图生成图像研究领域，现有的模型依赖于大量的像素级注释的样本。当给定带有新语义类别注释的新训练样本时，这些模型需要从头开始用学到的和新的类别进行训练。
该论文提出了一种用于标签到图像翻译的少量增量学习方法。它从每个类别的几个样本中逐一学习新的类别。当对一个新的语义类别进行增量训练时，该模型只学习几个特定类别的额外调制参数。这样的设计避免了对已学过的语义类别的灾难性遗忘，并使内容越来越丰富的场景的标签到图像的翻译成为可能。此外，为了促进少量的学习，论文提出了一个调制转移策略，以便更好地初始化。实验表明，论文提供的方法在大多数情况下优于现有的相关方法，并实现了零遗忘。

04 Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning
论文简介：
视频片段语言定位（Temporal Grounding）旨在定位一个在语义上对应于给定查询语句的目标视频片段。由于自然语言描述的语义多样性，视频片段语言定位允许超出预定义类的活动定位，并且近年来受到越来越多的关注。语义多样性植根于语言学中的组合性原则，其中可以通过以新颖的方式组合已知单词（组合泛化）来系统地描述新颖的语义。然而，当前的视频片段语言定位数据集并没有专门为组合泛化性的测试。
本论文引入了一项新方式 Compositional Temporal Grounding 以系统地评估模型的组合泛化性，并对 SOTA 方法进行了深入分析，发现它们无法泛化到具有新单词组合的查询。因此，论文介绍了一种新颖的 VISA (VarIational croSs-graph reAsoning) 框架，该框架将视频和语言显式分解为多个结构化层次结构，并学习它们之间的细粒度语义对应。实验说明了 VISA 在组合泛化性方面有着显著改进。