AZFT团队在全球计算机视觉顶会CVPR上发表4篇研究论文
Fri Jul 01 15:21:39 CST 2022

6月22日,CVPR 2022 正式公布了最佳论文、最佳学生论文等奖项。来自 ETH Zürich、华盛顿大学、佐治亚理工学院、捷克理工大学多个机构的研究者共同获得了最佳论文奖。来自阿里巴巴和同济大学的合作论文获得最佳学生论文奖项。AZFT视觉与视频分析实验室、IDEA Lab 和 认知智能实验室 三个实验室共4篇署名论文在会上发表。


01 Meta-attention for ViT-backed Continual Learning
论文简介:
持续学习是一个长期的研究课题,因为它在处理不断到来的任务中起着关键作用。到目前为止,计算机视觉中持续学习的研究主要限于卷积神经网络(CNN)。然而,最近有一种趋势,即新出现的视觉变换器(Vision Transformers - ViTs)正在逐渐主导计算机视觉领域,作为CNN的一个有竞争力的替代方法,它具有差不多的性能,同时还具有一些有趣的特性。
在本篇论文中,团队研究了基于ViT的持续学习,以争取在ViT的最新进展上获得更高的性能。受CNN中基于掩码的持续学习方法的启发,我们提出了MEta-ATtention(MEAT),即对自我注意力的关注,以使预训练的ViT适应新的任务,而不牺牲已学任务的性能。与先前基于面具的方法如Piggyback不同,MEAT利用ViTs的特点,只对其部分参数进行屏蔽。这使得MEAT更有效率和效果,开销更少,精度更高。实验表明,MEAT比其最先进的CNN同行表现出明显的优越性,准确率提升了4.0%到6.0%。


02 Oriented RepPoints for Aerial Object Detection
论文简介:
与一般物体相比,航空物体有十个非轴对齐的任意方向,并且其周围环境非常混乱。因此航空遥感检测具有相当的挑战性。
本文提出了一种有效的在空中进行物体检测的方法,利用自适应点作为细粒度表示,能够捕捉到任意方向、杂乱和非轴对齐目标的关键几何特征。为了有效地学习自适应点,我们引入了质量评估和样本分配方案,以衡量和选择高质量的点样本进行训练。此外,我们还采用了空间约束条件来惩罚定向框外的点,以实现稳健的自适应点学习。在四个航空遥感数据集(DOTA、HRSC2016、UCAS-AOD和DIOR-R)的结果,证明了方法的有效性。


03 Few-Shot Incremental Learning for Label-to-Image Translation
论文简介:
在标签到图像的翻译模型从语义标签图生成图像研究领域,现有的模型依赖于大量的像素级注释的样本。当给定带有新语义类别注释的新训练样本时,这些模型需要从头开始用学到的和新的类别进行训练。
该论文提出了一种用于标签到图像翻译的少量增量学习方法。它从每个类别的几个样本中逐一学习新的类别。当对一个新的语义类别进行增量训练时,该模型只学习几个特定类别的额外调制参数。这样的设计避免了对已学过的语义类别的灾难性遗忘,并使内容越来越丰富的场景的标签到图像的翻译成为可能。此外,为了促进少量的学习,论文提出了一个调制转移策略,以便更好地初始化。实验表明,论文提供的方法在大多数情况下优于现有的相关方法,并实现了零遗忘。


04 Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning
论文简介:
视频片段语言定位(Temporal Grounding)旨在定位一个在语义上对应于给定查询语句的目标视频片段。由于自然语言描述的语义多样性,视频片段语言定位允许超出预定义类的活动定位,并且近年来受到越来越多的关注。语义多样性植根于语言学中的组合性原则,其中可以通过以新颖的方式组合已知单词(组合泛化)来系统地描述新颖的语义。然而,当前的视频片段语言定位数据集并没有专门为组合泛化性的测试。
本论文引入了一项新方式 Compositional Temporal Grounding 以系统地评估模型的组合泛化性,并对 SOTA 方法进行了深入分析,发现它们无法泛化到具有新单词组合的查询。因此,论文介绍了一种新颖的 VISA (VarIational croSs-graph reAsoning) 框架,该框架将视频和语言显式分解为多个结构化层次结构,并学习它们之间的细粒度语义对应。实验说明了 VISA 在组合泛化性方面有着显著改进。

阿里技术 | 达摩院 copyright@2017-2018 阿里巴巴-浙江大学前沿技术联合研究中心《法律声明》
浙公网安备: 33010002000092号
| ICP备案网站信息: 浙B2-20120091-4