阿里巴巴-浙江大学前沿技术联合研究中心

IDEA Lab孙凌云教授团队论文被CVPR录用

Tue Mar 01 14:47:06 CST 2022

AZFT IDEA Lab（智能、设计、体验与审美实验室）孙凌云教授团队论文“Few-Shot Incremental Learning for Label-to-Image Translation” 被CVPR 2022录用。

CVPR，全称IEEE Conference on Computer Vision and Pattern Recognition，是IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议。

本文主要研究语义图到图像的翻译任务。语义图是一种精细化的图像标注方式，指示了图像中每个像素属于什么语义。语义图到图像的翻译模型（Label-to-Image Translation，L2I）可以从语义图标注生成真实感图像，实现精细可控的高质量图像生成。但是现有L2I模型训练需要大量带语义图标注的图像样本，数据量要求较高。而且，人类标注了新的语义、提供了新训练样本时，现有L2I模型需要重新开始训练新、旧语义标注样本，而直接用新样本微调模型则会遗忘旧语义，模型训练的“温固”和“知新”难以兼顾。以上两点缺陷阻碍了L2I模型的实际应用。

语义图生成图像的FILIT模型框架

本文介绍了基于语义图到图像翻译的少样本增量学习方法FILIT，可解决上述两点缺陷：（1）模型只需要少量新语义标注的数据即可充分学习；（2）模型可以持续学习新语义而无需重新训练。具体地，FILIT先在现有大规模标注数据上预训练生成模型，随后即可增量式地学习新语义的少量样本。为完成以上目的，FILIT使用语义自适应的卷积滤波器和规范化操作。当在预训练模型上增量训练一个新语义，FILIT 只学习专为该语义增加的额外参数，而不会改变预训练模型本身的参数。该设计可避免模型遗忘已学习的旧语义，并允许模型增量扩展可生成的新语义。所提出的方法用于可控图像生成，已在阿里鹿班智能设计平台上预演，后续将应用于手机和PC端的海报背景图像生成上，实现多风格、跨场景、快速扩展的图像生成。