IDEA Lab孙凌云教授团队论文被CVPR录用
Tue Mar 01 14:47:06 CST 2022
AZFT IDEA Lab(智能、设计、体验与审美实验室)孙凌云教授团队论文“Few-Shot Incremental Learning for Label-to-Image Translation” 被CVPR 2022录用。


CVPR,全称IEEE Conference on Computer Vision and Pattern Recognition,是IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议。

本文主要研究语义图到图像的翻译任务。语义图是一种精细化的图像标注方式,指示了图像中每个像素属于什么语义。语义图到图像的翻译模型(Label-to-Image Translation,L2I)可以从语义图标注生成真实感图像,实现精细可控的高质量图像生成。但是现有L2I模型训练需要大量带语义图标注的图像样本,数据量要求较高。而且,人类标注了新的语义、提供了新训练样本时,现有L2I模型需要重新开始训练新、旧语义标注样本,而直接用新样本微调模型则会遗忘旧语义,模型训练的“温固”和“知新”难以兼顾。以上两点缺陷阻碍了L2I模型的实际应用。

          

语义图生成图像的FILIT模型框架

本文介绍了基于语义图到图像翻译的少样本增量学习方法FILIT,可解决上述两点缺陷:(1)模型只需要少量新语义标注的数据即可充分学习;(2)模型可以持续学习新语义而无需重新训练。具体地,FILIT先在现有大规模标注数据上预训练生成模型,随后即可增量式地学习新语义的少量样本。为完成以上目的,FILIT使用语义自适应的卷积滤波器和规范化操作。当在预训练模型上增量训练一个新语义,FILIT 只学习专为该语义增加的额外参数,而不会改变预训练模型本身的参数。该设计可避免模型遗忘已学习的旧语义,并允许模型增量扩展可生成的新语义。所提出的方法用于可控图像生成,已在阿里鹿班智能设计平台上预演,后续将应用于手机和PC端的海报背景图像生成上,实现多风格、跨场景、快速扩展的图像生成。


阿里技术 | 达摩院 copyright@2017-2018 阿里巴巴-浙江大学前沿技术联合研究中心《法律声明》
浙公网安备: 33010002000092号
| ICP备案网站信息: 浙B2-20120091-4