计算机视觉与视频分析实验室“快速无数据知识蒸馏”成果被国际级顶级会议AAAI录用
Wed Dec 01 17:07:17 CST 2021

    AZFT-计算机视觉与视频分析实验室宋明黎教授团队论文“Up to 100×Faster Data-free Knowledge Distillation”被国际顶级多媒体会议AAAI-2022录用。论文作者为方共凡,莫瞰涯,王鑫超,宋杰,贝史涛,张皓飞,宋明黎等人。

知识蒸馏是一种重要的模型压缩算法,能够将大模型的知识迁移到参数量更少、速度更快的小模型中,从而满足低功耗设备的部署要求。然而传统的知识蒸馏技术通常高度依赖于原始训练数据,会导致部分隐私泄露、财产归属问题。在此场景下,无数据知识蒸馏成为了一种有效的解决方案,这类方案通过合成伪样本构建训练数据,从而避免了数据分发,有效的保护公司、个人数据的安全。然而,无数据知识蒸馏通常面临严重的效率问题,现有算法对ImageNet预训练模型进行压缩需要耗费300小时的合成时间,在实际问题中难以落地。为解决这一问题,团队提出了一种快速无数据知识蒸馏算法(Fast Data-free Knowledge Distillation, FastDFKD),能够在各类数据集上取得数十倍的加速。

    快速无数据知识蒸馏算法能够实现加速的关键在于高效的数据合成方法。团队利用了自然数据中的共享模式实现快速合成。共享模式指的是数据中频繁出现的物体、图案、纹理等信息,例如草地、天空等模式在不同数据样本中频繁出现。对于共享模式,算法仅需要进行一次合成、多次复用,从而避免了大量的合成开销。基于这一点,团队设计了一种基于元学习的方法来训练一个元生成器,在合成数据的过程中学习并记忆共享模式,从而在需要合成新样本的时候能够直接利用现有模式快速构建。

图1:快速无数据蒸馏算法示意图

    团队提出的方法是无数据蒸馏领域首个高性能算法,在CIFAR、NYUv2等小规模分类、分割场景中取得了100倍于现有算法的速度,在ImageNet等业界标准数据集上也取得了接近50倍的加速,将ImageNet模型无数据蒸馏的合成时间从300小时降低到6.28小时,同时在性能上,团队提出的算法与现有最先进方法(英伟达提出的DeepInversion、谷歌提出的Generative DFD等算法)持平,使其具备落地的可行性。

图2:算法利用ImageNet分类模型得到的伪数据

阿里技术 | 达摩院 copyright@2017-2018 阿里巴巴-浙江大学前沿技术联合研究中心《法律声明》
浙公网安备: 33010002000092号
| ICP备案网站信息: 浙B2-20120091-4