阿里巴巴-浙江大学前沿技术联合研究中心

论文浅尝——基于竞争合作式知识重组的多任务模型学习方法

Thu Sep 24 15:37:55 CST 2020

AZFT计算机视觉与视频分析实验室宋明黎教授团队论文“Collaboration by Competition: Self-coordinated Knowledge Amalgamation for Multi-talent Student Learning” 被2020年8月23日召开的计算机视觉国际顶级会议ECCV录用。

近年来，随着深度学习方法的迅猛发展，大量预先训练好的深度模型被上传至网络以供复用，从而减少重新训练所带来的运算开销。这些预训练模型通常只针对单一任务和某个特定数据集，且出于隐私和安全等诸多原因，数据集往往不对外公开。针对模型重用问题，本文提出了在没有人工标注数据的情况下自适应地集成多个已有预训练模型，得到一个小而精的客制化多任务模型的方法。

具体来说，这篇论文的研究目标是给定一组预训练好的模型，称之为教师模型集合（例如Taskonomy），允许用户从同类架构（诸如encoder-decoder）的模型家族中选择任意一组模型来定制一个新模型，称之为学生模型，使其可以同时解决所有教师模型能处理的任务，并且该学生模型训练的过程中无需人工标注。一旦训练完毕，学生模型的参数规模不仅比教师模型的参数总和小得多，而且可以保持甚至有时超过教师模型的效果。

基于竞争-合作机制的自适应知识重组方法架构

为了实现上述目标，本文提出了一种新颖的基于竞争合作机制的自适应知识重组方法（如图1），该方法将各个目标任务视为竞争对象，通过竞争-合作两阶段动态交替训练（如图2），来自动平衡深度学习模型集成中的资源分配和知识迁移，从而训练得到全能而精巧的学生模型。在学生模型的训练过程中，一方面，不同目标任务之间相互竞争，都争取学生模型为自身任务分配资源，另一方面，他们又共享特征，通过不同模态信息之间的协作而互惠互利。与通过人工反复试验进而根据经验设置超参数不同，这种基于竞争协作机制的知识重组方法可以在模型集成过程中自主学习损失函数中不同任务的权重，从而自适应地均衡多个任务在知识重组过程中的资源分配，最终训练得到综合性能更好的学生模型。

（a）目标网络架构及其监督信息；（b）竞争-合作两阶段交替训练过程图示

此外，针对由于用户自主选择从而可能出现的目标任务之间关联性不强的情况，这篇论文还提出了一种中间任务模型辅助训练方法，即在训练之前量化评估不同任务之间的相关度和迁移性，引入与目标任务内在关联度较高的中间任务，在学生模型训练过程中加入中间任务模型的模态信息，来作为目标任务之间的桥梁，从而增强目标任务集成的效果，得到综合性能较好且更模型参数规模更小的学生模型。

总结，针对模型重用问题，这篇文章提出一种竞争-合作式的知识重组方法，在学生网络的训练过程中自适应地平衡不同目标任务的资源分配和协作，从而集成得到一个小而精的多任务客制化模型，大大节省了模型训练的代价（如标注成本），且客制化模型的性能可以保持甚至有时超过教师模型。

论文作者：罗思惠
http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123510630.pdf