阿里巴巴-浙江大学前沿技术联合研究中心

"平面物体跟踪及在嵌入式视频广告的应用"论文被国际顶会AAAI录用

Tue Mar 01 14:41:45 CST 2022

AZFT-计算机视觉与视频分析实验室朱建科教授团队论文“Homography Decomposition Networks for Planar Object Tracking” 被国际顶级人工智能会议AAAI录用。该文作者为詹鑫睿，刘悦然，朱建科和李洋。

不同于通用的物体跟踪, 平面物体的跟踪需要对平面的透视变换进行估计，具有更精确的描述性，其在增强现实和混合现实和视觉SLAM中扮演着重要的角色。尽管之前的工作可以较好的处理大多数的场景，并在对齐的精度上表现良好。但这些工作并不能处理物体移动较快或是变换较大的情况，传统的基于表观的模型很容易跟踪失败，而基于关键点的先进方法则会发生很明显的抖动，影响了实际场景中实用性。

团队发现问题的本质来自于单应矩阵的参数的搜索空间很大时，回归物体角点的非线性系统的条件数变化范围也很大。为了解决这个问题，如下图所示，团队提出了一个新颖的单应性分解网络(HDN)，将单应性矩阵分解为相似群(similarity group)和残差群(residual group)。团队进一步分解了相似变换的四个参数，由于通用的CNN对旋转和缩放不具有等变性，因此团队利用了李群的性质, 通过warp图像实现了卷积对相似度变换的不变性。通用物体跟踪已经证明了可以很鲁棒地只跟踪物体的偏移，因此团队的模型对物体的四个参数可以得到高置信度的估计。随后，使用简单的单应估计器回归残差即可完成平面的跟踪。

该方法是首个分解单应矩阵为两个群的平面跟踪方法，HDN使用了端到端半监督的训练方式，实验结果显示了我们在POT等四个数据集上均处于领先水平。在挑战性的POT数据集上平均精度领先第二名LISRD 12%(相对提高比例), 领先于基于非关键点的方法LDES 64.7%，以下视频给出了在POT上视频替换物体的效果对比。

阿里云网盘

https://www.aliyundrive.com/s/9fQHDZgHoCe

为了方便使用，团队及时开源了代码，除了给出跟踪的平面角点，还提供了demo可以完成视频内平面替换，视频平面马赛克，拍照挂件等AR功能。

项目主页

https://zhanxinrui.github.io/HDN-homepage/

项目代码

https://github.com/zhanxinrui/HDN

论文下载

https://arxiv.org/abs/2112.07909