阿里巴巴-浙江大学前沿技术联合研究中心

AZFT团队多主体智能跟踪技术在央视春晚新媒体制作中成功应用

Wed Sep 01 14:50:31 CST 2021

由AZFT视觉与视频分析实验室朱建科教授团队与阿里巴巴-大文娱-优酷-摩酷实验室合作研发的智能裁剪技术在央视春晚新媒体制作中得到成功应用，相关论文Horizontal-to-Vertical Video Conversion 已经被 IEEE Transactions on Multimedia 接收，并且得到了《现代电视技术》杂志的特约专题报导。

随着移动端短视频消费场景的兴起，越来越多的竖版视频占据了用户大量的视频内容消费时长。从节目生产的角度看，限于人力、设备等多种资源投入，不可能单独为移动端的竖屏视频生产提供更多的机位。如果使用传统的方法，用人力从横屏视频中切割出符合内容标注的竖屏素材，成本也是不可接受的。因此，利用人工智能算法来解决这个问题可以赋能生产环境，极大地节省人力、设备成本，满足根据横屏素材自动生产竖屏素材的需求。基于这个需求和难题，浙江大学朱建科教授与摩酷实验室团队合作，深度挖掘技术难点，将目标量化为视频内主体选择问题、主体标定与跟踪问题、视频智能剪裁问题。

横屏转换为竖屏必须选择最合适的主体，完成相关的剪裁工作。使用镜头边界检测，将横版视频分割成一系列连续的镜头。我们设计了基于分镜的视频智能剪裁算法，并且我们使用TransNet作为为算法的镜头边界检测器来实现这一算法。在每个镜头中，应用基于排序的主体选择模块（Rank-SS）在关键帧上发现并选择视频的主体目标；在普通帧追踪主体和相邻目标，获得镜头追踪路径；由于在同一个视频镜头，画面通常都聚焦于同一个被拍摄的主体，因此为了避免进行逐帧复杂的主体选择和保证主体的一致性，我们在镜头内的非关键帧利用跟踪算法来取代主体选择算法，同时这个思路也符合专业编辑者们在手工视频剪裁时关键帧校准和间隔平滑的作法。

对镜头追踪路径进行平滑，并从原视频中剪裁出对应的区域。具体做法是，在主体标定后的画面切分方面，取人物上半身，让主体在剪切后的画面中保持接近固定的大小，这种思路的优势在于更符合“智能专属视角”的定位，保证画面的专属性。

本系统提出了基于主体标定和镜头追踪的视频智能剪裁技术，大大提升了视频检测算法的可用性，并且在央视春晚新媒体制作中得到了应用和检验，证明了系统的有效性、稳定性，为媒体工作大大减少了人力成本，并且勇于在技术上进行创新和深度挖掘，以支撑未来更多的媒体需求。

下载论文原文：
Horizontal-to-Vertical Video Conversion. Tun Zhu, Daoxin Zhang, Yao Hu, Xiaolong Jiang, Jianke Zhu, Jiawei Li. IEEE Transactions on Multimedia, 2021.

https://arxiv.org/abs/2101.04051