阿里巴巴-浙江大学前沿技术联合研究中心

计算机视觉与视频分析实验室团队获“新视听媒体融合创新创意大赛”三等奖

Fri Apr 01 14:49:49 CST 2022

AZFT-计算机视觉与视频分析实验室朱建科教授团队参与由北京市委宣传部、光明日报社等主办的首届新视听媒体融合创新创意大赛，在内容AI检索赛道获得全国三等奖。团队成员为张传，刘悦然，章瑞秀和王稳江。

为了瞄准先进技术、实用技术，以技术更新业态，以技术丰富表现，以技术促进融合，在国家广播电视总局、中华全国新闻工作者协会的指导下，由北京市委宣传部、光明日报社、北京市广播电视局、北京市新闻工作者协会主办的新视听媒体融合创新创意大赛设置了媒资视频内容AI检索参赛科目：通过给定图片、视频内容从指定媒资库中检出所对应的原始视频文件，用于查询的图片或视频与检出视频重合部分具有内容一致性。

媒资视频内容AI检索是计算机视觉领域相关性、匹配任务算法的落地项目，主要考察运用大数据、人工智能等技术，在智能语义分析、图形图像学习、智能情绪识别等领域的创新应用能力。

我们针对比赛赛题的具体要求与分析，将赛题分解为两个任务，分别为图像检索视频，以及视频检索视频，进而初步确立了抽帧方式、特征模型及索引策略的选择方向，考虑了算法模型的准确度及运行效率，并融入多模态的信息支撑。

比赛的输入数据分为十类，我们根据其数据特点，分别制定了对应的处理方案。如针对Logo字幕等干扰引入局部特征进行处理，针对色彩变换使用对色彩不敏感的CNN进行全局特征提取，针对模糊样式对数据进行锐化或模糊处理等，确保模型的鲁棒性。

在图像检索任务中，我们对refer video进行均匀抽帧并采用ImageNet预训练后的ResNet18提取视觉特征，HNSW检索方式组成dictionary 1；再提取refer video的ORB特征组成dictionary 2，为建库操作。检索过程则是对query image 提取视觉特征，并在dictionary 1中查询到K个近邻相似视频，再取其对应的ORB特征及Query image的ORB特征输入BF匹配器进行匹配，在匹配过程中，我们设计了一个阈值剪枝操作，缩减算法运行时间；此外我们还使用了全局特征索引，局部特征二次匹配的方式进行检索；值得一提的是，我们后续还尝试了对比学习MOCO v2预训练后的模型替换ResNet进行视觉特征的提取，结果明显提高。

视频检索的视频特征提取部分与图像检索几乎一致，但对视频检索我们增加了音频模态的特征，使用MFCC模型对提取音频特征并与视频特征融合，融合后的特征作为HNSW检索库，后续检索过程与图像检索一致。

我们在视频检索的验证集达到了100%的准确率，在图像检索部分达到85.85%左右，应用对比学习改进后可以达到93.75%；每秒可以处理1.03个视频检索，48.57个图像检索。最终与中国科学院自动化研究所、北京百度网讯科技、中国传媒大学国重实验室大数据中心等共同进入复赛，并击败北京奇虎科技等队伍，与北京百度网讯科技同获大赛国家三等奖。