扩展通用视频识别的语言图像预训练模型
视频识别用于众多视觉应用,例如微视频推荐、运动视频分析或自动驾驶。语言图像预训练在解决这一任务方面显示出巨大的潜力。然而,直接训练语言-视频模型需要大规模的视频-文本预训练数据。
arXiv.org 最近的一篇论文提出了一种用于视频时间建模的新架构。为视频时间建模提出了新颖的跨帧通信注意。它轻巧高效,可以无缝插入现有的语言图像预训练模型。
研究人员设计了一种特定于视频的提示技术,以自动生成实例级文本表示。实验证明了该方法在各种学习配置下的优越性和良好的泛化能力。
对比语言-图像预训练在从网络规模数据学习视觉-文本联合表示方面取得了巨大成功,展示了对各种图像任务的显着“零样本”泛化能力。然而,如何将这种新的语言-图像预训练方法有效地扩展到视频领域仍然是一个悬而未决的问题。在这项工作中,我们提出了一种简单而有效的方法,将预训练的语言图像模型直接应用于视频识别,而不是从头开始预训练一个新模型。更具体地说,为了捕捉帧在时间维度上的长期依赖关系,我们提出了一种跨帧注意机制,可以显式地跨帧交换信息。这样的模块是轻量级的,可以无缝地插入到预训练的语言图像模型中。而且,我们提出了一种特定于视频的提示方案,该方案利用视频内容信息来生成有区别的文本提示。大量实验表明,我们的方法是有效的,并且可以推广到不同的视频识别场景。特别是,在完全监督的设置下,我们的方法在 Kinectics-400 上实现了 87.1% 的 top-1 准确率,而与 Swin-L 和 ViViT-H 相比,使用的 FLOP 减少了 12 倍。在零样本实验中,我们的方法在两种流行协议下的 top-1 准确度方面超过了当前最先进的方法 +7.6% 和 +14.9%。在少镜头场景中,当标记的数据极其有限时,我们的方法比以前的最佳方法好 +32.1% 和 +23.1%。代码和模型可在 它利用视频内容信息来生成有区别的文本提示。大量实验表明,我们的方法是有效的,并且可以推广到不同的视频识别场景。特别是,在完全监督的设置下,我们的方法在 Kinectics-400 上实现了 87.1% 的 top-1 准确率,而与 Swin-L 和 ViViT-H 相比,使用的 FLOP 减少了 12 倍。
标签: