扩展通用视频识别的语言图像预训练模型

视频识别用于众多视觉应用，例如微视频推荐、运动视频分析或自动驾驶。语言图像预训练在解决这一任务方面显示出巨大的潜力。然而，直接训练语言-视频模型需要大规模的视频-文本预训练数据。

arXiv.org 最近的一篇论文提出了一种用于视频时间建模的新架构。为视频时间建模提出了新颖的跨帧通信注意。它轻巧高效，可以无缝插入现有的语言图像预训练模型。

研究人员设计了一种特定于视频的提示技术，以自动生成实例级文本表示。实验证明了该方法在各种学习配置下的优越性和良好的泛化能力。

对比语言-图像预训练在从网络规模数据学习视觉-文本联合表示方面取得了巨大成功，展示了对各种图像任务的显着“零样本”泛化能力。然而，如何将这种新的语言-图像预训练方法有效地扩展到视频领域仍然是一个悬而未决的问题。在这项工作中，我们提出了一种简单而有效的方法，将预训练的语言图像模型直接应用于视频识别，而不是从头开始预训练一个新模型。更具体地说，为了捕捉帧在时间维度上的长期依赖关系，我们提出了一种跨帧注意机制，可以显式地跨帧交换信息。这样的模块是轻量级的，可以无缝地插入到预训练的语言图像模型中。而且，我们提出了一种特定于视频的提示方案，该方案利用视频内容信息来生成有区别的文本提示。大量实验表明，我们的方法是有效的，并且可以推广到不同的视频识别场景。特别是，在完全监督的设置下，我们的方法在 Kinectics-400 上实现了 87.1% 的 top-1 准确率，而与 Swin-L 和 ViViT-H 相比，使用的 FLOP 减少了 12 倍。在零样本实验中，我们的方法在两种流行协议下的 top-1 准确度方面超过了当前最先进的方法 +7.6% 和 +14.9%。在少镜头场景中，当标记的数据极其有限时，我们的方法比以前的最佳方法好 +32.1% 和 +23.1%。代码和模型可在它利用视频内容信息来生成有区别的文本提示。大量实验表明，我们的方法是有效的，并且可以推广到不同的视频识别场景。特别是，在完全监督的设置下，我们的方法在 Kinectics-400 上实现了 87.1% 的 top-1 准确率，而与 Swin-L 和 ViViT-H 相比，使用的 FLOP 减少了 12 倍。

标签：

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

扩展通用视频识别的语言图像预训练模型

猜你喜欢

最新文章