用于视频中人体动作检测的时频网络

视频中的人体动作检测可应用于视频监控、人机交互和设备控制等领域。该任务需要一个具有 3D 形状的图像序列作为输入，以检测诸如跑步或接球之类的动作。

通常，卷积神经网络 (CNN) 用于此任务。然而，他们只考虑时空特征，而使用频率特征会促进学习。最近 arXiv.org 上的一篇论文提出了一种时频域中的端到端单级网络。

3D-CNN 和 2D-CNN 分别用于提取时间和频率特征。然后，将它们与注意力机制融合以获得检测模式。实验证明了所建议的方法相对于其他最先进的模型的优越性。证明了利用频率特征进行动作检测的可行性。

目前，大多数用于视频中人体动作检测的深度学习方法都采用时空特征，然而，它们忽略了频域中的重要特征。在这项工作中，我们提出了一个同时考虑时间和频率特征的端到端网络，称为 TFNet。TFNet有两个分支，一个是由三维卷积神经网络(3D-CNN)构成的时间分支，以图像序列为输入提取时间特征;另一个是频率分支，通过二维卷积神经网络(2D-CNN)从DCT系数中提取频率特征。最后，为了获得动作模式，这两个特征在注意力机制下深度融合。

标签：

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

用于视频中人体动作检测的时频网络

猜你喜欢

最新文章