FLEX无参数多视图3D人体运动重建
当前使用运动捕捉传感器的人体运动重建技术需要繁琐且昂贵的过程。来自 RGB 摄像机的视频记录的广泛可用性可以使这项任务变得更容易。然而,用于避免遮挡和深度模糊的多相机设置仍然是一个问题。arXiv.org 上最近的一篇论文提出了一种无参数多视图运动重建算法。
它依赖于骨架部分之间的 3D 角度对相机位置不变的见解。神经网络在不使用任何相机参数的情况下学习预测关节角度和骨骼长度。新的融合层用于增加每个联合检测的置信度并减轻遮挡。定性和定量评估表明,所建议的模型在运动和姿势重建方面的表现优于最先进的方法。
由多台摄像机制作的视频记录的可用性不断提高,为减轻姿势和运动重建方法中的遮挡和深度模糊提供了新方法。然而,多视图算法强烈依赖于相机参数,特别是相机之间的相对位置。一旦在不受控制的环境中转向动态捕获,这种依赖性就会成为障碍。我们介绍了 FLEX(Free multi-view rEconstruXion),这是一种端到端的无参数多视图模型。FLEX 是无参数的,因为它不需要任何相机参数,无论是内在的还是外在的。我们的主要想法是骨骼部分之间的 3D 角度以及骨骼长度对于相机位置是不变的。因此,学习 3D 旋转和骨骼长度而不是位置允许预测所有相机视图的共同值。我们的网络采用多个视频流,通过新颖的多视图融合层学习融合的深度特征,并重建具有时间相干关节旋转的单个一致骨架。我们在 Human3.6M 和 KTH Multi-view Football II 数据集上展示了定量和定性结果。我们将我们的模型与非无参数的最先进方法进行比较,并表明在没有相机参数的情况下,我们在相机参数可用时获得可比较的结果的同时取得了很大的优势。代码、训练有素的模型、视频演示和其他材料将在我们的网站上提供 我们在 Human3.6M 和 KTH Multi-view Football II 数据集上展示了定量和定性结果。我们将我们的模型与非无参数的最先进方法进行比较,并表明在没有相机参数的情况下,我们在相机参数可用时获得可比较的结果的同时取得了很大的优势。代码、训练有素的模型、视频演示和其他材料将在我们的网站上提供 我们展示了 Human3.6M 和 KTH Multi-view Football II 数据集的定量和定性结果。我们将我们的模型与非无参数的最先进方法进行比较,并表明在没有相机参数的情况下,我们在相机参数可用时获得可比较的结果的同时取得了很大的优势。代码、训练有素的模型、视频演示和其他材料将在我们的网站上提供项目页面。
标签: