会议中主动发言者检测的音视频融合策略
主动说话者检测是检测在给定时间说话的人的任务。在这种情况下,交流不仅通过语音进行,还通过非语言符号进行。因此,纯音频方法可能不够高效。
arXiv.org最近的一篇论文提出了一种依赖于音频信息与视频信息相结合的方法。
研究人员合并视觉和音频特征以获得稳健的最终检测。分析了两种可能的音频分析方法:一种具有神经网络的监督方法和一种具有扬声器分割和聚类方法的无监督方法。基于3DCNN的纯视觉说话者分类器应用于视觉模态。
研究人员比较了两种融合:朴素融合和基于注意力模块的融合。结果表明,合并视觉和音频模式比我们的基于视频的系统具有更高的性能。
会议是专业环境中的常见活动,赋予语音助理高级功能以促进会议管理仍然具有挑战性。在这种情况下,像主动说话者检测这样的任务可以为模拟会议参与者之间的交互提供有用的见解。受我们与高级会议助手相关的应用程序上下文的启发,我们希望结合音频和视频信息以实现最佳性能。在本文中,我们提出了两种不同类型的融合来检测主动说话者,通过神经网络结合两种视觉模式和一种音频模式。为了进行比较,还使用了用于音频特征提取的经典无监督方法。我们期望以每个参与者的面部为中心的视觉数据非常适合基于对嘴唇和面部手势的检测来检测语音活动。因此,我们的基线系统使用视觉数据,我们选择了3D卷积神经网络架构,该架构对于同时编码外观和运动是有效的。为了改进这个系统,我们通过使用CNN或无监督扬声器分类系统处理音频流来补充视觉信息。我们通过光流运动添加视觉模态信息,进一步改进了这个系统。我们使用公开且最先进的基准评估了我们的提案:AMI语料库。我们分析了每个系统对合并的贡献,以确定给定的参与者当前是否在讲话。我们还讨论了我们获得的结果。此外,我们已经证明,对于我们的应用程序上下文,添加运动信息可以大大提高性能。最后,我们证明了基于注意力的融合在降低标准偏差的同时提高了性能。
标签: