通过分析人脸图像来估算情绪价和唤醒的技术
近年来,全球无数的计算机科学家一直在开发基于深度神经网络的模型,该模型可以根据人们的面部表情预测他们的情绪。但是,迄今为止开发的大多数模型仅检测到主要的情绪状态,例如愤怒,幸福和悲伤,而不是人类情绪的更微妙的方面。
另一方面,过去的心理学研究已经描述了情绪的许多方面,例如,引入了诸如价(即情绪显示的积极程度)和唤醒(即某人在表达情绪时有多平静或兴奋)之类的测量方法。 。对于大多数人来说,仅通过看一下人的脸来估计价和唤起力就很容易了,但对于机器来说却是一个挑战。
三星AI和伦敦帝国理工学院的研究人员最近开发了一种基于深度神经网络的系统,该系统只需分析日常环境中拍摄到的人脸图像,就可以高度准确地估算情感价和唤醒。在《自然机器智能》上发表的一篇论文中提出的这种模型可以相当快速地做出预测,这意味着它可以用于实时检测微妙的情绪品质(例如,从CCTV摄像机的快照中)。
研究人员说:“长期以来,人们一直在研究情感估计问题,很明显,情感情感的离散类别太有限,无法代表人类每天展示的情感范围。”研究通过电子邮件告诉TechXplore。“结果,我们将重点转移到更广泛的情感维度上,即效价和唤醒。”
除了高性能的硬件外,构建机器学习系统还需要两个基本要素:合适的数据集和算法。在过去的研究中,三星AI和帝国理工学院的研究人员团队因此编译了可用于训练用于情感识别的深度神经网络的数据集,包括AFEW-VA和SEWA数据集。
研究人员说:“在创建AFEW-VA数据集的同时,我们证明了要获得一种在自然条件下可行的方法,而不是在受控的实验室条件下,还应在野外收集对该方法进行训练的数据。” “与此类似,正如我们在SEWA项目中所展示的那样,文化在其中扮演着至关重要的角色。”
在他们收集了包含在真实环境中拍摄的人脸图像的数据集之后,研究人员开发了一个模型,该模型将传统的情感识别方法与其他与情感相关的理论进行了融合。他们创建的深度学习架构可以仅通过处理人脸图像来以高准确度估算价和唤醒。此外,在实验室中拍摄这些图像时以及在实际环境中拍摄时,它的性能都很好。
图片来源:Toisoul等。
“我们的方法的主要目标是给定一个人的脸部图像,以可靠且实时的方式估算持续的价位(心理状态有多积极或消极)和唤醒(使体验平静或令人兴奋)水平,研究人员说。
新系统在带注释的图像上进行了训练,这些图像包含有关价和唤醒的信息。此外,它使用特定的“地标”(例如人的嘴唇,鼻子和眼睛的位置)作为参考来分析面部表情。这使它可以专注于与估计效价和唤醒水平最相关的面部区域。
研究人员解释说:“我们还将离散情感类别的可用标签用作辅助任务,以提供额外的监督并在价和唤醒估计的主要任务上获得更好的表现。” “为防止网络过度适合任何一项任务,我们使用随机过程,摇动正则化将它们组合在一起。”
在初步评估中,深度学习技术能够以空前的准确性从自然条件下拍摄的面孔图像中估计化合价和唤醒度。值得注意的是,在AffectNet和SEWA数据集上进行测试时,该系统的性能和专家级的人类注释器一样出色。
研究人员说:“在两个数据集上,我们的网络性能优于人工注释者之间的协议。” “在实践中,这意味着如果将该网络视为这些数据集的另一个注释者,那么它与人类注释者的平均协议至少将与其他人类注释者之间的协议一样好,这非常了不起。”
除了表现出色之外,深度学习方法是非侵入性的,易于实现,因为它的预测基于常规相机拍摄的简单图像。这使其成为广泛应用的理想选择。例如,它可以用于进行市场分析或创建社交机器人,从而更好地理解人类的感受并做出相应的反应。
到目前为止,基于深度神经网络的系统仅受过训练以分析静态图像。尽管从理论上讲它也可以应用于视频镜头,但要在视频上同样出色地表现,也应考虑时间相关性。因此,在未来的工作中,研究人员计划进一步开发他们的系统,以便可以将其用于从静态图像和视频中估算情感价和唤醒度。
研究人员说:“我们在CVPR 2020上发表的论文“人为化的高阶CNN及其在时空情感估计中的应用”是迈向改善我们网络在视频上的性能的第一步。“特别是,我们设计了一种新颖的方法,先在静态图像上训练神经网络,然后将其推广到时空数据。这具有使时空网络的训练速度更快,所需数据更少的优势。”
标签: