用于人形机器人视觉自我识别的深度手部分割
自我感知,即检测自己的身体并将其与背景区分开来的能力,对于以自我为中心的行为和与其他代理的互动都是有益的。必须知道手的完整空间信息才能执行困难的任务,例如物体抓取。在那里,2D 手部关键点等简单方法是不够的。
因此,最近的一篇论文提出使用手部分割进行视觉自我识别。属于真实机器人手的所有像素都使用来自机器人相机的 RGB 图像进行分割。
该方法使用专门用模拟数据训练的卷积神经网络。因此,它解决了缺乏预先存在的训练数据集的问题。为了将模型拟合到特定领域,对预训练的权重和超参数进行了微调。所提出的解决方案比现有技术更好地实现了联合精度的交集。
区分自我和背景的能力对于机器人任务至关重要。手的特殊情况,作为机器人系统的末端执行器,经常与环境的其他元素接触,必须被精确地感知和跟踪,以灵巧地执行预期任务,而不会与障碍物发生碰撞。它们是多种应用的基础,从人机交互任务到对象操作。现代仿人机器人的特点是自由度高,这使得它们的正向运动学模型对不确定性非常敏感。因此,诉诸视觉传感可能是赋予这些机器人良好的自我感知能力、能够精确定位其身体部位的唯一解决方案。在本文中,我们建议使用卷积神经网络 (CNN) 在以自我为中心的视图中从图像中分割机器人手。众所周知,CNN 需要大量的数据进行训练。为了克服标记真实世界图像的挑战,我们建议使用利用域随机化技术的模拟数据集。我们针对分割人形机器人 Vizzy 的手的特定任务对 Mask-RCNN 网络进行了微调。我们将注意力集中在开发一种需要少量数据来实现合理性能的方法上,同时详细了解如何在训练数据集中正确生成可。此外,我们分析了 Mask-RCNN 复杂模型中的微调过程,了解哪些权重应该转移到分割机器人手的新任务中。我们的最终模型仅在合成图像上进行训练,合成验证数据的平均 IoU 为 82%,真实测试数据的平均 IoU 为 56.3%。这些结果是使用单个 GPU 仅用 1000 张训练图像和 3 小时的训练时间实现的。
标签: