机器人通过观看视频来学习
想象一下,有一个私人机器人每天早上准备您的早餐。现在,想象一下该机器人不需要任何帮助来确定如何制作完美的煎蛋卷,因为它通过在YouTube上观看视频学习了所有必要的步骤。这听起来像科幻小说,但是马里兰大学的一个团队刚刚取得了重大突破,这将使这种情况更加接近现实。
UMD计算机科学家Yiannis Aloimonos(中心)正在开发能够视觉识别物体并根据这些观察结果产生新行为的机器人系统。 照片:约翰·T·康索利(John T. Consoli)在研究人员马里兰学院高级计算机研究所(UMIACS)大学与在科学家合作, 国家信息通信技术研究卓越的澳大利亚中心(NICTA)开发能够自学机器人系统。具体而言,这些机器人能够通过观看在线烹饪视频来学习烹饪所需的复杂抓握和操纵动作。关键的突破在于,机器人可以自己“思考”,确定观察到的运动的最佳组合,从而使它们能够有效地完成给定的任务。
这项工作将于2015年1月29日在德克萨斯州奥斯汀举行的人工智能促进协会会议上发表。研究人员通过结合三个不同研究领域的方法实现了这一里程碑:人工智能或可以自行决定的计算机设计;计算机视觉或可以准确识别形状和运动的系统工程;和自然语言处理,或者开发可以理解口语命令的强大系统。尽管基础工作很复杂,但团队希望结果能反映出与人们的日常生活相关的实用和相关的内容。
“我们之所以选择烹饪视频因为大家都已经做到了,并理解它,说:”雅尼斯Aloimonos,计算机科学与计算机视觉实验室主任的UMD教授,16个实验室和中心UMIACS之一。“但是就操作,所涉及的步骤和您使用的工具而言,烹饪很复杂。例如,如果要切黄瓜,则需要抓住刀,将其移动到位,进行切割并观察结果,以确保正确地进行了操作。”
一个关键的挑战是设计一种方法,让机器人在从质量和一致性各异的视频中收集信息的同时,适当地解析各个步骤。机器人需要能够识别每个不同的步骤,将其分配给指示某种行为的“规则”,然后以适当的顺序将这些行为组合在一起。
UMD研究人员CorneliaFermüller(左)与研究生Yezhou Yang(右)合作开发了能够准确识别和复制复杂手部动作的计算机视觉系统。 照片:约翰·T·康索利(John T. Consoli)UMIACS的副研究科学家CorneliaFermüller说:“我们正在尝试创造一种技术,以使机器人最终能够与人类互动 。” “因此,他们需要了解人类在做什么。为此,我们需要工具,以便机器人可以拾取人类的动作并实时跟踪它们。我们有兴趣了解所有这些组件。人如何执行动作?人们如何看待它?它背后的认知过程是什么?”
Aloimonos和Fermüller将这些单独的动作与句子中的单词进行了比较。机器人学习到动作的“词汇”后,便可以按照实现给定目标的方式将它们串在一起。实际上,这正是他们的工作与以前的工作区别开的地方。
“其他人试图模仿这些运动。相反,我们尝试复制目标。这是突破,” Aloimonos解释说。这种方法允许机器人自己决定如何最好地组合各种动作,而不是再现预定的一系列动作。
这项工作还依赖于称为深度学习神经网络的专用软件体系结构。尽管这种方法不是什么新方法,但它需要大量的处理能力才能正常工作,并且计算技术需要一段时间才能赶上。类似版本的神经网络负责智能手机中的语音识别功能以及Facebook和其他网站使用的面部识别软件。
数十年来,机器人一直被用来执行复杂的任务(例如汽车装配线),但这些必须由人类技术人员进行仔细的编程和校准。自学机器人可以通过观察他人来收集必要的信息,这与人类学习的方式相同。Aloimonos和Fermüller设想了一个未来,其中机器人趋向于处理日常琐事,而人类则可以自由地从事更具刺激性的任务。
“通过拥有灵活的机器人,我们为自动化的下一阶段做出了贡献。这将是下一次工业革命。” Aloimonos说。“我们将拥有智能的制造环境和完全自动化的仓库。使用自动驾驶机器人进行危险工作非常好,以减轻炸弹爆炸和清理核事故,例如福岛事件。我们已经证明,类人机器人可以完成我们的人类工作。”
除了Aloimonos和Fermüller,研究的作者包括Yezhou阳,一个UMD计算机科学的博士生,以及易立,从NICTA Aloimonos和Fermüller的前博士生。
标签: 机器人