从图像的文本描述推断空间关系
从文本描述自动生成图像在艺术生成或计算机辅助设计等领域将是一项有用的任务。为了生成逼真的图像,有必要推断实体之间的空间关系。
当前数据集包括与图片中的边界框相关联的主题、对象和关系三元组。但是,它们需要手动注释。因此,最近在arXiv.org上进行的一项研究的作者提出了一种从图像的文本描述中提取空间关系的方法。
创建了一个公开可用的数据集,该数据集包含成对的图像和标题以及描述中的标记以及主题和对象的边界框。该方法可以成功地从标题中推断出相对于给定主题的对象的大小和位置。它比使用手动生成的三元组的系统更好地定位对象。
从文本描述生成图像需要一定水平的语言理解和关于被描述的物理实体的空间关系的常识知识。在这项工作中,我们专注于推断实体之间的空间关系,这是基于文本组成场景过程中的关键步骤。更具体地说,给定一个标题,其中包含对主题的提及以及该主题的边界框的位置和大小,我们的目标是预测标题中提到的对象的位置和大小。以前的工作没有使用标题文本信息,而是手动提供的主题和对象之间的关系。事实上,使用的评估数据集包含手动注释的本体三元组但没有标题,这使得该练习不切实际:需要手动步骤;并且系统没有利用字幕中更丰富的信息。在这里,我们提出了一个使用完整字幕和字幕关系(REC-COCO)的系统,这是一个源自MS-COCO的数据集,可以直接评估来自字幕的空间关系推理。我们的实验表明:(1)可以直接从标题中推断出相对于给定主题的对象的大小和位置;(2)使用全文允许比使用手动注释关系更好地放置对象。我们的工作为系统铺平了道路,在给定标题的情况下,决定需要描绘哪些实体以及它们各自的位置和大小,以便生成最终图像。一个源自MS-COCO的数据集,它允许直接评估来自字幕的空间关系推理。我们的实验表明:(1)可以直接从标题中推断出相对于给定主题的对象的大小和位置;(2)使用全文允许比使用手动注释关系更好地放置对象。我们的工作为系统铺平了道路,在给定标题的情况下,决定需要描绘哪些实体及其各自的位置和大小,然后生成最终图像。一个源自MS-COCO的数据集,它允许直接评估来自字幕的空间关系推理。我们的实验表明:(1)可以直接从标题中推断出相对于给定主题的对象的大小和位置;(2)使用全文允许比使用手动注释关系更好地放置对象。我们的工作为系统铺平了道路,在给定标题的情况下,决定需要描绘哪些实体以及它们各自的位置和大小,以便生成最终图像。(2)使用全文允许比使用手动注释关系更好地放置对象。我们的工作为系统铺平了道路,在给定标题的情况下,决定需要描绘哪些实体及其各自的位置和大小,然后生成最终图像。(2)使用全文允许比使用手动注释关系更好地放置对象。我们的工作为系统铺平了道路,在给定标题的情况下,决定需要描绘哪些实体及其各自的位置和大小,然后生成最终图像。
标签: