具有自适应深度学习的交互式表格提取系统
从 PDF 或图像文档中提取诸如表格之类的复杂结构是一项艰巨的任务。当前的系统无法处理跨不同文档类型和来源的现有表格格式多样性。因此,最近的一篇论文建议在用户标记的示例上微调表提取模型。
首先,深度学习模型提取表结构。提供了一些针对不同文档类型进行预训练的基础模型权重供用户选择。然后,用户会获得有关要标记哪些页面的建议。因此,所需的标记数据的大小被最小化。
用户可以修改表格并提交页面进行微调。定制的模型适用于整个文本集合。某些组件(如表格边框)的标签会自动改善其他组件(如单元格边框)的结果。该系统允许根据个人需求和期望调整表格。
从 PDF 和图像文档中提取表格是现实世界中无处不在的任务。由于(1)表格样式多种多样,(2)缺乏代表这种多样性的训练数据以及(3)表格固有的模糊性和主观性,使用单个开箱即用模型难以实现完美的提取质量最终用户之间的定义。同时,由于注释表数据的昂贵性质,从头开始构建自定义模型可能很困难。我们试图通过 TableLab 解决这些挑战,通过提供一个系统,用户和模型可以无缝协作,以快速定制高质量的提取模型,并为用户的文档集合提供几个带标签的示例,其中包含带有表格的页面。
给定一个输入文档集合,TableLab 首先通过对提取模型中的嵌入进行聚类来检测具有相似结构(模板)的表。文档集合通常包含使用有限的模板集或类似结构创建的表格。然后它选择一些已经使用预训练的基础深度学习模型提取的代表性表格示例。通过易于使用的用户界面,用户可以对这些选择提供反馈,而不必识别每个错误。然后,TableLab 应用此类反馈对预训练模型进行微调,并将微调模型的结果返回给用户。用户可以选择迭代地重复这个过程,直到获得一个性能令人满意的定制模型。文档集合通常包含使用有限的模板集或类似结构创建的表格。
然后它选择一些已经使用预训练的基础深度学习模型提取的代表性表格示例。通过易于使用的用户界面,用户可以对这些选择提供反馈,而不必识别每个错误。然后,TableLab 应用此类反馈对预训练模型进行微调,并将微调模型的结果返回给用户。用户可以选择迭代地重复这个过程,直到获得一个性能令人满意的定制模型。
文档集合通常包含使用有限的模板集或类似结构创建的表格。然后它选择一些已经使用预训练的基础深度学习模型提取的代表性表格示例。通过易于使用的用户界面,用户可以对这些选择提供反馈,而不必识别每个错误。然后,TableLab 应用此类反馈对预训练模型进行微调,并将微调模型的结果返回给用户。用户可以选择迭代地重复这个过程,直到获得一个性能令人满意的定制模型。
用户对这些选择提供反馈,而不必识别每一个错误。然后,TableLab 应用此类反馈对预训练模型进行微调,并将微调模型的结果返回给用户。用户可以选择迭代地重复这个过程,直到获得一个性能令人满意的定制模型。用户对这些选择提供反馈,而不必识别每一个错误。然后,TableLab 应用此类反馈对预训练模型进行微调,并将微调模型的结果返回给用户。用户可以选择迭代地重复这个过程,直到获得一个性能令人满意的定制模型。
标签: