使用点对像素提示调整用于点云分析的预训练图像模型
如今,预训练大模型在通过微调或即时调整策略转移到下游任务时取得了巨大的成功。然而,这种策略在3D视觉中遇到了障碍,因为难以获得丰富的3D数据。
arXiv.org最近的一篇论文提出将预训练的知识从2D领域转移到3D领域。
研究人员提出了一种创新的点对像素提示机制,可将点云转换为具有几何保留投影和几何感知着色的彩色图像。大量实验证明了在预训练大图像模型中利用成功研究的可能性。图像领域的预训练知识以较低的可训练参数成本有效地适应3D任务,并与最先进的基于点的方法相比具有竞争力的性能。
如今,在大规模数据集上预训练大模型已成为深度学习的一个重要课题。具有高表示能力和可迁移性的预训练模型取得了巨大的成功,并主导了自然语言处理和二维视觉的许多下游任务。然而,鉴于有限的训练数据相对不方便收集,将这种预训练调整范式推广到3D视觉并非易事。在本文中,我们提供了一个利用3D领域中预训练的2D知识来解决这个问题的新视角,使用新颖的点对像素提示调整预训练的图像模型,以较小的参数成本进行点云分析。遵循促进工程的原则,我们将点云转换为具有几何保留投影和几何感知着色的彩色图像,以适应预先训练的图像模型,其权重在点云分析任务的端到端优化期间保持不变。我们进行了广泛的实验,以证明与我们提出的点对像素提示合作,更好的预训练图像模型将在3D视觉中始终保持更好的性能。得益于图像预训练领域的蓬勃发展,我们的方法在ScanObjectNN的最困难设置上达到了89.3%的准确率,超过了可训练参数少得多的传统点云模型。我们的框架在ModelNet分类和ShapeNet零件分割方面也表现出非常有竞争力的性能。代码可在在点云分析任务的端到端优化过程中,其权重保持不变。我们进行了广泛的实验,以证明与我们提出的点对像素提示合作,更好的预训练图像模型将在3D视觉中始终保持更好的性能。得益于图像预训练领域的蓬勃发展,我们的方法在ScanObjectNN的最困难设置上达到了89.3%的准确率,超过了可训练参数少得多的传统点云模型。我们的框架在ModelNet分类和ShapeNet零件分割方面也表现出非常有竞争力的性能。
标签: