新算法解锁计算机视觉的高分辨率见解
想象一下你自己看了一会儿繁忙的街道,然后尝试勾画出你从记忆中看到的场景。大多数人都可以画出汽车、人和人行横道等主要物体的大致位置,但几乎没有人能够以像素完美的精度画出每个细节。大多数现代计算机视觉算法也是如此:它们非常擅长捕捉场景的高级细节,但在处理信息时会丢失细粒度的细节。
现在,麻省理工学院的研究人员创建了一个名为“FeatUp”的系统,可以让算法同时捕获场景的所有高级和低级细节——几乎就像计算机视觉的激光近视手术一样。
当计算机通过查看图像和视频来学习“看”时,它们会通过称为“特征”的东西建立对场景中内容的“想法”。为了创建这些功能,深度网络和视觉基础模型将图像分解为小方块网格,并将这些方块作为一个组进行处理,以确定照片中发生了什么。每个小方块通常由16到32个像素组成,因此这些算法的分辨率比它们处理的图像要小得多。在尝试总结和理解照片时,算损失大量像素清晰度。
FeatUp算法可以阻止这种信息丢失并提高任何深度网络的分辨率,而不会影响速度或质量。这使得研究人员能够快速、轻松地提高任何新的或现有算法的分辨率。例如,想象一下尝试解释肺癌检测算法的预测,以定位肿瘤。在使用类激活图(CAM)等方法解释算法之前应用FeatUp,可以根据模型产生肿瘤可能所在位置的更加详细的(16-32x)视图。
FeatUp不仅可以帮助从业者理解他们的模型,还可以改进一系列不同的任务,例如对象检测、语义分割(为带有对象标签的图像中的像素分配标签)和深度估计。它通过提供更准确、高分辨率的功能来实现这一目标,这对于构建从自动驾驶到医学成像等视觉应用至关重要。
“所有计算机视觉的本质都在于这些从深度学习架构的深处出现的深层智能特征。现代算法的巨大挑战在于,它们将大图像缩小为非常小的‘智能’特征网格,获得智能见解,但失去了更精细的细节,”麻省理工学院博士马克·汉密尔顿说。麻省理工学院计算机科学和人工智能实验室(CSAIL)附属机构电气工程和计算机科学专业的学生,也是该项目论文的共同主要作者。
“FeatUp有助于实现两全其美:高度智能的表示与原始图像的分辨率。这些高分辨率功能显着提高了一系列计算机视觉任务的性能,从增强对象检测和改进深度预测到更深入地了解您的图像通过高分辨率分析来了解网络的决策过程。”
分辨率复兴
随着这些大型人工智能模型变得越来越普遍,越来越需要解释它们在做什么、在看什么以及在想什么。
但FeatUp究竟如何发现这些细粒度的细节呢?奇怪的是,秘密就在于摇摆不定的图像。
特别是,FeatUp会应用微小的调整(例如将图像向左或向右移动几个像素),并观察算法如何响应图像的这些轻微移动。这会产生数百个略有不同的深度特征图,这些图可以组合成一个清晰的、高分辨率的深度特征集。
“我们想象存在一些高分辨率特征,当我们摆动它们并模糊它们时,它们将与摆动图像中的所有原始低分辨率特征相匹配。我们的目标是学习如何细化低分辨率特征使用这个‘游戏’将特征转化为高分辨率特征,让我们知道我们做得有多好,”汉密尔顿说。
这种方法类似于算法如何通过确保预测的3D对象与用于创建它的所有2D照片匹配来从多个2D图像创建3D模型。在FeatUp的例子中,他们预测了一个高分辨率特征图,该特征图与通过抖动原始图像形成的所有低分辨率特征图一致。
该团队指出,PyTorch中提供的标准工具不足以满足他们的需求,因此引入了一种新型的深层网络层,以寻求快速高效的解决方案。他们的自定义层是一种特殊的联合双边上采样操作,其效率比PyTorch中的简单实现高100倍以上。
该团队还表明,这个新层可以改进各种不同的算法,包括语义分割和深度预测。该层提高了网络处理和理解高分辨率细节的能力,为使用它的任何算法带来了显着的性能提升。
“另一个应用是小对象检索,我们的算法可以精确定位对象。例如,即使在杂乱的道路场景中,使用FeatUp丰富的算法也可以看到微小的对象,如交通锥、反光镜、灯光和坑洼,它们的低位“分辨率表兄弟失败了。这表明它有能力将粗糙的特征增强为精细的信号,”博士斯蒂芬妮·傅(StephanieFu)说。加州大学伯克利分校的学生,也是新FeatUp论文的另一位共同主要作者。
“这对于时间敏感的任务尤其重要,例如在无人驾驶汽车中精确定位杂乱的高速公路上的交通标志。这不仅可以通过将广泛的猜测转化为精确的定位来提高此类任务的准确性,而且还可能使这些系统更加准确可靠、可解释且值得信赖。”
下一步是什么?
关于未来的愿望,该团队强调FeatUp在研究界内外的潜在广泛采用,类似于数据增强实践。
傅说:“我们的目标是使这种方法成为深度学习的基本工具,丰富模型以更详细地感知世界,而不会出现传统高分辨率处理的计算效率低下的情况。”
康奈尔大学计算机科学教授NoahSnavely(未参与这项研究)表示:“FeatUp通过以全图像分辨率生成视觉表示,代表着在使视觉表示变得真正有用方面取得了巨大进步。”
“在过去的几年里,学习的视觉表现已经变得非常好,但它们几乎总是以非常低的分辨率生成——你可能会放入一张漂亮的全分辨率照片,然后得到一个微小的、邮票大小的特征网格。如果你想在产生全分辨率输出的应用程序中使用这些功能,这就是一个问题。FeatUp通过将超分辨率的经典思想与现代学习方法相结合,以创造性的方式解决了这个问题,从而产生了漂亮的高分辨率特征图。”
“我们希望这个简单的想法能够得到广泛的应用。它提供了我们以前认为只能是低分辨率的图像分析的高分辨率版本,”麻省理工学院电气工程和计算机教授、资深作者WilliamT.Freen说道。科学教授和CSAIL成员。
主要作者Fu和Hamilton由麻省理工学院博士陪同。学生LauraBrandt和AxelFeldnn,以及ZhoutongZhu博士,都是MITCSAIL的现任或前任附属机构。
标签: