方法强制机器学习模型在学习任务时专注于更多数据
如果您的优步司机走捷径,您可能会更快到达目的地。但是如果机器学习模型走捷径,它可能会以意想不到的方式失败。在机器学习中,当模型依赖数据集的简单特征来做出决策,而不是学习数据的真正本质时,就会出现捷径解决方案,这会导致预测不准确。例如,模型可能会通过关注照片中出现的绿草,而不是更复杂的奶牛形状和图案来学习识别奶牛的图像。
麻省理工学院研究人员的一项新研究探索了一种流行的机器学习方法中的捷径问题,并提出了一种解决方案,该解决方案可以通过强制模型在其决策中使用更多数据来防止捷径。
通过移除模型关注的更简单的特征,研究人员迫使它专注于它没有考虑过的更复杂的数据特征。然后,通过要求模型以两种方式解决相同的任务——使用那些更简单的特征,然后使用它现在学会识别的复杂特征——它们减少了捷径解决方案的趋势并提高了模型的性能。
这项工作的一个潜在应用是提高用于识别医学图像中疾病的机器学习模型的有效性。这种情况下的捷径解决方案可能会导致错误诊断并对患者产生危险的影响。
“仍然很难说为什么深层网络会做出他们所做的决定,特别是这些网络在做出决定时选择关注哪些数据部分。如果我们能更详细地了解捷径是如何工作的,我们就可以更进一步回答一些基本但非常实用的问题,这些问题对于尝试部署这些网络的人来说非常重要,”博士JoshuaRobinson说。计算机科学与人工智能实验室(CSAIL)的学生和论文的第一作者。
Robinson与他的顾问、资深作者SuvritSra、电气工程与计算机科学系(EECS)的Esther和HaroldE.Edgerton职业发展副教授以及数据、系统和社会研究所的核心成员共同撰写了这篇论文(IDSS)和信息与决策系统实验室;和StefanieJegelka,EECSX-Consortium职业发展副教授,CSAIL和IDSS成员;以及匹兹堡大学助理教授KayhanBatmanghelich和博士。学生李孙和柯宇。该研究将在12月的神经信息处理系统会议上发表。
理解捷径的漫长道路
研究人员将他们的研究重点放在对比学习上,这是一种强大的自我监督机器学习形式。在自监督机器学习中,使用没有人类标签描述的原始数据训练模型。因此,它可以成功地用于更多种类的数据。
自监督学习模型学习有用的数据表示,这些表示用作不同任务(如图像分类)的输入。但如果模型走捷径而未能捕获重要信息,这些任务也将无法使用该信息。
例如,如果一个自监督学习模型被训练来对来自多家医院的X光片中的进行分类,但它学习根据识别扫描来自的医院的标签进行预测(因为一些医院有更多的比其他案例),当给它来自新医院的数据时,该模型将不会表现良好。
对于对比学习模型,训练编码器算法以区分相似输入对和不同输入对。此过程以对比学习模型可以解释的方式对丰富而复杂的数据(如图像)进行编码。
研究人员用一系列图像测试了对比学习编码器,发现在这个训练过程中,它们也成为捷径解决方案的牺牲品。编码器倾向于关注图像的最简单特征,以决定哪些输入对相似,哪些不相似。Jegelka说,理想情况下,编码器在做出决策时应该关注数据的所有有用特征。
因此,该团队使区分相似和不同对之间的区别变得更加困难,并发现编码器将查看哪些特征来做出决定的这种变化。
“如果你让区分相似和不同项目的任务变得越来越困难,那么你的系统将被迫从数据中学习更有意义的信息,因为如果不了解它就无法解决任务,”她说。
但是增加这个难度会导致权衡——编码器在关注数据的某些特征方面变得更好,但在关注其他特征方面变得更糟。罗宾逊说,它似乎几乎忘记了更简单的功能。
为了避免这种权衡,研究人员要求编码器以与最初相同的方式区分对,使用更简单的特征,并且在研究人员删除它已经学到的信息之后。同时以两种方式解决任务导致编码器在所有功能上都得到改进。
他们的方法称为隐式特征修改,自适应地修改样本以去除编码器用来区分对的更简单的特征。Sra解释说,该技术不依赖于人工输入,这很重要,因为现实世界的数据集可能有数百种不同的特征,这些特征可以以复杂的方式组合在一起。
从汽车到慢阻肺
研究人员使用车辆图像对这种方法进行了一项测试。他们使用隐式特征修改来调整颜色、方向和车辆类型,使编码器更难区分相似和不同的图像对。编码器同时提高了所有三个特征(纹理、形状和颜色)的准确性。
为了查看该方法是否能够承受更复杂的数据,研究人员还使用来自慢性阻塞性肺病(COPD)医学图像数据库的样本对其进行了测试。同样,该方法导致他们评估的所有功能同时改进。
虽然这项工作在理解捷径解决方案的原因并努力解决它们方面向前迈进了一些重要步骤,但研究人员表示,继续改进这些方法并将它们应用于其他类型的自监督学习将是未来进步的关键。
“这与深度学习系统的一些最大问题有关,比如“它们为什么会失败?”和“我们能否提前知道你的模型会失败的情况?”如果你想,还有很多路要走全面了解快捷学习,”罗宾逊说。
标签: