主要的机器学习数据集有成千上万的错误
众所周知,机器学习数据集有很多错误,包括标签错误的图像。但是,目前还没有太多研究可以系统地量化错误的严重程度。此外,先前的工作集中在ML数据集的训练数据中的错误。但是测试集是我们用来测试机器学习状态的基准,并且没有研究关注过ML测试集的系统错误-我们依赖这些测试集来了解ML模型的工作情况。
在一项新论文中,由麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员领导的团队研究了被引用超过100,000次的10个主要数据集,其中包括ImageNet和Amazon的评论数据集。
研究人员发现,所有数据集的平均错误率为3.4%,其中ImageNet的错误率为6%,ImageNet可以说是Google和Facebook之类开发的流行图像识别系统中使用最广泛的数据集。
即使是开创性的MNIST数字数据集,在过去20年中一直是光学数字识别的基础,并且已经在成千上万的同行评审ML出版物中进行了基准测试,在测试集中也包含15个(人类验证的)标签错误。 。
团队还创建了 一个演示,使用户可以细读不同的数据集以对发生的不同类型的错误进行采样,包括:
贴错标签的图片,例如一种狗被另一只狗弄糊涂或婴儿被乳头弄糊涂了。
带有错误标签的文本情感,例如亚马逊产品评论实际上是正面的时,被描述为负面。
YouTube视频的音频标签错误,例如Ariana Grande高音被归类为哨子。
合著者Curtis Northcutt说,他们的发现令人惊讶的是,取决于不相关数据(“噪声”)的普遍程度,较弱的模型(例如ResNet-18)通常比较复杂的模型(例如ResNet-50)具有更低的错误率。如果他们的真实数据集的标签错误率为10%,Northcutt建议ML从业人员考虑使用简单模型。
该团队的结果建立在麻省理工学院为创建“自信学习”而进行的大量工作的基础上,“自信学习”是机器学习的一个子领域,该领域研究数据集以发现和量化标签噪声。通过该项目,可以使用可靠的学习算法来在人工验证之前从算法上识别所有标签错误。
该团队还使其他研究人员可以使用cleanlab(开源python包)轻松复制其结果并在自己的数据集中查找标签错误。
标签: 机器学习