研究人员启动小组以帮助检测人工智能系统中的隐藏偏见
由多伦多大学研究员 Parham Aarabi 领导的一项新计划旨在衡量人工智能系统中存在的偏见,作为解决这些偏见的第一步。AI 系统通常会反映数据集中存在的偏差——或者,有时,AI 的建模会引入新的偏差。
“每个人工智能系统都有某种偏见,”应用科学与工程学院电气和计算机工程系 Edward S. Rogers Sr. 通信/计算机工程副教授 Aarabi 说。“作为一个在 AI 系统和算法领域工作了 20 多年的人,我这么说。”
Aarabi 是多伦多大学HALT AI 小组的学术和行业专家之一 ,该小组使用不同的输入集测试其他组织的 AI 系统。HALT AI 创建一个多样性报告——包括关键指标的多样性图表——显示弱点并提出改进建议。
“我们发现大多数 AI 团队不会对其系统进行实际的定量验证,”Aarabi 说。“例如,我们可以说,'看,你的应用程序在以英语为母语的人身上成功率为 80%,但对于母语不是英语的人来说只有 40%。'”
HALT 于 5 月作为一项免费服务推出。该小组对许多流行的人工智能系统进行了研究,其中包括苹果、谷歌和微软的一些系统。HALT 的统计报告提供了各种不同维度的反馈,例如性别、年龄和种族。
“在我们自己的测试中,我们发现微软的年龄估计 AI 在某些年龄段表现不佳,”Aarabi 说。“Apple 和 Google 的语音转文本系统也是如此:如果你有某种方言、一种口音,它们的效果可能会很差。但是直到您测试时,您才知道哪种方言。类似的应用程序以不同的方式失败——这很有趣,并且可能表明用于每个应用程序的训练数据的类型和局限性。”
HALT 在今年年初开始,当时电气和计算机工程部门内外的人工智能研究人员开始分享他们对人工智能系统偏见的担忧。到 5 月,该小组从私营和学术部门引进了多元化的外部专家。
“要真正理解和衡量偏见,不能只是来自多伦多大学的几个人,”Aarabi 说。“HALT 是一个广泛的个人群体,包括财富 500 强公司的多元化负责人以及伦敦大学学院和斯坦福大学等其他学术机构的人工智能多元化专家。”
随着人工智能系统部署在不断扩大的应用范围内,人工智能中的偏见成为一个更加关键的问题。虽然人工智能系统性能仍然是一个优先事项,但越来越多的开发人员也在检查他们的工作是否存在固有偏见。
“大多数情况下,都存在训练集问题,”Aarabi 说。“开发人员根本没有足够的所有代表性人口群体的训练数据。”
如果多样化的训练数据不能提高 AI 的性能,那么模型本身可能存在缺陷,需要重新编程。
电气和计算机工程系教授兼系主任迪帕·昆杜尔 (Deepa Kundur) 表示,HALT AI 正在帮助创建更公平的 AI 系统。
“我们对多样性的推动始于我们所在部门的内部,但也扩展到整个电气和计算机工程社区——包括研究人员为社会创新的工具,”她说。“HALT AI 正在帮助确保公平和公平的 AI 向前发展。”
“现在是研究人员和从业人员考虑这个问题的合适时机,”Aarabi 补充道。“他们需要摆脱高层次的抽象,并明确偏见是如何表现出来的。我认为我们可以对此有所了解。”
标签: 人工智能系统