一站式机器学习平台将医疗保健数据转化为洞察力
Cardea 软件系统旨在通过简化复杂的机器学习过程,为医院带来预测能力。在过去的十年中,医院和其他医疗保健提供者投入了大量时间和精力来采用电子医疗记录,将草草书写的医生笔记变成了持久的信息来源。但是收集这些数据还不到成功的一半。将这些记录转化为实际见解可能需要更多的时间和精力——利用过去的经验为未来的决策提供信息。
Cardea 是由麻省理工学院数据到人工智能实验室 (DAI Lab) 的研究人员和软件工程师构建的软件系统,旨在帮助解决此问题。通过不断增加的机器学习模型集管理医院数据,该系统可以帮助医院规划大到全球流行病和小到未出现预约的事件。
通过一组不断增加的机器学习模型来管理医院数据,Cardea 旨在帮助医院为大到全球流行病和小到缺席预约的事件做计划。图片来源:Arash Akhgari,麻省理工学院
DAI 实验室的首席研究员兼麻省理工学院信息与决策系统实验室 (LIDS) 的首席研究科学家 Kalyan Veeramanchaneni 说,有了 Cardea,医院最终可能能够解决“数百种不同类型的机器学习问题”。由于 该框架是开源的 并使用通用技术,因此他们还可以相互共享这些解决方案,从而提高透明度并支持团队合作。
为人民自动化
Cardea 属于一个称为自动化机器学习或 AutoML 的领域。机器学习越来越普遍,用于从药物开发到信用卡欺诈检测的方方面面。Veeramachaneni 说,AutoML 的目标是使这些预测工具民主化,使人们(最终包括非专家)更容易构建、使用和理解它们。
像 Cardea 这样的 AutoML 系统不需要人们设计和编码整个机器学习模型,而是展示现有的模型,并解释它们的作用和工作方式。然后用户可以混合和匹配模块来实现他们的目标,比如去吃自助餐而不是从头开始做饭。
例如,数据科学家已经为医疗保健构建了许多机器学习工具,但其中大多数都不是很容易获得——即使是专家也是如此。“它们被写在纸上并被藏起来,”LIDS 的研究生 Sarah Alnegheimish 说。她说,为了构建 Cardea,她和她的同事一直在挖掘这些工具并将它们组合在一起,旨在为医院问题解决者提供“强大的参考”。
为了将梦想的数据转化为有用的预测,Cardea 引导用户完成一条管道,在每一步都有选择和保护措施。它们首先受到数据汇编器的欢迎,该汇编器摄取它们提供的信息。Cardea 旨在与快速医疗保健互操作性资源 (FHIR) 配合使用,后者是电子医疗保健记录的当前行业标准。
Veeramachaneni 说,医院使用 FHIR 的方式各不相同,因此 Cardea 旨在“无缝地适应不同的条件和不同的数据集”。如果数据中存在差异,Cardea 的数据审计员会指出这些差异,以便修复或取消这些差异。
接下来,Cardea 询问用户他们想知道什么。也许他们想估计一个病人可能会在医院呆多久。Alnegheimish 说,在医院的日常运营中,即使是像这样看似很小的问题也至关重要——尤其是现在,因为医疗机构在 Covid-19 大流行期间管理其资源。用户可以在不同的模型之间进行选择,然后软件系统使用数据集和模型从以前的患者中学习模式并预测在这种情况下可能发生的情况,帮助利益相关者提前计划。
目前,Cardea 旨在帮助解决四种类型的资源分配问题。但由于该管道包含如此多的不同模型,因此它可以轻松适应可能出现的其他场景。随着 Cardea 的发展,目标是让利益相关者最终能够使用它来“解决医疗保健领域内的任何预测问题”,Alnegheimish 说。
该团队在 2020 年 10 月的 IEEE 数据科学和高级分析国际会议上提交了他们描述该系统的论文。研究人员针对流行的数据科学平台的用户测试了该系统的准确性,发现它在竞争中胜过 90%他们。他们还测试了其功效,要求数据分析师使用 Cardea 对演示医疗保健数据集进行预测。他们发现 Cardea 显着提高了他们的效率——例如,特征工程,分析师说他们通常平均需要两个小时,而不是五分钟。
相信过程
医院工作人员的任务通常是做出高风险的关键决策。他们信任他们在此过程中使用的任何工具,包括 Cardea,这一点至关重要。对用户来说,输入一些数字、按下按钮并得到答案是不够的:“他们应该对模型有所了解,他们应该知道发生了什么,”LIDS 的博士后 Dongyu Liu 说。
为了提高透明度,Cardea 的下一步是模型审核。与所有预测设备一样,机器学习模型也有优点和缺点。通过布置这些,Cardea 使用户能够决定是接受这个模型的结果还是重新开始一个新的结果。
Cardea于今年早些时候向公众发布。因为它是开源的,所以欢迎用户集成他们自己的工具。该团队还煞费苦心地确保该软件系统不仅可用,而且易于理解且易于使用。Veeramachaneni 说,这也有助于提高可重复性,以便其他人可以理解和检查对使用该软件构建的模型所做的预测。
Liu 说,该团队还计划构建更多的数据可视化工具和解释,以提供更深入的视图,并使非专家更容易访问该软件系统。
“希望人们接受它,并开始为它做出贡献,”Alnegheimish 说。“在社区的帮助下,我们可以让它变得更强大。”
标签: