新的机器学习方法可以改善环境预测
机器学习算法每天为我们做很多事情——将不需要的电子邮件发送到我们的垃圾邮件文件夹,在我们的汽车即将恢复正常时警告我们,并就接下来要看的电视节目向我们提供建议。现在,我们越来越多地使用这些相同的算法来为我们进行环境预测。
来自明尼苏达大学、匹兹堡大学和美国地质调查局的一组研究人员最近 在 2021 年工业和应用数学学会 (SIAM) 数据挖掘国际会议 (SDM21)上发表了一项关于预测河网流量和温度的 新研究) 诉讼。该研究由美国国家科学基金会 (NSF) 资助。
该研究展示了一种新的机器学习方法,其中算法被“教授”物理世界的规则,以便做出更好的预测并将算法引导到输入和输出之间具有物理意义的关系。
该研究提出了一个模型,即使在可用数据很少的情况下,也可以更准确地预测河流和溪流的温度,大多数河流和溪流都是这种情况。该模型还可以更好地泛化到不同的时间段。
“溪流中的水温是许多重要水生系统的‘主变量’,包括水生栖息地的适宜性、蒸发率、温室气体交换和热电能源生产效率,”该研究的第一作者贾晓伟说。 匹兹堡 大学计算机与信息学院计算机科学系助理教授 。“准确预测水温和流量也有助于资源管理者的决策,例如帮助他们确定何时以及从水库向下游河流释放多少水。
对机器学习的一个普遍批评是预测并不植根于物理意义。也就是说,算法只是寻找输入和输出之间的相关性,有时这些相关性可能是“虚假的”或给出错误的结果。该模型通常无法处理输入和输出之间的关系发生变化的情况。
贾发表的新方法,他也是 2020 年的博士。明尼苏达大学科学与工程学院计算机科学与工程系的毕业生,他的同事使用“过程引导或知识引导的机器学习”。该方法应用于特拉华河流域 (DRB) 的水温预测用例,旨在克服使用机器学习进行预测的一些常见缺陷。该方法通过一个相对简单的过程通知机器学习模型——时间相关性、流之间的空间连接和能量预算方程。
河流温度动态的数据稀疏性和可并不是特拉华河流域独有的。相对于美国的大部分地区,特拉华河流域的水温监测良好。因此,特拉华河流域是开发河流温度预测新方法的理想场所。
美国地质调查局发布的交互式视觉解释器 强调了这些模型的发展以及水温预测在 DRB 中的重要性。可视化展示了社会对水温预测的需求,水库为超过 1500 万人提供饮用水,但也有竞争性的用水需求,以维持重要游鱼物种的下游流量和冷水栖息地。当水库管理者预计水温将超过临界阈值时,他们可以释放冷水,准确的水温预测是仅在必要时使用有限水资源的关键。
最近的研究建立在美国地质调查局的水科学家和明尼苏达大学双城分校计算机科学家在 科学与工程学院计算机科学与工程系Vipin Kumar 教授实验室的合作基础上 ,研究人员一直在那里开发知识引导机器学习技术。
“这些以知识为导向的机器学习技术从根本上比科学界用来解决环境问题的标准机器学习方法和传统机械模型更强大,”库马尔说。
由 NSF 的利用数据革命计划资助的新一代机器学习方法正被用于解决各种环境问题,例如改善湖泊和河流温度预测。
在 由明尼苏达大学计算机科学与工程系博士领导的美国地球物理联盟水资源研究中心另一项由 NSF 资助的关于预测未监测湖泊水温动态的新研究中。在候选人 Jared Willard 的带领下,研究人员展示了如何使用知识引导的机器学习模型来解决最具挑战性的环境预测问题之一——在不受监控的生态系统中进行预测。
模型从观测良好的湖泊转移到观测很少或没有观测的湖泊,即使在不存在温度观测的湖泊中也能进行准确预测。研究人员表示,他们的方法很容易扩展到数千个湖泊,这表明该方法(具有有意义的预测变量和高质量的源模型)是未来许多未受监控系统和环境变量的有前途的方法。
标签: 机器学习方法