融合新旧学派机器学习与传统科学原理相结合
机器学习来得正是时候。世界现在充斥着比以往任何时候都多的数据,并且可以在执行数据分析时学习和改进的计算机算法有望帮助科学家处理这种信息过载。
然而,谁认为机器学习本身可以帮助解决在科学,工程,医学等复杂的问题,要争取一个更加平衡的方法研究人员说, 罗马格里戈里耶夫,一个部分 物理学院 队与新 的研究 提示了进行混合的方法融合了新时代技术、老派实验和理论分析的科学。该研究建议更快地解决复杂的、数据密集型的谜题,这些谜题涉及癌症、地震、天气预报和气候变化等问题。
“这是现有理论理解以及实验数据与机器学习的结合,”动力学和控制组的物理学教授兼首席研究员格里戈里耶夫说 。“通常从事机器学习的人会忘记理论理解,几乎完全依赖数据。这相对简单,但是当数据很多而数据中没有足够的结构时,这种方法必然会失败。” Grigoriev 解释说,通常有太多数据需要进行有意义的分析,此时“问题变得棘手。从本质上讲,利用适当的领域知识对于在数据中找到结构至关重要。”
高维数据的问题
机器学习使用计算机算法来查找数据中的模式,但“大多数流行的机器学习方法以难以解释和解释的形式呈现结果,”格里戈里耶夫说。“除非你了解如何以及为什么你不能真正说你了解一个问题。”
理解和预测复杂的行为——通过处理大量密集、丰富的数据——可以帮助解决科学领域的基本和实际问题,如天气预报和心律失常表征。问题是这些领域中的大多数都涉及“高维”数据,这意味着它听起来像:具有大量维度或变量的数据,有时数以百万计。
Grigoriev 说,数据的维度如此之大,以至于“你迷路了,很难看到任何趋势”。
他的团队提出了一种混合方法,将机器学习与传统科学发现过程的元素相结合。这意味着理论描述、观察、设计实验来测试描述,然后“然后在改进理论和设计新实验之间来回切换。这是数百年来的传统方法。”
科学的理解和进步的基础依赖于这种科学方法——理论与实验的结合。“它们不仅仅是基于数据开发的。它们是利用现有知识以及一些一般基本定律开发的。”
一种突出方程式之美的方法
Grigoriev 说,将数据限制为仅包含与所讨论的实验直接相关的变量对于处理高维数据至关重要。
“这种方法允许你做的是确定一个使用你需要的变量的更简单的模型。这是一种适用于特定情况的简化描述,但使用计算或实验数据获得。它可以做到这两点。”
格里戈里耶夫说,结果用数学模型表示,“一旦你看到这些方程,你就会明白变量是什么。这些方程肯定有助于解释物理问题的本质。” 他的团队的方法在流体动力学实验的研究中得到了验证。一层薄薄的液体悬浮在一个长方形的罐子里,磁场和电场穿过它,产生物理学家所说的湍流——液体层内发生的不规则变化,可以迅速改变方向和大小。
Grigoriev 和他的团队使用他们的混合方法来分析可访问的数据,在这种情况下是水的速度。随后,他们能够重建无法直接测量的变量,如水压和力。
格里戈里耶夫说,这就是方程式的美妙之处——它们允许你做多少。
“我们得到的是一个方程或一组方程,它们的形式很熟悉。我们知道如何解释,如何使用这些方程解决问题。这是这种方法的好处。我们正在处理我们理解其含义的变量;我们知道如何解释它们。”
该团队相信,该研究的结果将带来进步,例如更快、更准确地预测科学、工程和医学领域的大型现实问题中的复杂行为。例如,正如格里戈里耶夫团队的研究指出的那样,“识别和量化大气湍流的重要模式和序列的能力应该能够使天气预报比目前可能的情况更好、更快。”
标签: 融合新旧学派