可以学习人类语言模式的人工智能
人类语言是出了名的复杂,语言学家一直认为不可能像人类研究人员那样教机器分析语音和单词结构。但麻省理工学院、康奈尔大学和麦吉尔大学的研究人员已经朝着这个方向迈出了一步。他们展示了一种人工智能系统,可以自行学习人类语言的规则和模式。
当给定单词和这些单词如何变化以用一种语言表达不同语法功能(如时态、大小写或性别)的示例时,该机器学习模型会提出解释这些单词形式为何发生变化的规则。例如,它可能知道必须在词尾添加字母“a”以使塞尔维亚-克罗地亚语中的男性形式女性化。
该模型还可以自动学习适用于多种语言的高级语言模式,使其能够取得更好的效果。
研究人员使用语言学教科书中的问题对模型进行了训练和测试,这些教科书包含58种不同的语言。每个问题都有一组单词和相应的单词形式变化。该模型能够提出一组正确的规则来描述60%的问题的单词形式变化。
该系统可用于研究语言假设并研究不同语言转换单词方式的细微相似之处。它特别独特,因为系统发现了人类容易理解的模型,并从少量数据(例如几十个单词)中获取这些模型。该系统不是使用一个庞大的数据集来完成一项任务,而是利用许多小型数据集,这更接近于科学家提出假设的方式——他们查看多个相关数据集并提出模型来解释这些数据集中的现象。
“这项工作的动机之一是我们希望研究能够学习以人类可以理解的方式表示的数据集模型的系统。模型可以学习表达或规则,而不是学习权重?我们想看看我们是否可以构建这个系统,这样它就可以在一系列相互关联的数据集上进行学习,从而使系统学习一点关于如何更好地对每个数据集进行建模的知识,”康奈尔大学计算机科学助理教授、该研究的主要作者凯文·埃利斯说。纸。
与埃利斯一起撰写论文的是麻省理工学院的语言学教授亚当奥尔布赖特。ArmandoSolar-Lezama,计算机科学与人工智能实验室(CSAIL)教授兼副主任;JoshuaB.Tenenbaum,PaulE.Newton脑与认知科学系认知科学与计算职业发展教授,CSAIL成员;以及资深作者TimothyJ.O'Donnell,麦吉尔大学语言学系助理教授,Mila-Quebec人工智能研究所加拿大CIFARAI主席。
该研究今天发表在《自然通讯》上。
看语言
为了开发能够从多个相关数据集中自动学习模型的AI系统,研究人员选择探索音韵学(声音模式研究)和形态学(单词结构研究)的相互作用。
来自语言学教科书的数据提供了一个理想的测试平台,因为许多语言共享核心特征,而教科书问题展示了特定的语言现象。大学生也可以通过相当直接的方式解决教科书问题,但这些学生通常从他们用来推理新问题的过去课程中获得有关音韵学的先验知识。
埃利斯,他获得了博士学位。在麻省理工学院,并由Tenenbaum和Solar-Lezama共同建议,首先在由当时是博士后的O'Donnell和Albright共同教授的麻省理工学院课程中学习了形态学和音韵学。
“语言学家认为,为了真正理解人类语言的规则,理解是什么使系统运转,你必须是人类。我们想看看我们是否可以模仿那些知识和推理人类(语言学家)完成了这项任务,”奥尔布赖特说。
为了构建一个可以学习一组单词组合规则(称为语法)的模型,研究人员使用了一种称为贝叶斯程序学习的机器学习技术。使用这种技术,模型通过编写计算机程序来解决问题。
在这种情况下,程序是模型认为最有可能解释语言学问题中的单词和含义的语法。他们使用Sketch构建了模型,Sketch是一种流行的程序合成器,由Solar-Lezama在MIT开发。
但是Sketch可能需要很多时间来推理最有可能的程序。为了解决这个问题,研究人员让模型一次工作一个,编写一个小程序来解释一些数据,然后编写一个更大的程序来修改该小程序以覆盖更多数据,等等。
他们还设计了模型,以便了解“好”程序的外观。例如,它可能会学习一些关于简单俄语问题的一般规则,这些规则将应用于波兰语中更复杂的问题,因为语言相似。这使得模型更容易解决波兰问题。
解决教科书问题
当他们使用70个教科书问题测试该模型时,它能够在60%的情况下找到与问题中的整个单词集匹配的语法,并在79%的问题中正确匹配大部分单词形式的变化。
研究人员还尝试使用它“应该”学习语言学课程的一些知识对模型进行预编程,并表明它可以更好地解决所有问题。
“这项工作的一个挑战是弄清楚模型所做的事情是否合理。这不是只有一个数字是唯一正确答案的情况。有一系列可能的解决方案,你可能会认为是正确的,靠近右边等等,”奥尔布赖特说。
该模型经常提出意想不到的解决方案。在一个例子中,它发现了一个波兰语问题的预期答案,但也发现了另一个利用教科书错误的正确答案。埃利斯说,这表明该模型可以“调试”语言学分析。
研究人员还进行了测试,表明该模型能够学习一些通用的语音规则模板,这些模板可以应用于所有问题。
“最令人惊讶的事情之一是我们可以跨语言学习,但这似乎并没有产生很大的不同,”埃利斯说。“这表明了两件事。也许我们需要更好的方法来学习跨问题。也许,如果我们不能想出这些方法,这项工作可以帮助我们探索我们对跨问题共享哪些知识的不同想法。”
未来,研究人员希望使用他们的模型为其他领域的问题找到意想不到的解决方案。他们还可以将该技术应用于更多可以跨相关数据集应用高级知识的情况。例如,埃利斯说,也许他们可以开发一个系统,从数据集中推断出不同物体运动的微分方程。
“这项工作表明,我们有一些方法可以在某种程度上学习归纳偏见。但我认为我们还没有完全弄清楚,即使对于这些教科书问题,让语言学家接受合理语法的归纳偏见并拒绝那些荒谬的,”他补充道。
“这项工作为未来的研究开辟了许多令人兴奋的领域。我对Ellis及其同事(贝叶斯程序学习,BPL)探索的方法可能会说明婴儿如何获得语言的可能性特别感兴趣,”T.FlorianJaeger说,罗切斯特大学脑与认知科学和计算机科学教授,他不是本文的作者。
“未来的工作可能会问,例如,在哪些额外的归纳偏差(关于通用语法的假设)下,BPL方法可以成功地在婴儿在语言习得过程中观察到的数据类型上实现类似人类的学习行为。我认为看到它会很有趣是否比Ellis和他的团队考虑的更抽象的归纳偏差——例如源自人类信息处理限制的偏差(例如,依赖长度的内存限制或每次可以处理的信息量的容量限制))——足以引发在人类语言中观察到的一些模式。”
标签: