1. 首页 >人工智能 > 正文

使用机器学习翻译丢失的语言

导读 最近的研究表明,已经不再存在的大多数语言 都不再使用。数十种这些死语也 被认为是丢失或解密的 ,也就是说,我们对它们的语法,词汇或

最近的研究表明,已经不再存在的大多数语言 都不再使用。数十种这些死语也 被认为是丢失或“解密”的 ,也就是说,我们对它们的语法,词汇或语法了解不足,无法真正理解其文本。

语言的流失不仅仅是一种学术上的好奇心;没有他们,我们会错过与讲他们的人有关的一整套知识。不幸的是,它们中的大多数记录极少,科学家无法使用Google Translate之类的机器翻译算法来解密它们。有些语言没有经过深入研究的“相对”语言可与之进行比较,并且通常缺少诸如空格和标点符号之类的传统分隔符。(为说明起见,想像一下用这种语言写出的外国语言的解释。)

乌加特语的示例。图片来源:Rama via Wikimedia,CC-BY-SA-2.0-FR

但是,麻省理工学院 计算机科学与人工智能实验室(CSAIL)的研究人员最近在该领域取得了重大进展:一种新系统已被证明能够自动解密一种丢失的语言,而无需对其与其他语言的关系有深入的了解。他们还表明,他们的系统本身可以确定语言之间的关系,并用它来证实最近的学术研究,这表明伊比利亚语言实际上与巴斯克语无关。

该团队的最终目标是使该系统能够使用几千个单词来解密数十年来一直躲藏在语言学家手中的语言。

该系统由麻省理工学院教授里贾纳·巴兹莱(Regina Barzilay)牵头,它依赖于以历史语言学为基础的几种原理,例如,语言通常仅以某些可预测的方式发展。例如,虽然一种给定的语言很少添加或删除整个声音,但是很可能会发生某些声音替换。母语中带有“ p”的单词可能会在其后代语言中变为“ b”,但是由于明显的发音差距,变为“ k”的可能性较小。

通过整合这些和其他语言限制,Barzilay和MIT博士生罗嘉明 开发了一种解密算法 ,该算法可以处理可能的转换的巨大空间以及输入中引导信号的稀缺性。该算法学习将语言声音嵌入多维空间,在该多维空间中,发音的差异反映在相应矢量之间的距离中。这种设计使他们能够捕获语言变化的相关模式,并将其表达为计算约束。生成的模型可以将古代语言中的单词进行细分,并将其映射到相关语言中的对应单词。

该项目建立在Barzilay和Luo去年写的一篇论文的基础上, 该论文解密了Ugaritic和Linear B的死语言,后者以前需要数十年的时间才能被人类解码。但是,与该项目的主要区别在于,该团队知道这些语言分别与希伯来语和希腊语的早期形式有关。

在新系统中,算法之间可以推断语言之间的关系。这个问题是解密中最大的挑战之一。对于线性B,花了数十年的时间才发现正确的已知后代。对于伊比利亚人而言,学者们仍无法就相关语言达成一致:有些人主张巴斯克语,而另一些人则反驳了这一假设,并声称伊比利亚人与任何​​已知语言均无关。

该算法可以评估两种语言之间的接近度。实际上,当对已知语言进行测试时,它甚至可以准确地识别语言族。该团队将他们的算法应用于考虑了巴斯克(Basque)的伊比利亚人,以及不太可能来自罗曼史,日耳曼语,突厥语和乌拉尔语系的候选人。尽管巴斯克语和拉丁语比其他语言更接近伊比利亚语,但它们仍然相差太大,因此不能被认为是相关的。

在将来的工作中,该小组希望将工作扩展到将文本与已知语言的相关单词相关联的行为之外,这种方法称为“基于同源的解密”。这种范例假定存在这样一种已知的语言,但是以伊比利亚人为例表明,情况并非总是如此。团队的新方法将涉及识别单词的语义,即使他们不知道如何阅读它们。

“例如,我们可以识别文档中所有涉及人或地点的信息,然后可以根据已知的历史证据对其进行进一步调查,” Barzilay说。“这些“实体识别”方法如今已广泛用于各种文本处理应用程序中,并且具有很高的准确性,但是关键的研究问题是,在没有任何古代语言培训数据的情况下,该任务是否可行?”

标签:

免责声明:本文由用户上传,如有侵权请联系删除!