未来指导的增量式变压器可同时进行翻译
发布日期:2021-02-02 13:56:55
导读 同步翻译是机器翻译的一种,在阅读源句子时会生成输出。它可以用于实时字幕或同声传译。但是,当前策略的计算速度较低,并且缺乏来自未来源
同步翻译是机器翻译的一种,在阅读源句子时会生成输出。它可以用于实时字幕或同声传译。但是,当前策略的计算速度较低,并且缺乏来自未来源信息的指导。最近提出的一种方法称为“未来引导式增量变压器”,可以克服这两个缺点。
它使用平均嵌入层来汇总消耗的源信息并避免费时的重新计算。通过知识提炼嵌入一些未来信息,可以增强预测能力。结果表明,与当前使用的模型相比,训练速度可提高约28倍。在汉英和德英同声翻译任务上,翻译质量也得到了提高。
同步翻译(ST)在阅读源句子时同步开始翻译,并且在许多在线场景中使用。先前的wait-k策略简洁明了,在ST中取得了良好的效果。但是,wait-k策略面临两个缺点:由于重新计算了隐藏状态而导致的培训速度较慢,并且缺乏用于指导培训的未来源信息。对于较低的训练速度,我们提出一种具有平均嵌入层(AEL)的增量式变压器,以加快训练期间隐藏状态的计算速度。对于将来的培训,我们建议使用传统的Transformer作为增量Transformer的老师,并尝试通过知识提炼无形地将一些将来的信息嵌入模型中。我们对汉英和德英同声翻译任务进行了实验,并与wait-k策略进行了比较以评估该方法。我们的方法可以有效地将不同k条件下的训练速度平均提高约28倍,并在模型中隐式嵌入一些预测能力,从而获得比wait-k基线更好的翻译质量。
标签: