Attention Is All You Need

Posted on 2017-11-28

作者： Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

摘要：当前主流的序列转换模型基于复杂的循环或卷积神经网络，采用编码器-解码器架构。表现最佳的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种全新的简单网络架构——Transformer，该架构完全基于注意力机制，彻底摒弃了循环和卷积结构。针对两项机器翻译任务的实验表明，这些模型在保持更优翻译质量的同时，具有更强的并行化能力，且训练时间显著缩短。在WMT 2014英语-德语翻译任务中，我们的模型获得了28.4的BLEU分数，比包括集成模型在内的现有最佳结果提高了2分以上。在 WMT 2014 英语-法语翻译任务中，我们的模型在八块 GPU 上训练 3.5 天后，创下了 41.0 的单模型 BLEU 分数新纪录，这一训练成本仅为文献中最佳模型的一小部分。我们通过将 Transformer 成功应用于英语句法成分分析（无论训练数据规模大小），证明了该模型在其他任务上的良好泛化能力。