Attention Is All You Need
作者: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
摘要: 当前主流的序列转换模型基于复杂的循环或卷积神经网络,采用编码器-解码器架构。表现最佳的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种全新的简单网络架构——Transformer,该架构完全基于注意力机制,彻底摒弃了循环和卷积结构。针对两项机器翻译任务的实验表明,这些模型在保持更优翻译质量的同时,具有更强的并行化能力,且训练时间显著缩短。在WMT 2014英语-德语翻译任务中,我们的模型获得了28.4的BLEU分数,比包括集成模型在内的现有最佳结果提高了2分以上。在 WMT 2014 英语-法语翻译任务中,我们的模型在八块 GPU 上训练 3.5 天后,创下了 41.0 的单模型 BLEU 分数新纪录,这一训练成本仅为文献中最佳模型的一小部分。我们通过将 Transformer 成功应用于英语句法成分分析(无论训练数据规模大小),证明了该模型在其他任务上的良好泛化能力。