大家好，我是皇子

上一篇讲完最核心的部分，剩下一起讲了，算是《讲清 Transformer 模型架构论文（完结）》版，论文地址放在底部链接。

--- 往期精彩回顾 ---

Transformer 模型架构论文《Attention Is All You Need》发表在 NeurIPS 会议上，同时受到论文模板的影响，论文篇幅极致压缩为 8 页的精华

NeurIPS，全称是Conference on Neural Information Processing Systems，中文名为神经信息处理系统大会。这是全球范围内最大、最重要的人工智能和机器学习领域的学术会议之一。会议每年举办一次，吸引了全球范围内的研究者提交他们在人工智能、机器学习、深度学习、神经网络等领域的最新研究成果。会议的形式包括主题演讲、研讨会、论文发表等。是人工智能和机器学习领域的重要风向标，很多重要的研究成果和新的研究方向都会在这个会议上首次公开。

快速了解

Transformer 模型架构（简称：Transformer 模型）在人工智能领域，特别是在自然语言处理（NLP）领域，起到了革命性的作用。

1、自注意力机制：Transformer模型引入了多头自注意力（Multi-Self Attention）机制，这使得模型能够处理长距离的依赖关系和多通道输出的问题，即模型可以更好地理解句子中的各个部分如何相互关联。这对于理解和生成自然语言非常重要。

2、并行计算：与传统的循环神经网络（RNN）相比，Transformer模型的另一个优点是它可以进行并行计算。因为在Transformer模型中，所有的词都是同时处理的，而不是像在RNN中那样一个接一个地处理。这使得Transformer模型在处理大量数据时更加高效。

3、预训练模型：基于Transformer的预训练模型，如BERT、GPT-2、GPT-3等，已经在各种NLP任务中取得了最先进的结果。这些模型首先在大量的文本数据上进行预训练，学习语言的一般特性，然后在特定任务上进行微调。这种方法已经成为NLP领域的标准做法。

一图顶千言

一、为什么是自注意力（Why Self-Attention）

一）使用自注意力的动机考虑了三个期望

使用自注意力的动机考虑了三个期望，一个是每层的总计算复杂性。另一个是可以并行化的计算量，由所需的最小顺序操作数来衡量。第三个是网络中长距离依赖的路径长度。

自注意力层通过一定数量的顺序执行操作连接所有位置，而循环层需要O(n)的顺序操作。在计算复杂性方面，当序列长度n小于表示维度d时，自注意力层比循环层更快，这在机器翻译的最新模型中使用的句子表示中最常见。为了提高涉及非常长序列的任务的计算性能，自注意力可以被限制为只考虑以各自输出位置为中心的输入序列中的大小为r的邻域。这将使最大路径长度增加到O(n/r)。我们计划在未来的工作中进一步研究这种方法。

ps: 解释了自注意力层在计算复杂性、并行计算能力和路径长度等方面的优势，并提出了一种可能的改进方法，即限制自注意力的范围，以提高处理长序列的效率。

2）卷积层存在的问题及改进办法

卷积层在处理序列数据时的问题，包括不能连接所有的输入和输出位置对、需要更多的计算资源等，并提出了一种可能的改进方法，即使用可分离的卷积

3）自注意力机制的另外一个优点

作为附带的好处，自注意力可以产生更可解释的模型。我们检查了我们模型的注意力分布，并在附录中提供和讨论了一些例子。不仅单个注意力头显然学会了执行不同的任务，许多还表现出与句子的句法和语义结构相关的行为。

ps: 即可以产生更可解释的模型。这是因为自注意力可以清楚地显示模型对输入数据的关注程度，从而帮助我们理解模型的工作方式。

二、训练（Training）

一）训练数据和批处理（Training Data and Batching）

在论文中，作者使用了一个大规模的机器翻译任务来训练 Transformer 模型。他们使用了大约4500万个句子对，并且使用了批处理技术来提高训练效率。

ps: 批处理是一种常用的训练技术，它可以同时处理多个输入样本，从而加快训练速度。

二）硬件和调度（Hardware and Schedule）

论文中的模型是在一台装有8个 NVIDIA P100 GPU 的机器上训练的。训练过程中，作者使用了学习率预热和学习率衰减策略，这两种策略都可以帮助模型更好地学习。

三）优化器（Optimizer）

在训练过程中，作者使用了Adam优化器，这是一种常用的优化算法，它可以自动调整学习率，从而使模型更快地收敛。

四）正则化（Regularization）

为了防止模型过拟合，作者在训练过程中使用了dropout技术。Dropout是一种常用的正则化技术，它通过随机丢弃一部分神经元的输出来防止模型过拟合。此外，作者还使用了标签平滑术，这是种使模型更健壮方法，它通过平真实标签分布来防止模型对某些标签过于自信。

三、结果

一）机器翻译

在 WMT 2014 英语到德语的翻译任务中，大型Transformer模型的表现超过了之前报告的最佳模型（包括集成模型）超过 2.0 BLEU，建立了新的最佳 BLEU 分数28.4。这个模型的配置列在表3的最后一行。训练在 8个P100 GPU 上进行了 3.5 天。即使是我们的基础模型也超过了所有之前发布的模型和集成模型，而且训练成本只是任何竞争模型的一小部分。

ps：展示了他们的Transformer模型在机器翻译任务上的表现，结果表明，他们的模型在BLEU分数上超过了之前的最佳模型，包括集成模型

二）模型变体

为了评估Transformer的不同组件的重要性，作者以不同的方式改变了基础模型，测量了在开发集newstest2013上进行英语到德语翻译的性能变化。

ps：通过改变模型的不同组件，评估了这些组件对模型性能的影响。

四、结论

一）总结 Transformer 模型的创新

在这项工作中，提出了 Transformer，这是第一个完全基于注意力的序列转换模型，用multi-headed self-attention（多头自注意力）取代了 encoder-decoder(编码器-解码器)架构中最常用的循环层。

二）Transformer模型在翻译任务上的优势

强调 Transformer 模型在翻译任务上的优势，包括训练速度快和性能优越。

三）基于注意力的模型对未来的展望

展望了基于注意力的模型的未来，包括应用到其他任务、处理除文本之外的输入和输出、研究局部、受限的注意力机制，以有效处理大型输入和输出，如图像、音频和视频。同时，作者也提供了他们的代码https://github.com/tensorflow/tensor2tensor，以便其他研究者复现和进一步研究

ps：恭喜，作者展望的基于注意力的模型未来，现在看来都实现了！，也欢迎 AI 2.0 时代的到来！

关注公众号回复“论文” 自动领取一份精美的完整论文解读

相信看完你一定会对 AI 的能力和底层原理有了更深的认识！

既然看到这里了，如果想第一时间收到推送，可以关注公众号设置星标⭐

或随手点个赞、在看、分享吧，谢谢你看我的文章

耗时两周，终于要讲完了