大家好，我是皇子

今天要分享的是整个论文中最核心的部分“模型架构（Model Architecture）”

Transformer 模型架构论文《Attention Is All You Need》发表在 NeurIPS 会议上，同时受到论文模板的影响，论文篇幅极致压缩为 8 页的精华，所以我接下来打算分为几部分来讲清，论文地址放在底部链接。

NeurIPS，全称是Conference on Neural Information Processing Systems，中文名为神经信息处理系统大会。这是全球范围内最大、最重要的人工智能和机器学习领域的学术会议之一。会议每年举办一次，吸引了全球范围内的研究者提交他们在人工智能、机器学习、深度学习、神经网络等领域的最新研究成果。会议的形式包括主题演讲、研讨会、论文发表等。是人工智能和机器学习领域的重要风向标，很多重要的研究成果和新的研究方向都会在这个会议上首次公开。

快速了解

Transformer 模型架构（简称：Transformer 模型）在人工智能领域，特别是在自然语言处理（NLP）领域，起到了革命性的作用。

1、自注意力机制：Transformer模型引入了多头自注意力（Multi-Self Attention）机制，这使得模型能够处理长距离的依赖关系和多通道输出的问题，即模型可以更好地理解句子中的各个部分如何相互关联。这对于理解和生成自然语言非常重要。

2、并行计算：与传统的循环神经网络（RNN）相比，Transformer模型的另一个优点是它可以进行并行计算。因为在Transformer模型中，所有的词都是同时处理的，而不是像在RNN中那样一个接一个地处理。这使得Transformer模型在处理大量数据时更加高效。

3、预训练模型：基于Transformer的预训练模型，如BERT、GPT-2、GPT-3等，已经在各种NLP任务中取得了最先进的结果。这些模型首先在大量的文本数据上进行预训练，学习语言的一般特性，然后在特定任务上进行微调。这种方法已经成为NLP领域的标准做法。

模型架构

一图顶千言

这部分涉及到很多计算公式和其他关联的概念性知识，直接看论文肯定会一头雾水，我也是参考网上资料后再简化表述出来方便大家理解的

模型部分的简介先是向我们介绍现在比较好的是一个叫做编码器和解码器的结构，并做解释说明。在编码器将符号表示的输入序列 (X1，…，Xn) 映射到连续表示的序列z＝(Z1，…，Zn)（X 的长度和 Z 是一样的），Z的第 t个字符表示为向量 Zt，而 Zn这就是编码器的输出，即将原始的序列表示为机器学习可以理解的一系列的向量。而解码器会得到编码器给定的输出Zn，然后解码器会生成符号的长度为 m的输出序列 (Y1，…，Ym)（n和m是不一定一样长的，比如说中文翻译成英文他们的长度是不一样长的），每次一个元素。在每一步，模型都是自回归的，在生成下一步时，将先前生成的符号作为额外输入。

一）编码器和解码器堆栈-编码器和解码器的结构

编码器和解码器都是由多个相同的层堆叠而成的。编码器包含六个这样的层，每个层都有两个子层：一个是多头自注意力机制，另一个是位置全连接前馈网络。这些子层都有残差连接（Add）和层归一化（Norm）。解码器也有六个层，但它有三个子层，多了一个多头注意力层来处理编码器的输出。这个额外的子层使得解码器在生成每个词时，都可以关注到编码器的所有输出。

一图顶千言