大家好，我是皇子

Transformer 模型架构论文《Attention Is All You Need》发表在 NeurIPS 会议上，同时受到论文模板的影响，论文篇幅极致压缩为 8 页的精华，所以我接下来打算分为几部分来讲清，论文地址放在底部链接。

NeurIPS，全称是Conference on Neural Information Processing Systems，中文名为神经信息处理系统大会。这是全球范围内最大、最重要的人工智能和机器学习领域的学术会议之一。会议每年举办一次，吸引了全球范围内的研究者提交他们在人工智能、机器学习、深度学习、神经网络等领域的最新研究成果。会议的形式包括主题演讲、研讨会、论文发表等。是人工智能和机器学习领域的重要风向标，很多重要的研究成果和新的研究方向都会在这个会议上首次公开。

快速了解

Transformer 模型架构（简称：Transformer 模型）在人工智能领域，特别是在自然语言处理（NLP）领域，起到了革命性的作用。

1、自注意力机制：Transformer模型引入了多头自注意力（Multi-Self Attention）机制，这使得模型能够处理长距离的依赖关系和多通道输出的问题，即模型可以更好地理解句子中的各个部分如何相互关联。这对于理解和生成自然语言非常重要。

2、并行计算：与传统的循环神经网络（RNN）相比，Transformer模型的另一个优点是它可以进行并行计算。因为在Transformer模型中，所有的词都是同时处理的，而不是像在 RNN 中那样一个接一个地处理。这使得Transformer模型在处理大量数据时更加高效。

3、预训练模型：基于 Transformer 的预训练模型，如 BERT、GPT-2、GPT-3 等，已经在各种NLP任务中取得了最先进的结果。这些模型首先在大量的文本数据上进行预训练，学习语言的一般特性，然后在特定任务上进行微调。这种方法已经成为NLP领域的标准做法。

摘要

一图顶千言

主流的序列转录模型

当前主流的序列转录模型是基于主流的 RNN（循环神经网络）和 CNN（卷积神经网络），这样的网络一般是包括一个 encoder（编码器）和 decoder（解码器）的结构

ps: 所谓的序列转录模型就是说给你一个序列，你会生成另外一个序列

性能最好的模型是什么样子的

性能最好的模型通常使用注意力机制将 encoder（编码器）和 decoder（解码器）连接起来

ps: 基本上就讲清了这篇论文主要的工作范围是做一个序列到生成一个序列的内容，但是主流的模型它是一个复杂的，以及性能最好的模型是通过encoder（编码器）和 decoder（解码器）架构并加入注意力机制连接起来的。

提出了 Transformer 模型架构

论文提出了一个简单的网络架构：Transformer 模型架构，它完全基于注意力机制，完全不需要 RNN（循环神经网络）和 CNN（卷积神经网络）

ps: 重点：足够简单

该模型在 2017 年取得的成果

基于该模型做了两个机器翻译的实验，实现表明模型在质量更优、具有并行性、训练时间更少。实验的成果重点是提高了 BLEU

ps: 这篇文章一开始写的时候就是针对机器翻译这个小任务小领域写的，也取得不错的结果，但是但并没有是发挥它真正的价值，直到后来被Bert、GPT等开始基于该模型进行训练和微调之后，才真正把它的价值发挥出来

BLEU（Bilingual Evaluation Understudy）是一种用于评估机器翻译模型输出质量的指标。它通过比较机器翻译结果和人工翻译的参考译文，计算出一个分数来衡量机器翻译的质量。

论文地址：

https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

“关注我，一起成长”

有启发，点个赞或在看再走呀

讲清 Transformer 模型架构论文（一）

摘要

主流的序列转录模型

性能最好的模型是什么样子的

提出了 Transformer 模型架构

该模型在 2017 年取得的成果