点击上方蓝字加入我们

本系列文章是原作者Rohit Patel的长篇雄文《Understanding LLMs from Scratch Using Middle School Math-A self-contained, full explanation to inner workings of an LLM》的深度学习与解读笔记。本篇是系列第六篇。我们强烈建议您在开始前阅读并理解前文（点击下方目录）。

1. 一个简单的神经网络

2. 这些模型是如何被训练的？

3. 这些模型如何生成语言？

4. 嵌入（Embeddings）

5. 子词分词器（Sub-word tokenizers）

6. 自注意力机制（Self-attention）

7. Softmax

8. 残差连接（Residual connections）

9. 层归一化（Layer Normalization）

10. Dropout

11. 多头注意力（Multi-head attention）

12. 位置嵌入（Positional embeddings）

13. GPT 架构

14. Transformer 架构

6

自注意力机制（Self-attention）

欢迎继续跟随我们一起学习LLM的原理。你应该已经了解到：语言模型的本质是输入一些内容给神经网络模型，并不断预测出下一个词。而为了方便计算，这些内容会被转化为带有语义特征的向量（一组数值），而这个转化是以子词（Token）为单位进行。

今天将来了解一个更高级的概念——自注意力机制（Self-Attention）。它是自然语言处理（NLP）模型中的核心技术之一，也是Transformer模型得以成功的关键。

01

为什么需要自注意力机制？

在处理自然语言文本的过程中，存在一个显而易见的问题：一个句子的下一个词（也就是神经网络需要预测的），取决于前面所有的词，并且很可能更依赖于之前的某几个词。比如在下面的句子中：

“达米安有一个秘密女儿，是个金发碧眼的女孩。他在遗嘱中写道：所有财产连同魔法水晶球都将属于____"

需要预测的空白处的词可以是“她”或者“她”，这取决于句子前面的词“女孩”。”女孩“这个重要词的位置并不固定，当你换一种表达方式，关联词的位置又可能发生变化。

但是还记得基本神经网络的原理吗（请回顾第1-3节）？模型中神经元的特定位置对最终预测结果的影响（也就是这个位置的重要性）是固定的。那么问题来了：与预测结果最相关的词实际上可能处于每一层的任意位置，也就是说，词的重要性不能仅取决于位置，而更取决于其内容以及上下文。比如上面的“女孩”这个词的重要性，并不取决于它的位置。

那么怎样让预测中输入词的“重要性”（也称为权重，但注意区分神经网络不同层之间的权重参数）变成动态的呢？答案就是自注意力机制。

02

什么是自注意力机制？

自注意力机制（Self-Attention）是一种让每个词根据上下文来动态调整它的自身表示（即向量）的机制。即对于每个词，会根据与上下文其他词的相关性来重新计算，以得到新的向量表示。从而帮助神经网络模型更好的捕捉到词与词之间的动态紧密关系，从而实现更准确的预测输出。