Transformer 模型结构 [1,3]

Transformer 由多个编码器（Encoder）和解码器（Decoder）层堆叠而成。

编码器结构（Encoder）

编码器由多个相同的层构成，每一层包含自注意力机制和前馈神经网络。这些层之间的权重并不共享。

在 NLP 中，模型首先将输入的单词转化为向量表示，这个过程称为 Embedding。每个单词被转化为一个固定维度（如 512 维）的向量。随后，向量会经过多个编码器层处理，每一层的输入是上一层的输出。

Self-Attention

自注意力机制（Self-Attention） [23]

自注意力机制帮助模型理解句子中各个单词之间的关系。

Self-Attention 的计算过程