Transformer 由多个编码器(Encoder)和解码器(Decoder)层堆叠而成。
编码器由多个相同的层构成,每一层包含自注意力机制和前馈神经网络。这些层之间的权重并不共享。
在 NLP 中,模型首先将输入的单词转化为向量表示,这个过程称为 Embedding。每个单词被转化为一个固定维度(如 512 维)的向量。随后,向量会经过多个编码器层处理,每一层的输入是上一层的输出。
自注意力机制帮助模型理解句子中各个单词之间的关系。