Transformer 模型结构 [1,3]

Transformer 由多个编码器(Encoder)和解码器(Decoder)层堆叠而成。

Transformer_decoder.jpg

4ukp27nc.bmp

编码器结构(Encoder)

编码器由多个相同的层构成,每一层包含自注意力机制前馈神经网络。这些层之间的权重并不共享。

mk8vn9k0.bmp

在 NLP 中,模型首先将输入的单词转化为向量表示,这个过程称为 Embedding每个单词被转化为一个固定维度(如 512 维)的向量。随后,向量会经过多个编码器层处理,每一层的输入是上一层的输出。

eekrpars.bmp

Self-Attention

自注意力机制(Self-Attention) [23]

自注意力机制帮助模型理解句子中各个单词之间的关系。

j3ewdsdv.bmp

Self-Attention 的计算过程