一、前言

二、引言

2.2 引言&模型结构

DALL·E2

上面的CLIP训练好之后，就将其冻住了，不再参与任何训练和微调。DALL·E2训练时，输入也是文本-图像对，下面就是摘要提到的两阶段训练：

prior：根据文本特征生成图像特征
- 文本和图片分别通过锁住的CLIP text encoder和CLIP image encoder得到编码后的文本特征和图片特征。（这里文本和文本特征是一一对应的，因为这部分是始终锁住的，图片部分也一样）
- prior模型的输入就是上面CLIP编码的文本特征，其ground truth就是CLIP编码的图片特征，利用文本特征预测图片特征，就完成了 prior的训练。
- 推理时，文本还是通过CLIP text encoder得到文本特征，然后根据训练好的prior得到类似CLIP生成的图片特征（此时没有图片，所以没有CLIP image encoder这部分过程）。此时图片特征应该训练的非常好，不仅可以用来生成图像，而且和文本联系的非常紧（包含丰富的语义信息）。

decoder：常规的扩散模型解码器，解码生成图像。

这里的decoder就是升级版的GLIDE，所以说DALL·E2=CLIP+GLIDE。

三、算法铺垫

3.1 GANs

GANs也有很多局限性，比如：

训练不够稳定。
GANs生成的多样性不够好。
GANs是隐式生成，不够优美