2.2 引言&模型结构
DALL·E2
上面的CLIP训练好之后,就将其冻住了,不再参与任何训练和微调。DALL·E2训练时,输入也是文本-图像对,下面就是摘要提到的两阶段训练:
prior:根据文本特征生成图像特征
decoder:常规的扩散模型解码器,解码生成图像。
这里的decoder就是升级版的GLIDE,所以说DALL·E2=CLIP+GLIDE。
3.1 GANs
GANs也有很多局限性,比如: