与Stable Diffusion 1.x-2.x相比,Stable Diffusion XL主要进行如下的优化:
Stable Diffusion XL是一个二阶段的级联扩散模型(Latent Diffusion Model),包括Base模型和Refiner模型。其中Base模型的主要工作和Stable Diffusion 1.x-2.x一致,具备文生图(txt2img)、图生图(img2img)、图像inpainting等能力。在Base模型之后,级联了Refiner模型,对Base模型生成的图像Latent特征进行精细化提升,其本质上是在做图生图的工作。
SDXL Base模型由U-Net、VAE以及CLIP Text Encoder(两个)三个模块组成
SDXL Refiner模型同样由U-Net、VAE和CLIP Text Encoder(一个)三个模块组成
从下图可以看到,Stable Diffusion XL无论是对模型的整体工作流还是对不同子模块(U-Net、VAE、CLIP Text Encoder)都做了大幅的改进,能够生成1024x1024分辨率及以上的高质量图片。
