1. Stable Diffusion XL系列资源[1]

官方项目：Stability-AI/generative-models（包括SDXL，SDXL Turbo等）
diffusers库中的SDXL代码pipelines：diffusers/pipelines/stable_diffusion_xl
训练代码：diffusers_sdxl_train

2. Stable Diffusion XL核心基础内容[1]

与Stable Diffusion 1.x-2.x相比，Stable Diffusion XL主要进行如下的优化：

对Stable Diffusion 1.x-2.x的U-Net，VAE，CLIP Text Encoder三大核心模型都做了改进。
增加一个独立的基于Latent的Refiner模型，也是一个扩散模型，用来提升生成图像的精细化程度。

2.1 SDXL整体架构初识

Stable Diffusion XL是一个二阶段的级联扩散模型（Latent Diffusion Model），包括Base模型和Refiner模型。其中Base模型的主要工作和Stable Diffusion 1.x-2.x一致，具备文生图（txt2img）、图生图（img2img）、图像inpainting等能力。在Base模型之后，级联了Refiner模型，对Base模型生成的图像Latent特征进行精细化提升，其本质上是在做图生图的工作。

SDXL Base模型由U-Net、VAE以及CLIP Text Encoder（两个）三个模块组成

SDXL Refiner模型同样由U-Net、VAE和CLIP Text Encoder（一个）三个模块组成

从下图可以看到，Stable Diffusion XL无论是对模型的整体工作流还是对不同子模块（U-Net、VAE、CLIP Text Encoder）都做了大幅的改进，能够生成1024x1024分辨率及以上的高质量图片。