1. Stable Diffusion XL系列资源[1]

2. Stable Diffusion XL核心基础内容[1]

与Stable Diffusion 1.x-2.x相比,Stable Diffusion XL主要进行如下的优化:

  1. 对Stable Diffusion 1.x-2.x的U-Net,VAE,CLIP Text Encoder三大核心模型都做了改进。
  2. 增加一个独立的基于Latent的Refiner模型,也是一个扩散模型,用来提升生成图像的精细化程度。

2.1 SDXL整体架构初识

Stable Diffusion XL是一个二阶段的级联扩散模型(Latent Diffusion Model),包括Base模型和Refiner模型。其中Base模型的主要工作和Stable Diffusion 1.x-2.x一致,具备文生图(txt2img)、图生图(img2img)、图像inpainting等能力。在Base模型之后,级联了Refiner模型,对Base模型生成的图像Latent特征进行精细化提升,其本质上是在做图生图的工作

SDXL Base模型由U-Net、VAE以及CLIP Text Encoder(两个)三个模块组成

SDXL Refiner模型同样由U-Net、VAE和CLIP Text Encoder(一个)三个模块组成

从下图可以看到,Stable Diffusion XL无论是对模型的整体工作流还是对不同子模块(U-Net、VAE、CLIP Text Encoder)都做了大幅的改进,能够生成1024x1024分辨率及以上的高质量图片

d9l7q5qs.bmp