Motivation

时候我们希望生成结果只是“参考” condition 图，不需要空间对齐，甚至不能空间对齐，比如我们希望生成同一个人的不同动作，只需要人物主体保持一致，或者生成一些动画，帧与帧都是“参考”同一个输入图的.

Method

Reference-Only

把两个 UNet 的 Self-Attention 输入拼接在一起，再作为 Denoising UNet 的 Self-Attention 输入，如下图的红线所示：

代码实现，以 huggingface diffusers 中的实现为例：examples/community/stable_diffusion_reference.py

Reference-AdaIN

算法介绍 [1]