时候我们希望生成结果只是“参考” condition 图,不需要空间对齐,甚至不能空间对齐,比如我们希望生成同一个人的不同动作,只需要人物主体保持一致,或者生成一些动画,帧与帧都是“参考”同一个输入图的.

把两个 UNet 的 Self-Attention 输入拼接在一起,再作为 Denoising UNet 的 Self-Attention 输入,如下图的红线所示:

代码实现,以 huggingface diffusers 中的实现为例:examples/community/stable_diffusion_reference.py