Motivation

时候我们希望生成结果只是“参考” condition 图,不需要空间对齐,甚至不能空间对齐,比如我们希望生成同一个人的不同动作,只需要人物主体保持一致,或者生成一些动画,帧与帧都是“参考”同一个输入图的.

Method

t9si5y9n.bmp

Reference-Only

把两个 UNet 的 Self-Attention 输入拼接在一起,再作为 Denoising UNet 的 Self-Attention 输入,如下图的红线所示:

2fy6u3ew.bmp

代码实现,以 huggingface diffusers 中的实现为例:examples/community/stable_diffusion_reference.py

Reference-AdaIN

算法介绍 [1]