解读[2]
stacked ID embedding = text embedding + image embedding
stacked ID embedding与text embedding中对应位触发词位置的embedding进行替换,进而得到Updated text embedding。
Updated text embedding放入diffusion model中,通过cross attention层进行融合。