我们在文本到图像模型中引入了一个扩展文本调节空间,称为$P+$。该空间由多个文字条件组成,这些条件源自扩散模型的去噪U-Net的每个层的提示,每个条件对应一个层。
我们展示了扩展空间提供了更大的解离和对图像合成的控制。我们进一步引入了扩展文本反演(XTI),将图像反演为$P+$,并由每层标记表示。
我们展示了XTI比原始文本反演(TI)空间更具表现力和精度,收敛更快。扩展反演方法不涉及重构和可编辑性之间的任何明显权衡,并引发了更规则的反演。
我们进行了一系列广泛的实验,以分析和理解新空间的属性,并展示了我们方法在个性化文本到图像模型方面的有效性。此外,我们利用这个空间的独特属性,在文本到图像模型中实现了以前无法实现的对象样式混合结果。项目页面: https://prompt-plus.github.io
论文链接:http://arxiv.org/pdf/2303.09522v1
更多计算机论文:http://cspaper.cn/