Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance
论文阅读
Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance (readpaper.com)
最近的研究证明,扩散模型可以生成高质量的样本,但其质量通常高度依赖于采样指导技术,如分类器指导 (CG) 和无分类器指导 (CFG),这些技术不适用于无条件生成或各种下游任务,如图像恢复。在本文中,我们提出了一种新颖的扩散采样指导,称为扰动注意指导 (PAG),它可以提高无条件和有条件设置的样本质量,而无需进一步的培训或外部模块的集成。PAG旨在通过考虑自我注意机制捕获结构信息的能力,在整个去噪过程中逐步增强合成样本的结构。它涉及通过用单位矩阵代替扩散u-net中选定的自注意图来生成具有退化结构的中间样本,并引导去噪过程远离这些退化样本。
无引导 (基线) 和扰动注意引导 (PAG) 扩散样本之间的定性比较。在没有任何外部条件 (例如,类标签或文本提示) 或额外训练的情况下,即使在无分类器指导 (CFG) 不适用的无条件生成中,我们的PAG也可以显着提高扩散样本的质量。我们的指导还可以增强各种下游任务中的基线性能,例如带有空提示的ControlNet和图像恢复,例如修复和去模糊。
概述
利用一个隐式判别器来区分理想样本和不理想样本,通过利用U-Net中的自注意力图捕捉结构信息的能力,将扩散模型的自注意力图替换为单位矩阵来生成不理想样本。并引导去噪过程远离这些劣化样本。避免结构崩溃。
相关工作
SAG,在无条件框架内提升了样本质量,通过在生成的图像样本上应用对抗性模糊来掩盖关键信息,然后利用模糊样本和原始样本预测的噪声来指导采样过程。
Readout guidance,
图2,无CFG和有CFG的去噪过程可视化。
方法:PAG(扰动注意力引导),提出一个隐式判别器D
图3,PAG过程可视化。
基于扰动或降质,获得
CFG或SAG可以视为一种特殊情况
直接扰动输入图像或条件可能导致OOD问题,引导扩散采样走向错误方向,为克服这个问题,CFG明确训练了一个无条件模型,SAG采用部分模糊来最小化偏差,但如果不仔细选择超参数,它往往会偏离期望的轨迹。
扰动自注意力:
在自注意力机制中,QK相似性用于结构,V用于外观。
直接扰动V可能导致OOD,而使用单位矩阵扰动QK更有可能保持在领域内。
具体实现
CFG和PAG的概念比较。CFG采用联合训练的无条件模型作为不良路径,而PAG出于相同目的利用扰动的自注意力。
工程实现
应用于Video Generation: EasyAnimate with PAG,https://github.com/lclichen/EasyAnimatePAG 由于本项目是基于Diffusers的,比较容易整合,实现了T2V和I2V,有待提升。
应用于VEnhancer: 正在实现中
Comments | NOTHING