【可控图像生成系列论文（四）】IP-Adapter 具体是如何训练的？1公式篇

系列文章目录

【可控图像生成系列论文（一）】简要介绍了 MimicBrush 的整体流程和方法；
【可控图像生成系列论文（二）】就MimicBrush 的具体模型结构、训练数据和纹理迁移进行了更详细的介绍。
【可控图像生成系列论文（三）】介绍了一篇相对早期（2018年）的可控字体艺术化工作。

文章目录

系列文章目录
前言
〇、文生图模型预备知识
- 1. 训练目标
- 2. 无分类器指导（classifier-free guidance）
一、训练与推理
二、训练数据
三、实施细节
总结

前言

IP-Adapter 的结构和 SD 的差别不是特别大，可以参考【扩散模型（二）】中的结构图进行快速理解，本文则将详细介绍其 IP-Adapter 的训练过程。

〇、文生图模型预备知识

扩散模型是一类生成模型，主要包含两个过程：

扩散过程（前向过程），通过一个固定的 T 步长的马尔可夫链逐渐向数据添加高斯噪声；
以及一个去噪过程，使用一个可学习的模型从高斯噪声生成样本。

1. 训练目标

扩散模型还可以基于其他输入进行条件生成，例如在文本到图像扩散模型中使用文本作为条件。通常，扩散模型的训练目标记为 $εθ$ ，即预测噪声的模型，定义为变分界限的简化形式：

$L_{\text{simple}} = \mathbb{E}_{x_0, \varepsilon \sim \mathcal{N}(0, I), c, t} \left[ \|\varepsilon - \varepsilon_{\theta}(x_t, c, t)\|^2 \right]$

其中， $x_0$ 表示带有附加条件 $c$ 的真实数据， $t \in [0, T]$ 表示扩散过程的时间步长， $x_t = α_tx_0 + σ_tε$ 是第 $t$ 步的噪声数据，而 $α_t$ 和 $σ_t$ 是决定扩散过程的预定义函数。

一旦模型 $ε_θ$ 训练完成，图像可以通过迭代方式从随机噪声生成。通常，在推理阶段采用快速采样器如 DDIM¹、PNDM² 和 DPM-Solver³⁴ 来加速生成过程。

对于条件扩散模型，分类器指导⁵是一种直接利用独立训练的分类器的梯度来平衡图像保真度和样本多样性的技术。为了避免额外去独立训练一个分类器，常采用无分类器指导（classifier-free guidance）⁶作为替代方法。

2. 无分类器指导（classifier-free guidance）

在无分类器指导方法中，通过随机丢弃条件 $c$ 来联合训练条件和无条件扩散模型。在采样阶段，预测的噪声基于条件模型 $ε_θ(x_t, c, t)$ 和无条件模型 $ε_θ(x_t, t)$ 的预测进行计算：

$\hat{\varepsilon}_{\theta}(x_t, c, t) = w\varepsilon_{\theta}(x_t, c, t) + (1 - w)\varepsilon_{\theta}(x_t, t)$

这里， $w$ （通常称为指导尺度或指导权重）是一个标量值，用于调整与条件 $c$ 的对齐程度。对于文生图的扩散模型，无分类器指导在增强生成样本的图像与文本对齐方面起着至关重要的作用。

在 IP-Adapter 中，作者利用开源的 SD 模型。SD 是一个基于冻结（不参与训练）的 CLIP 文本编码器提取的文本特征进行条件生成的潜在扩散模型。该扩散模型的架构基于具有注意力层的 UNet ⁷。与 Imagen 这样的基于像素的扩散模型相比，SD 更高效，因为 SD 是在一个预训练的自动编码器模型的潜在空间上构建的。

一、训练与推理

在训练期间，作者仅优化 IP-Adapter，而保持预训练的扩散模型的参数不变。IP-Adapter 同样在包含图像-文本对的数据集⁸上进行训练，使用与原始稳定扩散（Stable Diffusion）相同的训练目标：

$L_{\text{simple}} = \mathbb{E}_{x_0, \varepsilon, c_t, c_i, t} \left[ \|\varepsilon - \varepsilon_{\theta}(x_t, c_t, c_i, t)\|^2 \right]$

并且在训练阶段随机丢弃图像条件，以便在推理阶段启用无分类器指导（classifier-free guidance）：

$\hat{\varepsilon}_{\theta}(x_t, c_t, c_i, t) = w\varepsilon_{\theta}(x_t, c_t, c_i, t) + (1 - w)\varepsilon_{\theta}(x_t, t)$

在这里，如果图像条件被丢弃，就简单地将 CLIP 图像嵌入置为零。由于文本交叉注意力和图像交叉注意力是分离的，还可以在推理阶段调整图像条件的权重：

$Z_{\text{new}} = \text{Attention}(Q, K, V) + \lambda \cdot \text{Attention}(Q, K', V')$

其中， $\lambda$ 是权重因子，如果 $\lambda = 0$ ，模型就变成原始的文本到图像扩散模型。

二、训练数据

为了训练 IP-Adapter，作者构建了一个多模态数据集，包括从两个开源数据集 LAION-2B ⁹和 COYO-700M ¹⁰ 获取的大约 1000 万个图像-文本对。

三、实施细节

IP-Adapter 的实验基于 SD v1.5 ¹¹，并使用 OpenCLIP ViT-H/14 ¹² 作为图像编码器。
SD 模型中有 16 个交叉注意力层，作者为每一层添加了一个新的图像交叉注意力层。这样的 IP-Adapter 总共包含约 22M （2200 万）个可训练参数，包括投影网络和适配模块，使 IP-Adapter 相当轻量化。
使用 HuggingFace 的 diffusers 库 ¹³ 实现 IP-Adapter，并采用 DeepSpeed ZeRO-2 ¹⁴ 进行快速训练。
IP-Adapter 在一台配备 8 块 V100 GPU 的机器上训练 100 万步，每个 GPU 的批次大小为 8。作者使用 AdamW ¹⁵优化器，固定学习率为 0.0001，权重衰减为 0.01。
训练期间，图像的最短边调整为 512，然后将图像中心裁剪为 512 × 512 的分辨率。为了启用无分类器指导，分别以 0.05 的概率丢弃文本和图像，以 0.05 的概率同时丢弃文本和图像。
在推理阶段，采用 50 步的 DDIM 采样器，设置指导比例为 7.5。当只使用图像提示时，则将文本提示设为空，λ 设置为 1.0。

总结

IP-Adapter 的训练目标和 SD 的原始训练目标一致，但由于仅仅训练投影网络和适配模块（Image prompt 输入的 cross attention），可训练参数量非常轻量化（仅 22M）。

Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020. ↩︎
Luping Liu, Yi Ren, Zhijie Lin, and Zhou Zhao. Pseudo numerical methods for diffusion models on manifolds. arXiv preprint arXiv:2202.09778, 2022. ↩︎
Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. Dpm-solver: A fast ode solver for diffusion probabilistic model sampling in around 10 steps. Advances in Neural Information Processing Systems, 35:5775–5787, 2022. ↩︎
Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. Dpm-solver++: Fast solver for guided sampling of diffusion probabilistic models. arXiv preprint arXiv:2211.01095, 2022. ↩︎
Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. Advances in neural information processing systems, 34:8780–8794, 2021. ↩︎
Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022. ↩︎
Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18, pages 234–241. Springer, 2015. ↩︎
需要注意的是，仅使用图像提示也能很好地指导最终生成，因此也可以在没有文本提示的情况下训练模型。 ↩︎
Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, et al. Laion-5b: An open large-scale dataset for training next generation image-text models. Advances in Neural Information Processing Systems, 35:25278–25294, 2022. ↩︎
Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee, Woonhyuk Baek, and Saehoon Kim. Coyo-700m: Image-text pair dataset. https://github.com/kakaobrain/coyo-dataset, 2022. ↩︎
https://huggingface.co/runwayml/stable-diffusion-v1-5 ↩︎
Gabriel Ilharco, Mitchell Wortsman, Ross Wightman, Cade Gordon, Nicholas Carlini, Rohan Taori, Achal Dave, Vaishaal Shankar, Hongseok Namkoong, John Miller, Hannaneh Hajishirzi, Ali Farhadi, and Ludwig Schmidt. Openclip. https://github.com/mlfoundations/open_clip, 2021. ↩︎
Patrick von Platen, Suraj Patil, Anton Lozhkov, Pedro Cuenca, Nathan Lambert, Kashif Rasul, Mishig Davaadorj, and Thomas Wolf. Diffusers: State-of-the-art diffusion models. https://github.com/huggingface/ diffusers, 2022 ↩︎
Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. In International Conference on Machine Learning, pages 88218831. PMLR, 2021. ↩︎
Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017. ↩︎