Stable Diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。具体来说,Stable Diffusion在 LAION-5B 的一个子集上训练了一个Latent Diffusion Models,该模型专门用于文图生成。Latent Diffusion Models通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文图生成能够在消费级GPU上,在10秒级别时间生成图片,大大降低了落地门槛,也带来了文图生成领域的大火。
本文主要是解析不同种类的模型,其它内容学习请点击:
- 安装及其问题解决参考:《Windows安装Stable Diffusion WebUI及问题解决记录》;
- 运行使用时问题《Windows使用Stable Diffusion时遇到的各种问题整理》;
- 模型运用及参数《Stable Diffusion 个人推荐的各种模型及设置参数、扩展应用等合集》;
- 提示词生图咒语《AI绘图提示词/咒语/词缀/关键词使用指南(Stable Diffusion Prompt 设计师操作手册)》;
- 不同类的模型Models说明《解析不同种类的StableDiffusion模型Models》;
- 绘制人物动作及手脚细节《Stable Diffusion 准确绘制人物动作及手脚细节(需ControlNet扩展)》;
- 各种风格对比及实际运用《AI绘图风格对照表/画风样稿详细研究记录及经验总结》;
一、 checkpoint(主模型)
Checkpoint这个词在不同的领域有不同的含义。在深度学习中,Checkpoint是用于描述在每次训练后保存模型参数(权重)的惯例或术语。这就像在游戏中保存关卡时你可以随时通过加载保存文件回复游戏。你可以加载保存的模型权重重新开启训练甚至可以之后进行一个推理。
主模型形象一些理解的话就是画师本身,而本文中的其它模型都是调整和优化主模型的工具。
训练流程:
大意就是:
- 样本图片A出一张n级噪声图B和n-1噪声图C,
- 文本标识和噪声图B结合生成图D,
- 将C图与D图进行比较,
- 如果成功就将n级噪声降一级重复上面的步骤,直到最后一级噪声图。
- 如果失败就返回第二步重新生成图D。
是不是和我们人类的学习过程一样?词与图像之间的关系从懵懂模糊到清晰明确。
二、 Embeding(文本转换)
Embedding是指将自然语言文本(如句子或段落)转换为计算机可以理解的数值向量表示形式的过程。这种向量表示法通常称为嵌入(embedding),可以在许多自然语言处理(NLP)任务中使用,例如语言模型、情感分析、问答系统等。在Stable Diffusion中,您可以使用内置的嵌入模型或创建自定义的嵌入模型来生成嵌入。
训练流程:
与checkpoint不同的就是失败之后去修正文本标识,通过不断训练文本标识的理解来最终达到正确出图的目的。
依赖主模型,所以如果主模型与embeding不搭,那么效果将不尽如人意,就如同你让油画家来画水墨画,虽然他画画功底很好,但不会水墨画,自然也难以达到预期效果。
三、 LoRA(劳拉)
在Stable Diffusion中,LoRA是一种用于微调大型语言模型的技术,全称为Low-Rank Adaptation of Large Language Models。
LoRA最初是为大模型提出的,并在transformer块上进行了演示,但该技术也可以应用于其他地方。在微调Stable Diffusion的情况下,LoRA可以应用于将图像表示与描述它们的提示相关联的交叉注意层。
训练流程:
四、 Hypernetwork(风格化)
在Stable Diffusion中,Hypernetwork是一种用于训练大型神经网络的技术。它是一种生成网络的网络,可以通过它来生成其他网络的权重。Hypernetwork可以用于生成描述图像的提示的交叉注意层。
训练流程:
相比LoRA,多了一些步骤,不如LoRA那么短小精悍。
出图更适合风景,而不是特定具象的物体。
五、 AVE(特定)
在Stable Diffusion中,AVE是一种用于训练大型神经网络的技术。它是一种生成网络的网络,可以通过它来生成其他网络的权重。在Stable Diffusion中,AVE可以用于生成描述图像的提示的交叉注意层。
和Hypernetwork描述一致~~
Aesthetic Embedding
Aesthetic Gradient
Variational Autoencoder
大多数都融合在了主模型中,一般不会用到。
六、 目录
五个模型对应的目录如下图:
models/Stable-diffusion
该目录就是主模型文件夹。