Bootstrap

「AI绘画Stable Diffusion 零基础入门必看」ControlNet控制网:轻松控制你的AI绘画出图效果详解

大家好,我是灵魂画师向阳

前言

AI绘画Stable Diffusion 在 ControlNet 出现之前,基于扩散模型的 AI 绘画是极难控制的,因为扩散的过程充满了随机性。

如果只是纯粹自娱自乐,这种随机性并不会带来多大困扰;但在产业化上应用就难以普及了,因为随机性的直接导致的就是缺乏稳定性,每次出图都要依赖不断抽卡,极大影响了工作效率。

然而 ControlNet 赋予了我们自由组织画面内容的能力:固定构图、定义姿势、描绘轮廓,单凭线稿就能生成一张丰满精致的插画,甚至有人用它画出了二维码 … ControlNet 的出现使得对 AI 绘画的完全控制成为现实。

基本原理

ControlNet 亦即控制网络,它本质上是 SD 的一个扩展插件。在作用原理上,它和 LoRA 是有许多相似的地方的,定位都是对大模型做微调的额外网络。

控制网络的核心作用是基于一些额外输入给它的信息、来给扩散模型的生成内容提供明确的指引。

举个例子,譬如在 Prompt 中输入 “跳舞” 的提示词,AI 可以画出无数种跳舞的姿势,在过去,我们只能通过图生图让 AI 仅可能地接近我们期望的那个姿势。但是 ControlNet 出现之后,我们可以通过给它输入一张纯粹记录了某种特定姿势(由 openpose 识别出来的、以点线组成的人体骨架图)信息的图片来画出指定的姿势,实现精准控制。

在我刚刚学 ControlNet、得知可以调用 openpose[2] 的时候,确实有种殊途同归的感概 —— 终于又回到了我熟悉的领域:曾经被我用来研究游戏视觉 AI 辅助的 openpose,没想到竟然也可以在 AI 绘画中也占据半壁江山 …

ControlNet 安装

插件安装

核心只需要安装一个插件 sd-webui-controlnet:

重启界面后可以看到新增的这个选区即安装完成:

另外为了后续方便编辑自定义的 pose,这里再安装一个 sd-webui-3d-open-pose-editor 插件(使用方法见

模型安装

ControlNet v1.1 (目前最新版)的常用模型都是在 huggingface 里面下载:

每个模型由两种文件组成:*.pth*.yaml

安装某一个模型的时候,两种格式都需要下载回来、并放到 %SD/models/ControlNet/ 目录下即可使用。

注意:ControlNet模型插件下载需科学上网,如无法下载,请扫描获取模型插件安装包

预处理器安装

预处理器一般是在使用 ControlNet 的时候按需自动下载的,但是由于网络原因,可能下载不了,此时界面会报错:

这里提供一个通用的解决方法。先在 SD 的 dos 终端中找到异常信息:

核心失败原因解读一下:

Downloading: “https://huggingface.co/lllyasviel/Annotators/resolve/main/hand_pose_model.pth” to R:\AIDraw\novelai-webui-aki-v3\extensions\sd-webui-controlnet\annotator\downloads\openpose\hand_pose_model.pth

主要就是说:下载 hand_pose_model.pth 到 %SD/extensions/sd-webui-controlnet/annotator/downloads/openpose/ 目录失败。

根本原因就是 dos 终端没科学上网导致下载不到文件,可看上方

类似地,其他预处理器也会有此问题,届时参考这个方法举一反三地处理即可。


常用 ControlNet 模型推荐

在 ControlNet v1.1 中,它能控制的方向已经远远不止人体姿态这一种,而是多达 14 个不同方向的控制,每一个方向对应一个模型。

为了方便选择困难症的同学,这里推荐最常用的几个模型(当然如果你有时间也可以把 14 个模型全部下载):

名称openpose
功能人体姿态控制、脸部特征控制(表情控制)、手部特征控制(解决画手问题)
模型下载control_v11p_sd15_openpose.pth[7],
control_v11p_sd15_openpose.yaml[8]
模型位置%{NovelAI}/models/ControlNet/
预处理器body_pose_model.pth[9],
hand_pose_model.pth[10],
facenet.pth[11]
预处理器
放置位置%SD/extensions/sd-webui-controlnet/annotator/downloads/openpose/

名称depth
功能描绘富有空间感的多层次场景(景深控制)、人物肢体交叠(人体透视)
模型下载control_v11f1p_sd15_depth.pth[12],
control_v11f1p_sd15_depth.yaml[13]
模型位置%SD/models/ControlNet/
预处理器1dpt_hybrid-midas-501f0c75.pt[14]
预处理器1
放置位置%SD/extensions/sd-webui-controlnet/annotator/downloads/midas/
预处理器2res101.pt[15],
latest_net_G.pth[16]
预处理器2
放置位置%SD/extensions/sd-webui-controlnet/annotator/downloads/leres/
预处理器3ZoeD_M12_N.pt[17]
预处理器3
放置位置%SD/extensions/sd-webui-controlnet/annotator/downloads/zoedepth/

名称canny
功能勾勒图像的边沿特征(还原图像外形特征)、且会保留内部细节,可用于线稿上色。
模型下载control_v11p_sd15_canny.pth[18],
control_v11p_sd15_canny.yaml[19]
模型位置%SD/models/ControlNet/
预处理器

名称hed / softEdge
功能柔和边沿,和 canny 功能类似,但是边沿会更模糊,只保留轮廓特征。
模型下载control_v11p_sd15_softedge.pth[20],
control_v11p_sd15_softedge.yaml[21]
模型位置%SD/models/ControlNet/
预处理器

名称scribble
功能比 softEdge 更自由奔放的描摹(涂鸦乱画、灵魂画手)
模型下载control_v11p_sd15_scribble.pth[22],
control_v11p_sd15_scribble.yaml[23]
模型位置%SD/models/ControlNet/
预处理器1table5_pidinet.pth[24]
预处理器1
放置位置%SD/extensions/sd-webui-controlnet/annotator/downloads/pidinet/
预处理器2ControlNetHED.pth[25]
预处理器2
放置位置%SD/extensions/sd-webui-controlnet/annotator/downloads/hed/

名称tile
功能搭配 MultiDiffusion 区块化放大图片
模型下载control_v11f1e_sd15_tile.pth[26],
control_v11f1e_sd15_tile.yaml[27]
模型位置%SD/models/ControlNet/
预处理器

基本使用

可以说,ControlNet 最困难的部分就是安装。使用它其实非常简单。

例如我现在希望让 AI 画出「刻晴在海边弹尤克里里」的画面,在过去我们的做法就是:

  1. 找一个 刻晴 的角色 LoRA

  2. 添加提示词 sunset, beach, stand in sea, play ukulele,

  3. 无限重绘直到得到自己满意的图

那我们就可能得到大量的 “刻晴拿着琴身”、“刻晴掰断琴头”、“刻晴抱着琴不弹” 等一堆无法满足需求的画面。最后万不得已挑了一张稍微能接受的 “刻晴抱着琴不弹”,就完事了:

但现在有了 ControlNet,我们就可以一步到位、不需要碰运气了。

在前面的基础上,我们再从网上找一张自己满意的「弹尤克里里」的图片,要是真的找不到,哪怕自拍一张拿着扫帚的照片也是可以的:

使用 3D Openpose 捏动作

还记得前面装了一个 sd-webui-3d-open-pose-editor 插件吧?

其实也可以用它去把自己想要的姿势捏出来:

不过捏的时候虽然是 3D,实际上发送到 ControlNet 之后会投影到 2D 平面上, z 轴的坐标还是被抹掉了。

然后把这个照片导入 ControlNet (导入前需要裁剪宽高比例和出图比例一致):

  1. 勾选启用

  2. 选择 Control Type 为 openpose, 然后预处理器和模型都会自动选中 openpose 相关的选项(需要提前安装模型)

  3. openpose 的预处理器有五种类型,按需选择即可:

  • openpose: 仅识别人体姿态骨架

  • openpose_face: 识别人体姿态骨架 + 脸部特征

  • openpose_faceonly: 仅识别脸部特征

  • openpose_full: 识别人体姿态骨架 + 脸部特征 + 手部特征

  • openpose_hand: 识别人体姿态骨架 + 手部特征

  1. 点击预处理器旁边的「爆炸」按钮,就会识别中图片中的人体,生成人体姿态的预览图

当点击「生成」图片按钮后,ControlNet 就会把 「人体姿态信息」 + 「人体在图像中的相对位置」 都输入到 AI 绘图。

由于 ControlNet 的 openpose 不会识别人体姿态以外的任何信息,故参考图中的人物拿着什么、AI 是不知道的,因此我们需要在提示词中进一步打辅助:告诉 AI “刻晴正在用这个姿势 play ukulele”, AI 就会 get 到手上空出来的位置是拿着尤克里里了。

多重控制网

不难注意到,ControlNet 其实最多支持同时使用 3 个模型,当使用 2 个以上的 ControlNet 时,称之为多重控制网。

那什么场景下会用到多重控制网呢?一个典型的例子就是人体遮挡透视。

例如我现在希望画一张「刻晴双手遮住眼睛」的图像,虽然从网上找到了我想要的动作,但是 openpose 只能识别出人体各个部位的平面位置、却不能很好的反映出它们之间的透视信息(亦可理解为景深):

其实熟知视觉 AI 的同学就知道,openpose 提供的关键点 landmarks 只有 2D 的,z 轴信息被弱化了,导致不能呈现透视效果。反之如果 ControlNet 未来能引入像 mediapipe 之类的框架,就能提供 3D 的 landmarks,届时不需要多重控制网也能解决透视问题。

故而只使用 openpose 一个控制网,画出来的效果可能就是「刻晴双手抱在脑后」了:

解决的办法是引入另一张控制网打配合。

在这个场景下,因为透视/景深信息缺失才导致出图不准,因此可以引入擅长做这个事情的 depth 控制网:

  1. 保持 openpose 配置不变,切换到第二张控制网

  2. 选择控制网类型为 depth(需要提前安装模型)

  3. 导入和 openpose 一样的参考图,点击预处理器旁边的「爆炸」按钮,生成透视信息。在透视图中可以明显看到人物的手在头部前面,而不是脑后

  4. 适当减少 depth 控制网的权重,避免过多约束画面内容,我们的目的只需要让 AI 知道“手在眼前”的信息就够了

  5. 提示词可以添加 cover eyes with hands 打配合

看一下出图效果,这次就能够正确画出我们期望的结果:

建议使用多重控制网时,所选的多个 ControlNet 在能力上应该是**「互补」**的,否则徒增显存却不会提升多大的出图效果、甚至还有可能变差。

如果你的显存确实不够支撑多张控制网,不妨勾选「低显存优化」功能试试,当然出图效率会降低就是了

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

若有侵权,请联系删除
;