概述
原文地址:https://www.unite.ai/improving-green-screen-generation-for-stable-diffusion/
论文地址:https://arxiv.org/pdf/2411.15580
尽管社区研究和投资者对图像生成人工智能充满热情,但此类系统的输出并不总是可以直接用于产品开发中;一个简单例子是,生成人工智能系统倾向于输出整个图像(或者是视频中的一系列图像),而不是目标孤立的元素,但这些通常是多媒体中的各种应用程序以及视觉效果从业者所必需的。
一个简单的例子是剪贴画被设计为“浮动”(透明背景)在用户选择的任何目标背景上:
浅灰色格子背景可能是 Photoshop 用户最熟悉的,它代表 alpha 通道或透明通道,即使在诸如库存图片之类的简单消费品中也是如此。
这种透明度已经普遍存在了三十多年;自 1990 世纪 XNUMX 年代初的数字革命以来,用户已经能够通过日益复杂的一系列工具集和技术从视频和图像中提取元素。
例如,如何从视频片段中“去除”蓝屏和绿屏背景,曾经是昂贵的 化学过程和光学打印机 (以及 手工制作的哑光) 将成为 Adobe After Effects 和 Photoshop 应用程序等系统(以及许多其他免费和专有程序和系统)中几分钟的工作。
一旦元素被分离出来, alpha通道 (实际上是遮挡任何不相关内容的遮罩)允许将视频中的任何元素毫不费力地叠加在新背景上,或与其他孤立元素合成在一起。
方法
在计算机视觉中,alpha 通道的创建属于 语义分割,以及 Meta 等开源项目Segment Anything 通过语义增强的对象识别,提供一种可通过文本提示来隔离/提取目标对象的方法。
Segment Anything 框架已广泛应用于各种视觉效果提取和隔离工作流程,例如 Alpha-CLIP 项目.
在 Alpha-CLIP 框架中使用 Segment Anything 进行提取的示例
有许多可供选择的语义分割方法可以适用于分配 alpha 通道的任务。然而,语义分割要依赖于训练的数据,这些数据可能不包含所有需要提取的对象类别。尽管在非常大的数据量上训练的模型可以使更广泛的对象被识别(有效地成为基础模型或世界模型) ,但它们仍然受到它们被训练最有效地识别的类的限制。
语义分割系统(例如 Segment Anything)可能难以识别某些对象或对象的某些部分,正如这里模糊提示的输出所示。
无论如何,语义分割同样是一个事后过程如同绿屏程序,并且必须隔离元素,而没有可以有效识别和去除的单一背景色带的优势。因此,研究者偶尔会想到可以生成图像和视频实际上包含绿屏背景可以通过常规方法立即去除。
不幸的是,流行的潜在扩散模型,如稳定扩散往往有一些困难,渲染一个真正生动的绿色屏幕。这是因为模型的训练数据通常不包含这种相当专业的场景的大量例子。即使系统成功了,由于概念的纠缠,“绿色”的概念也会以一种不受欢迎的方式传播到前景主题:
上图中,我们可以看到稳定扩散优先考虑了图像的真实性,而不是创建单一强度的绿色,有效地复制了传统绿屏场景中出现的真实问题。下图中,我们可以看到“绿色”概念污染了前景图像。提示越关注“绿色”概念,这个问题就越有可能变得严重。
尽管使用了先进的方法,女人的衣服和男人的领带(见上面的下图)都会随着绿色的背景而“退出”——这个问题可以追溯到20世纪70年代和80年代光化学乳剂去除染料的时代。
与以往一样,模型的缺点可以通过向问题投入特定数据并投入大量训练资源来克服。斯坦福大学 2024 年推出的系统 LayerDiffuse创建 微调能够生成带有 alpha 通道图像的模型:
斯坦福 LayerDiffuse 项目对一百万张恰当的图像进行了训练,能够为模型注入透明度功能。
不幸的是,除了这种方法需要大量的管理和训练资源外,LayerDiffuse 使用的数据集不公开,限制了在其上训练的模型的使用。即使不存在这个障碍,这种方法也很难针对特定用例进行定制或开发。
2024 年晚些时候,Adobe Research 与纽约州立大学石溪分校合作制作 MAGICK,一种针对定制扩散图像进行训练的 AI 提取方法。
来自 2024 年的论文,MAGICK 中细粒度 alpha 通道提取的一个示例
150,000 个提取的 AI 生成对象被用于训练 MAGICK,以便系统对提取产生直观的理解:
来自 MAGICK 训练数据集的样本
正如源论文所述,由于上述原因,该数据集非常难以生成——扩散方法难以创建稳定的可抠像色带。因此,必须手动选择生成的遮罩。这种后勤瓶颈再次导致系统无法轻松开发或定制,而必须在其最初训练的能力范围内使用。
TKG-DM – Latent Diffusion模型的“原生”色度提取
德国和日本研究人员之间的新合作提出了一种替代此类训练方法的方法,该论文指出,这种方法能够获得比上述方法更好的结果,而无需在专门策划的数据集上进行训练。
TKG-DM 改变了生成图像的随机噪声,使其能够更好地生成任意颜色的纯色、可抠像的背景
该方法通过优化潜在扩散模型(如稳定扩散模型)中产生图像的随机噪声,在生成层次上解决了该问题。
该方法建立在对稳定扩散分布色彩模式的研究基础上,与其他方法相比,能够产生任何类型的背景色,较少(或没有)关键背景色与前景内容的纠缠。
初始噪声由通道均值偏移决定,该偏移能够影响去噪过程的各个方面,而不会将颜色信号纠缠到前景内容中。
论文指出:
“我们的大量实验表明,TKG-DM 能够提高 FID 分数33.7% ,而掩膜 FID 分数提高35.9% 。”。
因此,我们的免训模式可以与微调模式相媲美,为各种需要精确前景和背景控制的视觉内容创建任务提供了高效和通用的解决方案。’
这篇新论文的题目是《 TKG-DM: 无需培训的色度关键内容生成扩散模型》 ,来自东京和凯撒斯劳滕皇家科学院法政大学研究所的7名研究人员。
实现方法
该方法扩展了稳定扩散的体系结构,通过信道均值漂移(CMS)调节初始高斯噪声,从而产生噪声模式,以鼓励所需的背景/前景分离生成的结果。
CMS 在保持去噪过程总体发展的同时,调整每个颜色通道的平均值。
作者解释道:
为了在色度键背景上生成前景对象,我们应用了一个初始噪声选择策略,使用一个2D 高斯[掩模]有选择性地结合初始[噪声]和初始颜色[噪声]。这个掩模通过保留前景区域的原始噪声并将色移噪声应用到背景区域来创建一个渐变过程。’
背景色度所需的颜色通道通过空文本提示来实例化,而实际的前景内容则是根据用户的文本指令在语义上创建的。
自我注意和交叉注意被用来分离图像的两个方面(色度背景和前景内容)。自我注意有助于前景对象的内部一致性,而交叉注意保持对文本提示的忠实性。本文指出,由于背景图像通常不那么详细和强调的世代,其较弱的影响是相对容易克服和替代的纯色样本。
色度风格生成过程中自我注意力和交叉注意力影响的可视化。
数据与测试
使用Stable Diffusion V1.5 和Stable Diffusion SDXL 测试 TKG-DM。分别在512x512px 和1024x1024px 产生图像。图像创建使用 DDIM 调度程序本机的稳定扩散,在7.5的指导尺度,与50个去噪步骤。目标背景颜色是绿色,现在占主导地位的辍学方法。新的方法是比较 DeepFloyd,在设置下使用的 MAGICK; 微调低等级扩散模型 GreenBack LoRA; 以及前面提到的分层漫射。
对于数据,使用了来自 MAGICK 数据集的3000幅图像。
来自 MAGICK 数据集的示例,从中挑选了 3000 张图像用于新系统的测试。
对于指标,作者使用 Fréchet 初始距离(FID)来评估前景质量。他们还开发了一个称为 m-FID 的项目特定指标,该指标使用 BiRefNet 系统来评估产生的掩模的质量。
BiRefNet 系统与之前方法的视觉比较
作者断言,结果(分别在上面和下面可视化,SD1.5和 SDXL)表明,TKG-DM 在没有及时工程或训练或微调模型的必要性的情况下获得优越的结果。
作者断言,结果(上图和下图分别为 SD1.5 和 SDXL)表明 TKG-DM 无需进行快速工程设计,也无需训练或微调模型即可获得优异的结果。
他们观察到,当需要在生成的结果中引入绿色背景时,Stable Diffusion 1.5 很难生成干净的背景,而 SDXL(虽然性能稍好一些)会产生不稳定的浅绿色色调,容易干扰色度过程中的分离。
他们进一步指出,虽然 LayerDiffuse 可以生成分离良好的背景,但偶尔会丢失细节,例如精确的数字或字母,作者将此归因于数据集的限制。他们补充说,蒙版生成有时也会失败,导致“未剪切”的图像。
对于定量测试,虽然 LayerDiffuse 在 SDXL 中对 FID 显然具有优势,但作者强调,这是专门数据集的结果,该数据集实际上构成了“烘焙”且不灵活的产品。如前所述,该数据集未涵盖或未充分涵盖的任何对象或类别可能表现不佳,而进一步微调以适应新类别会给用户带来管理和训练负担。
该论文指出:
“DeepFloyd 的高 FID、m-FID 和 CLIP-I 得分反映了它与基于 DeepFloyd 输出的地面实况的相似性。然而,这种对齐方式赋予了它固有的优势,使其不适合作为图像质量的公平基准。与其他模型相比,其较低的 CLIP-S 得分进一步表明文本对齐较弱。
总体而言,这些结果强调了我们的模型无需微调即可生成高质量、文本对齐前景的能力,从而提供了高效的色度键内容生成解决方案。
最后,研究人员进行了一项用户研究,以评估各种方法的及时遵守情况。要求 30 名参与者评判每种方法中的 XNUMX 个图像对,使用 BiRefNet 提取主题,并对所有示例进行手动细化。本研究首选作者的无训练方法。
TKG-DM 与流行的 控制网 第三方稳定扩散系统,作者认为它比 ControlNet 实现这种分离的本机能力产生更好的结果。
总结
这篇新论文最值得注意的一点可能是潜在扩散模型的纠缠程度,这与公众普遍认为的在生成新内容时可以毫不费力地分离图像和视频的各个方面形成了鲜明对比。
该研究进一步强调了研究和爱好者社区在多大程度上将微调作为事后修复模型的缺点——解决方案始终针对特定类别和类型的对象。在这种情况下,经过微调的模型要么在有限数量的类别上工作得很好,要么在有限数量的类别上工作得很好可以忍受根据训练集中的大量数据,可以很好地处理更多可能的类别和对象。
因此,看到至少有一个不依赖于这种费力且可能不诚实的解决方案是令人欣慰的。