🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎
📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃
🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝
📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】 深度学习【DL】
🖍foreword
✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。
如果你对这个系列感兴趣的话,可以关注订阅哟👋
文章目录
随着Dall-E 2、Google Imagen、Stable Diffusion和Midjourney的发布,扩散模型席卷了全世界,激发了创造力并突破了机器学习的界限。
这些模型可以根据文本提示生成近乎无限多种图像,包括逼真的、奇幻的、未来的,当然还有可爱的。
这些功能重新定义了人类与硅交互的意义,赋予我们超能力来生成几乎任何我们能想象到的图像。即使具有先进的功能,扩散模型也确实存在局限性,我们将在指南的后面部分介绍这些局限性。但随着这些模型的不断改进或下一个生成范式的出现,它们将使人类只需一个想法就能创造图像、视频和其他沉浸式体验。
在本指南中,我们将探讨扩散模型、它们的工作原理、实际应用以及未来的发展。
什么是扩散模型?
生成模型是一类可以根据训练数据生成新数据的机器学习模型。其他生成模型包括生成对抗网络 (GAN)、变分自动编码器 (VAE) 和基于流的模型。每一种都可以产生高质量的图像,但它们都有局限性,使得它们不如扩散模型。
在较高层面上,扩散模型的工作原理是通过添加噪声来破坏训练数据,然后学习通过逆转该噪声过程来恢复数据。换句话说,扩散模型可以从噪声中生成相干图像。
扩散模型通过向图像添加噪声来进行训练,然后模型学习如何去除噪声。然后,该模型将这种去噪过程应用于随机种子以生成逼真的图像。
与文本到图像的指导相结合,这些模型可以通过调节图像生成过程,仅从文本创建近乎无限种的图像。来自 CLIP 等嵌入的输入可以引导种子提供强大的文本到图像的功能。
扩散模型可以完成各种任务,包括图像生成、图像去噪、修复、外绘和位扩散。
流行的扩散模型包括 Open AI 的 Dall-E 2、Google 的 Imagen 和 Stability AI 的 Stable Diffusion。
- Dall-E 2 :Dall-E 2 于 2022 年 4 月发布,以比原始 Dall-E 更高的分辨率生成更逼真的图像。自 2022 年 9 月 28 日起,Dall-E 2 在 OpenAI 网站上向公众开放,提供数量有限的免费图像和可供购买的附加图像。
- Imagen是 Google 2022 年 5 月推出的文本到图像扩散模型的版本,目前尚未向公众开放。
- Stable Diffusion:2022年8月,Stability AI发布了Stable Diffusion,这是一个类似于Dall-E 2和Imagen的开源Diffusion模型。Stability AI 发布了开源代码和模型权重,向整个 AI 社区开放模型。Stable Diffusion 在开放数据集上进行训练,使用 CLIP 过滤的图像文本对开放数据集LAION 5b的 20 亿个英文标签子集,LAION 5b 是由德国慈善机构 LAION 创建的互联网通用爬网。
- Midjourney是 2022 年 7 月发布的另一个扩散模型,可通过 API 和 Discord 机器人使用。
简而言之,扩散模型是生成工具,使用户能够创建几乎任何他们可以想象的图像。
扩散模型:为什么它们很重要?
扩散模型代表了当今生成能力的顶峰。然而,这些模型站在巨人的肩膀上,它们的成功得益于十多年来机器学习技术的进步、大量图像数据的广泛使用以及硬件的改进。
对于某些背景,下面是重要机器学习发展的简要概述。
- 2009 年,CVPR发布了开创性的Imagenet论文和数据集,其中包含超过 1400 万张手工注释图像。该数据集当时规模庞大,至今仍与研究人员和企业构建模型相关。
- 2014 年,Ian Goodfellow 推出了 GAN,为机器学习模型建立了强大的生成能力。
- 2018 年,LLM 凭借最初的 GPT 版本登场,不久之后又推出了其后继者 GPT-2 和当前的 GPT-3,它们具有文本生成功能。
- 2020 年,NerF允许世界从一系列图像和已知的相机姿势中生成 3D 对象。
- 在过去的几年里,扩散模型继续了这种演变,为我们提供了更强大的生成能力。
扩散模型与前辈有何显着不同?最明显的答案是它们能够生成高度逼真的图像,并且比GAN更好地匹配真实图像的分布。此外,扩散模型比 GAN 更稳定,GAN 会受到模式崩溃的影响,它们仅代表训练后数据真实分布的几种模式。这种模式崩溃意味着在极端情况下,任何提示都只会返回单个图像,尽管问题在实践中并不那么极端。扩散模型避免了这个问题,因为扩散过程使分布变得平滑,从而使扩散模型比 GAN 具有更多的图像多样性。
扩散模型还可以以各种输入为条件,例如用于生成文本到图像的文本、用于生成布局到图像的边界框、用于修复的蒙版图像以及用于超分辨率的低分辨率图像。
扩散模型的应用非常广泛,并且这些模型的实际用途仍在不断发展。这些模式将极大地影响零售和电子商务、娱乐、社交媒体、AR/VR、营销等。
扩散模型入门
Open AI 的 Dall-E 2和Stable Diffusion 的 DreamStudio等 Web 应用程序使扩散模型易于使用。这些工具为初学者提供了一种快速简便的方法来开始使用扩散模型,使您可以根据提示生成图像并执行修复和修复。DreamStudio 提供了对输出参数的更多控制,而 Dall-E 2 的界面更简单,更少的装饰。每个平台都向新用户提供免费积分,但一旦这些积分耗尽就会收取使用费。
- DreamStudio:来自 Stability AI 的 DreamStudio 是用户体验 Stable Diffusion 的快速方法,而无需担心基础设施细节。有用于图像生成、修复和修复的工具。独特的是,该界面使用户能够指定随机种子,从而能够在保持提示固定的同时遍历潜在空间(稍后会详细介绍)。新用户可获得 200 个免费积分。
- Dall-E 2:OpenAI 最近宣布,Dall-E 2 现已向所有用户开放,结束了之前的封闭测试。Dall-E 2 提供了一个简单的用户界面,没有太多装饰,可以生成图像、修复和修复。
- 本地安装:
- Stability AI 宣布开源其 Diffusion 模型 Stable Diffusion 的模型权重和源代码,成为头条新闻。
- 您可以在本地计算机上下载并安装 Stable Diffusion ,并将其功能集成到应用程序和工作流程中。
- 其他模型(例如 Dall-E 2)目前只能通过 API 或 Web 应用程序使用,因为它们的模型不像 Stable Diffusion 那样开源。
扩散模型提示工程
提示是您控制扩散模型输出的方式。扩散模型很冗长,需要两个主要输入,并将它们转换为模型潜在空间中的固定点、种子整数和文本提示。种子整数一般是自动生成的,由用户提供文字提示。通过即时工程进行持续实验对于获得完美结果至关重要。我们探索了 Dall-E 2 和稳定扩散,并整合了我们的最佳提示和技巧,以充分利用您的提示,包括提示长度、艺术风格和关键术语,以帮助您塑造想要生成的图像。
如何提示
一般来说,提示由三个主要组成部分:
框架 + 主题+样式+可选种子。
1. 帧 -图像的帧是要生成的图像的类型。这与提示中稍后的样式相结合,以提供图像的整体外观和感觉。框架的示例包括照片、数字插图、油画、铅笔画、线条画和绘景。
- 以下示例是基本提示“杂货店里的人物画”的修改版本,采用油画、数字插图、写实照片和 3D 卡通框架。
- 如果未指定,扩散模型通常默认为“图片”框架,尽管这取决于主题。通过指定图像的帧,您可以直接控制输出。
- 通过将框架修改为“宝丽来”,您可以模仿宝丽来相机的输出,并带有大的白色边框。
- 也可以制作铅笔画。
- 正如已经介绍的,可以应用不同的绘画技术。
- 框架为扩散模型应生成的输出类型提供了粗略指南。但为了创造出出色的图像,还应该在提示中添加良好的主题和精致的风格。接下来我们将介绍主题,然后详细介绍组合框架、主题和样式以微调图像的提示和技巧。
2. 主题 -生成图像的主要主题可以是您能想到的任何内容。
- 扩散模型主要是根据公开的互联网数据构建的,能够生成现实世界中存在的物体的高精度图像。
- 然而,扩散模型经常与组合性作斗争,因此理想情况下,将提示限制为一到两个主题是最好的。
- 坚持一两个主题通常会产生良好的效果,例如“厨师在砧板上切胡萝卜”。
- 尽管这里有一把刀砍另一把刀的混乱,但场景中有切碎的胡萝卜,总体上与原始提示接近。
- 然而,扩展到两个以上的主题可能会产生不可靠、有时甚至是幽默的结果:
- 如果受试者不太常见,则扩散模型倾向于将两个受试者融合为一个受试者。例如,提示“长颈鹿和大象”会产生长颈鹿-大象杂交体,而不是单个长颈鹿和单个大象。有趣的是,场景中经常有两只动物,但每只动物通常都是杂交动物。
- 一些阻止这种情况的尝试,包括添加像“旁边”这样的介词,虽然结果好坏参半,但更接近提示的原始意图。
- 这个问题似乎与主题相关,因为一对更受欢迎的动物,例如“狗和猫”,可以毫无问题地生成不同的动物。
3. 风格——图像的风格有几个方面,关键是灯光、主题、艺术影响或时期。
- “美丽的灯光”、“现代电影”或“超现实主义”等细节都会影响图像的最终输出。
- 回到“厨师切胡萝卜”的提示,我们可以通过应用新的样式来影响这个简单的图像。在这里,我们看到了“现代电影风格”应用于“油画”和“图片”的画面。
- 图像的色调可以通过一种风格来塑造,在这里我们看到“幽灵般的灯光”。
- 您可以通过稍微修改样式来微调生成图像的外观。我们从“郊区的一栋房子”的空白开始。
- 通过添加“美丽的超现实主义艺术”,我们可以获得更加动态和强烈的图像。
- 对此进行调整,我们可以通过用“幽灵般的可怕”一词替换“美丽的灯光”来为图像提供一个幽灵般的主题。
- 将其应用到不同的框架以获得所需的输出,在这里我们看到与油画框架相同的提示。
- 然后我们可以将色调更改为“快乐光”并看到输出的巨大差异。
- 您可以更改艺术风格以进一步细化图像,在本例中从“超现实主义艺术”切换为“新艺术风格”。
- 作为框架如何影响输出的另一个演示,这里我们切换到具有相同风格的“水彩”。
- 可以将不同的季节应用于图像以影响图像的设置和色调。
- 框架和样式的组合有近乎无限多种,我们在这里只触及表面。
- 艺术家也可以用来微调您的提示。以下是同一提示“在杂货店购物的人”的版本,其风格看起来像著名历史画家的艺术品。
- 通过与艺术家一起应用不同的风格和框架,您可以创作出新颖的艺术品。
- 从基本提示“在城市{艺术家} 8K 高度详细的人类机器人绘画”开始。
- 虽然这个主题对于这个群体来说有点非正统,但每幅画都符合每个艺术家的预期风格。
- 我们可以通过修改音调来改变风格,在本例中为“静音音调”:
- 您可以通过修改框架和色调来进一步改变输出,以获得独特的结果,在本例中,是带有霓虹灯色调的“3D 模型绘画”的框架。
- 添加限定词“您见过的最美丽的图像”会产生引人注目的结果。
- “3D模型画”等描绘方式产生了独特、新颖的艺术作品。
- 通过修改图像的框架和风格,您可以产生一些令人惊奇和新颖的结果。除了我们提供的示例之外,还可以尝试不同的风格修饰符组合,包括“戏剧性灯光”或“水洗颜色”,以进一步微调您的概念。
- 我们在本指南中几乎没有触及皮毛,并期待社区带来令人惊叹的新创作。
4. 种子
- 相同种子、相同提示和相同版本的稳定扩散的组合将始终产生相同的图像。
- 如果您在同一提示下获得不同的图像,则可能是由于使用随机种子而不是固定种子造成的。例如,“亮橙色网球鞋,逼真灯光电子商务网站”可以通过修改随机种子的值来改变。
- 更改任何这些值都会产生不同的图像。您可以将提示或种子保留在适当的位置,并通过更改其他变量来遍历潜在空间。该方法提供了一种确定性的方法来查找相似图像并稍微改变图像。
- 将提示更改为“亮蓝色麂皮正装鞋,逼真的照明电子商务网站”并将种子固定在 3732591490 处,会产生具有相似成分但与所需提示匹配的结果。再次,保持该提示并通过更改种子遍历潜在空间会产生不同的变化:
总结一下构建提示的一个好方法是包含“[框架][主要主题][风格类型][修饰符]”或“[主要主题]的[框架类型],[风格示例]”的元素还有一个可选的种子。这些确切短语的顺序可能会改变您的结果,因此,如果您正在寻找特定结果,最好尝试所有这些值,直到您对结果感到满意为止。
4. 提示长度
一般来说,提示应该尽可能详细,以获得所需的结果。最好从简单的提示开始,对返回的结果进行试验,然后完善提示,根据需要延长长度。
然而,许多经过微调的提示已经存在,应该重用或修改。
“超现实”、“辛烷值渲染”和“虚幻引擎”等修饰符往往有助于提高图像质量,正如您在下面的一些示例中看到的那样。
- “一位戴着眼镜的女性日间交易员,在干净的家庭办公室里,在电脑前工作,看着窗外,超现实,概念艺术,复杂的细节,严肃,高度详细,逼真,辛烷渲染,8 k,虚幻引擎”
- “一个男人用绿色、紫色和粉色面部彩绘严肃地凝视着眼睛的肖像照片,50 毫米肖像摄影,硬框照明摄影 –beta –ar 2:3 –beta –upbeta”
- “极其详细的广角照片,大气,夜晚,反射,屡获殊荣的当代现代室内设计公寓客厅,舒适而平静,织物和纺织品,几何木雕,色彩缤纷的口音,反光黄铜和铜装饰,阅读角落,许多光源、灯具、涂油硬木地板、按颜色分类的书架、沙发、电视、书桌、植物”
- “超写实、重细节的2050年时装周T台秀,徕卡SL2 50mm,色彩鲜艳,高品质,高质感,真实生活”
- “全身赛博朋克风格的雕塑,是一位年轻英俊的哥伦比亚王子半机器人,胸部开口,暴露出电路和电火花,发光的粉红色眼睛,蓝色花冠,流动的鲑鱼色丝绸,织物,猛禽。巴洛克元素。全长视图。巴洛克元素。卡拉瓦乔的复杂艺术作品。背景上有很多很多鸟。artstation 上的趋势、辛烷渲染、右侧电影照明、超现实主义、辛烷渲染、8k、景深、3d”
- “悬崖上令人敬畏的阳光明媚的环境概念艺术的建筑插图,隈研吾的建筑,包括村庄、住宅区、混合开发、高层楼梯、阳台、充满透明玻璃幕墙、cgociety、梦幻般的现实主义、艺术站总部、电影、体积照明、vray”
5. 额外提示
还有一些额外的项目值得一提。
将图像的主要主题放置在更靠近提示开头的位置往往可以确保该主题包含在图像中。例如,比较两个提示
- “有黑色天鹅绒沙发的城市街道”有时会完全错过提示的意图,并且生成的图像将不包括沙发。
- 通过重新排列提示以使关键字“沙发”更靠近提示的开头,生成的图像几乎总是包含沙发。
主题和地点的组合往往会产生较差的结果。例如,“月球表面的黑色天鹅绒沙发”会产生不均匀的结果,具有不同的背景并且完全缺少沙发。然而,类似的提示“沙漠中的黑色天鹅绒沙发”往往更能体现提示的意图,更准确地捕捉天鹅绒材质、黑色和场景特征。据推测,训练数据中包含更多的沙漠图像,使得该模型比月球更能更好地为沙漠创建连贯的场景。
即时工程是一个不断发展的话题,每天都会发现新的提示和技巧。随着越来越多的企业发现扩散模型帮助解决问题的力量,一种新型职业“即时工程师”很可能会出现。
扩散模型的局限性
尽管扩散模型很强大,但它也有局限性,我们将在这里探讨其中的一些局限性。免责声明:鉴于开发速度很快,截至 2022 年 10 月,我们已注意到这些限制。
- 面部扭曲:当拍摄对象数量超过 3 时,面部会变得严重扭曲。例如,“一家六口在咖啡馆里互相看着对方,手里拿着咖啡杯交谈,街对面的公园是徕卡 sl2 50mm,鲜艳的色彩、高品质、高质感、真实生活”,脸部变得严重扭曲。
- 然而,增加提示中的主题数量会导致面部严重扭曲。例如这个更新的提示,“一家六口在咖啡馆交谈,互相看着对方,手里拿着咖啡杯,街对面的一个公园,徕卡SL2 50mm,色彩鲜艳,高品质,高质感,现实生活, ” 结果如下:
- 文本生成:具有讽刺意味的是,扩散模型在图像中生成文本方面非常糟糕,尽管图像是根据文本提示生成的,而扩散模型可以很好地处理文本提示。对于提示“一名男子在会议上穿着黑色 T 恤,上面用霓虹灯文字写有 SCALE 一词”,在最好的情况下,生成的图像将包括衬衫上的文字,但不会重新创建“Scale”,在这种情况下,而是包括字母“Sc-sa Salee”。在其他情况下,这些文字可能会出现在标牌上、墙上,或者根本不包含在内。这可能会在这些模型的未来版本中得到修复,但值得注意的是。
- 有限的提示理解:对于某些图像,它确实需要大量的提示才能获得所需的输出,从而降低了这些模型作为生产力工具的潜在效率,尽管它们仍然是净生产力的增加。
扩散模型:附加功能和工具
扩散模型的灵活性赋予它们比纯粹图像生成更多的功能。
- 修复是一种图像编辑功能,使用户能够修改图像的区域并用扩散模型生成的内容替换这些区域。该模型参考周围的像素,以确保各代符合原始图像的上下文。许多工具通过“擦除”或将遮罩应用到特定图像区域,然后要求模型用新内容填充图像来实现图像(真实世界图像或生成图像)内的更改。通过修复,您可以从真实世界或生成的图像开始。在本例中,图像是现代城市中靠在墙上的模特。
- 然后,您可以将“蒙版”应用到要替换的图像区域,类似于擦除图像区域。首先,我们将更换模特穿着的夹克。
- 然后,我们将为模特生成新的服装,在本例中是一件漂亮的华丽礼服,带有粉红色亮点。
- 或者是带有橙色亮点且细节丰富的亮紫色和粉色羊毛夹克。
- 上面的图像保持了原始姿势,但这些模型还可以建议新的姿势,在这种情况下,将手臂向下移动到一侧,如本例所示,“紫色和粉色的发光霓虹灯夹克”
- “带有金钉的皮夹克”也展示了材料的多样性
- 还有“闪亮的半透明外套霓虹灯”
- 修复还可以替换背景元素,只需删除它们并填充背景,或者生成原始图像中不存在的新背景。从遮盖背景中的两极开始:
- 要生成新背景,请应用蒙版并生成新场景,在本例中为“带有飞行汽车的未来城市景观”。
正如您所看到的,修复对于快速编辑图像和动态生成新场景来说非常强大。
将来,预计这些工具的功能将更加高效,而无需用户编辑蒙版。通过简单地描述所需的编辑,即“用未来城市景观替换背景”,图像将自动编辑,无需点击鼠标或敲击键盘。
2 . 外画
外画使用户能够通过继续图像超出其原始边界来扩展他们的创造力 - 以相同的风格添加视觉元素,或者仅通过使用自然语言描述将故事带向新的方向。
从真实世界的图像或生成的图像开始,您可以将该图像扩展到原始边界之外,直到获得更大、连贯的场景。
- 真实世界的图像绘制
- 首先上传图像并选择外边框上您想要扩展图像的区域。
- 与修复类似,您随后会生成提示,生成连贯的场景来扩展原始图像。
- 生成图像修复的工作方式大致相同。首先生成一个用作种子的场景。外部场景适合更广阔的外画,因此我们将从“中央公园看着天际线,人们以印象派风格在草地上”开始。
- 现在添加一个人和他的狗玩飞盘的人。
- 请注意,提示并未指定天际线应与原始图像保持一致。模型会自动维护和扩展背景样式,因此您可以专注于添加您想要看到的元素。
- 最后,我们将添加一个正在野餐的家庭,我们就得到了最终的图像。
绘制需要额外的快速细化层才能生成连贯的场景,但使您能够快速创建大型图像,而使用传统方法创建需要更长的时间。
外画可以发挥令人印象深刻的创造力,并能够构建主题和风格保持一致的大型场景。与修复类似,通过提供单个提示并获取您正在寻找的确切图像,使生成所需场景变得更加简单,因此还有改进此功能的空间。
3. 视频生成的扩散
正如我们所看到的,生成静态图像是令人兴奋的,并且提供了许多实际应用。最近发布的几个模型采用了扩散模型的功能并将其扩展为创建视频。这些功能尚未到达更广泛的受众手中,但很快就会推出。
- Meta 的 Make-A-Video是一种新的人工智能系统,可以让人们将文本提示转换成简短的高质量视频剪辑。
- Google 的 Imagen Video以类似的方式生成大约 5 秒的视频。
4. 扩散模型图像管理网站
像Lexica.art这样的管理网站提供了精心策划的生成图像集合以及用于创建它们的提示。数以百万计的图像已被索引,因此您最初认为必须生成的图像很可能已经存在,并且只需快速搜索即可。搜索延迟低,扩散模型生成图像不需要等待一到两分钟,几乎可以立即获得图像。这对于试验或搜索图像类型或探索提示非常有用。Lexica 也是学习如何提示获得所需结果的好方法(此处包含几个示例)
扩散模型:今天和未来的实际应用
扩散模型的明显应用是集成到设计工具中,使艺术家能够更具创造力和效率。事实上,第一批这些工具已经发布,其中包括将 Dall-E 2 集成到其工具中的Microsoft Designer。电子商务领域存在着巨大的机遇,包括产品的生成设计、完全生成的目录、交替角度生成等等。
产品设计将获得强大的新设计工具的支持,这将增强他们的创造力,并提供查看产品在家庭、办公室和其他场景中的外观的能力。随着的进步,可以3D扩散技术通过提示创建产品的完整 3D 渲染。将这一点发挥到极致,这些 3D 渲染可以打印为 3D 模型,并在现实世界中栩栩如生。
营销将发生转变,因为广告创意可以动态生成,从而提供巨大的效率提升,并且测试不同创意的能力将提高广告的有效性。
娱乐行业将开始将扩散模型纳入特效工具中,这将实现更快、更具成本效益的制作。这将带来更具创意和狂野的娱乐概念,而这些概念在今天由于生产成本高昂而受到限制。同样,增强现实和虚拟现实体验将通过模型的近实时内容生成功能得到改善。用户只需发出声音就可以随意改变他们的世界。
围绕这些模型正在开发新一代工具,这将释放广泛的功能。
结论
扩散模型的巨大能力令人鼓舞,但我们还不知道其局限性的真正程度。
随着时间的推移,基础模型必然会扩展其功能,并且进展正在迅速加快。随着这些模型的改进,人类与机器交互的方式将从根本上改变。
推动社会、艺术和商业发展的机会有很多,但需要迅速采用技术才能看到这些好处。企业需要利用这一新功能,否则将面临严重落后的风险。我们期待着这样一个未来:人类很快就能创造出我们能想象到的任何东西,释放出无限的生产力和创造力。现在是开始这一旅程的最佳时机,我们希望本指南能够为这一旅程奠定坚实的基础。