Bootstrap

一文搞懂扩散模型Diffusion Models

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

汇总合集

《大模型面试宝典》(2024版) 发布!
《大模型实战宝典》(2024版) 发布!


本文将从扩散模型的本质_、扩散模型的原理、扩散模型的应用_三个方面,带您一文搞懂扩散模型 Diffusion Models。
图片

扩散模型Diffusion Models

一、扩散模型的本质

扩散模型的定义:Diffusion Models是一种新型的、先进的生成模型,用于生成与训练数据相似的数据,可以生成各种高分辨率图像。

图片

扩散模型的定义

扩散模型的核心思想:Diffusion Models是一种受到非平衡热力学启发的生成模型,其核心思想是通过模拟扩散过程来逐步添加噪声到数据中,并随后学习反转这个过程以从噪声中构建出所需的数据样本。

图片

扩散过程

扩散模型的本质:利用马尔可夫链来定义扩散步骤,通过每一步的状态转移来逐渐将数据“破坏”成纯噪声。然后,通过训练神经网络来逼近真实的反转扩散过程,扩散模型能够从纯噪声中逐步还原出原始数据。

图片

扩散模型的本质

二、扩散模型的原理

扩散模型的工作原理:Diffusion Models通过连续添加高斯噪声来破坏训练数据,然后通过学习反转的去噪过程来恢复数据。训练后,我们可以使用 Diffusion Model将随机采样的噪声传入模型中,通过学到的去噪过程来生成数据。

图片

扩散模型的工作原理

扩散模型是一种隐变量模型,它使用马尔可夫链来映射到隐空间。这种映射使得模型能够在隐空间中捕捉数据的内在结构和模式。

图片

扩散模型的隐空间

马尔可夫链:无记忆的随机过程,具有马尔可夫性质,即未来只与现在有关,而与过去无关。

图片

马尔可夫链

扩散模型的组成部分:扩散模型主要包含前向扩散和逆扩散两部分。

图片

前向扩散和逆扩散

前向扩散:向原始数据逐步添加噪声的过程,直到数据变为纯噪声。

虽然这个过程本身并不能直接生成图片,但它对于理解扩散模型的工作原理以及构建训练样本的目标(ground truth,简称GT)至关重要。

图片

前向扩散

逆扩散:前向扩散的逆操作,从纯噪声开始,逐步去除噪声以还原出原始数据。

这个过程依赖于模型学习到的如何从噪声中恢复出原始数据的模式。模型通过神经网络学习逆扩散过程,从而能够生成与原始数据相似的样本。

图片

逆扩散

三、扩散模型的应用

稳定扩散模型(Stable Diffusion):Stable Diffusion 是 Diffusion 扩散模型中最先进的模式。它采用了更加稳定、可控和高效的方法来生成高质量图像。

图片

稳定扩散模型

Stable Diffusion模型在2022年8月由CompVis、Stability AI和LAION的研究人员推出,其核心技术来源于AI视频剪辑技术创业公司Runway的首席研究科学家Patrick Esser,以及慕尼黑大学机器视觉学习组的Robin Rombach。

图片

stability.ai

DALL-E 2:由 OpenAI 开发,以基于文本描述的高度详细且富有创意的图像而闻名。

图片

DALL-E 2

它使用先进的扩散技术来生成既富有想象力又逼真的图像,使其成为创意和艺术应用中的流行工具。

图片

技术交流

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了算法岗面试与技术交流群, 想要进交流群、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2040。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、微信搜索公众号:机器学习社区,后台回复:技术交流
方式②、添加微信号:mlc2040,备注:技术交流+CSDN

用通俗易懂的方式讲解系列

;