Bootstrap

Midjourney技术浅析(六):图像后处理

Midjourney 的图像质量评估技术对于生成高质量图像至关重要。

一、判别器(Discriminator)

1.1 判别器的作用

判别器是生成对抗网络(GAN)中的核心组件之一,用于区分生成的图像和真实图像。在 Midjourney 中,判别器的主要作用是:

  • 质量评估:评估生成图像的质量,区分高质量和低质量图像。
  • 对抗训练:通过与生成器(Generator)进行对抗训练,指导生成器生成更逼真、更符合人类审美的图像。

1.2 判别器的架构

Midjourney 采用类似于 StyleGAN 或 BigGAN 的判别器架构,以下是一个典型的判别器架构:

  • 输入层(Input Layer)

    • 输入图像的尺寸通常为 256x256 或 512x512 像素。
  • 卷积层(Convolutional Layers)

    • 使用多个卷积层提取图像的特征。
    • 每个卷积层通常包含卷积操作、激活函数(例如 ReLU)和归一化(例如 Batch Normalization)。
  • 下采样层(Downsampling Layers)

    • 通过池化操作(例如 Max Pooling)或步幅卷积(Strided Convolution)进行下采样,降低特征图的分辨率。
  • 全连接层(Fully Connected Layers)

    • 将提取的特征映射到低维空间。
    • 最后一层全连接层输出一个标量值,表示图像是真实图像的概率。
  • 输出层(Output Layer)

    • 使用 Sigmoid 激活函数将输出值映射到 [0,1] 区间,表示图像是真实图像的概率。

1.3 判别器的训练过程

判别器的训练过程可以概括为以下几个步骤:

1.数据准备

  • 真实图像:从真实数据集中采样。
  • 生成图像:从生成器中采样。

2.前向传播(Forward Propagation)

  • 将真实图像和生成图像输入判别器,分别得到判别器对它们的预测值。

3.损失计算(Loss Calculation)

  • 对抗损失(Adversarial Loss)
    • 使用二元交叉熵损失(Binary Cross-Entropy Loss)作为对抗损失。
    • 对于真实图像&#
;