🌺系列文章推荐🌺
扩散模型系列文章正在持续的更新,更新节奏如下,先更新SD模型讲解,再更新相关的微调方法文章,敬请期待!!!(本文及其之前的文章均已更新)
SD模型原理:
微调方法原理:
摘录来源:
https://zhuanlan.zhihu.com/p/643420260
目录
FID(Fréchet inception distance)【真实/生成图像相似性】
生成式模型的性能测评
到目前为止,AIGC领域的测评过程整体上还是比较主观。Stable Diffusion XL在性能测评时使用了FID(Fréchet inception distance),CLIP score以及
人类视觉系统
(HVS)评价这三个指标作为文生图的标价指标,其中人类视觉系统依旧是占据主导地位。
下面,跟着Rocky一起来看看各个评价指标的意义与特点,以及在不同的实际场景中,该如何对生成式模型做出有效的评估。
FID(Fréchet inception distance)【真实/生成图像相似性】
FID(Fréchet inception distance)表示生成图像与真实图像之间的相似性,即图像的真实度。FID表示的是生成图像的特征向量与真实图像的特征向量之间的距离,该距离越近(值越小),表明生成模型
的效果越好,即图像的清晰度高,且多样性丰富。
FID是通过Inception模型进行计算的。主要流程是将生成图像和真实图像输入到Inception模型中,并提取倒数第二层的2048维向量进行输出,最后计算两者特征向量之间的距离。
由于Stable Diffusion XL模型是文生图模型,并不存在原本的真实图像,所以一般选用COCO验证集上的zero-shot FID-30K(选择30K的样本)与生成图像进行求FID操作,并将其中最小的FID用于不同模型之间的性能对比。
但是有研究指出,FID对深入的文本理解,独特艺术风格之间的精细区分,以及明显的视觉美感等AIGC时代特有的特征不能很好的评估。同时也有研究表明,zero-shot FID-30K与视觉美学呈负相关。
CLIP score【图像文本一致性】
CLIP score可以用于评估文生图/图生图中生成图像与输入Prompt文本以及生成图像与输入原图像的匹配度。以文生图为例,我们使用CLIP模型将Prompt文本和生成图像分别转换为特征向量,然后计算它们之间的
余弦相似度。当CLIP Score较高时,表示生成图像与输入Prompt文本之间的匹配度较高;当CLIP Score较低时,表示生成图像与输入Prompt文本之间的匹配度较低。
人类评估
以问卷调查的形式收集用户对模型/图像效果的评估。但可能因为个体差异导致结果不准确,或者模型/图像效果打分持平,无法得出结论。
GPT评估
使用脚本调用GPT(具备多模态形式)模型,评估两个模型图像的生成效果。GPT相对于人类评估更客观一点,假设GPT训练中使用了很多不同图像,评价很客观。
Aesthetics Scorer(美学评分)
除了上述提到的三种评价指标,我们还可以用Aesthetics Scorer(美学评分)对Stable DIffusion系列模型生成的图片进行评分。Aesthetics Scorer背后的评价标准数据集是基于LAION-Aesthetics,也就是Stable Diffusion系列训练时有用到的数据集,所以Aesthetics Scorer有一定的可靠性。
Aesthetics Scorer越高,表示图像美学质量越好
总的来说,不管是在传统深度学习时代还是在AIGC时代,生成式模型的生成效果一直存在难以量化和难以非常客观评价的问题,需要人类视觉系统去进行兜底与约束。