处理筛选CelebA人脸数据集

引

CalebA人脸数据集（官网链接）是香港中文大学的开放数据，包含10,177个名人身份的202,599张人脸图片，并且都做好了特征标记，这对人脸相关的训练是非常好用的数据集。

别看只是一堆人脸，他们很贴心地做好了特征标记，也就是说，你可以找到类似下面这些标签：

更贴心的是，他们除了Google盘的下载方式，还为国内研究人员提供了百度网盘的下载链接，这在他们官方都可以找到。

不过刚进入百度网盘的文件，可能有点迷，不知道什么文件是干嘛的，也不知道怎么处理，尤其是对于新手来说，这里就总结一下。

文件含义

进入百度网盘可以看到多个文件，但是都是干什么的呢？应该下载哪个来用呢？

在动手下载之前，最好先读读README文件，里面有比较详细的描述，这里只简单介绍一下：

Img文件夹下是所有图片，图片又分三类文件：

其中“img_celeba.7z”文件夹是纯“野生”文件，也就是从网络爬取的没有做裁剪的图片，要解压的话需要整个文件夹一起解压；“img_align_celeba_png.7z”和“img_align_celeba.zip”是把“野生”文件裁剪出人脸部分之后的图片，其中“img_align_celeba_png.7z”是png格式的，比较大，也要整个文件夹一起解压，“img_align_celeba.zip”是jpg格式的，比较小，1G多，我采用的是这个文件，直接解压即可。

不过需要注意的是里面的图片并不是正方形的，所以如果你的网络需要方形图片输入，自己还得处理一遍，后文有这部分的代码。

处理筛选CelebA人脸数据集

引

文件含义

悦读