Bootstrap

2021-10-29

一、字符数据集

目录

一、字符数据集

1、MNIST数据集

2、SVHN数据集

二、物体数据集

1、CIFAR 10 & CIFAR 100数据集

2、谷歌Open Images图像数据集

3、ImageNet数据集

4、Tiny Images数据集

5、CoPhIR数据集

6、LSUN数据集

7、COCO数据集

三、人脸数据集

4、FDDB(Face Detection Data Set and Benchmark)数据集

5、WIDER FACE数据集

6、CMU-MIT数据集

14、celeba人脸数据集

四、车辆数据集

1、KITTI(Karlsruhe Institute ofTechnology and Toyota Technological Institute)数据集

五、行人检测数据集

1、INRIA Person图像数据集

2、CaltechPedestrian Detection Benchmark数据集

4、WiderPerson行人密度检测数据集

5、行人重识别数据集RAiD

6、行人检测数据集ETHZ

7、PRID450S行人重识别数据集

8、行人重识别数据集prid_2011

9、行人重识别数据集Market-1501

10、GM-ATCI后视行人数据集


1、MNIST数据集

机器学习领域内用于手写字识别的数据集,数据集中包含6个万训练集、10000个示例测试集。,每个样本图像的宽高为28*28。这些数据集的大小已经归一化,并且形成固定大小,因此预处理工作基本已经完成。在机器学习中,主流的机器学习工具(包括sklearn)很多都使用该数据集作为入门级别的介绍和应用。

下载地址:工作台 - Heywhale.com

2、SVHN数据集

SVHN数据来源于 Google 街景视图中房屋信息,它是一个真实世界的图像数据集,用于开发机器学习和对象识别算法,对数据预处理和格式化的要求最低。它跟MNIST相似,但是包含更多数量级的标签数据(超过60万个数字图像),并且来源更加多样,用来识别自然场景图像中的数字。

下载地址:工作台 - Heywhale.com

二、物体数据集

1、CIFAR 10 & CIFAR 100数据集

CIFAR-10数据集由10个类别的60000 32x32彩色图像组成,每个类别有6000张图像。 有50000个训练图像和10000个测试图像。数据集的类别涵盖航空、车辆、鸟类、猫类、狗类、狐狸类、马类、船类、卡车等日常生活类别,可用于计算机视觉相关方向。

下载地址:工作台 - Heywhale.com

2、谷歌Open Images图像数据集

其中包括大约9百万标注图片、横跨6000个类别标签,平均每个图像拥有8个标签。
该数据集的标签涵盖比拥有1000个类别标签的ImageNet具体更多的现实实体,可用于计算机视觉方向的训练。

下载地址:Open Images V6

3、ImageNet数据集

ImageNet数据集是目前深度学习图像领域应用得非常多的一个领域,该数据集有1000多个图像,涵盖图像分类、定位、检测等应用方向。
Imagenet数据集文档详细,有专门的团队维护,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。很多大型科技公司都会参加ImageNet图像识别大赛,包括百度、谷歌、微软等。

下载地址:ImageNet

4、Tiny Images数据集

该数据集由79302017张图像组成,每张图像为32x32彩色图像。 该数据以二进制文件的形式存储,大约有400Gb图像。

小规模的ImageNet下载地址:工作台 - Heywhale.com

完整下载地址:http://horatio.cs.nyu.edu/mit/tiny/data/index.html

5、CoPhIR数据集

CoPhIR是从Flickr中采集的大概1.06亿个图像数据集,图像中不仅包含了图表本身的数据,例如位置、标题、GPS、标签、评论等,还可提取出颜色模式、颜色布局、边缘直方图、均匀纹理等数据。

下载地址:CoPhIR - what is

6、LSUN数据集

PASCAL VOC和ImageNet ILSVRC比赛使用的数据集,数据领域包括卧室、冰箱、教师、厨房、起居室、酒店等多个主题。
它包含10个场景类别和20个对象类别中的每个类别的大约一百万张带标签的图像。

下载地址:LSUN

7、COCO数据集

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,由微软赞助,图像中不仅有标注类别、位置信息,还有对图像的语义文本描述。
COCO数据集的开源使得近两、三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。

下载地址:http://mscoco.org/

三、人脸数据集

1、AFW(Annotated Faces in the Wild)数据集

AFW数据集是使用Flickr(雅虎旗下图片分享网站)图像建立的人脸图像库,包含205个图像,其中有473个标记的人脸。对于每一个人脸都包含一个长方形边界框,6个地标和相关的姿势角度。数据库虽然不大,额外的好处是作者给出了其2012 CVPR的论文和程序以及训练好的模型。
下载地址:http://www.ics.uci.edu/~xzhu/face/

2、LFW(Labeled Faces in the Wild)数据集

该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的13000多张图像。每张脸都贴上了所画的人的名字,图片中的1680人在数据集中有两个或更多不同的照片。
下载地址:

;