下面,您将找到一个由用户组织的数据科学和机器学习免费数据集的策划列表。您将找到精选的数据集和我们最喜欢的聚合器。
目录
探索性分析的数据集
探索性分析是大多数数据科学练习的第一步。实践探索性分析的最佳数据集应该是有趣的,有趣的和非平凡的(即需要您挖掘一点来揭示所有的见解)。
所有链接都在新标签中打开。
我们的选择:
- 权力的游戏 - 权力的游戏是一个流行的电视连续剧,基于乔治RR马丁的火之歌 系列。使用此数据集,您可以探索其政治格局,角色和战斗。
- 世界大学排名 - 排名大学可能很困难,也很有争议。有数百个排名系统,他们很少达成共识。该数据集包含三个全球大学排名。
- IMDB 5000电影数据集 - 该数据集探讨了在电影发布之前我们是否可以预测电影的受欢迎程度的问题。
聚合器:
- Kaggle数据集 - 由Kaggle社区提供的开放数据集。在这里,你会找到一个主题的抓包。另外,您可以从数据集附带的简短教程和脚本中学习。
- r / datasets - 由Reddit社区提供的开放数据集。这是有趣和古怪的数据集的另一个来源,但数据集往往不那么精致。
通用机器学习的数据集
在这种情况下,我们将“一般”机器学习称为回归,分类和具有关系(即表格式)数据的聚类。这些是最常见的ML任务。
我们的选择:
- 葡萄酒质量(回归) - 来自葡萄牙北部的红色和白色vinho verde葡萄酒样品的属性。目标是根据物理化学测试对葡萄酒质量进行建模。(我们也有一个教程。)
- 信用卡默认(分类) - 预测信用卡默认值是机器学习的宝贵和常见用途。此丰富数据集包括人口统计信息,付款历史记录,信用和默认数据。
- 美国人口普查数据(聚类) - 基于人口统计数据的聚类是一种经过验证的实施市场研究和细分的方法。
聚合器:
- UCI机器学习存储库 - UCI ML存储库是机器学习数据集的一种古老且流行的聚合器。提示:他们的大多数数据集都链接了可用于基准测试的学术论文。
深度学习数据集
虽然不适合通用机器学习,但深度学习一直主导某些利基,特别是那些使用图像,文本或音频数据的利基。根据我们的经验,开始深度学习的最佳方法是练习图像数据,因为有丰富的教程。
我们的选择:
- MNIST - MNIST包含用于手写数字分类的图像。它被认为是深度学习的一个很好的入门数据集,因为它足够复杂以保证神经网络,同时仍然可以在单个CPU上进行管理。(我们也有一个教程。)
- CIFAR - 难度的下一步是CIFAR-10数据集,其中包含分为10个不同类的60,000个图像。对于更大的挑战,您可以尝试CIFAR-100数据集,该数据集有100个不同的类。
- ImageNet - ImageNet每年举办一次计算机视觉竞赛,许多人认为它是现代表演的基准。当前图像数据集有1000个不同的类。
- YouTube 8M - 准备处理视频,但无法节省数TB的存储空间?此数据集包含使用最新深度学习模型预先提取的数百万YouTube视频ID和数 十亿 的音频和视觉功能。
聚合器:
- Deeplearning.net - 用于对深度学习算法进行基准测试的最新数据集列表。
- DeepLearning4J.org - 用于深度学习研究的高质量数据集的最新列表。
YouTube的-8M
自然语言处理的数据集
自然语言处理(NLP)是关于文本数据的。对于像文本这样的混乱数据,对于数据集来说,拥有真实世界的应用程序尤为重要,这样您就可以进行简单的健全性检查。
我们的选择:
- 安然数据集 - 安然高级管理层的电子邮件数据,组织成文件夹。该数据集最初公布,并在联邦能源监管委员会调查期间发布到网上。
- 亚马逊评论 - 包含来自亚马逊的约3500万条评论,涵盖18年。数据包括产品和用户信息,评级和明文审核。
- 新闻组分类 - 收集大约20,000个新闻组文档,在20个不同的新闻组中平均分配(几乎)。非常适合练习文本分类和主题建模。
聚合器:
- nlp-datasets(Github) - 具有用于NLP的文本数据的自由/公共域数据集的字母顺序列表。
- Quora Answer - NLP注释语料库列表。
云计算机学习的数据集
从技术上讲,如果您只是将数据集上传到云端,那么任何数据集都可用于基于云的机器学习。但是,如果您刚开始并评估平台,则可能希望跳过所有数据管道。
幸运的是,主要的云计算服务都提供了您可以轻松导入的公共数据集。他们的数据集都具有可比性。
我们的选择:
时间序列分析的数据集
时间序列分析需要标记时间戳的观察。换句话说,跨时间跟踪每个主题和/或特征。
我们的选择:
- EOD股票价格 - 由Quandl社区策划的3,000家美国公司的股票价格,股息和分割结束。
- Zillow房地产研究 - 按大小,类型和等级划分的房屋价格和租金,按邮政编码,社区,城市,都市区,县和州划分。
- 全球教育统计 - 超过4,000个国际可比指标,用于教育获取,升级,完成,扫盲,教师,人口和支出。
聚合器:
Zillow房地产数据
推荐系统的数据集
推荐系统已经风靡娱乐和电子商务行业。亚马逊,Netflix和Spotify都是很好的例子。
我们的选择:
- MovieLens - 来自MovieLens网站的评级数据集。由于可用的各种数据集大小,非常适合入门。
- Jester - 构建简单协作过滤器的理想选择。包含来自73,421个用户的100个笑话的410万连续收视率(-10.00到+10.00)。
- Million Song Dataset - 用于音乐推荐的大型丰富数据集。您可以从纯协作过滤器开始,然后使用其他方法(如基于内容的模型或Web抓取)对其进行扩展。
聚合器:
- entaroadun(Github) - 推荐系统的数据集集合。提示:查看评论部分以获取最新数据集。
特定行业的数据集
在这个纲要中,我们根据用例组织了数据集。如果您需要练习某种技能,例如深度学习或时间序列分析,这将非常有用。
但是,您可能还希望按特定行业进行搜索,例如神经科学,天气或制造的数据集。以下是几个选项:
聚合器:
- 令人敬畏的公共数据集 - 按行业划分的高质量数据集。
- Data.gov - 按行业划分的策划政府数据。
流式传输的数据集
流数据集用于构建实时应用程序,例如数据可视化,趋势跟踪或可更新(即“在线”)机器学习模型。
我们的选择:
- Twitter API - twitter API是流数据的经典来源。您可以跟踪推文,主题标签等。
- StockTwits API - StockTwits就像是交易者和投资者的推特。您可以通过使用时间戳和股票代码符号将其连接到时间序列数据集,以许多有趣的方式扩展此数据集。
- 天气地下 - 全球覆盖的可靠天气API。提供免费套餐和付费选项以扩大规模。
聚合器:
- Satori - Satori是一个平台,可让您以超低延迟(免费)连接流媒体直播数据。他们经常添加新的数据集。
Web Scraping的数据集
网络抓取是数据科学研究的一个常见部分,但您必须小心违反网站的服务条款。幸运的是,有一个完整的网站可以自由地抓取。
我们的选择:
虚构的书店
当前事件的数据集
查找当前事件的数据集可能很棘手。幸运的是,一些出版物已经开始发布他们在文章中使用的数据集。
聚合器:
- FiveThirtyEight - FiveThirtyEight是一个包含数据驱动文章的新闻和体育网站。他们在Github上公开提供他们的数据集。
- BuzzFeedNews - BuzzFeed因其列表和肤浅的作品而闻名,但他们已经扩展到调查性新闻。他们的数据集可在Github上获得。