AI 开源数据集 Top 39:NLP、语音等 6 大类

by admin on 2020年4月19日

计算机视觉

【学术、经典、陈旧】MNIST:最常用的完整性检查数据集,图像大小为25×25的B&W手写数字,但在
MNIST 上性能良好,并不意味着模型本身很好。

地址:

【经典、陈旧】CIFAR 10 & CIFAR
100:
32×32的彩色图像数据集,虽然已经不常用,但也可以用作完整性检查。

地址:

【有用、学术、经典】ImageNet:新算法实际上使用的图像数据集,很多图像
API 公司从其 REST 接口获取标签,这些标签被怀疑与 ImageNet 的下一级
WordNet 的 1000 个类很相似。

地址:

LSUN:用于场景理解和多任务辅助(房间布局估计,显着性预测等)。

地址:

【学术】PASCAL
VOC:
一个通用的图像分割/分类数据集,对构建真实图像的注释用处不是特别大,但对于基线很有用。

地址:

【学术】SVHN:数据来源于 Google
街景视图中的房屋数量,可以用作野外的周期性 MNIST。

地址:

MS COCO:一个通用的图像理解/字幕数据集。

地址:

【有用】Visual
Genome:
非常详细的视觉知识数据集,包含约100K图像的深字母。

地址:

【有用、学术、经典、陈旧】Labeled Faces in the
Wild:
使用名称标识符标记的面部区域数据集,常用于训练面部识别系统。

地址:

【经典】这些是在 AI
领域中非常著名、众所周知的数据集。很少有研究者或工程师没有听说过它们。
【有用】这些是更加接近现实世界的、精心设计的数据集。而且,这些数据集通常在产品和研发两方面都有用。
【学术】这些是在机器学习和 AI
的学术研究中通常作为基准或基线使用的数据集。无论好坏,研究人员都使用这些数据集来验证算法。
【陈旧】这些数据集,无论是否实用,已经有相当长历史了。
计算机视觉
【学术、经典、陈旧】MNIST:最常用的完整性检查数据集,图像大小为25×25的B&W手写数字,但在
MNIST 上性能良好,并不意味着模型本身很好。
地址:http://pjreddie.com/projects/mnist-in-csv/
【经典、陈旧】CIFAR 10 & CIFAR
100:32×32的彩色图像数据集,虽然已经不常用,但也可以用作完整性检查。
地址:https://www.cs.toronto.edu/~kriz/cifar.html
【有用、学术、经典】ImageNet:新算法实际上使用的图像数据集,很多图像 API
公司从其 REST 接口获取标签,这些标签被怀疑与 ImageNet 的下一级 WordNet
的 1000 个类很相似。
地址:http://image-net.org/
LSUN:用于场景理解和多任务辅助(房间布局估计,显着性预测等)。
地址:http://lsun.cs.princeton.edu/2016/
【学术】PASCAL
VOC:一个通用的图像分割/分类数据集,对构建真实图像的注释用处不是特别大,但对于基线很有用。
地址:http://host.robots.ox.ac.uk/pascal/VOC/
【学术】SVHN:数据来源于 Google
街景视图中的房屋数量,可以用作野外的周期性 MNIST。
地址:http://ufldl.stanford.edu/housenumbers/
MS COCO:一个通用的图像理解/字幕数据集。
地址:http://mscoco.org/
【有用】Visual
Genome:非常详细的视觉知识数据集,包含约100K图像的深字母。
地址:http://visualgenome.org/
【有用、学术、经典、陈旧】Labeled Faces in the
Wild:使用名称标识符标记的面部区域数据集,常用于训练面部识别系统。
地址:http://vis-www.cs.umass.edu/lfw/
自然语言处理
【有用、学术】Text Classification
Datasets:一个文本分类数据集,包含8个可用于文本分类的子数据集,样本大小从120K到3.6M,问题范围从2级到14级,数据来源于
DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。
地址:http://t.cn/RJDVxr4
【有用、学术】WikiText:由 Salesforce MetaMind
设计的大型语言建模语料库,来源于维基百科文章。
地址:http://t.cn/RJDVSRy/
【有用】Question Pairs:第一个来源于 Quora
的包含重复/语义相似性标签的数据集。
地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
【有用、学术】SQuAD:斯坦福大学的问答数据集,广泛用于问题回答和阅读理解,其中每个问题和答案都是文本片段的形式。
地址:https://rajpurkar.github.io/SQuAD-explorer/
CMU Q/A Dataset:人工生成的问题/答案对,难度评级来自维基百科文章。
地址:http://www.cs.cmu.edu/~ark/QA-data/
【有用】Maluuba
Datasets:用于状态性的自然语言理解研究的人工制作的精细数据集。
地址:https://datasets.maluuba.com/
【有用、学术】Billion Words:一个大型、通用的语言建模数据集,常用于如
word2vec 或 Glove 的分布式词语表征。
地址:http://www.statmt.org/lm-benchmark/
【有用、学术】Common Crawl:Petabyte
级规模的网络爬行数据集,常用于学习词嵌入。
地址:http://commoncrawl.org/the-data/
【学术、经典】bAbi:来自 FAIR 的阅读理解和问答应答数据集。
地址:https://research.fb.com/projects/babi/
【学术】The Children’s Book
Test:从古登堡计划的童书中提取的(问题+上下文,答案)的基线,该数据集对问题回答、阅读理解和模拟陈述有用。
地址:https://research.fb.com/projects/babi/
【学术、经典、陈旧】Stanford Sentiment
Treebank:一个标准情感数据集,数据集中每个句子解析树的每个节点都有精细的情感注释。
地址:http://nlp.stanford.edu/sentiment/code.html
【经典、陈旧】20
Newsgroups:一个文本分类的经典数据集,通常用于纯分类或作为任何
IR/索引算法的基准。
地址:http://qwone.com/~jason/20Newsgroups/
【经典、陈旧】Reuters:一个较旧,完全基于分类的新闻文本数据集,常用于教程。
地址:http://t.cn/RJDfi7T
【经典、陈旧】IMDB:一个比较旧,规模也相对较小的二院情感分类数据集。
地址:http://ai.stanford.edu/~amaas/data/sentiment/
【经典、陈旧】UCI’s
Spambase:这是一个年代较久远的、经典的垃圾电子邮件数据集,来源是著名的
UCI
机器学习库。由于该数据集在设计细节上的独特之处,可以用作学习个性化垃圾邮件过滤的一个有趣的基线。
地址:https://archive.ics.uci.edu/ml/datasets/Spambase
语音

Million Song Dataset:在 Kaggle
上大量、富元数据(metadata-rich)、开源的数据集,有利于人们试验混合推荐系统(hybrid
recommendation systems)。

标签解释

图片 1

【经典】这些是在 AI
领域中非常著名、众所周知的数据集。很少有研究者或工程师没有听说过它们。

【有用】这些是更加接近现实世界的、精心设计的数据集。而且,这些数据集通常在产品和研发两方面都有用。

【学术】这些是在机器学习和 AI
的学术研究中通常作为基准或基线使用的数据集。无论好坏,研究人员都使用这些数据集来验证算法。

【陈旧】这些数据集,无论是否实用,已经有相当长历史了。

大多数语音识别数据集是专有的,因为这些数据对于创建该数据集的公司来说具有很大价值。因此,这部分的可用公开数据集多数比较陈旧。
【学术、陈旧】2000 HUB5
English:仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。
地址:https://catalog.ldc.upenn.edu/LDC2002T43
【学术】LibriSpeech:包含文本和语音的有声读物数据集,由近500小时的多人朗读的清晰音频组成,且包含书籍的章节结构。
地址:http://www.openslr.org/12/
【有用、学术】VoxForge:带口音的语音清洁数据集,对测试模型在不同重音或语调下的鲁棒性非常有用。
地址:http://www.voxforge.org/
【学术、经典、陈旧】TIMIT:英文语音识别数据集。
地址:https://catalog.ldc.upenn.edu/LDC93S1
【有用】CHIME:包含环境噪音的语音识别挑战赛数据集。该数据集包含真实、模拟和清洁的语音录音,具体来说,包括4个扬声器在4个有噪音环境下进行的将近9000次录音,模拟数据是将多个环境组合及在无噪音环境下记录的数据。
地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
TED-LIUM:TED Talk
的音频数据集,包含1495个TED演讲的录音及全文的文字稿。
地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
推荐和排序系统
【经典、陈旧】Netflix Challenge:第一个主要的 Kaggle
挑战赛数据集,但由于隐私问题,只有非正式的数据集提供。
地址:http://www.netflixprize.com/
【有用、学术、经典】MovieLens:多种大小的电影评论数据,通常用于基线协同过滤。
地址:https://grouplens.org/datasets/movielens/
Million Song Dataset:Kaggle
上的大型、元数据丰富的开源数据集,对混合推荐系统有用。
地址:https://www.kaggle.com/c/msdchallenge
【有用】Last.fm:可访问底层社交网络及其他元数据的音乐推荐数据集,这些元数据对混合系统很有用。
地址:http://grouplens.org/datasets/hetrec-2011/
网络和图表

地址:

自然语言处理

【有用、学术】Text Classification
Datasets:
一个文本分类数据集,包含8个可用于文本分类的子数据集,样本大小从120K到3.6M,问题范围从2级到14级,数据来源于
DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。

地址:

【有用、学术】WikiText:由 Salesforce MetaMind
设计的大型语言建模语料库,来源于维基百科文章。

地址:

【有用】Question Pairs:第一个来源于 Quora
的包含重复/语义相似性标签的数据集。

地址:

【有用、学术】SQuAD:斯坦福大学的问答数据集,广泛用于问题回答和阅读理解,其中每个问题和答案都是文本片段的形式。

地址:

CMU Q/A Dataset:人工生成的问题/答案对,难度评级来自维基百科文章。

地址:

【有用】Maluuba
Datasets:
用于状态性的自然语言理解研究的人工制作的精细数据集。

地址:

【有用、学术】Billion
Words:
一个大型、通用的语言建模数据集,常用于如 word2vec 或 Glove
的分布式词语表征。

地址:

【有用、学术】Common Crawl:Petabyte
级规模的网络爬行数据集,常用于学习词嵌入。

地址:

【学术、经典】bAbi:来自 FAIR 的阅读理解和问答应答数据集。

地址:

【学术】The Children’s Book
Test:
从古登堡计划的童书中提取的(问题+上下文,答案)的基线,该数据集对问题回答、阅读理解和模拟陈述有用。

地址:

【学术、经典、陈旧】Stanford Sentiment
Treebank:
一个标准情感数据集,数据集中每个句子解析树的每个节点都有精细的情感注释。

地址:

【经典、陈旧】20
Newsgroups:
一个文本分类的经典数据集,通常用于纯分类或作为任何
IR/索引算法的基准。

地址:

【经典、陈旧】Reuters:一个较旧,完全基于分类的新闻文本数据集,常用于教程。

地址:

【经典、陈旧】IMDB:一个比较旧,规模也相对较小的二院情感分类数据集。

地址:

【经典、陈旧】UCI’s
Spambase:
这是一个年代较久远的、经典的垃圾电子邮件数据集,来源是著名的
UCI
机器学习库。由于该数据集在设计细节上的独特之处,可以用作学习个性化垃圾邮件过滤的一个有趣的基线。

地址:

Netflix Challenge:第一个主要 Kaggle
风格的数据库。因为存在隐私问题,只能非正式地获得授权。

以下是精心收集的一些非常好的开放数据集,也是做 AI 研究不容错过的数据集。

图片 2

地址:

推荐和排序系统

【经典、陈旧】Netflix Challenge:第一个主要的 Kaggle
挑战赛数据集,但由于隐私问题,只有非正式的数据集提供。

地址:

【有用、学术、经典】MovieLens:多种大小的电影评论数据,通常用于基线协同过滤。

地址:

Million Song Dataset:Kaggle
上的大型、元数据丰富的开源数据集,对混合推荐系统有用。

地址:

【有用】Last.fm:可访问底层社交网络及其他元数据的音乐推荐数据集,这些元数据对混合系统很有用。

地址:

图片 3

ImageNet: 新算法实际上的图像数据集。很多图片 API 公司从其 REST
接口获取标签,这些标签被怀疑与 ImageNet 的下一级 WordNet 的 1000
个范畴很接近。

语音

图片 4

大多数语音识别数据集是专有的,因为这些数据对于创建该数据集的公司来说具有很大价值。因此,这部分的可用公开数据集多数比较陈旧。

【学术、陈旧】2000 HUB5
English:
仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。

地址:

【学术】LibriSpeech:包含文本和语音的有声读物数据集,由近500小时的多人朗读的清晰音频组成,且包含书籍的章节结构。

地址:

【有用、学术】VoxForge:带口音的语音清洁数据集,对测试模型在不同重音或语调下的鲁棒性非常有用。

地址:

【学术、经典、陈旧】TIMIT:英文语音识别数据集。

地址:

【有用】CHIME:包含环境噪音的语音识别挑战赛数据集。该数据集包含真实、模拟和清洁的语音录音,具体来说,包括4个扬声器在4个有噪音环境下进行的将近9000次录音,模拟数据是将多个环境组合及在无噪音环境下记录的数据。

地址:

TED-LIUM:TED Talk
的音频数据集,包含1495个TED演讲的录音及全文的文字稿。

地址:

【学术】Amazon Co-Purchasing and Amazon
Reviews:亚马逊网站的“买了该产品的用户也买了……”板块的数据,以及相关产品的亚马逊评论数据。适合用于推荐系统。
地址:http://snap.stanford.edu/data/amazon-meta.html
Friendster Social Network Dataset:包含103,750,348个 Friendster
用户的好友列表的匿名数据集。
地址:https://archive.org/details/friendster-dataset-201107
地理空间数据
【有用、经典】OpenStreetMap:免费许可的全球矢量数据集,包含美国人口普查局的
TIGER数据。
地址:http://wiki.openstreetmap.org/wiki/Planet.osm
【有用】Landsat8:卫星拍摄的地球表面照片数据,每隔几周更新一次。
地址:https://landsat.usgs.gov/landsat-8
【有用】NEXRAD:多普勒雷达扫描的美国大气环境数据。
地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
结语:
人们常常以为在一个数据集上解决了问题就等同于得到好的产品了。但在使用这些数据集作为验证或概念证明时,不要忘记用更新、更接近现实的数据来测试产品的功能,从而能够作出改进。一个成功的以数据作为驱动力的企业通常能够从他们收集新的、专有的数据的能力中获益,进而提升竞争力。

Last.fm:音乐推荐数据集,该数据集能有权访问底层社交网络和其他元数据,而这样的数据集正对混合系统有巨大的作用。

地理空间数据

【有用、经典】OpenStreetMap:免费许可的全球矢量数据集,包含美国人口普查局的
TIGER数据。

地址:

【有用】Landsat8:卫星拍摄的地球表面照片数据,每隔几周更新一次。

地址:

【有用】NEXRAD:多普勒雷达扫描的美国大气环境数据。

地址:

结语:

人们常常以为在一个数据集上解决了问题就等同于得到好的产品了。但在使用这些数据集作为验证或概念证明时,不要忘记用更新、更接近现实的数据来测试产品的功能,从而能够作出改进。一个成功的以数据作为驱动力的企业通常能够从他们收集新的、专有的数据的能力中获益,进而提升竞争力。

编译自:medium.com,译者:新智元刘小芹

(文/开源中国)    

Question Pairs:从包含重复/语义相似性标签的 Quora
释放出来的第一个数据集。

网络和图表

图片 5

【学术】Amazon Co-Purchasing and Amazon
Reviews:
亚马逊网站的“买了该产品的用户也买了……”板块的数据,以及相关产品的亚马逊评论数据。适合用于推荐系统。

地址:

Friendster Social Network Dataset:包含103,750,348个 Friendster
用户的好友列表的匿名数据集。

地址:

地址:

地址:

MovieLens:各种电影的评论数据库,通常用于基线协同过滤(collaborative
filtering baselines)。

Landsat8:整个地球表面的卫星拍摄数据,每隔几周会更新一次。

VoxForge:带口音的语音清洁数据集,特别是对于如期望对不同口音或腔调的语音有鲁棒性需求的系统很有用。

地址:

CMU Q/A Dataset:
手动生成的仿真陈述问题/回答与维基百科文章的难度评级相对应。

好数据集还有很多,这份列表当然不可能完全覆盖,如果你知道还有很好的数据集值得推荐,请通过评论与我们分享。

地址:

The Children’s Book
Test:从来自古登堡计划的童书中提取(问题+上下文,回答)组的基线。这对问题回答、阅读理解和仿真陈述查询有用。

虽然不算是人工智能训练的最前沿,但人工智能的无名英雄确实就是数据,许多许多标注或未标注的数据。研究部门和公司也都认识到数据民主化是加快人工智能的必要步骤。

地址:

地址:

在这个星期,我和一些机器学习专家们讨论的都是有关标准数据集的问题。为了让你能更轻松地构建人工智能系统,我们搜集了一些开源数据集,这些开源数据集是我们认为在人工智能的世界里你所需要了解的。

MS COCO: 带有一个相关性竞争的通用图像理解/字幕。

OpenStreetMap:免费许可的全球矢量数据集。其包含了旧版的美国人口统计局的
TIGER 数据。

现如今构建人工智能或机器学习系统比以往的时候更加容易。普遍存在的尖端开源工具如
TensorFlow、Torch 和 Spark,再加上通过 AWS 的大规模计算力、Google Cloud
或其他供应商的云计算,这些都意味着你可以在下午休闲时间使用笔记本电脑去训练出最前沿的机器学习模型。

地址:

CIFAR 10 & CIFAR 100: 32×32
彩色图像。虽不再常用,但还是用了一次,可以是一项有趣的健全检查。

WikiText:来自由 Salesforce MetaMind
精心策划的维基百科文章中的大型语言建模语料库。

地址:

地址:

PASCAL VOC:
通用图像分割/分类:对于构建真实世界的图像注释毫无用处,对于基线则意义重大。

地址:

图片 6

地址:

CHIME:包含噪声的语音识别数据集。该数据集包含真实、模拟和清洁的语音记录。实际上是记录四个说话者在四个噪声源的情况下近
9000
份记录,模拟数据是在结合话语行为和清洁无噪语音记录的多环境下生成的。

SVHN: 来自谷歌街景视图(Google Street
View)的房屋数量。把这想象成荒野之中的周期性 MNIST。

地址:

地址:

地址:

地址:

自然语言

地址:

总结

bAbi: 来自 FAIR(Facebook AI Research)的合成式阅读理解与问答数据集。

2000 HUB5 English:
仅仅只包含英语的语音数据,最近百度发表的论文《深度语音:扩展端对端语音识别(Deep
Speech: Scaling up end-to-end speech
recognition)》就是使用了该语音数据集。

NEXRAD:多普雷达扫描的美国大气环境。

重要的是,如果数据集有良好的表现并不能保证其训练的机器学习系统在实际产品场景中表现良好。许多人在构建人工智能系统时常常忘了构建一个新人工智能解决方案或产品最困难的部分不是人工智能本身或算法,通常最困难的地方是数据收集和标注。标准数据集可以作为验证或构建更优良解决办法的良好起点。

Labeled Faces in the Wild:通过名称标识符,已经为被裁剪的面部区域(用
Viola-Jones)打了标签。现有人类的子集在数据集中有两个图像。对于这里做面部匹配系统训练的人来说,这很正常。

TIMIT:只包含英语的语音识别数据集。

地址:

Billion Words: 大型,有统一目标的语言建模数据集。常被用来训练诸如
word2vec 或 Glove 的分布式词表征。

地址:

地址:

事实上,我们很难用一篇文章来说明哪些开放数据集是有用的,因为那些有用的开放数据集必须是可概念证明的,而什么数据集对产品或确认特征是有用的,在你收集你自己所有数据之前是不知道的。

Reuters: 旧的,纯粹基于分类的数据集与来自新闻专线的文本。常用于教程。

语音

MNIST: 最通用的健全检查。25×25 的数据集,中心化,B&W
手写数字。这是个容易的任务——但是在 MNIST 有效,不等同于其本身是有效的。

Friendster Social Network Dataset:在 Friendster
的重心转入到游戏网站之前,这家网站发布了包含 103,750,348
个用户好友列表的匿名数据集。

地址:

地址:

推荐和排序系统

SQuAD: 斯坦福大学问答数据集(The Stanford Question Answering
Dataset)——一个被广泛应用于问题回答和阅读理解的数据集,其中每个问题的答案形式是文本的一个片段或碎片。

地址:

地址:

LSUN:
场景理解具有很多辅助任务(房间布置评估、显著性预测等)和一个相关竞争。

地址:

Maluuba Datasets: 用于状态性自然语言理解研究的人工生成的精密数据集。

Visual Genome: 非常详细的视觉知识库,并带有 100K 图像的深字幕。

然而,涉及到机器学习或人工智能的大多数产品强烈依赖于那些通常没有开放的私有数据集,而本文将指出解决这种困境的办法。

大多数语音识别数据集是有所有权的,这些数据为收集它们的公司带来了大量的价值,但在这一领域里,许多可用的数据集都是比较旧的。

Stanford Sentiment Treebank:
标准的情感数据集,在每一个句子解析树的节点上带有细腻的情感注解。

地址:

地址:

地址:

IMDB:一个用于二元情感分类的更旧更小的数据集。

UCI’s Spambase: 来自著名的 UCI
机器学习库较久的经典垃圾电子邮件数据集。由于数据集的策划细节,这可以是一个学习个性化过滤垃圾邮件的有趣基线。

LibriSpeech:包括文本和语音的有声读物数据集。它是近 500
小时由多人朗读清晰的各类有声读物数据集,且由包含文本和语音的书籍章节组织起结构。

地址:

地址:

地址:

地理测绘数据库

【编辑推荐】

地址:http://snap.stanford.edu/data/#amazon 和
http://snap.stanford.edu/data/amazon-meta.html

Newsgroups: 文本分类经典数据集中的一个。通常可用作纯分类或任何
IR/索引算法的基准。

地址:

人们常常认为解决一个数据集上的问题就相当于对产品进行了一次完整的审视。因为我们可以使用这些数据集进行验证或证明一个概念,但是也不要忘了测试模型或原型是如何获取新的和更实际的数据来提高运算效果,获得优良产品的。数据驱动的成功公司通常从他们收集新数据、私有数据的能力中获得力量,从而以一种具有竞争力的方式提高他们的表现。

地址:

计算机视觉

地址:

文本分类数据集(2015 年来自 Zhang 等人):一个用于文本分类的合 8
个数据集为 1
个的大型数据集。这些是用于新文本分类的最常被报道的基线。样本大小从 120K
到 3.6M, 问题从 2 级到 14 级。数据集来自
DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。

Common Crawl: PB 级规模的网络爬行——常被用来学习词嵌入。可从 Amazon S3
上免费获取。由于它是 WWW 的抓取,同样也可以作为网络数据集来使用。

地址:

Amazon Co-Purchasing 和 Amazon
Reviews:从亚马逊以及相关产品评论数据网络爬取的如「用户买了这个同时也会买哪个」这样的语句。适合在互联网中进行推荐系统的测试。

网络和图表

TED-LIUM:TED 演讲的语音转录数据集。1495 份 TED
演讲的语音记录,并且这些语音记录有对应的全文本。

地址:

地址:

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图