用于文本分类的10大开源数据集

【51CTO.com快译】文本分类是热门的研究领域之一,这是一种分析文本数据以获得宝贵信息的方法。据消息人士声称,预计全球文本分析市场在2020年至2024年的年复合增长率(CAGR)将超过20%。文本分类可用于许多应用领域,比如自动执行CRM任务、改善上网浏览和电子商务等。

本文列出了可用于文本分类的10个开源数据集,按首字母顺序介绍。

1. Amazon Reviews Dataset(亚马逊评论数据库)

Amazon Review Dataset包含数百万条亚马逊客户评论(输入文本)和星级评定(输出标签),用于了解如何训练fastText用于情感分析。该数据集的大小为493MB。

相关链接:https://www.kaggle.com/bittlingmayer/amazonreviews

2. Enron Email Dataset(安然电子邮件数据集)

Enron Email Dataset包含来自大约150个用户的电子邮件数据,这些用户大多是安然公司的高级管理层。该数据集由CALO项目(拥有学习和组织功能的认知助手)收集和准备,总共含有约50万则邮件。

相关链接:https://www.cs.cmu.edu/~./enron/

3. Goodreads Book Reviews(Goodreads书评)

该数据集包含Goodreads书评网站上的评论以及描述图书的众多属性,包括评论、阅读、评论操作及书籍属性等。图书总数包括1561465本。

相关链接:https://cseweb.ucsd.edu/~jmcauley/datasets.html#goodreads

4. IMDB Dataset(IMDB数据集)

IMDB数据集包含用于自然语言处理或文本分析的5万条影评。这是用于二进制情绪分类的数据集,包括用于训练的25000条观点鲜明的影评和用于测试的25000条影评。

相关链接:http://ai.stanford.edu/~amaas/data/sentiment/

5. MovieLens Latest Datasets(MovieLens最新数据集)

该数据集是电影、评论、所作标签和用户的集合。该数据有两组数据集,它们是在一段时间内收集的。小数据集包括100000条评论和600个用户为9000部电影所作的3600个标签,而大数据集包括27000000条评论和280000个用户为58000部电影所作的1100000个标签。大数据集还包括标签基因组数据,涉及1100个标签。

相关链接:https://grouplens.org/datasets/movielens/latest/

6. OpinRank Dataset(OpinRank数据集)

该数据集包含从Tripadvisor和Edmunds收集的汽车和酒店的完整评论。该数据集包含10个不同城市的酒店的完整评论,以及2007年、2008年和2009年款汽车的完整评论。在数据集中,汽车评论的总数约42230条,酒店评论的总数约259000条。

相关链接:https://github.com/kavgan/OpinRank/tree/master

7. SMS Spam Collection(垃圾短信数据集)

SMS Spam Collection是含有垃圾短信的公共数据集,它们被收集用于手机垃圾短信方面的研究。该数据集有一个集合由5574条真实和未编码的英文短信组成,根据合法或垃圾短信加以标记。该数据集有明文格式和ARFF格式两种。

相关链接:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

8. The Blog Authorship Corpus(博客作者语料库)

The Blog Authorship Corpus包含2004年8月从blogger.com收集的19320个博客作者的帖子。该语料库包含总共681288个帖子,超过1.4亿个单词,相当于每人约35个帖子和7250个单词。在该数据集中,每个博客以一个单独的文件加以显示,文件名表示博客作者ID#以及博客作者自己提供的性别、年龄、行业和星座。

相关链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

9. WordNet(词网)

WordNet是一个大型的英语词汇数据库,其中名词、动词、形容词和副词被分组为不同的认知同义词(同义词集),每一组表示不同的概念。在该数据集中,同义词集的总数是117000,每个同义词集通过少量概念关系与其他同义词集关联起来。

相关链接:https://wordnet.princeton.edu/

10. Yelp Reviews(Yelp评论)

Yelp数据集是用于学习的通用数据集,它是Yelp的一小部分商家、评论和用户数据,可用于个人、教育和学术等用途。该数据集包括来自10个大都市区的6685900条评论、200000张图片和192609户商家。

相关链接:https://www.yelp.com/dataset

原文标题:10 Open-Source Datasets For Text Classification,作者:Ambika Choudhury