nlp datasets:用于自然语言处理(NLP)的带有文本数据的自由公共领域数据集的字母顺序列表 源码

上传:qqsoft6508 浏览: 7 推荐: 0 文件:ZIP 大小:8.71KB 上传时间:2021-02-24 22:30:00 版权申诉
nlp数据集 自由/公共领域数据集的字母顺序列表,其中包含用于自然语言处理(NLP)的文本数据。 如果您正在寻找带注释的语料库或树库,请参阅底部的源,此处的大多数内容只是原始的非结构化文本数据。 数据集(英语,多语言) :截至2011年7月11日的所有公共可用Apache Software Foundation邮件档案(200 GB) :包括2004年8月从blogger.com收集的19,320个博客作者的帖子。681,288个帖子和超过1.4亿个单词。 (298 MB) 由568454条食品评论亚马逊用户留给了2012年10月。 (240 MB) :斯坦福大学收藏了3500万条亚马
上传资源
用户评论