python基础之停用词过滤详解

上传:qqarmor37980 浏览: 18 推荐: 0 文件:pdf 大小:91.30 KB 上传时间:2021-07-06 21:48:33 版权申诉

一个句子去掉这些停用词,并不影响理解。所以,进行自然语言处理时,我们一般将停用词过滤掉。而HanLP库提供了一个小巧的停用词字典,它位于Lib\site-packages\pyhanlp\static\data\dictionary目录中,名字为:stopwords.txt。该文本收录了常见的中英文无意义的词汇,每行一个词语。考虑到该词典中都是短语且比较多,用双数组字典树更划算,处理时间更快。下面,我们来加载其停用词,并返回键值对结构。如果要删除停用词,可以直接使用分词后的结果剔除停用词即可。剔除的方法如下:四、分词以及删除停用词在前面的博文中,我们已经学会了如何分词,现在我们又学会了如何剔除停用词。这里,我们将两者结合起来,实现分词效果。

上传资源
用户评论