论文研究基于LDA模型和HowNet的多粒度子话题划分方法.pdf

上传:xin9707635 浏览: 16 推荐: 0 文件:PDF 大小:926.32KB 上传时间:2020-05-19 15:14:59 版权申诉
针对LDA建模结果较泛化、子话题间文本相似度较高等问题,提出一种基于狄利克雷分配模型(LDA)和知网(HowNet)语义词典相结合的多粒度子话题划分方法(MGH-LDA)。首先采用LDA模型对不同新闻源的新闻集合进行初划分,并根据文档贡献度获得相同新闻话题的文档集合;其次在TF-IDF模型基础上获取多粒度粗细特征,作为核心词特征集合来表征新闻文档,采用知网语义词典来计算新闻文档之间的相似度;最后通过single-pass增量聚类算法进行新闻文档的聚类,实现子话题划分。通过在真实新闻数据集上的实验,验证了该方法能有效地提高热点新闻话题子话题划分的准确率。
上传资源
用户评论