潜在语义分析(LSA)的原理讲解以及python实现

上传:xuwu65794 浏览: 19 推荐: 0 文件:PDF 大小:110KB 上传时间:2021-01-15 16:35:36 版权申诉
在传统的文本信息处理中,以单词向量表示文本的语义内容,以单词向量空间的度量来表示文本之间的语义近似度。这种方法不能准确表示语义。 潜在语义分析试图从大量的文本数据中发现潜在的话题,以话题向量来表示文本的语义内容,以话题向量的空间度量更准确地表示文本之间的语义相似度。 潜在语义分析使用的是非概率的话题分析模型,具体来说,就是将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行奇异值分解,从而得到话题向量空间,以及文本在话题向量空间的表示。可采用的矩阵分解方法有:奇异值分解、非负矩阵分解。 给定一个含有nnn个文本的集合D={d1,d2,⋯ ,dn}D=\{d_1,d_2,\cdots,d_n\}
上传资源
用户评论