潜在语义分析(LSA)的原理讲解以及python实现

上传：xuwu65794 浏览： 19 推荐： 0 文件：PDF 大小：110KB 上传时间：2021-01-15 16:35:36 版权申诉

在传统的文本信息处理中,以单词向量表示文本的语义内容,以单词向量空间的度量来表示文本之间的语义近似度。这种方法不能准确表示语义。潜在语义分析试图从大量的文本数据中发现潜在的话题,以话题向量来表示文本的语义内容,以话题向量的空间度量更准确地表示文本之间的语义相似度。潜在语义分析使用的是非概率的话题分析模型,具体来说,就是将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行奇异值分解,从而得到话题向量空间,以及文本在话题向量空间的表示。可采用的矩阵分解方法有:奇异值分解、非负矩阵分解。给定一个含有nnn个文本的集合D={d1,d2,⋯ ,dn}D=\{d_1,d_2,\cdots,d_n\}