论文研究 基于多指标融合的文本特征评价及选择算法.pdf

上传:夏夏的valentine 浏览: 29 推荐: 0 文件:PDF 大小:696.13KB 上传时间:2020-07-20 02:52:01 版权申诉
在文本分类问题中,有多种评价特征优劣的指标,其中主要有特征与类别的相关性、特征自身的冗余度和特征在语料中的稀疏程度。由于文本特征的优劣直接影响分类效果,全方位考虑特征的各个因素很有必要。特征选择常分为三步骤分别对相关性、冗余度和稀疏程度进行衡量,而在每一步的加权和筛选过程中都要耗费大量时间,在面对实时性和准确性要求较高的情况时,这种分步评价特征的方法很难适用。针对上述问题,首先建立坐标模型,将相关性、冗余度和稀疏程度映射到坐标系中,根据空间内的点和原点构成的向量与坐标面或坐标轴的夹角对文本特征进行加权和筛选,从而将多个评价指标整合为一个评价指标,大幅节省了多次加权和筛选所耗费的时间,提高了特征
上传资源
用户评论