论文研究不平衡数据集上的文本分类特征选择新方法.pdf

上传:CSDN阿坤 浏览: 24 推荐: 0 文件:PDF 大小:219.2KB 上传时间:2019-09-06 05:42:49 版权申诉
针对不平衡数据集上进行文本分类,传统的特征选择方法容易导致分类器倾向于大类而忽视小类,提出一种新的特征选择方法IPR(integratedprobabilityratio)。该方法综合考虑特征在正类和负类中的分布性质,结合四种衡量特征类别相关性的指标对特征词进行评分,能够更好地解决传统特征选择方法在不平衡数据集上的不适应性,在不降低大类分类性能的同时提高了小类的识别率。实验结果表明,该方法有效可行。
上传资源
用户评论