论文研究有效HTML文本信息抽取方法的研究.pdf

上传：weixin_39882200 浏览： 46 推荐： 0 文件：PDF 大小：364.36KB 上传时间：2019-09-08 21:39:05 版权申诉

从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容，导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征，用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取。提出了机器学习、统计估计以及FDR三种HLML正文抽取方法，并作了大量的实验比较和分析。实验结果表明，该算法可以有效地过滤噪声而且算法的复杂度很低，效率与效果均达到一个很好的平衡。