汉语信息熵和语言模型的复杂度.pdf

上传：u887615441 浏览： 22 推荐： 0 文件：PDF 大小：2.14MB 上传时间：2019-01-01 17:35:34 版权申诉

本文介绍了估计汉语信息摘的方法，井通过对大量语料的统计，给出了汉语信息熵的一个上界－５．１７比特／汉字。本文还以此为基础对统计语言模型的能力进行了定量的描述，比较了常用的统计语言模型的性能，并给出了一种用低阶语言模型逼近高阶模型的方法。