spark机器学习.docx

上传:风惜云 浏览: 24 推荐: 0 文件:DOCX 大小:4.62MB 上传时间:2020-06-15 14:27:37 版权申诉
信息熵 定义:假定当前样本集合D中的第k类样本所占的比例为p_k(k=1,2,3…,y),则D的信息熵定义为 Ent(D)=-∑_(k=1)^y▒〖p_k〖log〗_2p_k〗 Ent(D)的值越小,则D的纯度越高。 假设S是一个关于布尔概念的有14个样例的集合,它包括9个正例和5个反(我们采用记号[9+,5-]来概括这样的数据样例),那么S相对于这个布尔样例的熵为:Entropy([9+,5-])=-(9/14)log2(9/14)-(5/14)log2(5/14)=0.940。 根据上述这个公式,我们可以得到:S的所有成员属于同一类,Entropy(S)=0;S的正反样例数量
上传资源
用户评论