spark机器学习.docx

上传：风惜云浏览： 24 推荐： 0 文件：DOCX 大小：4.62MB 上传时间：2020-06-15 14:27:37 版权申诉

信息熵定义：假定当前样本集合D中的第k类样本所占的比例为p_k(k=1,2,3…,y),则D的信息熵定义为 Ent(D)=-∑_(k=1)^y▒〖p_k〖log〗_2p_k〗 Ent(D)的值越小，则D的纯度越高。假设S是一个关于布尔概念的有14个样例的集合，它包括9个正例和5个反（我们采用记号[9+，5-]来概括这样的数据样例），那么S相对于这个布尔样例的熵为：Entropy（[9+，5-]）=-（9/14）log2（9/14）-（5/14）log2（5/14）=0.940。根据上述这个公式，我们可以得到：S的所有成员属于同一类，Entropy(S)=0；S的正反样例数量