什么是信息增益和信息增益率,信息增益与信息增益率详解
一、信息增益与信息增益率
1、信息增益
用某个特征划分数据集前后熵的差异。熵可以表示样本集的不确定性。熵越大,样本的不确定性越大。因此,划分前后集合熵的差异可以用来衡量当前特征对于样本集D划分是好是坏。
信息增益=entroy(前)-entroy(后)
注意:的信息增益表示通过知道特征x的信息来减少类别Y的信息熵的程度
2、信息增益率
增益由先前的信息增益(D,A)和属性A的相应“内在价值”的比率定义[Quinlan,1993J]。
二、信息增益与信息增益率python代码实现
1、信息增益定义计算信息增益的函数:计算g(DA)
defg(数据,str1,str2):
e1=data.groupby(str1)。apply(x : infor(x[str 2]))
P1=PD . value _ counts(data[str 1])/len(data[str 1])
#计算Infor(DA)
e2=总和(e1*p1)
returninfor(data[str2])-e2
打印(教育信息获取:{} 。格式(g(数据,教育背景,类别))
#输出结果为:学术信息增益:0.5000000000005
defgr(数据,str1,str2):
returng(data,str1,str2)/infor(data[str1])
Print(教育信息获取率:,gr(数据,教育背景,类别))
#输出结果是33,360度信息增益率:0.580 . 00000000004
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。