什么是信息增益和信息增益率,信息增益与信息增益率详解

  什么是信息增益和信息增益率,信息增益与信息增益率详解

  

  一、信息增益与信息增益率

  1、信息增益

  用某个特征划分数据集前后熵的差异。熵可以表示样本集的不确定性。熵越大,样本的不确定性越大。因此,划分前后集合熵的差异可以用来衡量当前特征对于样本集D划分是好是坏。

  信息增益=entroy(前)-entroy(后)

  注意:的信息增益表示通过知道特征x的信息来减少类别Y的信息熵的程度

  2、信息增益率

  增益由先前的信息增益(D,A)和属性A的相应“内在价值”的比率定义[Quinlan,1993J]。

  二、信息增益与信息增益率python代码实现

  1、信息增益定义计算信息增益的函数:计算g(DA)

  defg(数据,str1,str2):

  e1=data.groupby(str1)。apply(x : infor(x[str 2]))

  P1=PD . value _ counts(data[str 1])/len(data[str 1])

  #计算Infor(DA)

  e2=总和(e1*p1)

  returninfor(data[str2])-e2

  打印(教育信息获取:{} 。格式(g(数据,教育背景,类别))

  #输出结果为:学术信息增益:0.5000000000005

  defgr(数据,str1,str2):

  returng(data,str1,str2)/infor(data[str1])

  Print(教育信息获取率:,gr(数据,教育背景,类别))

  #输出结果是33,360度信息增益率:0.580 . 00000000004

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: