基于cart算法的自动决策树工具的使用,决策树cart算法python实现

  基于cart算法的自动决策树工具的使用,决策树cart算法python实现

  决策树的CART算法——基尼系数决策树的CART算法使用基尼系数来选择区分属性。数据集的纯度可以用基尼系数来衡量。

  gnI(D)=k=1)y)k(kpk)=1k=13y 3pk 2(begin(Aligned)G I n I(D)D)=_ sum _ { k=1).\ ne k } p _ kp _ { k # x27}=1-\ sum _ { k=1 } ^ { y } p _ k ^2\ end { aligned }基尼(d )=k=1(y ) k )=kPK )=1k=1

  直观上,数据集的基尼系数是从数据集D中随机选取两个样本,反映这一类的不同概率。因此,基尼系数越小,数据集的纯度越高。

  属性A的基尼系数为

  gnI_Index(d,a ) (v=1v ) dv ) dgInI ) dv ) begin(对齐)Gini (index ) d,a ) ) sum_{v=1)

  和数据集D的属性A的熵计算一样,请看我的博文1和我的博文2。

  因此,在候选属性集合A中,选择分割后基尼指数值最小的属性作为最佳分割属性。

  a=argmInaagnI_Index(d,a)a _ *=arg min _ { a(ina } Gini(Index)d,a ) a=argminaagini_index ) d

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: