大数据数学基础python,大数相乘 python

  大数据数学基础python,大数相乘 python

  本教程讨论IV值的计算和python这种大数据技术的使用。希望看完这篇文章,你会有所收获,帮助你对大数据技术有更深入的了解。

  变量装箱后,需要计算变量的重要性。IV是评价变量的差异或重要性的统计量之一。python计算IV值的代码如下:

  defCalcIV(Xvar,Yvar):

  N_0=np.sum(Yvar==0)

  N_1=np.sum(Yvar==1)

  n _ 0 _ group=NP . zeros(NP . unique(Xvar)。形状)

  n _ 1 _ group=NP . zeros(NP . unique(Xvar)。形状)

  foriinrange(len(np.unique(Xvar))):

  n _ 0 _ group[I]=Yvar[(Xvar==NP . unique(Xvar)[I])(Yvar==0)]。计数()

  n _ 1 _ group[I]=Yvar[(Xvar==NP . unique(Xvar)[I])(Yvar==1)]。计数()

  iv=NP . sum((N _ 0 _ group/N _ 0-N _ 1 _ group/N _ 1)* NP . log((N _ 0 _ group/N _ 0)/(N _ 1 _ group/N _ 1)))

  returniv

  defcaliv_batch(df、Kvar、Yvar):

  df_Xvar=df.drop([Kvar,Yvar],axis=1)

  ivlist=[]

  forcolindf_Xvar.columns:

  iv=CalcIV(df[col],df[Yvar])

  ivlist.append(iv)

  names=list(df_Xvar.columns)

  iv_df=pd。DataFrame({Var:names, Iv:ivlist},columns=[Var , Iv])

  returniv_df

  其中df是宁滨之后的数据集,Kvar是主键,Yvar是Y变量(0是好的,1是坏的)。

  本文由专业坐标整理发布。了解更多大数据技术,请关注专业坐标大技术云计算大技术频道!

  历史提交的图片或压缩文件

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: