随机森林分类算法python代码,随机森林特征重要性python

  随机森林分类算法python代码,随机森林特征重要性python

  1原则

  1.1随机森林算法:随机森林是指通过集成学习的思想将多棵树整合在一起的算法。它的基本单元是决策树,每棵决策树就是一个分类器(假设分类问题是目前的研究对象)。因此,对于一个输入样本,n棵树有n个分类结果。随机综合所有类别的投票结果,指定投票次数最多的类别作为最终输出,这是最简单的装袋思路。

  1.2 Matplotlib和Seaborn

  Matplotlib:高度定制化绘图,需要设置更多参数;

  Seaborn:定制能力变低,代码变简洁。

  1.3网格搜索GridSearchCV参数的详细分析

  classs kle arn . model _ selection . gridsearchcv(estimator,param_grid,scoring=None,fit_params=None,N _ jord return _ train _ score= warn )#参数描述:estimator:score param_grid:以参数名(string)为关键字的字典和用作值的参数设置列表scoring: string,默认值:None;N_jobs:平行线数,默认值为1;Iid:默认值为True。如果为真,估计误差是所有样本的总和,而不是每个折叠的平均值。(cv)交叉验证参数,默认为无,使用三重交叉验证;Verbose:日志冗余,0:没有训练过程的输出,1:偶尔输出,1:每个子模型的输出;一般取0。2练习

  题目:基于射频的葡萄酒质量分析

  数据集:葡萄酒数据集

  3359 archive.ics.UCI.edu/ml/datasets/wine品质

  代码参考:

  # -编码:utf-8 -“值_计数)。plot (kind= pie),auto pct= % . 2f )PLT . show(PLT . subplot(121)在print(wine . corr)# quality与其他属性的关联图中表示SNS.barplot的数据=wine(PLT . subplot(122)SNS . bar plot)X= quality ,y= alcoholic hot data=wine) PLT。show)) fromskleaty))构成Fromsk左开右闭区间,2468构成酒点数bin=(2,4,6,8) # group name确定group _ names=[表示“高”]wine]Labels=group _ names(# label encoder)of“quality _ lb”表示“低”、“中”、“高”,因为字符串不适合计算2lb _ quality=label encoder(wine)(label)=lb _ quality . fit _ transform(wine)所对应的特征和类别来划分的In=true) 3360-1)其中X为,y=wine.label # Train_test_split训练集和测试集来自sklearn . model _ selection importtrain _ test _ splitx _ trainy _ test=Train test _ size=0.2)数据标准化来自sklearn . 预处理ImportScalex _ train=scale(x _ train)x _ test=scale)x _ test confusion _ matrix # N _ estimators:要创建的子树数RFC=RandomForestClassifier(N _ estimators适合方法训练集RFC。fit y _ train) #预测方法测试集预测y _ pred=RFC . predict(x _ test))Print)confu ut y _ pred)也就是说子树的个数分别为10、20、30。请看基尼和熵的最大子树数param _ RFC={ n _ estimators 3360[10,20,30,30]请参考1.3grid_RFC=gridsearchcv(RFC,PAAAARCCV) CV=5) Grid _ RFC。Fit (x _ train,y _ train(best _ param _ RFC=grid _ RFC。best _ params _ print(best _ param _ RFC)random forest。

  3359 www。我的课程163.org/learn/nju-1001571005? tid=1463102441 from=study #/learn/content?使用type=detail id=1240380202 CID=1261816441 Python中的数据

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: