sklearn分类算法,Python分层抽样sklearn
正式文件的编码
一、简介
Scilearn又称sklearn,是机器学习领域最著名的python模块之一。
Sklearn包括多种机器学习方法:
分类分类分类回归聚类无监督分类降维数据降维模型选择预处理数据预处理
二、选择模型
从START开始,首先要看数据的样本是否为50。如果很小,就需要收集更多的数据。
从图中可以看出,有分类,回归,聚类,降维种算法。
分类和回归是监控学习,每个数据对应一个等级。聚类无监督学习,即无标签。
另一个是降维。如果数据集有很多属性,可以通过降维算法将这些属性组合起来。比如20个属性只能是2个。请注意,这不是选择两个,而是压缩成两个。它们收集了20个属性的所有特征,相当于更好地提取了重要信息,而没有不必要的信息。
然后根据问题属于哪一类问题,分类,回归还是聚类,选择合适的算法。
当然,数据的大小也是要考虑的,比如100K就是阈值。
我找到了一种分类回归的方法。例如新币。
三、应用模型
Sklearn整合并统一了所有的机器学习模式。记住一种模式后,可以吃其他不同类型的学习模式。
使用模型的步骤:
1.模块部署
2.读出数据
3.建立模型
4.培训和测试
#!/usr/hxd wk/env python3# coding=读写utf8 pandas CSV文件的加扰CSV文件并调用sklearn库RF #不显示importnumpyasnpimportpandasaspdfromskneel。ensembleimportrandomforestclasssifier imports # # # #将警告消息转换为2/3的train_data作为训练数据,1/3的train_data作为训练模型并作为测试数据的验证数据集# # # # # # # OS . homdir train _ df=PD . read _ CSV(train _ data _ 10000 . CSV))train _ data=train _ df . values test _ df=PD。print( numberofallfeatures 3360(t(t num _ features(split=int(num _ features * 0.8)Train=Train _ data[3333]# # # # # # #建立RF结构#定义决策树个数为100#开始训练。训练的X数据格式为[],训练的Y值为[],即ravel后的数据,使所有元素相等有序。然后,#计算精度# # # # # # # # # CLF=randomforestclassfier(n _ estimators=100)模型=9)。拉威尔()。9]) ACC=NP。均值)输出==测试[:9]。ravel()* 100 Print(accuracyofpurerandomforestclass " % ")# # # # # # #使用所有训练数据进行训练#使用测试集数据预测最终结果# # # # CLF=# predicted train _ data[:9]。ravel))output=model . predel:9])ACC=NP . mean(output==test _ data(3365365306;9 ).ravel())100 print(The accuracy of future " % ")PD . data frame((imageID):range)1,LLE
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。