sklearn数据库,sklearn里面有哪些数据

　　引入iris数据集

　　Iris数据集是机器学习任务中常用的分类实验数据集，由Fisher于1936年收集整理。Iris命名为Anderson Alice Flower数据集，全英文名称为Andersonsirisdataset，是一个多元分析数据集。Iris有150个样本，分为3类，有50种数据，每种数据包含4个属性。根据花萼长度、花萼宽度、花瓣长度、花瓣宽度这四个属性，可以预测鸢尾花属于哪三种(Setosa，Versicolour，virginica)。

　　总的来说，iris数据集是用来对莺尾花进行分类的数据集。每个样本包括四个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。需要做一个分类器，能够根据下表的前四列(或者样本的四个特征)判断样本是山孔(Setosa)、变色孔(Versicolour)还是弗吉尼亚孔。

　　iris中的每个样本都包含多样性信息作为目标属性。第五列也称为目标或标签。

　　示例的部分截图：

　　构造样本中四个特征的两两组合(任意两个特征分别为横轴和纵轴，不同品种的花用不同的颜色标注)，如图，有12个组合(实际只有6个，另外6个与之对称)。

　　(2)基于滑雪板的虹膜数据集

　　Python的数据挖掘和机器学习库sci toolkit已经包含iris数据集。如果sklearn没有安装在运行时环境中，您可以使用pip install sklearn命令来安装它。

　　本节使用pychram环境显示sklearn内置的iris数据集，如下：

　　importsklearnif _ name _= _ _ main _ :iris=sk learn . datasets . load _ iris(# data对应例子的四个特征。print(shapeofdata:)(print) iris.data . shape(print(line top 5:)的前五行)(print)iris . data有150行4列，代表样本的特征(shapeoftarget:)iris . Target . shape所有例子的目标属性打印(ShowTargetofData 3360

　　其中iris.target分别用0、1、2三个整数来表示花的三个品种。

　　对于分类，使用虹膜数据集。sci工具包附带了。只需搜索：pkgs目录中的iris.csv。

　　froms kle arn . datasetsimportload _ iris iris=load _ iris(

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读