sklearn数据库,sklearn里面有哪些数据
引入iris数据集
Iris数据集是机器学习任务中常用的分类实验数据集,由Fisher于1936年收集整理。Iris命名为Anderson Alice Flower数据集,全英文名称为Andersonsirisdataset,是一个多元分析数据集。Iris有150个样本,分为3类,有50种数据,每种数据包含4个属性。根据花萼长度、花萼宽度、花瓣长度、花瓣宽度这四个属性,可以预测鸢尾花属于哪三种(Setosa,Versicolour,virginica)。
总的来说,iris数据集是用来对莺尾花进行分类的数据集。每个样本包括四个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。需要做一个分类器,能够根据下表的前四列(或者样本的四个特征)判断样本是山孔(Setosa)、变色孔(Versicolour)还是弗吉尼亚孔。
iris中的每个样本都包含多样性信息作为目标属性。第五列也称为目标或标签。
示例的部分截图:
构造样本中四个特征的两两组合(任意两个特征分别为横轴和纵轴,不同品种的花用不同的颜色标注),如图,有12个组合(实际只有6个,另外6个与之对称)。
(2)基于滑雪板的虹膜数据集
Python的数据挖掘和机器学习库sci toolkit已经包含iris数据集。如果sklearn没有安装在运行时环境中,您可以使用pip install sklearn命令来安装它。
本节使用pychram环境显示sklearn内置的iris数据集,如下:
importsklearnif _ name _= _ _ main _ :iris=sk learn . datasets . load _ iris(# data对应例子的四个特征。print(shapeofdata:)(print) iris.data . shape(print(line top 5:)的前五行)(print)iris . data有150行4列,代表样本的特征(shapeoftarget:)iris . Target . shape所有例子的目标属性打印(ShowTargetofData 3360
其中iris.target分别用0、1、2三个整数来表示花的三个品种。
对于分类,使用虹膜数据集。sci工具包附带了。只需搜索:pkgs目录中的iris.csv。
froms kle arn . datasetsimportload _ iris iris=load _ iris(
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。