对iris数据集进行聚类分析,加载iris数据集,并划分训练集、测试集

　　一.虹膜数据集介绍

　　Iris数据集中文命名为Anderson Alice Flower Dataset，英文命名为Andersonsirisdataset。Iris包含150个示例，对应于数据集中的每一行数据。Iris数据集是一个150行5列的二维表格，因为每行数据包含每个样本的四个特征和样本类别信息。

　　总的来说，iris数据集是一个用于花卉分类的数据集。每个样本包括四个特征(前四列):花萼长度、花萼宽度、花瓣长度和花瓣宽度。你需要做一个分类器。根据样本的四个特征，分类器可以判断西伯利亚鸢尾、变色鸢尾和弗吉尼亚鸢尾属于哪一种。

　　iris中的每个样本都包含多样性信息作为目标属性。第五列也称为目标或标签。

　　示例的部分截图：

　　构造样本中四个特征的两两组合(任意两个特征分别为横轴和纵轴，不同品种的花用不同的颜色标注)，如图，有12个组合(实际只有6个，另外6个与之对称)。

　　Python的数据挖掘和机器学习库sci toolkit已经包含iris数据集。如果没有安装sci工具包，请参考sci工具包安装教程。

　　二。scikit中虹膜数据集介绍

　　在linux上打开终端(ubuntu默认快捷键是ctrl alt T)，输入python进入python shell，然后输入代码。

　　froklearnimportdatasetsiris=datasets . load _ iris(# data对应例子的四个特征。具有10行和4列的打印iris.data.shape#指示样本特征的前五行的打印iris . data[:5]#目标对应于样本类别(目标属性)，并且具有150行和1列的打印。

　　其中iris.target分别用0、1、2三个整数来表示花的三个品种。

　　对于分类，使用虹膜数据集。sci工具包附带了。只需搜索：pkgs目录中的iris.csv。

　　froms kle arn . datasetsimportload _ iris

　　iris=load_iris()