countif函数时间条件,Python日期函数
Python是一种优秀的数据分析语言,主要是因为以数据为中心的Python软件包有一个奇妙的生态系统。Pandas就是其中之一,它使得导入和分析数据变得更加容易。
数据分析的一个重要部分是分析重复值并删除它们。Pandas duplicated()方法只帮助分析重复值。它返回一个布尔序列,该序列仅对唯一的元素成立。
用法:
data frame . duplicated(subset=None,keep=first )
参数:
子集:获取一行或一列行标签。默认值为无。在传递列之后,它只会将它们视为重复项。
Keep:控制如何考虑重复值。它只有三个不同的值,默认值是“第一”。
-如果是“第一个”,则将第一个值视为唯一值,将其余相同的值视为重复值。
-如果是“last”,它将最后一个值视为唯一值,其余相同的值视为重复值。
-如果为False,则所有相同的值都被视为重复值。
要下载使用的CSV文件,请单击此处。示例:返回一个布尔序列
在下面的示例中,根据“名字”列中的重复值返回布尔序列。
#进口熊猫套餐
进口熊猫作为pd
#从csv文件制作数据帧
data=pd.read_csv(雇员. csv )
#按名字排序
data.sort_values(名字,inplace=True)
#制作一个布尔系列
bool_series=data[名字]。重复()
#显示数据
data.head()
#显示数据
数据[布尔系列]
输出:
如输出图像所示,由于keep参数的默认值为“first”,因此每当出现一个名称时,第一个将被视为“唯一的”,并将被视为“重复的”。
示例2:删除重复项
在本例中,keep参数设置为False,因此只采用唯一值,并从数据中删除重复值。
#进口熊猫套餐
进口熊猫作为pd
#从csv文件制作数据帧
data=pd.read_csv(雇员. csv )
#按名字排序
data.sort_values(名字,inplace=True)
#制作一个布尔系列
bool_series=data[名字]。重复(keep=False)
#布尔系列
布尔系列
#传递NOT of bool系列以仅查看唯一值
data=data[~bool_series]
#显示数据
data.info()
数据
输出:
因为duplicated()方法对重复项返回False,所以NOT系列用于检查数据框中的唯一值。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。