python pandas数据清洗,pandas数据清洗常用函数
本文主要介绍了熊猫数据清洗实现删除的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
目录
准备工作(导入库、导入数据)检测数据情况DataFrame.drop(标签=无,轴=0,索引=无,列=无,就地=假)方式一:删除指定行或列方式二:利用布尔型删除满足条件元素所在的行
准备工作(导入库、导入数据)
进口熊猫作为螺纹中径
将matplotlib.pyplot作为血小板计数导入
将数组作为铭牌导入
将海生的作为社交网站(Social Network Site的缩写)导入
sns.set_style(darkgrid )
list _ CSV=[ Amazon _ top _ selling _ book。 csv ,乳腺癌_威斯康星. csv ,钻石. csv ,保险. CSV ,网飞_titles.csv ,企鹅。CSV ,
titanic.csv , winequality-red.csv]
DIC _ path=r c : Users pandas Desktop task 228 datasets datasets
零件数据=PD。read _ CSV(DIC _ path list _ CSV[4])
零件_数据
说明0s 1中的show _ idtypetitledirectorcastcountrydate _ added release _ yearratingdurationlisted _ in电影《约翰逊已死》克里斯汀约翰逊美国2021年9月25日.1s2TV秀血水马娜娜QA mata
Khosi Ngema,
盖尔马巴拉内,
塔班.南非2021年9月24日2021电视MA2季国际电视节目,
电视剧,
电视迷在一次聚会上偶遇后,一辆开普敦t.2s3TV演艺圈朱利安勒克莱尔萨米布阿吉拉,
特蕾西戈托斯,
塞缪尔朱伊,
伊斯兰教的先知.南9号月24日20212021TV-MA1第三季犯罪电视剧,
国际电视节目,
电视表演.为了保护他的家人免受强效药的伤害
...3s4TV ShowJailbirds New OrleansNaNNaNNaNSeptember 24, 20212021TV-MA1 SeasonDocuseries, Reality TVFeuds, flirtations and toilet talk go down amo...4s5TV ShowKota FactoryNaNMayur More,
Jitendra Kumar,
Ranjan Raj,
Alam K...IndiaSeptember 24, 20212021TV-MA2 SeasonsInternational TV Shows,
Romantic TV Shows,
TV ...In a city of coaching centers known to train I..........................................
8807 rows × 12 columns
检测数据情况
Hint:该函数用于检测任意DataFrame中缺失值情况
def missing_values_table(df):
missing_values_table(part_data)
Your selected dataframe has 12 columns.
There are 6 columns that have missing values.
Missing Values% of Total Valuesdirector263429.9country8319.4cast8259.4date_added100.1rating40.0duration30.0
DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False)
参数说明:
labels 就是要删除的行列的名字,用列表给定
axis 默认为0,指删除行,因此删除columns时要指定axis=1;
index 直接指定要删除的行
columns 直接指定要删除的列
inplace=False,默认该删除操作不改变原数据,而是返回一个执行删除操作后的新dataframe;
inplace=True,则会直接在原数据上进行删除操作,删除后无法返回。
方式一:删除指定行或列
labels+axis
demo = part_data.drop([director], axis=1)
Your selected dataframe has 11 columns.
There are 5 columns that have missing values.
Missing Values% of Total Valuescountry8319.4cast8259.4date_added100.1rating40.0duration30.0
方式二:利用boolean删除满足条件元素所在的行
df = df.drop(df[].index)
# 删除release_year年份在2009年之前的行
(7624, 12)
到此这篇关于pandas数据清洗实现删除的项目实践的文章就介绍到这了,更多相关pandas数据清洗删除内容请搜索盛行IT软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行IT软件开发工作室!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。