python批量处理excel并汇总,pandas对excel筛选提取
熊猫处理csv读取文件过滤搜索值所在行的索引,根据索引删除该行,重新拆分写入csv摘要:前言:
没学过熊猫,但是最近老是在网上处理一些csv文件,查用法,老是忘。所以我今天就把这些常用用法记录下来,以后再补熊猫。文笔很简单,想请大家帮忙。如有不足,请指教。
读取文件导入熊猫作为PD data=pd.read _ csv (file,encoding= encoding )过滤器
单列/单行
Value=data[列名]多列
Value=data[[列名1 ,列名2]]注:
无法遍历直接读取的值;过滤后,可以遍历单个列,但不能遍历多个列。
找到值的行的索引index=data[data[列名]==要查找的值].index.tolist()[0]删除行data.drop(index,inplace=True)#参数:inplace=True#在原文件中有更改,Flase表示没有更改,删除公司列需要赋值#。空行data.dropna(subset=[ company ],inplace=True)由drop _ duplicates(subset=[ comment ],keep= first ,inplace=true)数据进行重复数据删除。drop _ duplicates (keep= first ,inplace=true)。
子集:以列表的形式填写需要去重的列名。默认值为None,表示根据所有列执行。
Keep:有三个可选参数:first、last和False,默认值为first。其中,
(1)first的意思是:保留第一次出现的重复行,删除后面出现的重复行。
(2)last的意思是:删除重复项,保留最后出现的项。
(3)假的意思是:删除所有重复的。
Inplace:默认值为False,删除重复的项目并返回一个副本。则直接删除原始数据上的重复项。
下面是别人的参考,链接在下面:
原文链接:熊猫按某栏去重
把一个csv表拆成几个,直接拿大人物的文章,写的好,可以看。
原文链接:用Python将excel文件按列拆分成多个Excel文件。
# -*-编码:utf-8 -*- 根据公司名称将excel文件拆分成多个excel文件。表名:人数计算区分字段名:公司导入熊猫为PD data=PD . read _ excel( d:\ data \ file splitting experiment . xls ),Sheet _ name= head number )#删除空行数据data.dropna(公司列的subset=[ company],In=true) #第三步:获取公司列表,去重department _ list=list(data[ company ])。drop_duplicates()) #获取数据公司列,重新合并放入列表打印(department_list)#第四步:在department_list中为I将数据按类别存储在文件中:department=data[data[ company ]==I]department . to _ excel(。/str (I)公司。xlsx’)写入csvdata。to _ csv (csv _ file,index=0,encoding= encoding) #index=0,非常实用#如果写中文时有乱码,可以用utf-8-sig来总结:以上是我用来处理csv的一些方法。有需要的朋友可以拿去,非常感谢。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。