python如何处理数据量很大的excel文件,python处理多个excel文件
Python批处理excel数据(含完整代码)熊猫库可以有效处理excel、csv、txt文件,可以将数据保存为多种格式的excel、csv、txt文件。一、导入数据excel文件可以通过熊猫库中的read功能读入,转换成DataFrame格式。导入熊猫为PD Path= d: \ \ text.xlsx # #文件路径data=pd.read_excel(path,Sheet_name=0) ##如果有多个子表,可以使用Sheet_name参数进行选择。如果excel表不包含列名信息,可以使用names参数指定data=pd.read _ excel (path,names=[id , name ,Date])对于csv文件,可以使用pd.read_csv函数导入数据。二。创建一个空表。当输出表和输入表的格式不一致时,我们可以通过创建一个空表来解决这个问题。新DataFrame表的数据可以为空,但必须设置列名,即header # # Create header header with list=[ name ,Date , a , b ]# # Create a empty table out data=PD。数据框架(列=标题)III。数据添加、删除和更正1。数据校正loc和iloc函数可用于检查和校正dataframe数据表中的数据。loc通过使用行名和列名来调用。Iloc使用行和列索引进行调用。propoloc=data.loc [index , proportion ]propoloc=data . loc[0,0] data.iloc [:5:]=data.iloc [:5:]。astype (int) # #索引可用于数据处理。此指令用于将表格第五列到最后一列的格式转换为整数int 2。数据添加和删除。可以使用drop函数删除指定的行和列,使用loc或insert函数添加列。loc用于添加行data.drop (index=[0],inplace=true) # #删除行data.drop(columns=[0],In=true,axis=1) ##删除列data . loc[str(csvName)]=row data # #添加一个名为CSV name的行,注意row data要保证列数与数据一致。data.loc[:str(csvName)]=0 ##添加一个名为csvName的列,用0填充列data.insert (data.shape[1], d ,0)# #在data.shape[1]处添加一个列,用0填充。四。批量处理。首先,使用os库遍历文件夹。获取所有excel文件导入osexcelnames=os.listdir(根路径)# #获取excel名称中excel名称的所有文件名:# #处理每个文件。5.常见的数据处理方法。字符串分段str.split(,)由逗号分隔,并创建一个存储列表。2.str.endswith(hello )判断字符串的后缀。6.桌子储物。1.单表存储:将一张表放入excel。saveFile=rootPath test.xlsx ##指定要保存的文件。注意,重复保存时不要打开excel。否则,无法写入rootdata.to _ excel (savefile,index=false) # #要保存指定的,请不要保存行名。2.多表存储:用PD将多张表放入一个excel中。Excel Writer(。/data out . xlsx’)作为编写器:dfa.to _ excel (writer,Sheet _ name= Table 1 )DFB . to _ excel(Writer,Sheet_name= Table 2) DFC。TO _ Excel (writer,sheet _ name= Table 3 )writer . save()writer . close()批量表格处理完整代码:汇总多个表格的信息。
导入进口熊猫为pdrootPath= C:\ \ test \ def createOutCsv(path):data=PD。read _ excel(path,names=[column1 , column2 , column3]) data.drop(index=[0],in place=True)header=[ name ]# #创建表头对于数据.索引中的索引:##利用数据中的所有列一创建表头column=data.loc[index, name].拆分(.)[-1]头。追加(列)出数据=PD .数据框架(列=标题)##创建表格返回输出数据#按下槽中的绿色按钮运行脚本 if _ _ name _ _= _ _ main _ _ :path=root path test。xlsx root data=createOutCsv(path)Csv names=OS。CSV名称中csvName的listdir(根路径)numCsvPro=1:print( no。numc SV pro,名称:,CSV Name)numc SV pro=numc SV pro 1 CSV path=根路径csvName data=PD。read _ excel(CSV路径,CSV对于范围(1,len(数据)1)中的索引,astype(str)行数据=[]行数据。append(CSV name):subData=[]if数据。loc[索引, column3]!=nan : propo=data.loc[index, column3].对范围(len(propo)-1)中的我进行split( ):子数据。append(int(propo[I]).split(:)[0])#子数据。追加()elif数据。loc[索引,列2]!=nan: num=data.loc[index, column2].split( )frame=int(data。loc[index, column1].拆分(.)[0])for I in range(len(num)-1):if(int(num[I])!=0):子数据。追加(帧)帧=帧1行数据。追加(子数据)根数据。loc[str(csvName)]=行数据保存文件=根路径 out数据。xlsx 根数据。to _ excel(保存文件,index=False)
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。