利用python处理excel数据,python应用于excel

  利用python处理excel数据,python应用于excel

  读取目录数据显示数据显示数据行号和列号显示数据格式dtpyes显示列名默认列名显示数据添加五行后显示数据唯一值跳过文件I行不读取缺失值数据清理过程空值更改数据格式更改列名替换删除列表值数据预处理数据筛选数据汇总分类汇总数据透视表数据统计采样描述统计协方差相关分析读取数据导入Pandaspdimportnumpyartnumpyart importmatplotlibpyplotpltfromdatetimeimportdatetimefrompandsimportseries,DataFrame读取x.xlsx文件。

  EXCEL文件方法xlrd模块导入xlrd读取数据df=xlrd.open_workbook(x.xlsx))方法熊猫模块导入熊猫为pd读取数据df=PD.rd

  df.shape (24247,17))。

  有24247行和17列数据。

  显示数据格式DTP是

  df.dtypes

  数据格式描述文件

  Image.png表示列名df.columns

  如果列名数据中没有表头行,请使用熊猫添加默认列名df=PD.read_excel(x.xlsx),header=None) # (df.head(5),前面数据的前五行)

  添加默认列名因为该数据中有列名,所以不需要添加显示数据的最后五行。

  df。尾巴(5))。

  数据的最后五行显示数据的唯一值(唯一函数)

  Df[raddg level ]。唯一(

  raddg级别为0,因为输入了数据丢失值。

  在哪里读取数据,请skip prows=[I],不要跳过文件的第I行来读取。

  Row df=PD.read_excel(x.xlsx),skip rows=[2])raddg编号20124403的df.head未读取。

  在不阅读第2行的情况下识别缺失值。

  #所有缺失值将显示为true#df.isnull(PD.insull) df)

  缺失值数据清理过程显示空值。

  删除空值 (dropna函数)

  df.dropna(how=any )).

  删除空值

  空值填充空值(fillna函数)

  #空值填充df.fillna(值=0(值=0)

  填写空白值

  用均值对空值进行填充

  # raddg响应时间的平均值表示缺少的值是df[raddg响应时间]。fillna(df[raddg响应时间。].均值) ())

  填充 更改数据格式的平均值

  dtypes函数中表示的区域的数据格式是int64,已经改为浮点格式。

  Df[区域]。astype(float64))。

  浮动64更改列名称

  df . rename(columns={ im root : root }))))))df . rename))

  重命名列以删除重复值(drop_duplicates)) (function))))))))))))

  最初的保留,剩下的删除。

  #默认情况下,保留第一个匹配项,删除最后一个匹配项。drop_duplicates()

  最后一次出现的保留,其余删除

  df

  [商店]。drop_duplicates(keep=last )

  最后一次出现预订对列表内的值进行替换(replace函数)df[客户UCID]。替换( 10531975 , 110 )

  替换数据预处理对数据进行排序

  Df.sort_values(by=[当天客户发送的消息数])

  数据分组——excel中的数据透视表排序

  * *将客户聊天记录分组

  #如果price列的值是3000,group列显示high否则显示lowdf[group]=np.where(df[客户当天发送的消息数] 5,高,低)df。

  分组 对符合多个条件进行分组

  #满足raddg级别A1,raddg响应时间为24的,在sign列显示为1df.loc[(df[raddg级别]= A1) (DF [RADDG响应时间]=24.0), sign]=1df。

  满足多个条件的数据被划分为pd。data frame((x . split( net )for x in df[客户注册通道],index=df.index,columns=[客户注册通道, size])

  通过标签loc函数df.loc[0:3]分离数据提取

  提取0-3行数据按日期进行提取#重置索引df.reset_index()#将日期设置为索引df=df.set_index (date) #提取2016年11月2日[ 2016年11月2日: 2016年11月2日

  11月2日的数据是按位置(iloc函数)和df提取的。iloc是按区域[:4,5]提取的

  4行5列Select #[0,2,5] by location表示指定的行,Select[4,5]表示指定的列df.iloc[[0,2,5],[4,5]]

  根据image.png标签和位置提取ix#。行按日期排列,列按位置设置df . IX[ 2016-11-03 : 2016-11-03 ,4: 6]

  并且根据条件(loc和isin函数)提取标签位置

  用isin函数判断# raddg级别是否为A3df[raddg级别]。isin([A3])

  先判断结果,如果结果为真则提取#先判断raddg级列是否包含A3和M4,再提取复合条件的数据。Df.loc[df[raddg level ]。isin([A3 , M4])]

  从合并的数据中提取指定的值。

  #提取三个字数据=df[客户注册渠道]pd。DataFrame(data.str[:3])

  选择数字数据过滤器按条件过滤。

  满足多个条件,指定的条件(和)#级别为M4,发送的消息数大于110 DF . loc[(DF[raddg当天发送的消息数] 110) (df[raddg级别]= M4 ),[ RADDG的响应时间, 5分钟内响应, RADDG ]。

  级M4,发送大于110的消息满足多个条件之一#发送大于400的消息或响应时间大于60000 DF . loc[(DF[ raddg当天发送的消息数]400)(DF[ RADDG的响应时间]60000.0),[ RADDG的响应时间, RADDG系统号]。

  或者#过滤后可以直接求和df . loc[(df[ raddg当天发送的消息数]400)(df[ raddg的响应时间] 60000.0),[ raddg的响应时间, raddg的系统号]]。排序([ raddg的响应时间])。raddg=200) (df[raddg级别]= A4 ),[raddg响应时间, raddg系统号]]。排序([raddg响应时间])

  不算# count()就是总df . loc[(df[ RADDG当天发送的消息数]!=200) (df[raddg level]= a4 ),[raddg响应时间, raddg系统号]]。排序([raddg响应时间])。raddg系统编号。count()927使用查询函数。

  Df.query(raddg level==[A4 , M4])

  或A4 M4数据汇总小计groupby小计所有列df.groupby(raddg level )。计数()

  raddg级别汇总了特定的列df.groupby(raddg级别)[raddg响应时间]。计数()

  汇总响应时间列,增加分类条件df.groupby([raddg level , raddg是否回复])[raddg响应时间]。计数()

  数据不准确是因为筛选、填充、分组、算术运算#分类汇总raddg的响应时间,计算平均df . group by( raddg level )[ raddg响应时间]。agg([名词意思])

  分类,平均数据pivot pd.pivot _ table (df,index=[ raddg当天发送的消息数],values=[ raddg的响应时间],columns=[ raddg的级别],aggfunc [len,np.sum],fill _ value=0,margins=true

  数据透视,统计数据抽样,简单随机抽样,sampledf.sample(n=3)

  随机画3条线,设置采样重量。

  需要设置每一行的权重。如果列表中的行太多,这是可行的。假设有4行数据,设置采样权重weights=[0,0,0.5,0.5] df.sample (n=4,weights=weights)决定采样后是否放回。#采样后放回原处,truef.sample (n=6,replace=0.5)

  自动生成数据,如数据的数量、平均值和标准偏差。

  #round(2),显示小数点后2位数,t转置df.describe()。回合(2)。T

  描述统计标准差STD()df[ raddg的响应时间]。标准差()覆盖协方差。56860 . 68868686861

  #计算两个字段df[ raddg当天发送的消息数]之间的协方差。cov(df[当天客户发送的消息数])。48360.88868688686

  相关分析

  相关系数在-1和1之间,接近1为正相关,接近-1为负相关,0为不相关。

  客户当天发送的消息】。corr (df[由raddg在同一天发送的消息])。48660.88868688686

  作者:yxdhmgsjx学者

  链接:http://www.jianshu.com/p/356a579062aa

  来源:简书

  版权归作者所有。商业转载请联系作者授权,非商业转载请注明出处。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: