pandas数据分析实战 (超详细),python数据分析 活用pandas

  pandas数据分析实战 (超详细),python数据分析 活用pandas

  归纳整理了一些工作中常用到的熊猫使用技巧,方便更高效地实现数据分析。

  1.计算变量缺失率df=pd.read_csv(泰坦尼克_火车。CSV’)

  定义缺失_校准(df):

  df:数据集

  返回:每个变量的缺失率

  missing_series=df.isnull().sum()/df.shape[0]

  缺失_df=pd .数据帧(缺少_系列)。重置索引()

  missing _ df=missing _ df重命名(columns={ index : col ,

  0:missing_pct})

  missing _ df=missing _ dfsort _ values( missing _ pct ,升序=False).reset_index(drop=True)

  返回缺失_df

  缺少校准值如果需要计算样本的缺失率分布,只要加上参数轴=1。

  2.获取分组里最大值所在的行方法分为分组中有重复值和无重复值两种。无重复值的情况。

  df=pd .DataFrame({Sp:[a , b , c , d , e , f], Mt:[s1 , s1 , s2 , s3], Value:[1,2,3,4,5,6], Count:[3,2,5,10,10,6]})

  df

  df.iloc[df.groupby([Mt]).apply(lambda x: x[Count].idxmax())]先按马太福音列进行分组,然后对分组之后的数据框使用idxmax函数取出数数最大值所在的列,再用无线连接位置索引将行取出。有重复值的情况

  df[ rank ]=df。分组依据( ID )[ score ].rank(method=min ,升序=假).astype(np.int64)

  df[df[rank]==1][[ID , class]]对身份进行分组之后再对分数应用等级函数,分数相同的情况会赋予相同的排名,然后取出排名为一的数据。

  3.多列合并为一行df=pd .DataFrame({id_part:[a , b , c , pred:[0.1,0.2,0.3,0.4], pred_class:[女人,男人,猫,狗], v_id:[d1 , d2 , d3 , d1]})

  df.groupby([v_id]).agg({pred_class: [, .join], pred: lambda x: list(x),

  id_part: first}).重置索引()4删除包含特定字符串所在的行df=pd .DataFrame({a:[1,2,3,4], b:[s1 , exp_s2 , s3 , exps4], c:[5,6,7,8], d:[3,2,5,10]})

  df[df[ b ]。海峡。包含( exp )]5 .组内排序df=pd .数据帧([A ,1],[A ,3],[ A ,2],[B ,5],[B ,9]],列=[名称,分数])介绍两种高效地组内排序的方法。

  df.sort_values([name , score],升序=[对,错])

  df.groupby(name ).apply(lambda x:x . sort _ values( score ,升序=False)).reset_index(drop=True)6 .选择特定类型的列饮料=pd.read_csv(数据/饮料。CSV’)

  # 选择所有数值型的列

  饮料。select _ dtypes(include=[ number ]).头部()

  # 选择所有字符型的列

  饮料。select _ dtypes(include=[ object ]).头部()

  饮品。select_dtypes(include=[数字,对象,类别,日期时间]).头部()

  # 用排除关键字排除指定的数据类型

  饮料。select _ dtypes(exclude=[ number ]).head()7 .字符串转换为数值df=pd .数据帧({ 列1:[1.1,2.2,3.3],

  列2:[4.4,5.5,6.6],

  列3:[7.7,8.8,-]})

  df

  df.astype({ 列1 :浮点,列2:float}).数据类型用这种方式转换第三列会出错,因为这列里包含一个代表0 的下划线,熊猫无法自动判断这个下划线。为了解决这个问题,可以使用to_numeric()函数来处理第三列,让熊猫把任意无效输入转为南。

  df=df.apply(pd.to_numeric,errors= constrate ).菲尔娜(0)8。优化数据帧对内存的占用方法一:只读取切实所需的列,使用用途参数

  cols=[beer_servings , continent]

  小_饮料=PD。read _ CSV(数据/饮料。CSV ,usecols=cols)方法二:把包含类别型数据的目标列转换为种类数据类型,通过指定类型参数实现。

  dtypes={ 大陆:类别 }

  smaller _ drinks=PD。read _ CSV(数据/饮料。CSV ,usecols=cols,dtype=dtypes)9 .根据最大的类别筛选数据帧电影=PD。read _ CSV( data/IMDB _ 1000。CSV’)

  计数=电影。流派。值计数()

  电影【电影。流派。isin(计数。n最大(3))。索引)]。head()10 .把字符串分割为多列df=pd .数据帧({ 姓名:[张三,李四,王五],

  所在地:[北京-东城区,上海-黄浦区,广州-白云区]})

  df

  df .姓名。str.split( ,expand=True)11 .把系列里的列表转换为DataFramedf=pd .数据帧({ 列1:[a , b , c],列2:[[10,20], [20,30], [30,40]]})

  df

  Df_new=df。列2.apply(pd。系列)

  Pd.concat ([df,df _ new],axis= columns) 12。具有多个函数的聚合订单=PD . read _ CSV( data/chipotle . tsv ,sep= \ t )

  订单。groupby (order _ id )。item _ price.agg ([sum , count])。head () 13。分组聚合将熊猫导入为pd

  df=pd。DataFrame({key1:[a , a , b , b , a],

   key2:[一,二,一,二,一],

   data1:np.random.randn(5),

   data2:np.random.randn(5)})

  df

  对于名称,在df.groupby(key1 ):

  打印(姓名)

  打印(组)

  Dict(list(df.groupby(key1 ))按字典或系列分组。

  人民=警察。DataFrame(np.random.randn(5,5),

  columns=[a , b , c , d , e],

  index=[乔,史蒂夫,韦斯,吉姆,特拉维斯])

  mapping={a:red , b:red , c:blue ,

  d :蓝色, e :红色, f :橙色 }

  by_column=people.groupby(映射,轴=1)

  by_column.sum()

  技术交流欢迎转载,收藏,有所收获,喜欢,支持!数据和代码可以从我这里获得。

  目前已开通技术交流群,群友2000多人。最好的添加笔记的方法是:兴趣来源,这样才能找到志同道合的朋友。

  方式,微信搜索微信官方账号:Python学习与数据挖掘,后台回复:加群

  转载请联系作者授权,否则将追究法律责任。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • 2020年高考成绩分布表,2020年高考成绩统计,数据分析2020年全国各省高考成绩分布情况
  • ,,python实现数据分析与建模
  • python3 数据分析,python数据分析课堂
  • 《数据思维》,数据分析的思维导图
  • python数据分析就业方向,python数据分析毕业论文
  • python数据分析数据清洗,python中数据清洗
  • 基于Python的数据可视化,python数据分析及可视化处理的第三方库
  • 利用python进行数据分析豆瓣,python数据分析基础和利用python进行数据分析
  • python数据分析数据清洗,用python进行数据清洗
  • python对excel表格数据的统计和分析,python进行excel数据分析
  • 从零开始学Python数据分析与挖掘,自学python数据分析
  • python数据分析结构思维导图,python组合数据类型思维导图
  • 关联规则分析案例,关联规则数据分析题,关联规则的实际案例数据
  • 数据分析与商业数据分析,120个Excel商业数据分析实战案例
  • python数据分析excel读写,python 读取excel数据
  • 留言与评论(共有 条评论)
       
    验证码: