购物统计程序Python,python分析商店销售数据

  购物统计程序Python,python分析商店销售数据

  1.主要内容:1。正在清理数据。统一修改列名,处理缺失数据、异常数据、转换日期等数据类型。

  2.查看整体销售情况。

  3.分析商品维度。分析的主要内容有:商品价格分析、商品销售量、销售情况分析、商品清仓。

  联合分析

  4.分析商店维度。分析的主要内容有:店铺销售、销售方法分析、店铺促销分析、店铺

  销售时间分析、周平均消费次数分析、客单价分析等。

  5.相关性分析:利用相关表和相关矩阵图初步分析变量之间的关系。

  6.分析用户维度。分析的主要内容包括:分析用户的基本购买情况,以及用户按时间(周)的购买情况。

  分析,用户购买力分析,用户复购率分析,RFM区分用户。

  其次,使用Python工具

  三。数据来源该数据集包含公司2018年6月1日至2018年7月5日零售额的交易信息。

  四。该字段表示SDATE(订单日期)

  商店代码(商店编号)

  POS机号码

  BASK_CODE(用户号)

  产品代码(商品编号)

  项目_数量(商品数量)

  ITEM_SPEND(商品的实际价格)

  NORMAL_PRICE(商品单价)

  折扣类型(折扣类型)

  折扣_金额(折扣金额)

  动词(verb的缩写)数据清理1。检查整体数据特征。

  从图中可以初步看出,数据集中可能存在异常数据,需要初步处理的地方如下:

  1)数据表中的SDATE字段需要转换成日期类型,以便后续计算;

  2)数据表中ITEM_SPEND字段出现负值,即商品实际支付金额为负,属于异常数据;

  3)数据表中的ITEM_QUANTITY字段出现负值,即商品数量为负,属于异常数据;

  4)数据表中的DISCOUNT _ AMOUTN字段数据有正值,即折扣后的金额高于折扣前的金额,这是异常数据。

  5)为了方便阅读和查看,更改了列名以符合驼峰命名法。

  2.修改列名item.columns=[shop _ date , store _ id , pos _ id , user _ id , prod _ id , item _ quantity , item _ spent , normal _ price , discount _ type 。折扣_金额] 3。检查缺少的数据项。apply(lambda x:sum(x . is null())/len(x),axis=0) 4。检查并转换数据类型(1)查看数据表类型

  如图,数据中没有缺失数据,所以不需要进行缺失值处理。

  (2)转换数据类型

  数据类型中的Object是指如果一列包含多种类型,则该列的类型将是object,具有相同字符串类型的列也将被视为object类型。因此,对象类型中的SDATE数据类型应该是日期类型。另外,因为涉及到零售的钱,数值型都要调整到小数点后两位。因此,最终数据表的数据类型主要需要在以下几点进行调整:

  1)调整日期数据类型

  2)将货币调整到小数点后两位

  3)检查调整后的数据类型。

  # date数据类型item . shop _ date=PD . to _ datetime(item . shop _ date)# money保留两位小数PD . set _ option( display . float _ format ,lambda x: %.2f% x) #将所有数据转换为两位小数(3)查看修改后数据表数据类型

  5.检查异常值,并根据上一节删除初步数据检查中发现的问题。在上一节中,我们发现数据表中的商品数量、订单总金额和商品实际支付金额都是负数,而折扣金额是正数,因此折扣金额的计算可能会受到负数金额的影响。此外,数据中可能存在空值。因此,删除异常值主要包括以下操作:

  1)将商品数量、订单总金额、已付金额的负值调整为正值;

  2)新建销售总额字段:销售总额=单价*数量。

  根据修改后的数据计算折扣金额:折扣金额=销售总额-实际付款金额(ITEM_SPEND)。如果与实际折扣金额不同,可以判断为异常数据,删除。

  3)删除后,分析是否还有折扣金额为正的数据,如果有,则删除。

  最后发现没有数据显示折扣金额与实际折扣不同,可以判断没有异常值。

  不及物动词数据分析1。总体销售数据

  从整体销售情况分析,2018年6月1日至2018年7月5日,共有280878位用户在该店购买商品,总销售额为22216624.17元,流动商品共计19261件。

  2.商品维度分析(1)商品价格分析

  从初步的价格箱线图可以看出,顾客更喜欢店内的低价商品,商品价格的具体情况从这张图上看不清楚。因此,下面将从0-50范围内的商品价格进行提取和分析。

  #求商品价格的四分位数df _ 1=PD . to _ numeric(item _ normal[ normal _ price ])q=[df _ 1。[0, 25, 5, 75,1]]中I的分位数(I);Q [-1]=1Q [0.5,3.6,7.0,13.8,51.0]从最终的箱线图可以看出,商品的最高价格在3.6元到13.8元之间,这也符合消费者在零售店购买的商品价格会相对较低的事实。店主可以根据消费者的消费情况调整商品,把更实惠、更常用的商品放到货架上,供消费者选择。

  (2)查看销量排名前十和最后的商品

  此部分分析销售的前10种商品和销售的最后一种商品的数量,并绘制前10种商品的直方图以供分析。从图表中可以看出,前三种商品的销量明显高于后三种,相差至少2000。在计算过程中,找到了很多销量为1的商品,将销量为1的商品全部提取出来,共有2673个。这2673件商品在此期间只卖出了一件,可能是因为商品不常用,也可能是商品本身存在其他问题。

  (3)查看销售额排名前十和后十的商品

  本节主要分析排名前10的商品和排名后10的商品,并绘制排名前10的商品的直方图进行分析。从图表中可以看出,前三名的商品销量明显比后面的多,至少相差5万,而后面的商品只有1元左右。这些商品数量少,销量小,可能有问题。

  (4)查看销售量与销售额关系

  由于商品的最终销售量为1,所以总数为2673。所以看最后10个销量的最后2673个商品,发现所有销量最后的商品都是销量最后1的商品。这部分看销量和最后的商品号,根据具体商品找出原因,考虑如何优化或者是否下架。

  (5)商品关联度分析

  从上述结果可以得出结论:

  总的来说,所有组合商品的支持值较低,这是由于平台上销售的商品种类繁多,或者用户同时购买两种商品的可能性较低,需要进一步分析;

  商品组合【1570】-【1557】可信度最高,表示以1%的支持率购买商品编号1570的用户中,有70%的人会购买商品编号1557,因此可以将两种商品进行捆绑;

  3.商店维度分析。通过分析门店维度,可以分析每个门店的销售情况,判断哪些门店销售不好,考虑是否需要培训或者裁员。

  (1)店铺销售量情况分析

  本节对商品销量前10名店铺进行分析,可以发现前2名店铺的销量远远超过后面店铺,有15万多件商品,说明D002和A001店铺的商品销量非常好。

  本节对商品销售额排名前10的店铺进行分析,通过图表分析可以发现,A001和D002的销售额远远超过其他店铺,至少超过200万元。根据上一节的分析,这两家店的销量和销售额都远远超过其他店,说明这两家店的销售情况良好。

  (2)店铺促销情况分析

  4.销售情况分析

  由于数据表中的时间只是日期,并不是具体的销售时间,而且数据量也只有2018年6月1日至2018年7月5日一个月左右,所以分析月销售额的意义并不大。所以首先分组统计周一到周日的销售额,统计一周内不同日子的销售额,分析一周内最好的一天。

  从图表中可以看出,周一至周五的订单量在线上线下波动,没有大起大落。周六周日的订单量远高于周一至周五,至少是5万单。销量也是同样的趋势,超过至少40万元。可以看出,一般来说,周末用户的订单量和交易量会远远高于平日的订单量。商家可以考虑在周末多买点商品供用户选择。

  (1)下单时间分析

  本节计算日销售量和分组日销售量的数据,并绘制折线图进行趋势对比分析。从图中可以看出,销量和销售额的趋势几乎一致,都在2018年6月16日达到最高值。

  (2)销售额分析

  订单总数为280,878。

  几周。六周了。

  平均每周消费46813次。

  平均每周消费金额:3702770.0元。

  (5)客户单价

  每个顾客在一个商场(超市)购买商品的平均金额,顾客单价也就是平均交易金额。

  客单价为:79.0元。

  由于数据表中的数据量只有2018年6月1日至2018年7月5日一个月左右,所以分析月销售额意义不大。所以分组计算周一到周日的周销量,得出不同周的大概销量。最终结果显示,订单总数为280878,有6周的数据,平均每周消费46813。

  5.相关性分析(3)每日销售额/销售量分析

  我们可以检查数据的相关性。该值越接近1,相关性越强。您还可以可视化相关信息。颜色越接近黄色,相关性越高,颜色越接近紫色,相关性越低。从相关图可以看出,商品销售总额与商品数量、折扣金额、商品销售总额的相关性相对较强,而周数与销售额的相关性最弱。

  6.用户分析(4)周均消费次数/金额

  从用户角度来看,每个用户平均购买8.83台商品,最多的用户购买了6581台商品,属于狂热用户。用户平均消费金额(客单价)为79.1元,标准差为291.24。考虑分位数和最大值,平均值接近50~75分位数,所以肯定有少部分高消费用户。

  查看数据相关性

  按周计算商品的周销售量和销售额。从图中可以看出,销量和销售趋势都是一样的,并没有什么异常之处。前几周销量比较稳定,甚至有所下降,而接下来几周销量逐渐上升,可能是店铺逐渐被用户认可。

  (1)用户角度分析

  左边直方图的x轴代表item_spend的分组,共有30组。y轴表示对应于item_spend中每个包的频率。从直方图上看,大部分用户的消费能力确实不高,高消费用户在图上几乎看不出来。这确实符合消费者行为的行业规律。

  (2)按周维度分析

  复购率=单位时间内消费两次及以上的用户数/购买过的用户总数。

  图中复购率显示复购率一直在62%以上,可能是因为是零售店,用户经常购买商品,尤其是最近几周,复购率较高,可能是因为用户已经开始信任店铺。

  (3)观察用户消费购买力

  通过RFM方法,我们对用户的购买数据进行分析和分类。在推广等很多流程上可以更加精准,针对不同类别的用户进行不同的推广方式和符合其特点的销售方式,这样就不会出现用户反感的情况。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: