python数据分析与可视化,python数据分析方向的第三方库是
关联规则Apriori算法引导mlxtend实现Apriori算法
领导关联规则:
它反映了一个事物与其他事物之间的相互依赖和相互关联。
实体店或线上电商常用的推荐系统:通过挖掘客户购买记录数据库的关联规则,最终目的是发现客户购买习惯的内在共性,比如一起购买产品A和产品b的概率,根据挖掘结果调整货架的布局,设计促销组合方案,提高销量。最经典的应用案例是啤酒和纸尿裤。关联规则分析中的关键概念包括:支持度、置信度和提升度。
支持程度(支持)
支持度(Support)支持度是两种商品出现在销售总数(n)中的概率,即A和B同时被购买的概率。
示例:
比如2016年,某超市有100w的销售额,20w的顾客买了可乐和薯片,10w的顾客买了可乐和面包。
关联规则对可乐和薯片的支持度是:20%的可乐和面包的支持度是10%的置信度
信心是先买X再买Y的条件概率,简单来说就是X中交集Y的比值,如果比值大,说明买X的顾客期望买Y的商品。
示例:
2016年,某超市可乐购买数量为40w,可乐和薯片为30w,面包为10w。
买可乐和薯片的信心是75%,买可乐和面包的信心是25% lift。
提升度表示先买X对买Y概率的提升作用,用来判断规则是否有实用价值,即使用规则后商品出现在购物车中的次数是否高于商品单独出现在购物车中的频率。
示例:
关联规则与可乐和薯片的支持度为20%,买可乐的支持度为3%,买薯片的支持度为5%。
促销度为1.33{XY},促销度大于1,表示如果顾客购买商品X,也可能购买商品Y;如果促销程度小于1,则意味着如果顾客购买了商品X,就不太可能再购买商品Y。
有三个指标,如何选择商品组合,需要支持度、信心度、推广度综合指标来看商品组合。没有固定的数值度量。
Mlxtend实现Apriori算法数据集选择:杂货店数据集
数据集是一万多个订单购买商品。这个数据集包含11种商品:果酱、麦琪、糖、咖啡、奶酪、茶、Bonvita、玉米片、面包、饼干和牛奶。
进口熊猫作为pd
data=PD . read _ CSV( grocerystoredataset . CSV ,names=[products],header=None)
data.head(10)
数据=列表(数据[产品])。apply(lambda x:x.split(,))
数据
转换数据类型TransactionEncoder类似于一键编码,每个值都转换为一个唯一的bool值)
from mlxtend .预处理导入TransactionEncoder
d=TransactionEncoder()
d_data=d.fit(数据)。转换(数据)
df=pd。DataFrame(d_data,columns=d.columns_)
DfTransactionEncoder类似于one-hot编码,每个值都转换成一个唯一的bool值)
寻求支持度
从mlxtend.frequent _ patterns导入先验
df1=先验(df,min_support=0.01,use_colnames=True)
df1.sort_values(by=support ,ascending=False)
找到自信和提升度。
association_rules方法确定置信度,这里提取大于0.9的置信度。
从mlxtend.frequent _ patterns导入关联规则
association _ rule=association _ rules(df1,metric=confidence ,min_threshold=0.9)
列中的Columns参数具有以下含义:
前因:商品X组合结果:商品Y组合
购买的关系是{X-Y}前因支持:商品X组合支持共识支持:商品Y组合支持:{X-Y}}支持信心:{X-Y}}信心提升:{X-Y}}促销杠杆:常规杠杆比例,是指当商品X组合和商品Y组合独立分配时,商品X组合和商品Y组合一起出现。确信度:{X-Y}}确定的程度,类似于提升的程度,但用区别来表示。置信值越大,商品X组合和商品Y组合的相关性越强。上述三个值越大,相关强度越大,inf代表无穷大。
注意商品组合。
单一商品与单一商品的关系
选择商品组合,并选择只有一种商品的前因和后果。
association _ rule[ X _ length ]=association _ rule[ antecedents ]。应用(x:len(x))
关联规则[ Y _ length ]=关联规则[结果]。应用(x:len(x))
association _ rule=association _ rule[(association _ rule[ X _ length ]==1)(association _ rule[ Y _ length ]==1)]
也可以单独分析观察前因的商品组合,找出最相关的情况。
转载请联系作者获得授权,否则将追究法律责任。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。