基尼系数水平,与基尼系数类似的指标
评价指标是衡量推荐系统质量的数据支撑。目前广泛使用的是点击率、转化率、精准率、召回率、F1值、覆盖率、多样性。衡量的标准和目的因指标而异。今天,我们将介绍如何计算和应用覆盖率和多样性。
请参阅—— 《推荐系统那点事儿》了解更多建议的系统资源。
覆盖率如何评价推荐系统,可以用推荐内容的覆盖率来衡量。当然,这不是唯一的标准。覆盖率,顾名思义就是推荐产品在整个推荐池中所占的比例,反映了推荐系统对长尾产品的挖掘能力。(推荐池就是你要推荐的产品骏怡跳跳糖。因为大部分电商都有一些不干净的数据或者自己定义推荐数据的来源,所以会出现自己的推荐池。看吧。
然后应用一些算法,得到推荐的结果。想想吧。你的推荐系统的作用是什么?
让打人更受欢迎?让它更酷?所有商品出来的概率都是一样的。以上两个场景,第二个可能是大家所期待的。如果推荐系统的覆盖率是100%,就意味着任何产品内容都有可能出现在用户面前。覆盖率只有10%的话,只能向用户推荐十分之一的产品,推荐内容太窄。
但是覆盖率只能说明商品的种类,而不能说明每种商品出现的频率。因此,需要额外的指标来说明33,354的基尼系数。
基尼系数基尼系数描述了商品受欢迎程度的分布趋势。按照《推荐系统实践》作者tlddt的解释,人气就是人和商品的连接数量。这里定义为点击次数。
根据基尼系数的定义,有这样一个分布图:
基尼系数的定义是一个等腰三角形的面积除以该面积的一半。换句话说
(A的面积b)=1/2=1/2b的面积1/2A) A的面积b)=1/2=1/2b的面积1/2。
如果你记得微积分的概念,你应该能理解它。这里,B的面积可以近似看作每个小网格的面积。每个小格子都是梯形的,面积也是梯形的,你可以想象。
高度1/2(天地之下)高度1/2(天地之下)
然后,将会推导出以下许多公式:
b=[ 121n[ wi1wi ] ] b=[ 121n[ wi1wi ] ]
=121n(w0w1 ) 121 n (w1w2)、121n(wn1wn)、121n(w0w1 ) 121 n (w1w2)、121n(wn1wn))。
=121n(02 w12 w 1.2 wn 1)=121n(02 w12 w 1.2 wn 1))))))))))).
=1ni=1n1wi 121n=1ni=1n1wi 121n
当引入基尼系数的公式时,它如下
121 nn1i=1wi 121n 12121 nI=1n1 wi 121 n12
g=11n(2I=1n1 wi 1)g=11n(2I=1n1 wi 1)))))))))
只需导出上述公式,必要时直接使用最终公式即可。但是,重要的是如何计算wiwi的数据。
首先,有点击日志的朋友应该可以得到用户在项目上的点击数据。在中,您可以计算(单次,点击次数)并计算每次点击的次数。例如:
点击量是130w220w.40025201分别格式化次数和点击量。以下是在每列中添加行号的想法:
点击量130 w 101220 w 100.4002252011,那么线数除以10,分10组给他。
点击量130w10220w10.4002152011,数字相加,数据平均分为10个桶,类似桶统计。y轴可以直接除以最大值。这样,x轴和y轴都可以在0和1之间归一化。如果应用上述公式,可以计算出相应的基尼系数。
通常会计算标准化值。
1-((和)C2) 21)/10)最终可以得到相应的基尼系数。
如果期望应用推荐系统成功使用基尼系数,则需要收集原始用户行为的基尼系数值G1和推荐系统之后用户点击的基尼系数值G2。如果是G2G1,那么推荐系统会卖的很好,长尾会更冷门.我们需要调整推荐算法,提高商品覆盖率,提高商品推荐分布。
参考方便的基尼系数计算公式python基尼系数计算公式《推荐系统实践》进行介绍。
翻译:3359 www.cn blogs.com/xing 901022/p/8603864 . html
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。