提高阈值召回率和准确率怎么变化,阈值增大 准确率 召回率
下面是推荐系统常用的几个评价指标:
1、准确率与召回率(Precision Recall)
准确率和召回率是信息检索和统计分类领域中广泛使用的两个度量标准,用于评估结果的质量。准确率是检索到的相关文档数与检索到的总文档数的比值,衡量检索系统的0.10-59000;查全率是指检索到的相关文档数与文档库中所有相关文档数的比值,它衡量的是检索系统的0.10-59000。
一般来说,精度就是检索到多少个条目(如文档、网页等。)是准确的,而Recall是检索所有准确条目的数量。
准确率、召回率和F值是混合环境下选择目标的重要评价指标。首先看一下这些指标的定义:
1.正确率=提取的正确信息数/提取的信息数。
2.召回率=提取的正确信息数量/样本中的信息数量
查准率
3.F值=正确率*召回率* 2/(正确率召回率)(F值是正确率和召回率的调和平均值)
以此为例:一个池塘里有1400条鲤鱼,300只虾,300只乌龟。现在为了抓鲤鱼。撒了一张大网,抓了700条鲤鱼,200只虾和100只乌龟。那么,这些指标如下:
准确度=700/(700 200 100)=70%
召回率=700/1400=50%
f的值=70% * 50% * 2/(70% 50%)=58.3%
我们来看看如果cmdxy里的鲤鱼虾龟全部消灭,这些指标会有什么变化:
准确度=1400/(1400 300 300)=70%
召回率=1400/1400=100%
f的值=70% * 100% * 2/(70% 100%)=82.35%
因此,正确率是目标结果在捕获结果中的比例。召回率zrdqt,是从关注领域召回的目标类别的比例;F值是综合两个指标的评价指标,用于综合反映整个指标。
当然希望搜索结果的精度越高越好,召回率越高越好,但实际上两者在某些情况下是有矛盾的。例如,在极端情况下,如果我们只搜索一个结果,并且它是准确的,那么精度是100%,但召回率很低;而如果我们返回所有的结果,比如召回率是100%,但是精度会很低。所以在不同的情况下,你需要判断是希望精度更高还是召回率更高。如果是做实验研究,可以画查全率帮助分析。
两者取值在0和1之间,数值越接近1,查准率或查全率就越高。
p和R指标有时会出现矛盾的情况,需要综合考虑。最常用的方法是F-Measure(也称为F-Score)。
Precision-Recall曲线:
当参数=1时,是最常见的F1,即
可以看出,F1综合了P和R的结果,F1越高,测试方法越有效。
2、综合评价指标(F-Measure)
E代表精度P和召回率r的加权平均值,当其中一个为0时,E的值为1,其计算公式为:
b越大,精度的权重越大。
F-Measure是Precision和Recall加权调和平均
平均正确率表示不同召回率下正确率的平均值。
在信息检索和分类系统中,有一系列的指标。理解这些指标对于评估检索和分类的性能是非常重要的。所以最近根据网友的博客做了一个总结。
3、E值
信息检索、分类、识别、翻译领域最基本的两个索引是4、平均正确率(Average Precision, AP)和准确率、召回率、F1。召回率也叫召回率,准确率也叫精确率。概念公式是召回率(Recall Rate)。
召回率(准确率(Precision Rate)ecall)=系统检索到的相关文件/系统所有相关文件的总数。
精确度(:精确度)=系统检索的相关文件/系统检索的所有文件的总数。
R
P
图示表示如下:。一般用不同的阈值,统计一组不同阈值下的准确率和召回率,如下图所示:
所以两个要求都高的时候,可以用F1来衡量。
注意:准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了查看纯文本
F1=2*P*R/(P R)
这基本上就是公式了,但是图1中的A,B,C,D怎么算呢?如果是做搜索,那就是保证召回的情况下提升准确率;如果做疾病监测、反垃圾,则是保准确率的条件下,提升召回。,这个方法也有一些问题。如果有好的算法可用,就没必要再研究了。
[python]
MAP是为了解决p,r,F-measure的单点值限制。为了得到一个能够反映全局性能的指标,可以看下图,图中两条曲线(正方形和圆点)的分布对应着两个检索系统的准确率-召回率曲线。
可以看出,虽然两个系统的性能曲线有所重叠,但是在大多数情况下,标有圆点的系统的性能远远好于标有正方形的系统。
由此我们可以发现,如果一个系统有好的性能,那么它的曲线应该尽可能的突出。
更具体地说,曲线和坐标轴之间的面积应该更大。
最理想的系统应该包含1的面积,而所有系统都应该包含大于0的面积。这是评估信息检索系统最常用的性能指标。平均准确率图的定义如下:(其中P和R分别是准确率和召回率)
这需要人工标注,人工标注数据需要较多时间且枯燥,如果仅仅是做实验可以用用现成的语料。当然,还有一个办法,找个一个比较成熟的算法作为基准,用该算法的结果作为样本来进行比照
AUC的意思是:预测阳性病例大于预测阴性病例的概率。
ROC和AUC是评价分类器的指标。上面第一张图中的ABCD还是用的,只是需要稍微改动一下。
回到ROC,ROC的全称是接收机操作特性。
ROC关注两个指标。
真正率(TPR)=TP/[tpfn],TPR代表正例分成对的概率。
真正率(FPR)=FP/[fptn],FPR代表把反例误认为正例的概率。
在ROC空间中,每个点的横坐标是FPR,纵坐标是TPR,描述了分类器在TP(真正例)和FP(假正例)之间的权衡。ROC的主要分析工具是在ROC空间画的一条曲线——ROC曲线。我们知道,对于二元分类问题,实例的值往往是连续值。我们可以通过设置一个阈值将实例划分为正类或负类(例如,如果大于阈值,它将被划分为正类)。所以我们可以改变阈值,根据不同的阈值进行分类,根据分类结果计算出ROC空间中对应的点,将这些点连接起来形成ROC曲线。ROC曲线经过(0,0)(1,1),但实际上(0,0)和(1,1)连接形成的ROC曲线实际上代表了一个随机分类器。一般来说,这条曲线应该在直线(0,0)和(1,1)之上。如图所示。
用ROC曲线来表示分类器的性能,直观、简便。然而,人们总是希望有一个数值来标志分类器的好坏。
于是AP和mAP(mean Average Precision)出现了。zrdqt,AUC的值是ROC曲线下面积的大小。一般来说,AUC的值在0.5到1.0之间,AUC越大代表性能越好。
AUC计算工具:
3358 Reality.goadrich.com/programs/auc/金毛寻回犬
ROC和AUC
参考链接:
http://www.vanjor.org/blog/2010/11/recall-precision/
http://bubblexc.com/y2011/148/
http://wenku.baidu.com/view/ef91f011cc7931b765ce15ec.html
https://blog.csdn.net/u013385925/article/details/80385873
Area Under roc Curve(AUC):http://blog.csdn.net/mousever/article/details/48622163
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。