机器学习算法中的评价指标（准确率、召回率、F值、ROC、AUC等）

参考链接：https://www.cnblogs.com/Zhi-Z/p/8728168.html

具体更详细的可以查阅周志华的西瓜书第二章，写的非常详细~

一、机器学习性能评估指标

1.准确率(Accurary)

准确率是我们最常见的评价指标，而且很容易理解，就是被分对的样本数除以所有的样本数，通常来说，正确率越高，分类器越好。

准确率确实是一个很好很直观的评价指标，但是有时候准确率高并不能代表一个算法就好。比如某个地区某天地震的预测，假设我们有一堆的特征作为地震分类的属性，类别只有两个：0：不发生地震、1：发生地震。一个不加思考的分类器，对每一个测试用例都将类别划分为0，那那么它就可能达到99%的准确率，但真的地震来临时，这个分类器毫无察觉，这个分类带来的损失是巨大的。为什么99%的准确率的分类器却不是我们想要的，因为这里数据分布不均衡，类别1的数据太少，完全错分类别1依然可以达到很高的准确率却忽视了我们关注的东西。再举个例子说明下。在正负样本不平衡的情况下，准确率这个评价指标有很大的缺陷。比如在互联网广告里面，点击的数量是很少的，一般只有千分之几，如果用acc，即使全部预测成负类（不点击）acc也有 99% 以上，没有意义。因此，单纯靠准确率来评价一个算法模型是远远不够科学全面的。

2、错误率（Error rate）

错误率则与准确率相反，描述被分类器错分的比例，对某一个实例来说，分对与分错是互斥事件，所以accuracy =1 - error rate。

3、查准率（Precision）

查准率(precision)定义为：
机器学习算法中的评价指标（准确率、召回率、F值、ROC、AUC等）

表示被分为正例的示例中实际为正例的比例。

4、查全率（召回率）（recall）

机器学习算法中的评价指标（准确率、召回率、F值、ROC、AUC等）

召回率是覆盖面的度量，度量有多个正例被分为正例，recall=TP/(TP+FN)=TP/P=sensitive，可以看到召回率与灵敏度是一样的。

5、综合评价指标（F-Measure）

P和R指标有时候会出现的矛盾的情况，这样就需要综合考虑他们，最常见的方法就是F-Measure（又称为F-Score）。 F-Measure是Precision和Recall加权调和平均：
机器学习算法中的评价指标（准确率、召回率、F值、ROC、AUC等）

当参数α=1时，就是最常见的F1，也即
机器学习算法中的评价指标（准确率、召回率、F值、ROC、AUC等）
可知F1综合了P和R的结果，当F1较高时则能说明试验方法比较有效。

6、灵敏度（sensitive）

sensitive = TP/P，表示的是所有正例中被分对的比例，衡量了分类器对正例的识别能力。

7、特效度（sensitive）

specificity = TN/N，表示的是所有负例中被分对的比例，衡量了分类器对负例的识别能力。

8、其他评价指标

8.1 ROC曲线

ROC（Receiver Operating Characteristic）曲线是以假正率（FP_rate）和真正率（TP_rate）为轴的曲线，ROC曲线下面的面积我们叫做AUC，如下图所示

机器学习算法中的评价指标（准确率、召回率、F值、ROC、AUC等），

（1）曲线与FP_rate轴围成的面积（记作AUC）越大，说明性能越好，即图上L2曲线对应的性能优于曲线L1对应的性能。即：曲线越靠近A点（左上方）性能越好，曲线越靠近B点（右下方）曲线性能越差。
（2）A点是最完美的performance点，B处是性能最差点。
（3）位于C-D线上的点说明算法性能和random猜测是一样的，如C、D、E点；位于C-D之上（曲线位于白色的三角形内）说明算法性能优于随机猜测，如G点；位于C-D之下（曲线位于灰色的三角形内）说明算法性能差于随机猜测，如F点。
（4）虽然ROC曲线相比较于Precision和Recall等衡量指标更加合理，但是其在高不平衡数据条件下的的表现仍然不能够很好的展示实际情况。

8.2、PR曲线：
即，PR（Precision-Recall），以查全率为横坐标，以查准率为纵坐标的曲线。
举个例子（例子来自Paper：Learning from eImbalanced Data）：

机器学习算法中的评价指标（准确率、召回率、F值、ROC、AUC等）

假设N>>P（即Negative的数量远远大于Positive的数量），就算有较多N的sample被预测为P，即FP较大为9，但是由于N很大，FP_rate的值仍然可以很小0.9%，TP_rate=90%（如果利用ROC曲线则会判断其性能很好，但是实际上其性能并不好），但是如果利用PR，P=50%，R=90%，因此在极度不平衡的数据下（Positive的样本较少），PR曲线可能比ROC曲线更实用。

机器学习算法中的评价指标（准确率、召回率、F值、ROC、AUC等）的更多相关文章

准确率,召回率,F值,ROC,AUC
度量表 1.准确率 (presion) p=TPTP+FP 理解为你预测对的正例数占你预测正例总量的比率,假设实际有90个正例,10个负例,你预测80(75+,5-)个正例,20(15+,5-)个负例 ...
机器学习笔记－－classification&lowbar;report&amp&semi;精确度/召回率/F1值
https://blog.****.net/akadiao/article/details/78788864 准确率=正确数/预测正确数=P 召回率=正确数/真实正确数=R F1 F1值是精确度和召回 ...
机器学习算法中的准确率(Precision)、召回率(Recall)、F值(F-Measure)
摘要: 数据挖掘.机器学习和推荐系统中的评测指标—准确率(Precision).召回率(Recall).F值(F-Measure)简介. 引言: 在机器学习.数据挖掘.推荐系统完成建模之后,需要对模型 ...
机器学习算法中如何选取超参数：学习速率、正则项系数、minibatch size
机器学习算法中如何选取超参数:学习速率.正则项系数.minibatch size 本文是<Neural networks and deep learning>概览中第三章的一部分,讲机器 ...
机器学习算法中怎样选取超參数：学习速率、正则项系数、minibatch size
本文是<Neural networks and deep learning>概览中第三章的一部分,讲机器学习算法中,怎样选取初始的超參数的值.(本文会不断补充) 学习速率(learnin ...
查全率(召回率)、精度（准确率）和F值
文献中的recall rate(查全率或召回率) and precision(精度)是很重要的概念.可惜很多中文网站讲的我都稀里糊涂,只好用google查了个英文的,草翻如下:召回率和精度定义: 从一 ...
机器学习算法中的网格搜索GridSearch实现（以k-近邻算法参数寻最优为例）
机器学习算法参数的网格搜索实现: //2019.08.031.scikitlearn库中调用网格搜索的方法为:Grid search,它的搜索方式比较统一简单,其对于算法批判的标准比较复杂,是一种复合 ...
机器学习算法中的偏差-方差权衡(Bias-Variance Tradeoff)
简单的以下面曲线拟合例子来讲: 直线拟合后,相比原来的点偏差最大,最后一个图完全拟合了数据点偏差最小:但是拿第一个直线模型去预测未知数据,可能会相比最后一个模型更准确,因为最后一个模型过拟合了,即第一 ...
机器学习算法中GBDT和XGBOOST的区别有哪些
首先xgboost是Gradient Boosting的一种高效系统实现,并不是一种单一算法.xgboost里面的基学习器除了用tree(gbtree),也可用线性分类器(gblinear).而GBD ...

随机推荐

解密jQuery内核 DOM操作方法（二）html,text,val
回顾下几组DOM插入有关的方法 innerHTML 设置或获取位于对象起始和结束标签内的 HTML outerHTML 设置或获取对象及其内容的 HTML 形式看图对照区别 innerText 设置 ...
js中的闭包之我理解
闭包是一个比较抽象的概念,尤其是对js新手来说.书上的解释实在是比较晦涩,对我来说也是一样. 但是他也是js能力提升中无法绕过的一环,几乎每次面试必问的问题,因为在回答的时候.你的答案的深度,对术语的 ...
linux i2c 设备节点读写
最近需要操作24C02,封装了一下函数方便以后操作. 参考链接: https://my.oschina.net/handawei/blog/68526 http://blog.****.net/one ...
NOIP前刷水行动
2016.11.15 BZOJ1009:DP+矩阵乘法+KMP BZOJ1898:矩阵乘法 BZOJ4101:贪心,考虑我们往右边撞的时候,我们会向左边冲 ,于是枚举答案点利用一个指针计算即可! 20 ...
DALI解码模块
DALI-MOD2接口模块使用手册一.概述(联系人:张先生,电话:13923882807,QQ:813267849) 一.概述欢迎使用本公司的DALI解码模块,该模块支持"DALI第一套 ...
快速搭建react项目骨架（按需加载、redux、axios、项目级目录等等）
一.前言最近整理了一下项目骨架,顺便自定义了一个脚手架,方便日后使用.我会从头开始,步骤一步步写明白,如果还有不清楚的可以评论区留言.先大致介绍一下这个骨架,我们采用 create-react-ap ...
通过fiddler和逍遥模拟器模拟抓包android手机
环境说明 Fiddler/逍遥手机模拟器安装在10.11.0.148的电脑中逍遥模拟器会自动生成wifi连接到 10.11.0.148上网开启https: 在模拟器中打开 http://代理:8 ...
java去除字符串的空格，换行符，水平制表符，回车
final private String stringTrimAll(final String input) { if (null == input) return ""; // ...
【防火墙技术连载11】强叔侃墙攻击防范篇流量型攻击之UDP Flood及防御
http://support.huawei.com/huaweiconnect/enterprise/thread-214141.html
14款优秀的JavaScript调试工具大盘点
JavaScript是一种非常简单的语言,一般说来任何人都可以在几小时内掌握它的基本知识. 然而就像其他任何语言一样,JavaScript存在着一些可以轻易避免的常见错误和不好的做法.开发人员喜欢使用 ...