http://blog.****.net/pipisorry/article/details/52574156

衡量分类器的好坏

需要提前说明的是，我们这里只讨论二值分类器。对于分类器，或者说分类算法，评价指标主要有precision，recall，F-score，以及ROC和AUC。

机器学习系统设计系统评估标准

Error Metrics for Skewed Classes有偏类的错误度量精确度召回率

PrecisionRecall精确度召回率

Trading Off Precision and Recall权衡精度和召回率F1值

A way to choose this threshold automatically How do we decide which of these algorithms is best

Data For Machine Learning数据影响机器学习算法的表现

[Machine Learning - XI. Machine Learning System Design机器学习系统设计(Week 6)系统评估标准 ]

皮皮blog

ROC曲线和AUC

ROC（Receiver Operating Characteristic）曲线和AUC常被用来评价一个二值分类器（binary classifier）的优劣，对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点，以及更为深入地，讨论如何作出ROC曲线图以及计算AUC。

AUC是现在分类模型，特别是二分类模型使用的主要离线评测指标之一。相比于准确率、召回率、F1等指标，AUC有一个独特的优势，就是不关注具体得分，只关注排序结果，这使得它特别适用于排序问题的效果评估，例如推荐排序的评估。AUC这个指标有两种解释方法，一种是传统的“曲线下面积”解释，另一种是关于排序能力的解释。例如0.7的AUC，其含义可以大概理解为：给定一个正样本和一个负样本，在70%的情况下，模型对正样本的打分高于对负样本的打分。可以看出在这个解释下，我们关心的只有正负样本之间的分数高低，而具体的分值则无关紧要。

一个ROC曲线的示例

机器学习模型的评价指标和方法

正如我们在这个ROC曲线的示例图中看到的那样，ROC曲线的横坐标为false positive rate（FPR），纵坐标为true positive rate（TPR）。下图中详细说明了FPR和TPR是如何定义的。

机器学习模型的评价指标和方法

接下来我们考虑ROC曲线图中的四个点和一条线。

第一个点，(0,1)，即FPR=0, TPR=1，这意味着FN（false negative）=0，并且FP（false positive）=0。Wow，这是一个完美的分类器，它将所有的样本都正确分类。

第二个点，(1,0)，即FPR=1，TPR=0，类似地分析可以发现这是一个最糟糕的分类器，因为它成功避开了所有的正确答案。

第三个点，(0,0)，即FPR=TPR=0，即FP（false positive）=TP（true positive）=0，可以发现该分类器预测所有的样本都为负样本（negative）。

第四个点（1,1），分类器实际上预测所有的样本都为正样本。经过以上的分析，我们可以断言，ROC曲线越接近左上角，该分类器的性能越好。

下面考虑ROC曲线图中的虚线y=x上的点。这条对角线上的点其实表示的是一个采用随机猜测策略的分类器的结果(FP = TN, TP = FN，这样FP+TP = TN + FN，即Y = N，也就是随机猜测了)，例如(0.5,0.5)，表示该分类器随机对于一半的样本猜测其为正样本，另外一半的样本为负样本。

如何画ROC曲线

对于一个特定的分类器和测试数据集，显然只能得到一个分类结果，即一组FPR和TPR结果，而要得到一个曲线，我们实际上需要一系列FPR和TPR的值，这又是如何得到的呢？我们先来看一下Wikipedia上对ROC曲线的定义：

In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.

问题在于“as its discrimination threashold is varied”。如何理解这里的“discrimination threashold”呢？我们忽略了分类器的一个重要功能“概率输出”，即表示分类器认为某个样本具有多大的概率属于正样本（或负样本）。通过更深入地了解各个分类器的内部机理，我们总能想办法得到一种概率输出。通常来说，是将一个实数范围通过某个变换映射到(0,1)区间³。

假如我们已经得到了所有样本的概率输出（属于正样本的概率），现在的问题是如何改变“discrimination threashold”？我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例，图*有20个测试样本，“Class”一栏表示每个测试样本真正的标签（p表示正样本，n表示负样本），“Score”表示每个测试样本属于正样本的概率⁴。

机器学习模型的评价指标和方法

接下来，我们从高到低，依次将“Score”值作为阈值threshold，当测试样本属于正样本的概率大于或等于这个threshold时，我们认为它为正样本，否则为负样本。举例来说，对于图中的第4个样本，其“Score”值为0.6，那么样本1，2，3，4都被认为是正样本，因为它们的“Score”值都大于等于0.6，而其他样本则都认为是负样本。每次选取一个不同的threshold，我们就可以得到一组FPR和TPR，即ROC曲线上的一点。这样一来，我们一共得到了20组FPR和TPR的值，将它们画在ROC曲线的结果如下图：

机器学习模型的评价指标和方法

当我们将threshold设置为1和0时，分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来，就得到了ROC曲线。当threshold取值越多，ROC曲线越平滑。

其实，我们并不一定要得到每个测试样本是正样本的概率值，只要得到这个分类器对该测试样本的“评分值”即可（评分值并不一定在(0,1)区间）。评分越高，表示分类器越肯定地认为这个测试样本是正样本，而且同时使用各个评分值作为threshold。我认为将评分值转化为概率更易于理解一些。

AUC值的计算

AUC（Area Under Curve）被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。

在了解了ROC曲线的构造过程后，编写代码实现并不是一件困难的事情。相比自己编写代码，有时候阅读其他人的代码收获更多，当然过程也更痛苦些。在此推荐scikit-learn中关于计算AUC的代码。

AUC值的高低意味着什么

那么AUC值的含义是什么呢？根据(Fawcett, 2006)，AUC的值的含义是：> The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example.

这句话有些绕，我尝试解释一下：首先AUC值是一个概率值，当你随机挑选一个正样本以及一个负样本，当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然，AUC值越大，当前的分类算法越有可能将正样本排在负样本前面，即能够更好的分类。

AUC值越大的分类器，正确率越高。

从AUC判断分类器（预测模型）优劣的标准：

Concerning the AUC, a simple rule of thumb to evaluate a classifier based on this summary value is the following:

.90-1 = very good (A)
.80-.90 = good (B)
.70-.80 = not so good (C)
.60-.70 = poor (D)
.50-.60 = fail (F)

AUC = 1，是完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测，因此不存在AUC < 0.5的情况。

图5.用AUC来衡量不同分类器的分类能力(更准确的说是排序能力)

AUC能达到多高？

对于AUC，我们只知道它是介于0和1之间的，对于一个问题，AUC具体能达到多高，好像我们从来不在乎，一般只是用一些“行业经验值”来判断自己模型的AUC够不够高。但是如果不知道理论上AUC能达到多高的话，我们就也无法准确得知当前得到的AUC究竟是高是低。就好像同样是考了90分，在100分满分的制度下和150分满分的制度下，含义是完全不同的。

理论最高AUC（Max AUC）

影响Max AUC的因素

影响这个概念的主要因素：样本的不确定性。所谓样本的不确定性，指的是对于完全相同的样本，也就是特征取值完全相同的样本，其对应的标签是否存在不确定性。

机器学习模型的评价指标和方法

Max AUC和样本的这种样本中的不确定性，是“上帝视角分类器”也无能为力的，如果从优化问题的角度来看的话，属于不可优化的部分。

贝叶斯错误率（Bayes Error Rate，BER）

统计学中还有另外一个概念，和“不可优化”这个思想不谋而合，那就是贝叶斯错误率（Bayes Error Rate，以下简称为BER）。BER的具体定义大家可以去查看Wikipedia或者其他资料，如果用一句话来概括其思想的话，可以这么说：BER指的是任意一个分类器在一个数据集上能取得的最低的错误率。而这个错误率，则对应着数据中的不可约错误（irreducible error），也就是我们刚刚说到的“上帝视角也无法解决的错误”，“必须犯的错误”。

机器学习模型的评价指标和方法

三种比较

数据集/指标	真实AUC	Max AUC	BER
数据集1	0.753	0.971	0.033
数据集2	0.744	0.999	0.009

[多高的AUC才算高？]

为什么使用ROC曲线

既然已经这么多评价标准，为什么还要使用ROC和AUC呢？因为ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化。下图是ROC曲线和Precision-Recall曲线⁵的对比：

机器学习模型的评价指标和方法

在上图中，(a)和(c)为ROC曲线，(b)和(d)为Precision-Recall曲线。(a)和(b)展示的是分类其在原始测试集（正负样本分布平衡）的结果，(c)和(d)是将测试集中负样本的数量增加到原来的10倍后，分类器的结果。可以明显的看出，ROC曲线基本保持原貌，而Precision-Recall曲线则变化较大。

一个分类模型的分类结果的好坏取决于以下两个部分：

分类模型的排序能力(能否把概率高的排前面，概率低的排后面)
threshold的选择

使用AUC来衡量分类模型的好坏，可以忽略由于threshold的选择所带来的影响，因为实际应用中，这个threshold常常由先验概率或是人为决定的。

[ROC和AUC介绍以及如何计算AUC]

[Roc曲线的两个良好特性《Beautiful Properties Of The Roc Curve》]

皮皮blog

吉尼系数Gini coefficient

在用SAS或者其他一些统计分析软件，用来评测分类器分类效果时，常常会看到一个叫做gini coefficient的东西，那么这个gini coefficient又是什么呢？gini系数通常被用来判断收入分配公平程度，具体请参阅 wikipedia-基尼系数。

图6.洛伦茨曲线与基尼系数

Gini coefficient 是指绝对公平线(line of equality)和洛伦茨曲线(Lorenz Curve)围成的面积与绝对公平线以下面积的比例，即gini coefficient = A面积 / (A面积+B面积) 。

用在评判分类模型的预测效力时，是指ROC曲线曲线和中线围成的面积与中线之上面积的比例。

图7.Gini coefficient与AUC

因此Gini coefficient与AUC可以互相转换：

    gini = A / (A + B) = (AUC - C) / (A + B) = (AUC -0.5) / 0.5 = 2*AUC - 1

[ AUC与ROC - 衡量分类器的好坏]

皮皮blog

学习目标

{评价学习模型的不同方法}

不同的模型通过表达了不同的折中方案。近似模型根据一种性能度量可能表现很好，但根据其它度量又可能很差。为了引导学习算法的发展，必须定义学习任务的目标，并且定义能够评价不同结果相应的度量方法。

机器学习模型的评价指标和方法

密度估计

机器学习模型的评价指标和方法

评价指标及方法

期望的对数似然

由于生成分布p*是固定的，评价指标——相对熵可以转换成最大期望的对数似然。直观上就是，M~对从真实分布中采样的点赋予的概率越大，越能反映它是该分布。

机器学习模型的评价指标和方法

数据的似然

机器学习模型的评价指标和方法

损失函数及对数损失

机器学习模型的评价指标和方法

具体的预测任务

前面我们假定目标用学习模型来执行概率推理，在此假设下，可以得出结论：对总体分布p*希望有尽可能好的拟合。

机器学习模型的评价指标和方法

评价预测

机器学习模型的评价指标和方法

知识发现

。。。

皮皮blog

专栏：16.A 用于设计和评价机器学习过程的基本实验性条款

学习过程的设计和评价

机器学习模型的评价指标和方法

评价泛化性能

抵抗测试holdout-testing

Dtrain: 目标函数；Dtest: 损失函数。

机器学习模型的评价指标和方法

k-折交叉验证

机器学习模型的评价指标和方法

讨论及及算法

机器学习模型的评价指标和方法

选择学习过程

使用抵抗测试或交叉验证来选择学习过程。更好的是使用训练集，用来学习模型；验证集，用来评价学习过程的不同变体并从中做出选择；分离的测试集，用来在其上评价最终的性能（会使分割数据的问题更加恶化）。也可以发展一种嵌套的交叉验证方案。

机器学习模型的评价指标和方法

拟合优度Goodness of fit

训练集估计和学到的模型产生的新数据集评估的偏离度。

机器学习模型的评价指标和方法

皮皮blog

专栏：16.B 用来尝试并回答有关模型类合适复杂性问题的基本理论框架：PAC界

机器学习模型的评价指标和方法

[《Probabilistic Graphical Models：Principles and Techniques》(以下简称PGM)]

皮皮blog

from: http://blog.****.net/pipisorry/article/details/52574156

ref: [Scikit-learn：模型评估Model evaluation ]

[Scikit-learn：模型评估Model evaluation 之绘图 ]

秒客网

机器学习模型的评价指标和方法

衡量分类器的好坏

机器学习系统设计系统评估标准

ROC曲线和AUC

一个ROC曲线的示例

如何画ROC曲线

AUC值的计算

AUC值的高低意味着什么

AUC能达到多高？

影响Max AUC的因素

贝叶斯错误率（Bayes Error Rate，BER）

三种比较

为什么使用ROC曲线

吉尼系数Gini coefficient

学习目标

密度估计

评价指标及方法

具体的预测任务

评价预测

知识发现

专栏：16.A 用于设计和评价机器学习过程的基本实验性条款

学习过程的设计和评价

评价泛化性能

抵抗测试holdout-testing

k-折交叉验证

讨论及及算法

选择学习过程

拟合优度Goodness of fit

专栏：16.B 用来尝试并回答有关模型类合适复杂性问题的基本理论框架：PAC界

相关文章