机器学习：了解混淆矩阵(Confusion Matrix)

混淆矩阵是数据科学、数据分析和机器学习中总结分类模型预测结果的情形分析表，以矩阵形式将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总。

TP = True Postive = 真阳性； FP = False Positive = 假阳性

FN = False Negative = 假阴性； TN = True Negative = 真阴性

比如我们一个模型对15个样本进行预测，然后结果如下。

预测值：1 1 1 1 1 0 0 0 0 0 1 1 1 0 1

真实值：0 1 1 0 1 1 0 0 1 0 1 0 1 0 0

机器学习：了解混淆矩阵(Confusion Matrix)

这个就是混淆矩阵。矩阵中的这四个数值，经常被用来定义其他一些度量。

准确度(Accuracy) = (TP+TN) / (TP+TN+FN+TN)

在上面的例子中，准确度 = (5+4) / 15 = 0.6

精度(precision, 或者PPV, positive predictive value) = TP / (TP + FP)

在上面的例子中，精度 = 5 / (5+4) = 0.556

召回(recall, 或者敏感度，sensitivity，真阳性率，TPR，True Positive Rate) = TP / (TP + FN)

在上面的例子中，召回 = 5 / (5+2) = 0.714

特异度(specificity，或者真阴性率，TNR，True Negative Rate) = TN / (TN + FP)

在上面的例子中，特异度 = 4 / (4+2) = 0.667

F1-值(F1-score) = 2*TP / (2*TP+FP+FN)

在上面的例子中，F1-值 = 2*5 / (2*5+4+2) = 0.625

从混淆矩阵中，可以衍生出各种评价的指标。如下是截取的wiki上的一个截图（https://en.wikipedia.org/wiki/Confusion_matrix）
机器学习：了解混淆矩阵(Confusion Matrix)

秒客网