常用的文本分类算法概览

时间:2024-05-03 19:24:44
  • 准确率 (Accuracy)
    准确率是最直观的性能指标,它衡量的是模型正确分类的文档数占总文档数的比例。然而,准确率在类别不平衡的情况下可能不是最佳的评估指标。

  • 召回率 (Recall)
    召回率关注于模型识别所有正类样本的能力。它定义为真正例(TP)与实际为正类的所有样本(TP + FN)的比例。

  • 精确度 (Precision)
    精确度衡量的是模型预测为正类的样本中实际为正类的比例,即真正例(TP)与预测为正类的所有样本(TP + FP)的比例。

  • Fβ分数 (Fβ Score)
    Fβ分数是一个综合考虑召回率和精确度的指标,通过引入一个参数β来平衡两者的重要性。F1分数是Fβ分数的一个特殊情况,当β=1时,召回率和精确度被赋予相同的重要性。

  • Matthews相关系数 (Matthews Correlation Coefficient, MCC)
    MCC是一个考虑了混淆矩阵中所有元素的指标,它能够为不平衡的数据集提供更平衡的性能评估。

  • 接收者操作特征曲线 (Receiver Operating Characteristic, ROC)
    ROC 曲线是一个图形工具,用于评估分类模型的性能。它通过绘制真正例率(TPR)和假正例率(FPR)来展示模型在不同阈值下的性能。

  • ROC曲线下面积 (Area Under the ROC Curve, AUC)
    AUC衡量的是ROC曲线下的整个面积,它提供了一个模型性能的总体度量,与决策阈值无关,并且对类别的先验概率不敏感。

  • 宏平均 (Macro-Averaging)微平均 (Micro-Averaging)
    宏平均和微平均是在多类别分类问题中使用的两种聚合评估指标。宏平均对每个类别的指标进行简单平均,而微平均则在类别层面上对所有文档的决策进行聚合,然后输出汇总的指标。