深度学习概述

1.深度学习的引入

组合低层特征，形成了更加抽象的高层特征。

表达式中的u，w参数需要在训练中通过反向传播多次迭代调整，使得整体的分类误差最小。

深度学习网络往往包含多个中间层（隐藏层），且网络结构要更复杂一些。

2.数据集及其拆分

Iris（鸢尾花）数据集

分类特征：花萼和花瓣的宽度和长度

数据集在数学上通常表示为{(x1,y1),(x2,y2),...,(xi,yi),...,(xm,ym)}，其中xi为样本特征。由于样本（即一行）一般有多个特征，因而

，而yi表示样本i的类别标签。

ground truth：翻译为地面实况。机器学习领域一般用于表示真实值、标准答案等，表示通过直接观察收集到的真实结果。

gold standard：金标准，医学上一般指诊断疾病公认的最可靠的方法。

机器学习领域更倾向于使用ground truth，如果用gold standard则表示可以很好地代表ground truth。

数据集与有监督学习：

有监督学习中数据通常分成训练集、测试集两部分。

训练集( training set)用来训练模型，即被用来学习得到系统的参数取值。

测试集( testing set)用于最终报告模型的评价结果，因此在训练阶段测试集中的样本应该是不可见的。

对训练集做进一步划分为训练集和验证集 validation set)。验证集与测试集类似，也是用于评估模型的性能。区别是验证集主要用于模型选择和调整超参数，因而一般不用于报告最终结果。

训练集测试集拆分：

留出法( Hold-out Method)数据拆分步骤

1.将数据随机分为两组，一组做为训练集，一组做为测试集

2.利用训练集训练分类器,然后利用测试集评估模型，记录最后的分类准确率为此分类器的性能指标

K折交叉验证

过程：

1.数据集被分成K份(K通常取5或者10)

2.不重复地每次取其中一份做测试集，用其他K1份做训练集训练，这样会得到K个评价模型

3.将上述步骤2中的K次评价的性能均值作为最后评价结果

K折交叉验证的上述做法有助于提高评估结果的稳定性

分层抽样策略（Stratified k-fold）

将数据集划分成k份,特点在于,划分的k份中,每一份内各个类别数据的比例和原始数据集中各个类别的比例相同。

K折交叉验证的应用-用网格搜索来调超参数

什么是超参数？指在学习过程之前需要设置其值的一些变量，而不是通过训练得到的参数数据。如深度学习中的学习速率等就是超参数。

什么是网格搜索?

假设模型中有2个超参数：A和B。A的可能取值为{a1,a2,a3}，B的可能取值为连续的，如在区间[0-1]。由于B值为连续，通常进行离散化，如变为{0,0.25,0.5,0.75,1.0}
如果使用网格搜索,就是尝试各种可能的(A,B)对值，找到能使的模型取得最高性能的(A,B)值对。

网格搜索与K折交叉验证结合调整超参数的具体步骤:

确定评价指标（准确率等）
对于超参数取值的每种组合,在训练集上使用交叉验证的方法求得其K次评价的性能均值
最后，比较哪种超参数取值组合的性能最好，从而得到最优超参数的取值组合。

3.分类及其性能度量

分类问题是有监督学习的一个核心问题。分类解决的是要预测样本属于哪个或者哪些预定义的类别。此时输出变量通常取有限个离散值。

分类的机器学习的两大阶段:

从训练数据中学习得到一个分类决策函数或分类模型,称为分类器( classifier)；
利用学习得到的分类器对新的输入样本进行类别预测。

两类分类问题与多类分类问题：

多类分类问题也可以转化为两类分类问题解决，如采用一对其余One-Vs-Rest的方法：将其中一个类标记为正类，然后将剩余的其它类都标记成负类。

分类性能度量

假设只有两类样本，即正例(positive和负例 negative)。通常以关注的类为正类，其他类为负类。

表中AB模式：第二个符号表示预测的类别，第一个表示预测结果对了(True)还是错了(False)

分类准确率( accuracy)：分类器正确分类的样本数与总样本数之比

精确率( precision)：反映了模型判定的正例中真正正例的比重。在垃圾短信分类器中，是指预测出的垃圾短信中真正垃圾短信的比例。

召回率( recall)：反映了总正例中被模型正确判定正例的比重。医学领域也叫做灵敏度( sensitivity)。在垃圾短信分类器中,指所有真的垃圾短信被分类器正确找出来的比例。

P-R曲线：

如何绘制？要得到PR曲线，需要一系列 Precision和Recall的值。这些系列值是通过阈值来形成的。对于每个测试样本，分类器一般都会给了“Score”值，表示该样本多大概率上属于正例。

步骤:

从高到低将“ Score"值排序并依此作为阈值 threshold；
对于每个阈值,“ Score"值大于或等于这个 threshold的测试样本被认为正例，其它为负例。从而形成一组预测数据。

Area( Area Under Curve，或者简称AUC)：有助于弥补P、R的单点值局限性，可以反映全局性能。

Area的定义（p-r曲线下的面积）：

F值：

ROC（受试者工作特征曲线，receiver operating characteristic curve）描绘了分类器在 tp rate（真正正例占总正例的比率，反映命中概率，纵轴)和fp rate（错误的正例占反例的比率，反映误诊率、假阳性率、虚惊概率，橫轴)间的trade-off。ROC曲线绘制和P-R曲线类似。