02——机器学习常见术语

1、模型

2、数据集

数据集可划分为“训练集”和“测试集”，分别在机器学习的“训练阶段”和“预测输出阶段”起作用。

3、样本&特征

样本指的是数据集中的数据，一条数据被称为“一个样本”，通常情况下，样本会包含多个特征值用来描述数据。

4、向量

向量也称欧几里得向量、几何向量、矢量，指具有大小和方向的量。与向量对应的量叫做数量（物理学中称标量），数量只有大小，没有方向。

5、矩阵

把矩阵看成由向量组成的二维数组，数据集就是以二维矩阵的形式存储数据的。

6、假设函数

可表述为y=f(x)其中 x 表示输入数据，而 y 表示输出的预测结果，而这个结果需要不断的优化才会达到预期的结果，否则会与实际值偏差较大。

7、损失函数

又叫目标函数，简写为 L(x)，这里的 x 是假设函数得出的预测结果“y”，如果 L(x) 的返回值越大就表示预测结果与实际偏差越大，越小则证明预测值越来越“逼近”真实值，这才是机器学习最终的目的。因此损失函数就像一个度量尺，让你知道“假设函数”预测结果的优劣，从而做出相应的优化策略。

8、优化方法

为了解决这一问题，数学家们早就给出了相应的解决方案，比如梯度下降、牛顿方与拟牛顿法、共轭梯度法等等。

9、拟合

就是把平面坐标系中一系列散落的点，用一条光滑的曲线连接起来，因此拟合也被称为“曲线拟合”。拟合的曲线一般用函数进行表示，但是由于拟合曲线会存在许多种连接方式，因此就会出现多种拟合函数。

10、过拟合

模型的泛化能力较差，也就是过拟合的模型在训练样本中表现优越，但是在验证数据以及测试数据集中表现不佳。

11、欠拟合

指的是“曲线”不能很好的“拟合”数据。在训练和测试阶段，欠拟合模型表现均较差，无法输出理想的预测结果。

秒客网