机器学习笔试、面试题五

1、Logistic回归分类器是否能对下列数据进行完美分类？

机器学习笔试、面试题五

注：只可使用X1和X2变量，且只能使用两个二进制值（0,1）。

A 是
B 否
C 不确定
D 都不是

正确答案是： B

解析：逻辑回归只能形成线性决策面，而图中的例子并非线性可分的。

2、假设对给定数据应用了Logistic回归模型，并获得了训练精度X和测试精度Y。现在要在同一数据中添加一些新特征，以下哪些是错误的选项。
注：假设剩余参数相同。
A 训练精度提高
B 训练准确度提高或保持不变
C 测试精度提高或保持不变

正确答案是： B

解析：将更多的特征添加到模型中会增加训练精度，因为模型必须考虑更多的数据来适应逻辑回归。但是，如果发现特征显着，则测试精度将会增加

3、选择Logistic回归中的One-Vs-All方法中的哪个选项是真实的。
A 我们需要在n类分类问题中适合n个模型
B 我们需要适合n-1个模型来分类为n个类
C 我们需要只适合1个模型来分类为n个类
D 这些都没有

正确答案是：A

解析：如果存在n个类，那么n个单独的逻辑回归必须与之相适应，其中每个类的概率由剩余类的概率之和确定。

4、假设有一个如下定义的神经网络：

机器学习笔试、面试题五

如果我们去掉ReLU层，这个神经网络仍能够处理非线性函数，这种说法是：
A 正确的
B 错误的

正确答案是： B

5、假定特征 F1 可以取特定值：A、B、C、D、E 和 F，其代表着学生在大学所获得的评分。
在下面说法中哪一项是正确的？
A 特征 F1 是名义变量（nominal variable）的一个实例。
B 特征 F1 是有序变量（ordinal variable）的一个实例。
C 该特征并不属于以上的分类。
D 以上说法都正确。

正确答案是： B

解析：有序变量是一种在类别上有某些顺序的变量。例如，等级 A 就要比等级 B 所代表的成绩好一些。

6、下面哪个选项中哪一项属于确定性算法？
A PCA
B K-Means
C 以上都不是

正确答案是：A

解析：确定性算法表明在不同运行中，算法输出并不会改变。如果我们再一次运行算法，PCA 会得出相同的结果，而 k-means 不会。

7、两个变量的 Pearson 相关性系数为零，但这两个变量的值同样可以相关。
A 正确
B 错误

正确答案是：A

解析：答案为（A）：Y=X2，请注意他们不仅仅相关联，同时一个还是另一个的函数。尽管如此，他们的相关性系数还是为 0，因为这两个变量的关联是正交的，而相关性系数就是检测这种关联。详情查看：https://en.wikipedia.org/wiki/Anscombe's_quartet

8、下面哪一项对梯度下降（GD）和随机梯度下降（SGD）的描述是正确的？
1 在 GD 和 SGD 中，每一次迭代中都是更新一组参数以最小化损失函数。
2 在 SGD 中，每一次迭代都需要遍历训练集中的所有样本以更新一次参数。
3 在 GD 中，每一次迭代需要使用整个训练集的数据更新一个参数。
A 只有 1
B 只有 2
C 只有 3
D 都正确

正确答案是：A

解析：在随机梯度下降中，每一次迭代选择的批量是由数据集中的随机样本所组成，但在梯度下降，每一次迭代需要使用整个训练数据集。

9、下面哪个/些超参数的增加可能会造成随机森林数据过拟合？
1 树的数量
2 树的深度
3 学习速率
A 只有 1
B 只有 2
C 只有 3
D 都正确

正确答案是： B

解析：通常情况下，我们增加树的深度有可能会造成模型过拟合。学习速率在随机森林中并不是超参数。增加树的数量可能会造成欠拟合。

10、假如你在「Analytics Vidhya」工作，并且想开发一个能预测文章评论次数的机器学习算法。你的分析的特征是基于如作者姓名、作者在 Analytics Vidhya 写过的总文章数量等等。那么在这样一个算法中，你会选择哪一个评价度量标准？
1 均方误差
2 精确度
3 F1 分数
A 只有 1
B 只有 2
C 只有 3

正确答案是：A

解析：你可以把文章评论数看作连续型的目标变量，因此该问题可以划分到回归问题。因此均方误差就可以作为损失函数的度量标准。

秒客网

机器学习笔试、面试题五

相关文章