一个月刷完机器学习笔试题300题(8)

时间:2024-04-12 16:34:37

第八天

1、对于下图, 最好的主成分选择是多少 ?
一个月刷完机器学习笔试题300题(8)
A
7
B
30
C
35
D
Can’t Say
正确答案是: B
主成分选择使variance越大越好, 在这个前提下, 主成分越少越好。
2、数据科学家可能会同时使用多个算法(模型)进行预测, 并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是
A
单个模型之间有高相关性
B
单个模型之间有低相关性
C
在集成学习中使用“平均权重”而不是“投票”会比较好
D
单个模型都是用的一个算法
正确答案是: B ????
???bagging具有低相关性,而boosting是不是高相关性???

3、在有监督学习中, 我们如何使用聚类方法?

  1. 我们可以先创建聚类类别, 然后在每个类别上用监督学习分别进行学习
  2. 我们可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习
  3. 在进行监督学习之前, 我们不能新建聚类类别
  4. 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习
    A
    2 和 4
    B
    1 和 2
    C
    3 和 4
    D
    1 和 3
    正确答案是: B
    我们可以为每个聚类构建不同的模型, 提高预测准确率。
    “类别id”作为一个特征项去训练, 可以有效地总结了数据特征。

4、以下说法正确的是

  1. 一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的
  2. 如果增加模型复杂度, 那么模型的测试错误率总是会降低
  3. 如果增加模型复杂度, 那么模型的训练错误率总是会降低
  4. 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习
    A
    1
    B
    2
    C
    3
    D
    2和3
    E
    都错
    正确答案是:E
    1的模型中, 如果负样本占比非常大,也会有很高的准确率, 对正样本的分类不一定很好;
    4的模型中, “类别id”可以作为一个特征项去训练, 这样会有效地总结了数据特征。

5、对应GradientBoosting tree算法, 以下说法正确的是:

  1. 当增加最小样本分裂个数,我们可以抵制过拟合
  2. 当增加最小样本分裂个数,会导致过拟合
  3. 当我们减少训练单个学习器的样本个数,我们可以降低variance
  4. 当我们减少训练单个学习器的样本个数,我们可以降低bias
    A
    2 和 4
    B
    2 和 3
    C
    1 和 3
    D
    1 和 4
    正确答案是:C
    最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”,这个参数应该用交叉验证来调节。
    第二点是靠bias和variance概念的。

6、以下哪个图是KNN算法的训练边界
一个月刷完机器学习笔试题300题(8)

A
B
B
A
C
D
D
C
E
都不是
正确答案是: B
KNN算法肯定不是线性的边界, 所以直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以确定分类,所以边界一定是坑坑洼洼的。

7、如果一个训练好的模型在测试集上有100%的准确率, 这是不是意味着在一个新的数据集上,也会有同样好的表现?
A
是的,这说明这个模型的范化能力已经足以支持新的数据集合了
B
不对,依然后其他因素模型没有考虑到,比如噪音数据
正确答案是: B
没有一个模型是可以总是适应新数据的。我们不可能可到100%准确率。
8、下面的交叉验证方法
i. 有放回的Bootstrap方法
ii. 留一个测试样本的交叉验证
iii. 5折交叉验证
iv. 重复两次的5折教程验证
当样本是1000时,下面执行时间的顺序,正确的是
A
i > ii > iii > iv
B
ii > iv > iii > i
C
iv > i > ii > iii
D
ii > iii > iv > i
正确答案是: B
Boostrap方法是传统地随机抽样,验证一次的验证方法,只需要训练1次模型,所以时间最少。
留一个测试样本的交叉验证,需要n次训练过程(n是样本个数),这里,要训练1000个模型。
5折交叉验证需要训练5个模型。
重复2次的5折交叉验证,需要训练10个模型。
所有B是正确的
9、变量选择是用来选择最好的判别器子集, 如果要考虑模型效率,我们应该做哪些变量选择的考虑?

  1. 多个变量其实有相同的用处
  2. 变量对于模型的解释有多大作用
  3. 特征携带的信息
  4. 交叉验证
    A
    1 和 4
    B
    1, 2 和 3
    C
    1,3 和 4
    D
    以上所有
    正确答案是:C
    注意, 这题的题眼是考虑模型效率,所以不要考虑选项2.

10、对于线性回归模型,包括附加变量在内,以下的可能正确的是 :

  1. R-Squared 和 Adjusted R-squared都是递增的
  2. R-Squared 是常量的,Adjusted R-squared是递增的
  3. R-Squared 是递减的, Adjusted R-squared 也是递减的
  4. R-Squared 是递减的, Adjusted R-squared是递增的
    A
    1 和 2
    B
    1 和 3
    C
    2 和 4
    D
    以上都不是
    正确答案是:D
    R-squared不能决定系数估计和预测偏差,这就是为什么我们要估计残差图。但是,R-squared有R-squared 和 predicted R-squared 所没有的问题。
    每次你为模型加入预测器,R-squared递增或不变.