Python 机器学习及实践从零开始通往 Kaggle竞赛之路(持续更新 ing)

时间:2024-03-25 16:34:36

第一章 简介篇

1.1 机器学习综述
  • 机器学习任务种类有很多,侧重学习监督学习与无监督学习
    • 监督学习:关注对未知事物表现的预测。一般包括分类问题和回归问题
      • 分类问题:对所在的类别进行预测,类别是离散的,也是预先知道数量的
      • 回归问题:预测的目标往往是连续变量
    • 无监督学习:倾向于对本身事物特性的分析。常用的技术包括数据降维和聚类问题
      • 数据降维:对事物的特性进行压缩和筛选
      • 聚类问题:依赖数据的相似性,将相似数据归为一个簇
1.2 Python 编程库介绍

参考第一章1.5

1.3 Python编程基础

https://blog.csdn.net/qq_39437555/article/details/88398128

第二章 基础篇

2.1 监督学习经典模型
2.1.1 分类学习
  • 线性分类器(Linear Classifiers)
    是一种假设特征与分类结果存在线性关系的模型,此模型通过累加计算每个维度的特征与各自权重的乘积来帮助类别决策。
    Python 机器学习及实践从零开始通往 Kaggle竞赛之路(持续更新 ing)
    Python 机器学习及实践从零开始通往 Kaggle竞赛之路(持续更新 ing)
    Python 机器学习及实践从零开始通往 Kaggle竞赛之路(持续更新 ing)
    Python 机器学习及实践从零开始通往 Kaggle竞赛之路(持续更新 ing)
    Python 机器学习及实践从零开始通往 Kaggle竞赛之路(持续更新 ing)
    由图 2-2 知该模型如何处理一个待分类的特征向量,当 z=0 时,g=0.5;z<0时,g<0.5,此时特征向量被判断为一类;z>0时,g>0.5,此时特征向量被判断为另外一类。
  • 支持向量机(Support Vector)
    根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个。真正帮助决策最优线性分类模型的数据点叫“支持向量”。逻辑斯蒂回归模型在训练过程中由于考虑了所有训练样本对参数的影响,因此不一定获得最佳的分类器。
  • 朴素贝叶斯(Naive Bytes)
    它会单独考量每一维度特征被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测,此模型的数学假设是各个维度上的特征被分类的条件概率之间相互独立。
    Python 机器学习及实践从零开始通往 Kaggle竞赛之路(持续更新 ing)
  • K-近邻
    对于一个待分类样本,寻找它在特征空间中距离最近的 k 个已标记样本作为参考,从而做出决策。由于 k 值得变化,我们会获得不同效果的分类器。
2.1.2 回归预测
2.1.3 监督学习的基本框架和流程
  • 首先准备训练数据,可以是文本、图像、音频
  • 抽取所需特征,形成特征向量
  • 将特征向量及标记/目标一并送入学习算法中,训练出一个预测模型
  • 采用同样的特征抽取方法,得到用于测试的特征向量
  • 最后用预测模型对待测试数据进行预测并得到结果
2.2 无监督学习经典模型

第三章

第四章

第五章