机器学习是什么

时间:2024-03-06 14:06:52

一、什么是机器学习

1. 机器学习概念

机器学习就是对计算机一部分数据进行学习,然后对另外一些数据进行预测与判断。

机器学习的核心是“使用算法解析数据,从中学习,然后对新数据做出决定或预测”。也就是说计算机利用以获取的数据得出某一模型,然后利用此模型进行预测的一种方法,这个过程跟人的学习过程有些类似,比如人获取一定的经验,可以对新问题进行预测。

我们举个例子,我们都知道支付宝春节的“集五福”活动,我们用手机扫“福”字照片识别福字,这个就是用了机器学习的方法。我们可以为计算机提供“福”字的照片数据,通过算法模型机型训练,系统不断更新学习,然后输入一张新的福字照片,机器自动识别这张照片上是否有福字。

机器学习是一门多领域交叉学科,涉及概率论、统计学、计算机科学等多门学科。机器学习的概念就是通过输入海量训练数据对模型进行训练,使模型掌握数据所蕴含的潜在规律,进而对新输入的数据进行准确的分类或预测。如下图所示:

2. 机器学习分类

我们了解了机器学习的概念,通过建立模型进行自我学习,那么学习方法有哪些呢?

(1)监督学习

监督学习就是训练机器学习的模型的训练样本数据有对应的目标值,监督学习就是通过对数据样本因子和已知的结果建立联系,提取特征值和映射关系,通过已知的结果,已知数据样本不断的学习和训练,对新的数据进行结果的预测。

监督学习通常用在分类和回归。比如手机识别垃圾短信,电子邮箱识别垃圾邮件,都是通过对一些历史短信、历史邮件做垃圾分类的标记,对这些带有标记的数据进行模型训练,然后获取到新的短信或是新的邮件时,进行模型匹配,来识别此邮件是或是不是,这就是监督学习下分类的预测。

再举一个回归的例子,比如我们要预测公司净利润的数据,我们可以通过历史上公司利润(目标值),以及跟利润相关的指标,比如营业收入、资产负债情况、管理费用等数据,通过回归的方式我们回到的一个回归方程,建立公司利润与相关因此的方程式,通过输入因子数据,来预测公司利润。

监督学习难点是获取具有目标值的样本数据成本较高,成本高的原因在于这些训练集的要依赖人工标注工作。

(2)无监督学习

无监督学习跟监督学习的区别就是选取的样本数据无需有目标值,我们无需分析这些数据对某些结果的影响,只是分析这些数据内在的规律。

无监督学习常用在聚类分析上面。比如客户分群、因子降维等。比如RFM模型的使用,通过客户的销售行为(消费次数、最近消费时间、消费金额)指标,来对客户数据进行聚类:

重要价值客户:最近消费时间近、消费频次和消费金额都很高;重要保持客户:最近消费时间较远,但消费频次和金额都很高,说明这是个一段时间没来的忠诚客户,我们需要主动和他保持联系;重要发展客户:最近消费时间较近、消费金额高,但频次不高,忠诚度不高,很有潜力的用户,必须重点发展;重要挽留客户:最近消费时间较远、消费频次不高,但消费金额高的用户,可能是将要流失或者已经要流失的用户,应当基于挽留措施。除此之外,无监督学习也适用于降维,无监督学习比监督学习好处是数据不需要人工打标记,数据获取成本低。

(3)半监督学习

半监督学习是监督学习和无监督学习相互结合的一种学习方法,通过半监督学习的方法可以实现分类、回归、聚类的结合使用。

半监督分类:是在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到更优的分类;半监督回归:在无输出的输入的帮助下训练有输出的输入,获得比只用有输出的输入训练得到的回归器性能更好的回归;半监督聚类:在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇,提高聚类方法的精度&