• 【机器学习算法】【10】--数据挖掘算法之Apriori详解

    时间:2024-04-13 21:07:50

    前言:数据挖掘与机器学习        有时候,人们会对机器学习与数据挖掘这两个名词感到困惑。如果你翻开一本冠以机器学习之名的教科书,再同时翻开一本名叫数据挖掘的教材,你会发现二者之间有相当多重合的内容。比如机器学习中也会讲到决策树和支持向量机,而数据挖掘的书里也必然要在决策树和支持向量机上花费相当...

  • 机器学习聚类算法简介

    时间:2024-04-13 19:19:46

    算法的目的 :聚类算法是“无监督学习”中最常用的一个算法,通过对无标记训练样本的学习将数据集划分成若干个不相交的子集,来解释数据的内在性质以及规律,为进一步数据分析提供基础。也可以作为一个单独的过程,寻找数据内在的分布结构注意 : 类所对应的概念语义需要由使用者自己把握和命名。对于一个算法的评估我们...

  • 机器学习-监督学习常见算法优缺点

    时间:2024-04-13 17:04:36

    文章目录1. SVM1.1 优点1.2 缺点1.3 适用场景2. 朴素贝叶斯2.1 优点2.2 缺点2.3 适用场景3. 树模型1. SVM1.1 优点SVM在解决小样本,非线性以及高维特征中表现出许多特有的优势。SVM基于有限的样本信息在模型的复杂度和模型准确性之间寻求最佳折中,以获得最好的预测效...

  • 机器学习算法(二):因子分解机FM算法(Factorization Machine)

    时间:2024-04-11 18:04:19

    目录 1 背景2 FM原理1 背景Steffen Rendle于2010年提出Factorization Machines(下面简称FM),并发布开源工具libFM。FM的提出主要对比对象是SVM,与SVM相比,有如下几个优势 (1)对于输入数据是非常稀疏(比如自动推荐系统),FM可以,而SVM会效...

  • 【机器学习】一文掌握机器学习十大分类算法(下)。-分类算法总结

    时间:2024-04-10 08:58:18

    2.1 K近邻算法 2.1.1 核心原理 K近邻算法是一种基本分类与回归方法。 它的工作原理非常简单:对于一个新的实例,根据距离度量找出训练集中与该实例最近的K个实例,然后基于这K个实例的信息来进行预测。 2.1.2 算法公式 没有固定的算法公式,但常用的距离度量是欧氏距离,计算公式为 ...

  • 局部加权回归Loess对比MFCC三角滤波(吴恩达机器学习中说,Loess算法用到了aircraft的自动驾驶中)

    时间:2024-04-08 20:59:45

    局部加权回归(Loess):Loess的目标是最小化, 其中的作用是使预测点的临近点在最小化目标函数中贡献大:Loess更加注重临近点的精确拟合。这个算法中最神奇的就是这个w,局部相关性w很像高斯模板中心到边缘(3*sigma+1)/2的局部相关性,也就相关性关注(起作用),其他不关注(不起作用);...

  • 机器学习:原型聚类-高斯混合聚类算法、EM算法原理推导证明

    时间:2024-04-04 09:02:35

    高斯混合聚类假设样本来自高斯混合分布。先看高斯分布,若样本n维样本x服从高斯分布,则其概率密度函数为:可以看出,高斯分布完全由均值向量μ和协方差矩阵Σ两个参数确定,把上式概率密度函数记为:p(x|μ,Σ).实际中,样本集可能是来自多个不同的概率分布,或者来自相同的概率分布但分布的参数不同(这里的不同...

  • 支持向量机(SVM)后篇 核函数(Kernels)线性不可分情况 SMO算法——机器学习

    时间:2024-04-03 18:46:54

    六 核函数(Kernels)例如,对于二分问题,某些数据的结果需从一维映射到高维,才能线性可分,简而言之就是可以用超平面划分。比如,在线性回归单一特征的例子中,我们将唯一的特征x,映射到三维,分别为x,x^2,x^3。定义一个关于特征向量x的函数列向量φ(x),这被称为特征映射,其中每一行代表映射的...

  • 机器学习实战-ch2-有标签的聚类算法

    时间:2024-03-31 15:54:38

    本书中的这个聚类算法多少有些让人意外。通常的聚类算法是这样的:给定一堆点;给定一个距离计算的算法;给定一个cluster之间的距离d,或者最小的cluster数目k;初始化,每个点作为初始集群的中心;循环直到cluster个数小于K,或者任意两个cluster的距离大于d;计算每个点i到每个中心点j...

  • 【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

    时间:2024-03-30 11:54:10

    原文链接机器学习算法基于信用卡消费记录做信用评分背景如果你是做互联网金融的,那么一定听说过评分卡。评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法。评分卡建模理论常被用于...

  • 机器学习中的 K-均值聚类算法及其优缺点

    时间:2024-03-29 12:45:59

    K-均值聚类是一种常用的无监督机器学习算法,用于将数据集划分为K个不同的类别。该算法基于以下原理: 确定要划分的类别数量K。随机选择K个数据点作为聚类中心。对于每个数据点,计算其与每个聚类中心的距离,并将其分配到最近的聚类中心所对应的类别。更新每个类别的聚类中心为该类别内所有数据点的均值。重复步骤3...

  • 【干货】机器学习常用 35 大算法盘点(附思维导图)

    时间:2024-03-27 07:47:25

    在本文中,我将提供两种分类机器学习算法的方法。一是根据学习方式分类,二是根据类似的形式或功能分类。这两种方法都很有用,不过,本文将侧重后者,也就是根据类似的形式或功能分类。在阅读完本文以后,你将会对监督学习中最受欢迎的机器学习算法,以及它们彼此之间的关系有一个比较深刻的了解。事先说明一点,我没有涵盖...

  • 基于机器学习中KNN算法的车牌字符识别

    时间:2024-03-25 18:02:57

      小编的毕业设计做的就是车牌识别系统,主要包含车牌定位、字符分割、车牌识别模块。先附上做的系统界面图。  关于实现车牌定位和字符分割的算法,大家可以去网上找相关的论文,本文的重点是介绍利用机器学习的KNN算法实现简单的字符识别。  KNN算法全称k-NearestNeighbor,是机器学习分类领...

  • 【机器学习算法】【2】--K近邻算法

    时间:2024-03-24 08:09:48

    K最近邻(k-Nearest Neighbor,KNN),是一种常用于分类的算法,是有成熟理论支撑的、较为简单的经典机器学习算法之一。该方法的基本思路是:如果一个待分类样本在特征空间中的k个最相似(即特征空间中K近邻)的样本中的大多数属于某一个类别,则该样本也属于这个类别,即近朱者赤,近墨者黑。显然...

  • 机器学习算法(7)——K近邻(KNN)与K均值(K-means)算法

    时间:2024-03-23 16:18:28

    K-近邻算法(KNN)概述 (有监督算法,分类算法)     最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢,其次就是存在一个测试对象同时与多个训练对象匹配,导...

  • 机器学习笔记(8)——集成学习之Bootstrap aggregating(Bagging)装袋算法

    时间:2024-03-23 15:29:23

    Bootstrap aggregating自举汇聚法Bagging装袋法1.概念是一种在原始数据集上通过有放回抽样重新选出S个新数据集来训练分类器的集成技术。也就是说这些新数据集是允许重复的。使用训练出来的分类器集合来对新样本进行分类,然后用多数投票或者对输出求均值的方法统计所有分类器的分类结果,结...

  • 【机器学习】 XGBoost算法梳理

    时间:2024-03-23 15:21:57

    前言:XGBoost原理上跟普通GBDT一样,都属于集成算法中的boost类。boost的原理可以看我的另外两篇介绍集成学习的文章,这里不多赘述。所以这篇文章主要在XGB与普通GBDT不同之处进行讨论。1.损失函数XGB的损失函数是支持自定义的,只要满足二阶可导即可。XGB的损失函数除了拟合上一轮残...

  • 机器学习(二)——xgboost(实战篇)Pima印第安人数据集上的机器学习-分类算法(根据诊断措施预测糖尿病的发病)

    时间:2024-03-23 15:16:38

    数据集简介该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测 患者是否患有糖尿病。从较大的数据库中选择这些实例有几个约束条件。尤其是,这里的所有患者都是Pima印第安至少21岁的女性。数据集由多个医学预测变量和一个目标变量组成Outcome。...

  • 【机器学习】数据挖掘算法——关联规则(三),FP-growth算法

    时间:2024-03-23 15:11:42

    前言  上一篇文章介绍了用来挖掘发现强关联规则的Apriori算法。同时也知道了Apriori算法在实现过程中由于需要频繁的扫描数据集导致效率较低。  FP-growth算法基于Apriori构建,但采用了高级的数据结构减少扫描次数,大大加快了算法速度。FP-growth算法只需要对数据库进行两次扫...

  • 机器学习算法之二KD树

    时间:2024-03-23 14:34:23

    KD树 实现k近邻算法时,主要考虑的问题是如何对训练数据进行快速k近邻搜索。这在特征空间的维数大及训练数据容量大时尤其必要。k近邻法最简单的实现是线性扫描(穷举搜索),即要计算输入实例与每一个训练实例的距离。计算并存储好以后,再查找K近邻。当训练集很大时,计算非常耗时。为了提高kNN搜索的效率,可以...