• 【数据挖掘学习笔记】9.高级聚类方法

    时间:2024-03-23 16:14:45

    一、密度聚类基于距离的方法– 适用于发现类球状的簇– 在交通等领域,非球状簇的挖掘效果较差– 判断是否“聚”的依据不仅仅有距离基于密度进行聚类的思想– 发现“密”的区域– 判断密的区域的连通性– DBSCAN(Density-Based Spatial Clustering of Applicati...

  • 【数据挖掘】数据挖掘概述

    时间:2024-03-23 15:51:39

    一、数据挖掘产生的背景1、从数据分析看数据 政治算法、概率论与数理统计、数据挖掘 2、主要原因催生数据挖掘 海量数据的分析需求 应用对理论的挑战大数据的特征 3V——Volume(海量)、Variety(多样)、Velocity(实时) 海量——数据量巨大,对TB、PB数据级的处理,已经成为基本配置...

  • 【机器学习】数据挖掘算法——关联规则(三),FP-growth算法

    时间:2024-03-23 15:11:42

    前言  上一篇文章介绍了用来挖掘发现强关联规则的Apriori算法。同时也知道了Apriori算法在实现过程中由于需要频繁的扫描数据集导致效率较低。  FP-growth算法基于Apriori构建,但采用了高级的数据结构减少扫描次数,大大加快了算法速度。FP-growth算法只需要对数据库进行两次扫...

  • 数据挖掘入门_泰坦尼克号存活预测之数据清洗(含数据)【一】

    时间:2024-03-23 14:31:28

    文章目录==数据下载链接==背景理解问题观察数据数据清洗缺失值处理年龄:Age舱位:Cabin港口:Embarked删除无法利用的列分属性清洗是否存活:Survived客舱等级:Pclass名字:Name性别:Sex年龄:Age家庭成员数:SibSp,Parch票价:Fare数据下载链接链接:htt...

  • 十大经典数据挖掘算法【PageRank篇】

    时间:2024-03-22 20:26:58

    PageRank可以较为直观的理解为是对网页重要性排序的一种算法。 Googel 能在全球互联网搜索引擎中处于较高地位,该算法功不可没。 导 读 早期的搜索引擎通过计算用户查询关键词与网页内容的相关程度来返回搜索结果,即关键词匹配算法。 但该种搜索引擎会极容易遭受Term Spam攻击,导致用户体验...

  • 【数据挖掘学习笔记】10.频繁模式挖掘基础

    时间:2024-03-22 10:40:48

    一、基本概念频繁模式– 频繁的出现在数据集中的模式– 项集、子序或者子结构动机– 发现数据中蕴含的事物的内在规律• 项(Item) – 最小的处理单位 – 例如:Bread, Milk• 事务(Transaction) – 由事务号和项集组成 – 例如:<1, {Bread,Milk}>...

  • 如何通过数据分析来挖掘用户需求

    时间:2024-03-21 21:37:20

    要分析哪些维度的数据呢?在这里我们总结了3种:第一种是属性数据,例如用户的年龄、性别、地区、学历等信息,获取信息的方法主要是让用户自己填写,比如注册时让用户填写地区、年龄等信息,通过一些活动、测评机制获取用户职业、学历、消费能力等信息;第二种是来源渠道数据,用户从哪个渠道来,从哪个活动来,这个渠道的...

  • 零基础入门数据挖掘系列之「建模调参」

    时间:2024-03-21 20:01:25

    摘要:对于数据挖掘项目,本文将学习如何建模调参?从简单的模型开始,如何去建立一个模型;如何进行交叉验证;如何调节参数优化等。 建模调参:特征工程也好,数据清洗也罢,都是为最终的模型来服务的,模型的建立和调参决定了最终的结果。模型的选择决定结果的上限, 如何更好的去达到模型上限取决于模型的调参。 ...

  • 构建一个数据挖掘模型,基本分为哪几步?

    时间:2024-03-20 22:04:50

    数据挖掘的目的,就是从数据中找到更多的优质用户。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量。首先要定义模型的结构和目标。二、增加响应建模。三、考虑模型的稳定性。四、通过预测模型、剖析模型来讨论模型的稳定性。下面...

  • 李涛:深度解读大数据时代的数据挖掘

    时间:2024-03-20 12:43:52

    3月13日下午,南京邮电大学计算机学院、软件学院院长、教授李涛在CIO时代APP微讲座栏目作了题为《大数据时代的数据挖掘》的主题分享,深度诠释了大数据及大数据时代下的数据挖掘。众所周知,大数据时代的大数据挖掘已成为各行各业的一大热点。一、数据挖掘在大数据时代,数据的产生和收集是基础,数据挖掘是关键,...

  • R语言microeco:一个用于微生物群落生态学数据挖掘的R包(构建microeco对象。

    时间:2024-03-18 19:40:40

    我以前写过临床微生物组的文章,其中数据分析用过microeco包,在这里,将我学到的资源分享给大家。 R语言microeco:一个用于微生物群落生态学数据挖掘的R包。 主要功能R6类;分类群丰度图,维恩图,Alpha多样性,Beta多样性,差异丰度分析,环境数据分析,零模型分析,网络分析,功能分析。...

  • 文本分析 - 聚类分析 (数据挖掘)

    时间:2024-03-18 07:26:50

      文本分析,在数据挖掘,甚至是深度学习中很重要的分支研究领域。如下运用R语言,通过采用文本相似度算法Jaro-Winkler Distance...

  • C4.5算法(数据挖掘经典分类算法)

    时间:2024-03-17 21:25:13

    实现C4.5算法一、算法描述统计好样本集S,属性集A,分别求出属性集中每个属性的信息增益率,选中增益率最大的属性P,假设P总有n种情况的取值(连续变量要离散化),那么分别统计好第i种情况时样本集Si和除去P的属性集Pi,生成相对应的子树。主要重点有:信息增益率的计算、事后剪枝使用悲观错误率衡量、树的...

  • 数据挖掘——模型挖掘之分类

    时间:2024-03-17 21:24:48

    在数据挖掘中,根据数据分析者的目标,可以将数据挖掘任务分为:模式挖掘频繁模式异常模式...模型挖掘预测建模描述建模...本文将介绍的分类即属于预测建模的过程。预测建模是指根据数据线建立一个模型,然后应用这个模型来对未来的数据进行预测。根据被预测的变量的不同,可以区分为分类和回归。分类构造、使用模型来...

  • 【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍

    时间:2024-03-17 21:11:44

      这次课程主要讲述一个关于Kmeans聚类的数据分析案例,通过这个案例让同学们简单了解大数据分析的基本流程,以及使用Python实现相关的聚类分析。        主要内容包括:        1.Anaconda软件的安装过程及简单配置        2.聚类及Kmeans算法介绍       ...

  • 机器学习算法在数据挖掘中的应用

    时间:2024-03-17 20:30:51

    在数据挖掘的实践中,各种机器学习算法都扮演着重要的角色,它们能够从数据中学习规律和模式,并用于预测、分类、聚类等任务。以下是几种常见的机器学习算法以及它们在数据挖掘任务中的应用场景和优缺点。 1. 决策树(Decision Trees):    - 应用场景:决策树广泛应用于分类和回归问题,尤其适用...

  • 什么是教育数据挖掘?

    时间:2024-03-17 13:55:50

    Educational Data Mining is an emerging discipline, concerned with developing metho...

  • 数据挖掘:描述性统计分析

    时间:2024-03-17 09:41:39

    数据分析的基础是统计学,统计学又分描述性统计和推断性统计,其中描述性统计又是统计学的基础,也是推断性统计的前导。其百度百科定义是这样的:描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和...

  • 中国大学慕课《数据挖掘与python实践》第七单元测验

    时间:2024-03-16 09:00:02

    1.通过代码”from sklearn.cluster import KMeans”引入Kmenas模块,生成模型对象“kmeans = KMeans(n_clusters=2)”后,对于数据X训练时要调用的方法是()。2.通过代码”from sklearn.cluster import KMean...

  • 详解数据挖掘

    时间:2024-03-15 15:56:19

            数据挖掘(Data Mining),又译为资料探勘、数据采矿,是数据库知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘主要是指从大量的数据中,通过算法自动搜索隐藏于其中的特殊关系型信息的过程。在技术层面上,数据挖掘涉及从...