• 学习笔记(二)数据挖掘概念与技术

    时间:2024-04-01 16:14:47

    1中心趋势度量:均值(mean)、中位数、众数截尾均值:丢掉高低极端值后的均值加权算术均值(加权平均):中位数(median)是有序数据的中间值,对于非对称数据是数据中心更好的度量。用插值法计算中位数的近似值:median=其中是中位数区间的下界,N是整个数据集中值的个数,是低于中位数区间的所有区间...

  • 数据挖掘笔记——决策树

    时间:2024-04-01 16:13:04

    1.介绍      决策树是一种目标函数为离散值的学习方法(区别于回归),学习到的函数可以用树形表示也可以使用if-then规则来增加可读性。    什么时候考虑使用决策树:(1)实例可以描述为属性-值对,即监督学习                                          ...

  • 二手房数据的分析与挖掘(六)-- 房价预测之模型训练

    时间:2024-04-01 16:11:22

    实验环境Windows7Anaconda3matplotlibseabornpandasnumpy实验内容在Jupyter notebook中利用numpy、pandas、matplotlib、seaborn进行模型的训练和优化,为后面预测房价提供算法模型。实验步骤一、数据来源特征处理后的训练数据:...

  • 跟我一起数据挖掘(3)——谈谈支持度和置信度

    时间:2024-04-01 16:09:21

    支持度,简单的字面理解就是支持的程度,一般以百分比表示。生活中常见的使用场合有投票、竞选、民意调查等,比如某校高一三班进行班委竞选,该班级共有学生50名,在班长一职的竞选中,张三得到40票。那么就可以说在该班班长竞选中,张三的支持度是:40/50*100%=80%。该名词还常出现在数据挖掘的关联分析...

  • 数据分析和数据挖掘之间,主要有什么关系?

    时间:2024-04-01 11:57:34

    数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分析就包括狭义的数据分析和数据挖掘,我们常说的数据分析就是指狭义的数据分析。数据分析(狭义):(1)定义:简单来说,数据分析就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提...

  • 数据挖掘算法之离散化和二元化

    时间:2024-04-01 10:58:18

    离散化和二元化有些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式。发现关联模式的算法要求数据是二元属性形式。这样,常常需要将连续属性变换成分类属性(离散化,discretization),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化,binarization)。此外,如果一...

  • Python语言在数据挖掘上非常有优势,但它唯一的缺点你知道吗?

    时间:2024-04-01 08:30:27

    Python语言的优势基于以下三个原因,选择Python作为实现数据挖掘算法的编程语言:(1) Python的语法清晰;(2) 易于操作纯文本文件;(3) 使用广泛,存在大量的开发文档。Python具有清晰的语法结构,也被称作可执行伪代码(executable pseudo-code)。默认安装的P...

  • 《R语言数据挖掘》——2.2 购物篮分析

    时间:2024-03-31 10:53:24

    本节书摘来自华章出版社《R语言数据挖掘》一书中的第2章,第2.2节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。2.2购物篮分析购物篮分析(Market basket analysis)是用来挖...

  • 数据挖掘入门实验(weka)

    时间:2024-03-31 10:47:11

    实验1:基于Weka的典型数据挖掘应用学号: 姓名: XXXX 专业: 计算机系统结构 班级: 实验目标理解数据挖掘的基本概念,掌握基于Weka工具的基本数据挖掘(分类、回归、聚类、关联规则分析)过程。实验内容下载并安装Java环境(JDK 7.0 64位)。下载并安装Weka 3.7版。基于Wek...

  • 二十六、数据挖掘电力窃漏电用户自动识别

    时间:2024-03-31 07:16:38

    电力窃漏电用户自动识别1. 综合案例数据预处理电力窃漏电用户自动识别的内容背景与挖掘目标分析方法与过程数据探索性分析综合案例的目标通过综合案例分析了解数据挖掘的整体流掌握使用sklearn工具库构建模型的具体方法窃漏电用户自动势必数据集详情2. 背景与挖掘目标挖掘背景传统的防窃漏电方法主要通过定期巡...

  • 一分钟了解互联网数据挖掘流程

    时间:2024-03-30 14:00:08

     1、爬虫抓取网络数据真实的数据挖掘项目,一定是从获取数据开始的,除了通过一些渠道购买或者下载专业数据外,常常需要大家自己动手爬互联网数据,这个时候,爬虫就显得格外重要了。Nutch爬虫的主要作用是从网络上抓取网页数据并建立索引。我们只需指定网站的顶级网址,如taobao.com,爬虫可以自动探测出...

  • 代码进阶 算法学习-----数据挖掘原理与应用-------第一章

    时间:2024-03-29 20:23:23

    数据挖掘是一种处理大数据的技术,在我展开仔细讲述之前,先说明我是准备如何讲述的 我会分为十次文章讲解 第一章:介绍数据挖掘 第二章:数据挖掘的第一步 第三章:数据挖掘的第二步 第四章:数据挖掘的第三步 第五章:数据挖掘的第四步 第六章:数据挖掘的第五步 第七章:数据挖掘的第六步 第八章:数据挖掘的工...

  • 数据仓库和数据挖掘基础知识点

    时间:2024-03-26 19:23:30

                                                    第一章  数据仓库和数据挖掘概述一、概念题1、数据仓库的定义是什么?     答:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中央决策制定过程。2、数据仓库的特点是什么?  ...

  • 【第十二届“泰迪杯”数据挖掘挑战赛】【2024泰迪杯】B题基于多模态特征融合的图像文本检索—解题全流程(持续更新)

    时间:2024-03-26 16:52:20

    2024 年(第 12 届)“泰迪杯”数据挖掘挑战赛B题 解题全流程(持续更新) -----基于多模态特征融合的图像文本检索 一、写在前面: ​ 本题的全部资料打包为“全家桶”, “全家桶”包含:模型数据、全套代码、训练好的模型权重、结果csv、教程、详细实验过程PPT、教学视频、成品论文(还在写作...

  • 利用cBioportal数据库进行肿瘤基因的挖掘

    时间:2024-03-25 15:07:08

    查找肿瘤靶药预后风险相关基因位点,在没有找到相关的肿瘤panel的情况下,可以去cBioportal这个数据库去根据肿瘤类型查找频率很高的基因,然后把鼠标放在某个基因上,就会看到图一提示:进入OncoKB Cancer Gene List,看到图二界面 : 对于每个基因都进行了分类(癌基因还是易感基...

  • office 安装 excel 最新 数据挖掘插件

    时间:2024-03-25 13:46:41

    本教程支持, office2013~2019,365 sql server2008~2019需要先安装好office,要官方原版下载最新的数据挖掘插件Download 适用于 Microsoft® Office® 的 Microsoft® SQL Server® 2012 SP4 数据挖掘外接程序 ...

  • SPSS Modeler18.0数据挖掘软件教程(六):聚类分析-K-means

    时间:2024-03-24 08:11:00

    教程传送门:SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介SPSS Modeler18.0数据挖掘软件教程(二):数据描述性统计与可视化SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析SPSS Modeler18.0数据挖掘软件教程(四):分类分析-决策树...

  • 《数据挖掘导论》学习 | 第九章 聚类分析:其他问题与算法

    时间:2024-03-24 08:10:12

    目录第九章 聚类分析:其他问题与算法数据、簇和聚类算法的特性比较K均值和DBSCAN数据特性簇特性聚类算法的一般特性基于原型的聚类模糊聚类使用混合模型的聚类自组织映射基于密度的聚类基于网格的聚类子空间聚类基于图的聚类稀疏化最小生成树聚类OPOSSUM:使用METIS的稀疏相似度最优划分Chamele...

  • AI:150-基于深度学习的医学数据挖掘与病症关联发现

    时间:2024-03-23 21:32:18

    ????点击这里跳转到本专栏,可查阅专栏顶置最新的指南宝典~ ???????????? 你的技术旅程将在这里启航! 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带关键代码,详细讲解供大家学习,希望可以帮到大家。正在...

  • 数据挖掘概念与技术(第三版)课后答案——第四章

    时间:2024-03-23 20:12:56

    =============需要原版答案请留言!!==============4.1 试述多个异构信息源的集成,为什么许多公司更喜欢更新驱动的方法(构造和使用数据仓库),而不是查询驱动的方法(适用包装器和集成器)。 描述查询驱动的方法比更新驱动的方法更可取的情况。对于决策查询和经常问到的查询,更新驱动...