数据分析和数据挖掘的概念和理念

时间:2024-04-05 11:19:14

数据分析与挖掘的基础概念

1.数据分析和数据挖掘的定义和概念
2.数据分析及数据挖掘的层次
3.数据分析及数据挖掘的模型框架

1.1数据分析及数据挖掘的定义:

数据分析

数据分析是指用适当的统计方法对收集来的大量数据进行分析,提取有用信息
和形成结论而对数据加以详细研究和概括总结的过程。

数据挖掘

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。是KKD(数据库中知识发现)不可缺少的一部分。

数据库中知识发现

输入数据数据预处理数据挖掘后处理信息

  • 数据预处理
    特征选取
    维归约
    规范化
    选取数据子集
  • 后处理
    模式过滤
    可视化
    模式表现

1.2数据分析与数据挖掘的差异:

数据挖掘及数据挖掘都是“投入数据,产出信息”的过程,有很多相同之处。

数据分析 数据挖掘
理论基础 基于统计推断的知识
(统计学、概率论和数理统计、多元统计分析、
时间序列、数据挖掘)
需要更多的计算机工程能力
(统计学、概率论和数据库、数据挖掘、JAVA基础、Linux基础)
数据量级 基于抽样或相对较小的数据量 大数据
业务理解 较强 较弱
工具 关注应用
Excel、SQL
可选:SPSS、R、Python、SAS等
更关注算力、储存、算法
Python、R、SQL、Hadoop、HDFS、Mapreduce、
Hive、Spark等


2.1数据分析与挖掘的层次

报表与查询 多维分析与警报 统计分析 预测及建模 优化
问题:发生了什么? 问题:问题出在哪里?
我们应该怎么做?
问题:为什么会出
现这种状况?
问题:将来会怎样? 问题:如何把事情
做的更好?
定期生成报表(日报、
周报等)或即席查询。能
够提供一定的决策依据,
单对于原因的解释和长期
指导是有限的
通过钻取,可以层层剥笋
发现部分原因,并且通过
警报,指出问题预防问题
通过频数、回归、相
关、聚类、因子分析
等方法、对历史数据
进行进一步分析,挖
掘原因,总结规律
通过趋势性分析(如时间
序列、面板数据),理解
未来趋势及其业务的影响
综合考虑资源及需
求,对业务进行
优化


3.1数据分析及挖掘三要素

  • 数据处理工具
  1. 数据获取:
    Mysql、ORACLE、HIVE
  2. 数据预处理:
    Excle、PPT
  3. 数据分析或挖掘:
    Python、SPSS、R
  4. 可视化:
    Spark、Tableau
  • 思维
    数据分析两种逻辑:“树,田”

    MECE分析法

    MECE(相互独立、完全穷尽)是麦肯锡思维过程的一条基本准则。
    “相互独立”意味着问题的细分是在同一维度上并有明确区分、不可重叠的,
    “完全穷尽”则意味着全面、周密。

    SWOT矩阵分析

    SWOT分析,即态势分析,
    就是将与研究对象密切相关的各种主要内部优势、劣势和外部的机会和威胁等,
    通过调查列举出来,并依照矩阵形式排列,然后用系统分析的思想,把各种因素相互匹配起来加以分析,
    从中得出一系列相应的结论,而结论通常带有一定的决策性。

  • 理论

数据分析及挖掘的理论框架—总、分、总

数据分析和数据挖掘的概念和理念