玩转大数据:深入浅出大数据挖掘技术(Apriori算法、Tanagra工具、决策树)

时间:2023-07-25 17:20:06

一、本课程是怎么样的一门课程(全面介绍)

1.1、课程的背景
        “大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。 “大数据” 其实离我们的生活并不遥远,大到微博的海量用户信息,小到一个小区超市的月销售清单,都蕴含着大量潜在的商业价值。
正是由于数据量的快速增长,并且已经远远超过了人们的数据分析能力。因此,科学、商用等领域都迫切需要智能化、自动化的数据分析工具。在这样的背景下,数据挖掘技术应用而生,使得海量数据的分析变得易如反掌。
 1.2、课程内容简介
        本课程名为深入浅出数据挖掘技术。所谓“深入”,指得是从数据挖掘的原理与经典算法入手。其一是要了解算法,知道什么场景应当应用什么样的方法;其二是学习算法的经典思想,可以将它应用到其他的实际项目之中;其三是理解算法,让数据挖掘的算法能够应用到您的项目开发之中去。所谓“浅出”,指得是将数据挖掘算法的应用落实到实际的应用中。课程会通过三个不同的方面来讲解算法的应用:一是微软公司的SQL Server与Excel等工具实现的数据挖掘;二是著名开源算法的数据挖掘,如Weka、KNIMA、Tanagra等开源工具;三是利用C#语言做演示来完成数据挖掘算法的实现。
        根据实际的引用场景,数据挖掘技术通常分为分类器、关联分析、聚类算法等三大类别。本课程主要介绍这三大算法的经典思想以及部分著名的实现形式,并结合一些商业分析工具、开源工具或编程等方式来讲解具体的应用方法。
1.3、课程大纲
        1)     数据挖掘概述与数据
            本章讲解了数据挖掘技术的起源、应用场景以及基本的处理方法,并对于数据集、数据等基本的概念做了阐释。
        2) 可视化与多维数据分析(实践课)
            本章讲解了数据可视化的基本方法,并分别演示了Excel数据透视表与SQL Server Analysis Service对于多维数据的可视化处理。(OLAP)
        3) 分类器与决策树
            本章讲解了分类器的基本概念与应用方法,并具体分析了分类器经典算法之一决策树的实现方法。
        4) 其他分类器(上)
            本章讲解了另外两种经典的分类器算法:基于规则的分类器与基于距离的分类器。
        5) 其他分类器(下)
            本章讲解了其他一些常见的分类器算法,如基于距离的分类器的改良算法、贝叶斯分类器、人工神经网络、支持向量机与组合方法等。
        6) 决策树的应用(实践课)
            本章演示了利用Weka Explorer、KNIME、Tanagra等开源工具进行的数据挖掘处理。演示中对比了几类数据挖掘算法,如Cart决策树、C4.5决策树、KNIME决策树、简单贝叶斯分类、组合方法(装袋)、人工神经网络、基于规则的分类等。
        7) 关联分析
            本章讲解了关联分析的常见算法,即Apriori算法与FP增长算法。
        8) 购物车数据分析(实践课)
            本章主要演示了利用微软的解决方案来进行购物车数据的关联分析,包括SQL Service Analysis Service的关联分析与Excel结合SSAS外接程序等方法。最后还利用Weka KnowledgeFlow工具来进行关联分析,以便对比第六章的实践。
        9) 聚类算法
            本章讲解了聚类算法的基本原理与常见算法,包含K均值算法、层次聚类、基于密度的聚类算法。
        10)  聚类算法C#源代码实现(实践课)
            本章演示如何通过C#源代码实现聚类算法。
1.5、讲师介绍
        艾伦:世界500强*企业2年云计算工作经验,拥有多年的开发经历,擅长SQL Server数据库并对数据处理有一定的研究,同时也有许多C/C++、C#、Jquery等网页与桌面应用开发经验。
二、为什么需要这么套课程?   
2.1、企业需要什么?
        数据挖掘是一门比较新的技术,而数据挖掘的需求并没有完全的挖掘出来。在这样的情形下,我们依然看到很多企业对这样的新技术有着强烈的需求。
(说明:以下企业需求职位均来自于51job.)
        职位1、数据库工程师
        职位2、软件开发工程师
        职位3、市场分析员
更多企业招聘信息请参考:www.51job.com 
2.2、课程学习目标(我们提供什么?)
        目标一. 可以让学员了解与理解主要的数据挖掘技术。
        目标二. 可以让学员迅速掌握各类数据挖掘技术的应用场景。
        目标三. 可以让学员迅速掌握常见的数据挖掘工具的使用方法。
        目标四. 可以让有一定基础的学员对数据挖掘的代码实现入门。
2.3、课程特色
        特点一、讲师讲求深入浅出,从理论、原理出现但是会回归到实际的应用。既照顾到希望提高理解与认识的学员,也照顾到关注实践应用的学员。
        特点二、实践应用各有侧重,会从几种不同风格的软件或工具入手来演示。如主流软件公司的数据挖掘产品(微软公司的SQL Service Analysis Service)、开源软件与工具(Weka、KNIME、Tanagra)以及挖掘算法通过C#代码的实现。充分照顾到学员对于应用软件的偏好。
        特点三、学习的过程中理论和实践相结合,案例数据具备一定的代表性。并且课程提供所有的案例数据供学员自行修改和调试,以巩固加深学习效果
2.4、课程亮点
        亮点一、数据挖掘本身就是前沿的技术,中文的教材、课程数量非常少,如此的课程在国内也不常见。
        亮点二、理论与实战相结合,深入浅出。即照顾到基础学员,又照顾到有一定经验的学员,即讲解细致,又一针见血,对技术绝不含糊。
        亮点三、代码的实现是一行一行手工敲入,手把手一步步带领学员从入门到精通。
        亮点四、实践演示涉及到的软件、工具数目众多,照顾不同使用习惯的学员。
        亮点五、整个课程虽短,但“麻雀虽小,五脏倶全”。讲解过程节奏紧凑且内容充实。
3.课程真心不错,我可以学吗?
        本课程会涉及到不少数据挖掘的算法。为了更好地理解算法,建议学员可以有一定的基本算法的基础。除了SQL Service Analysis Service的应用实践,大部分的演示都避免了使用数据库来导入数据,因此对于数据库的知识没有特别要求。若学员希望理解最后一章的代码实现,需要具备C#的基本知识。
        1、 学习基本算法在Java的实现,推荐您学习
            http://www. ibeifeng.com/goods.php?id=329
        2、 学习基本算法在C#的实现,推荐您学习
            http://www .ibeifeng.com/goods.php?id=69
        3、 学习C#的基本知识,推荐您学习
            http://www. ibeifeng.com/goods.php?id=7
4.我该怎么学,如何才能学好这门课程,给些建议。
        4.1、时间上的安排建议
            本课程共10讲,由于内容比较紧凑,建议每天一讲,深入理解课程内容。
        4.2、学习要求
            建议按照课程进度仔细观看学习,并利用课程的测试数据在相应的软件或工具中自己实践一遍。(由于版权原因,Excel、SQL Server与Visual Studio未提供下载地址,但其他开源软件均提供了下载地址)
            如果您有基础,建议学习算法后可以尝试利用代码实现算法,并学会举一反三
        4.3、讲师建议(讲师给学员的建议)
建议:
        1.最好看完视频之后,抛开视频,仔细想想每个算法的原理与思想;若记忆不深刻,可以回过头看再看下视频,如此反复,达到真正理解和熟练掌握的目的。
        2.对于项目实战部分,一定要自己亲自动手做一遍,不要听完就结束。
        3.很多知识在开源社区中都有不同的见解,要学会使用搜索引擎,多逛逛相关社区。
        4.最后祝您学有所成。
5.学完这门课程后能做什么?
学会该课程后,尝试着问自己几个问题:
        1. 在您的生活中、工作中是否有尚未开发的数据?
        2. 那些尚未开发的数据与数据挖掘哪一个模型能够匹配?
        3. 能否尝试使用数据挖掘的方法来发现一些潜在的规律?
        本课程是针对数据、数据分析与挖掘方向,可以帮助您学会数据挖掘的思想,并不限定于某个特定的专业技术。掌握该技术后,一定能使您对于自己的业务数据的分析方法与能力更上一层楼。
6.  学员常见问题:
        常见问题一:学习该教程会使用哪些软件?软件有没有随教程提供,没有提供的话,软件的的下载地址,及他们所使用的版本如何?
        讲师回答:本课程的软件分为两个部分:
                           第一个部分是微软公司的Office Excel、SQL Server Analysis Service(SSAS)、Visual Studio。Visual Studio主要用于演示层次聚类算法的C#实现,并不限制于特定的版本。Excel与SQL Server结合所需的版本如下:
               Excel 2007与SQL Server 2005
               Excel 2007与SQL Server 2008
               Excel 2010与SQL Server 2012
                          第二部分是一些开源软件与工具,课程中会提供工具下载的链接。
        常见问题二:学这个课程需要什么基础?
        讲师回答:适合对数据分析有兴趣的学员。建议对基本算法、数据库等知识有一定了解。开源软件与工具界面为英文,主要以单词为主,对英文没有特别要求。
        常见问题三:这种技术一般可用在什么场合?
        讲师回答:本数据是数据分析领域的一个技术点,不是一个特定的工具。首先,数据分析与挖掘的思想可以借鉴到生活中或者工作中的任意数据分析场景;其次,分析与挖掘的方法可以广泛用于市场定位、客户关系分析、项目开发等领域。掌握它后可以让你对数据的把控能力更得心应手,前(钱)途无限。
        常见问题四:学完这项技术可以从事的工作岗位有哪些?
        讲师回答:越来越多的企业开始进入了大数据的潮流。主要的职位是数据分析专员与数据挖掘工程师,但是很多工作岗位都将数据挖掘作为选拔人才的加分项。相信未来数据挖掘的重要性会随着互联网、云计算的发展进一步地增加。
可以从事的岗位非常多:如:
数据库工程师、软件开发工程师、市场分析专员