基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析

时间:2022-09-25 17:13:40

随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。

Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 

一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!

本课程讲师拥有多年Greenplum和Hadoop实战经验,课程注重实践,原理剖析,实践分享,让学员能快速全面地掌握Greenplum操作和调优,以及Hadoop的搭建与运用实战。

课程实战、实用、实际,总共 96 课时,系史上最全最深入的讲解Greenplum、Hadoop、云计算相关领域的技能课程,北风仅以此课程献给有志于从事大数据行业,追求高薪的有想法的程序员。

课程亮点多多:

亮点一、技术混搭

Greenplum+Hadoop,让你全面掌握玩转大数据的倚天剑和屠龙刀,让你学到不一样的精彩,成为不一样的复合型               人才!

亮点二、高成低也就

亮点三、既注重技术基础,手把手传授技术,通过实操实战的讲授过程让学员沉淀技术,打好牢固坚实的基础;另外,也不                忘从行业、架构的高度,帮助大家扩宽视野,游刃有余。

亮点四、注重实践:原理剖析,实践分享;让学员能快速全面地掌握Greenplum操作和调优,以及Hadoop的搭建与运用实战。

             实战、实用、实际

亮点五、 全面覆盖了Greenplum完整知识体系,及关系型数据库管理和调优思想;

亮点六、课程涵盖Hadoop生态系统中所有常用组件;

亮点七、 学完此课程可以获得IT行业高薪职业发展能力。

  GREENPLUM适用场景:
 
         Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等,它的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加,拥有非常良好的可扩展性。因此,它主要适用于面向分析的应用。比如构建企业级ODS/EDW,或者数据集市等等。
 
 
      GREENPLUM的前景:
 
         GREENPLUM 诞生于2003年硅谷,2010/07 EMC收购了GREENPLUM,并把GREENPLUM作为EMC面向分析云的战略核心产品,加以大力发展。该产品不仅在国际市场发展很快,在国内市场发展也很快。最著名的案例就是阿里巴巴集团,经过多种产品的精心选型,最终选择GREENPLUM作为它们的数据仓库平台存放数百TB的业务数据去高效支持各种分析应用。正是由于产品发展速度很快,但是在相关人才上存在很大缺口。
 
 
      Greenplum Hadoop大数据分析平台:
 
         大量的半结构化和非结构化信息无法管理和存储,大数据增长速度惊人,每年以几何级数速度增长,需要有专业化的解决方案应对大数据挑战。EMC收购了Greenplum之后,推出的针对Hadoop的Greenplum的数据库软件。采用Greenplum HD技术管理半结构化和非结构化信息,整体TCO更低,除了进行有效存储和管理,可以通过MapReduce技术进行并行的分析和挖掘,把大量的数据存储变成有价值的数据资产。
 
 
      课程内容简介:
  
         本课程分两大部分:
            第一部分全面深入地介绍了Greenplum数据库,包括架构特性、部署、管理、开发和调优等,由浅入深,理论结合实战,让同学全面彻底掌握这把大数据利剑。
            第二部分深入阐述了Hadoop的架构原理,Hadoop整体技术架构,包括HBase、Hive、Pig、ZooKeeper、Chukwa等实战运用。另外还介绍了云计算的基础知识和Hadoop在云计算领域的运用,以及剖析了Hadoop在各个互联网巨头商业环境的运用。
 
 
   本课程适合于有一定java基础知识,对数据库和sql语句有一定了解,熟练使用linux系统的技术人员,特别适合于想换工作或寻求高薪职业的人士。
 
 
   课程结束时,帮助学员实现如下目标:
      1、了解Greenplum和Hadoop的历史及目前发展的现状、以及它们的技术特点,从而把握分布式计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。
      2、深入理解Greenplum的技术核心和管理操作,以此为基础,进而掌握MPP架构数据库的使用和调优的思想。
      3、全面掌握Hadoop的架构原理和使用场景,并通过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。
      4、深入理解Hadoop整体技术架构,包括HBase、Hive、Pig、ZooKeeper、Chukwa等,对Hadoop运作机制有清晰全面的认识,可以独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。
      5、理解什么是云计算和Hadoop在云计算领域的运用,以及理解Hadoop在各个互联网巨头商业环境的运用。
 
 
 
 
      第一部分 Greenplum 分布式数据库基础(41课时)
 
         1 Greenplum架构
            什么是Greenplum
            Greenplum体系结构
            Greenplum高可用性架构
 
         2 安装Greenplum
            配置环境
            安装并初始化GPDB系统
            启停数据库
            配置GP系统
 
         3 分布式数据库存储
            数据是如何存储的
            分布策略
 
         4 GBDB查询处理
            查询命令的执行
            SQL查询处理机制
            并行查询计划
 
         5 角色权限及客户端认证管理
            客户端认证
            管理用户和组
 
         6 客户端接口和程序
            pgAdmin III
            PSQL
 
         7 定义数据库对象
            创建并管理数据库
            创建并管理表空间
            创建并管理模式
            创建并管理表
            分区表
            数据分布与分区
            压缩存储与行列存储
            序列、索引与视图
 
         8 管理数据
            插入、更新、删除记录
            事务管理
            空间回收和统计
 
         9 查询数据
            定义查询
            使用函数和运算符
            查询分析
 
         10 工作负载及资源管理
            GP工作负载管理概述
            配置工作负载管理
            创建资源队列
            分配资源队列
            检查资源队列状态
 
         11 装载和卸载数据
            GP装载命令概述
            装载数据到GP
            从GP卸载数据
            格式化数据文件
 
         12 备份恢复
            串行备份和恢复
            并行恢复和恢复
 
         13 性能调优
            如何进行调优
            常见的性能问题
         14 GP系统配置参数
            关于GP的Master参数与本地化参数
            设置配置参数
            配置参数种类
 
         15 开启高可用性
            GP高可用概述
            开启GP的Mirror
            获知Segment何时失败
            恢复失败的Segment
            恢复失败的Master
 
         16 GP MapReduce
            MapReduce基础
            GP MapReduce编程
            MapReduce作业执行和故障诊断
 
 
      第二部分 Hadoop分布式平台(55课时)
 
         1 Hadoop的起源和体系
            Hadoop思想起源:Google
            Hadoop子项目家族
            Hadoop的架构
 
         2 Hadoop的安装与配置
            准备和配置环境
            三种运行模式
            完全分布式模式安装
 
         3 HDFS-大数据存储
            HDFS概念与体系结构
            HDFS的可靠性
            HDFS文件操作
            HDFS API
 
         4 关于MapReduce
            MapReduce编程模型
            MapReduce的集群行为
            MapReduce任务的优化
            MapReduce工作机制
            错误处理及作业调度机制
 
         5 MapReduce应用开发
            Hadoop Eclipse插件开发
            数据筛选程序开发
            倒排索引程序开发
 
         6 Hadoop监控与管理
            页面监控
            hadoop备份
 
         7 HBase数据库
            Hbase体系结构
            HBase shell
            HBase API应用实例
            HBase场景应用
            HBase模式设计
 
         8 Hive数据仓库
            Hive组件与体系架构
            Hive安装配置
            Hive的服务接口
            HiveQL常用操作
            Hive的优化
            Hive UDF编程
            Hive综合实战
 
         9 Pig数据分析平台
            Pig框架
            Pig安装配置
            Pig的使用
            Pig的数据模型
            常用Pig Latin操作
            Pig UDF编程
            Pig数据分析实战
 
         10 ZooKeeper分布式服务框架
            ZooKeeper工作原理
            ZooKeeper设计目标
            ZooKeeper的数据结构和组成
            ZooKeeper的安装配置
            ZooKeeper命令行工具
            ZooKeeper API
            ZooKeeper实战:Hadoop任务调度
 
         11 Chukwa集群监控系统
            Chukwa的组成
            Chukwa架构和设计
            Chukwa安装与配置
            常用Chukwa命令
            实现自定义数据处理
 
         12 Hadoop商业应用案例
            云计算概念和特征
            云计算服务模式和形态
            Hadoop在云计算的运用
            京东商城
            百度
            阿里巴巴
            腾讯
 
         13 Greenplum Hadoop集群
            集成架构的特征
            集成架构的优势
            配置gphdfs协议使用环境
            使用HDFS外部表
基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
 
基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
 
基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
 
基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
 
基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
 

基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析的更多相关文章

  1. 浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案

    作者 王枫发布于2014年2月19日 综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个 ...

  2. 转:浅析基于微软SQL Server 2012 Parallel Data Warehouse的大数据解决方案

    综述 随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的 ...

  3. 谈B2B电商平台与大数据

    数据为王,服务为本——谈B2B电商平台与大数据 2013-06-27 11:10:41 作者:B2B行业资讯 标签:                             大数据           ...

  4. 转 Hadoop傻瓜化:Datameer大数据收入翻三番

      淘薛奎发布到 <数据极客> 06-28 16:04 随着分析正在成为企业IT的核心,昔日的BI- ETL-EDW分析范型已经完全落伍,不再适用.而力推“大数据傻瓜化”的Datameer ...

  5. MongoDB &plus; Spark&colon; 完整的大数据解决方案

    Spark介绍 按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎. 通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及 ...

  6. Lambda plus&colon; 云上大数据解决方案

    本文会简述大数据分析场景需要解决的技术挑战,讨论目前主流大数据架构模式及其发展.最后我们将介绍如何结合云上存储.计算组件,实现更优的通用大数据架构模式,以及该模式可以涵盖的典型数据处理场景. 大数据处 ...

  7. HP PCS 云监控大数据解决方案

    ——把数据从分散统一集中到数据中心 基于HP分布式并行计算/存储技术构建的云监控系统即是通过“云高清摄像机”及IaaS和PaaS监控系统平台,根据用户所需(SaaS)将多路监控数据流传送给“云端”,除 ...

  8. 转:甲骨文发布大数据解决方案 含最新版NoSQL数据库

    原文出处: http://www.searchdatabase.com.cn/showcontent_88247.htm 以下是部分节选: 最新发布的大数据创新成果包括: Oracle Big Dat ...

  9. dkh人力资源大数据解决方案整体架构

    大数据技术的应用正在潜移默化改变着我们的日常生活习惯和工作方式,很多看起来有点“不可思议”的事情也渐渐被我们“习以为常”.大数据可能在国内的起步较晚,但我们可能却是对大数据应用最好的了代表了.前些时候 ...

随机推荐

  1. github最简单的操作方法

    其实,说实话,到目前为止,我还没有研究透那些gitbush上面的命令,所以,往github上面上传自己的文件,我采用最简单的操作方式.嘻嘻.下面,将为大家讲述一下. 首先,要在github上面注册新用 ...

  2. 6、后记:PMO项目管理 - PMO项目管理办公室

    PMO项目管理办公室的作用,按笔者所简化的理解,其作用就是将项目资源标准化.规范化.文档化.然后,根据实际的项目情况,对项目间的资源内容进行协调沟通和培训,让项目组能够更快更好的完成项目建设任务. 不 ...

  3. Soapui 简单学习整理

    post 请求  输入汉字提示错误的问题  ;  如图 将request请求 下的属性 Encoding改为UTF-8

  4. IE下同样的&dollar;&period;ajax&lpar;&rpar;被调用两次,只能执行一次(第一次)

    今天发现了这个问题,仅限于IE下所有浏览器包括Edge 百度了一下原来问题就在这句话:如果第二次请求与第一次请求完全相同,会直接从缓存获取. 那么就在请求时让URL变得不一样吧 $.ajax({ ty ...

  5. &lbrack;译&rsqb;深入理解JVM

    深入理解JVM 原文链接:http://www.cubrid.org/blog/dev-platform/understanding-jvm-internals 每个使用Java的开发者都知道Java ...

  6. mysql添加用户权限

    MySQL性能调优my.cnf详解 //登录MYSQLmysql -u root -p//创建用户insert into mysql.user(Host,User,Password) values(‘ ...

  7. &comma;gitignore 中规则不起作用的原因

    .gitignore 文件的用途,该文件只能作用于 Untracked Files,也就是那些从来没有被 Git 记录过的文件(自添加以后,从未 add 及 commit 过的文件). 这样则好理解, ...

  8. Unity3D学习笔记(二)Unity的JavaScript基础

    Update()每帧调用一次LateUpdate()在Update()后执行Awake()系统执行的第一个方法Start()在Awake()之后,Update()之前FixedUpdate()固定更新 ...

  9. redis 模糊删除key

    redis-cli KEYS "pattern" | xargs redis-cli DEL Redis keys命令支持模式匹配,但是del命令不支持模式匹配,有时候需要根据一定 ...

  10. django之组件

    (Django) 组件:本质上就是将一个写好的功能模块的html文件直接引入html目标文件,利用其功能. 标准语法: {% include 'html文件名' %} 如:{% include 'na ...