《基于Apache Kylin构建大数据分析平台》

时间:2022-07-03 02:51:09

Kyligence联合创始人兼CEO,Apache Kylin项目管理委员会主席(PMC Chair)韩卿

武汉市云升科技发展有限公司董事长,《智慧城市—大数据、物联网和云计算之应用》作者杨正洪

万达网络科技集团大数据中心副总经理,《Spark高级数据分析》中文版译者龚少成

数据架构师,IT脱口秀(清风那个吹)创始人,《开源大数据分析引擎Impala实战》作者贾传青

等等业内专家联合推荐

Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay公司开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

本书分为21章,详细讲解Apache Kylin概念、安装、配置、部署,让读者对Apache Kylin构建大数据分析平台有一个感性认识。同时,本书从应用角度,结合Dome和实例介绍了用于多维分析的Cube算法的创建、配置与优化。最后还介绍了Kyligence公司发布KAP大数据分析平台,对读者有极大的参考价值。

本书适合大数据技术初学者、大数据分析人员、大数据架构师等,也适合用于高等院校和培训学校相关专业师生教学参考。

第一部分  Apache Kylin基础部分

第1章  Apache Kylin前世今生 3

1.1  Apache Kylin的背景 3

1.2  Apache Kylin的应用场景 3

1.3  Apache Kylin的发展历程 4

第2章  Apache Kylin前奏 7

2.1  事实表和维表 7

2.2  星型模型和雪花型模型 7

2.2.1  星型模型 7

2.2.2  雪花型模型 8

2.2.3  星型模型示例 8

2.3  OLAP 9

2.3.1  OLAP分类 9

2.3.2  OLAP的基本操作 10

2.4  数据立方体(Data Cube) 11

第3章  Apache Kylin 工作原理和体系架构 12

3.1  Kylin工作原理 12

3.2  Kylin体系架构 13

3.3  Kylin中的核心部分:Cube构建 15

3.4  Kylin的SQL查询 16

3.5  Kylin的特性和生态圈 16

第4章  搭建CDH大数据平台 18

4.1  系统环境和安装包 19

4.1.1  系统环境 19

4.1.2  安装包的下载 20

4.2  准备工作:系统环境搭建 21

4.2.1  网络配置(CDH集群所有节点) 21

4.2.2  打通SSH,设置ssh无密码登录(所有节点) 21

4.3  正式安装CDH:准备工作 29

4.4  正式安装CDH5:安装配置 30

4.4.1  CDH5的安装配置 30

4.4.2  对Hive、HBase执行简单操作 39

第5章  使用Kylin构建企业大数据分析平台的4种部署方式 41

5.1  Kylin部署的架构 41

5.2  Kylin的四种典型部署方式 42

第6章  单独为Kylin部署HBase集群 44

第7章  部署Kylin集群环境 58

7.1  部署Kylin的先决条件 58

7.2  部署Kylin集群环境 61

7.3  为Kylin集群搭建负载均衡器 70

7.3.1  搭建Nginx环境 70

7.3.2  配置Nginx实现Kylin的负载均衡 73

第二部分  Apache Kylin 进阶部分

第8章  Demo案例实战 77

8.1  Sample Cube案例描述 77

8.2  Sample Cube案例实战 78

8.2.1  准备数据 78

8.2.2  构建Cube 81

第9章  多维分析的Cube创建实战 89

9.1  Cube模型 89

9.2  创建Cube的流程 90

9.2.1  步骤一:Hive中事实表,以及多张维表的处理 90

9.2.2  步骤二:Kylin中建立项目(Project) 95

9.2.3  步骤三:Kylin中建立数据源(Data Source) 95

9.2.4  步骤四:Kylin中建立数据模型(Model) 98

9.2.5  步骤五:Kylin中建立Cube 104

9.2.6  步骤六:Build Cube 114

9.2.7  步骤七:查询Cube 118

第10章  Build Cube的来龙去脉 120

10.1  流程分析 120

10.2  小结 134

第三部分  Apache Kylin 高级部分

第11章  Cube优化 137

第12章  备份Kylin的Metadata 142

12.1  Kylin的元数据 142

12.2  备份元数据 143

12.3  恢复元数据 146

第13章  使用Hive视图 147

13.1  使用Hive视图 147

13.2  使用视图实战 149

第14章  Kylin的垃圾清理 153

14.1  清理元数据 153

14.2  清理存储器数据 154

第15章  JDBC访问方式 157

第16章  通过RESTful访问Kylin 161

第17章  Kylin版本之间升级 179

17.1  从1.5.2升级到最新版本1.5.3 179

17.2  从1.5.1升级到1.5.2版本 180

17.3  从Kylin 1.5.2.1升级到Kylin 1.5.3实战 181

17.4  补充内容 187

第18章  大数据可视化实践 189

18.1  可视化工具简述 189

18.2  安装Kylin ODBC驱动 190

18.3  通过Excel访问Kylin 192

18.4  通过Power BI访问Kylin 194

18.4.1  安装配置Power BI 194

18.4.2  实战操作 198

18.5  通过Tableau访问Kylin 199

18.6  Kylin   Mondrian  Saiku 205

18.7  实战演练:通过Saiku访问Kylin 211

18.7.1  第一个Schema例子:myproject_pvuv_cube的演示 211

18.7.2  第二个Schema例子:kylin_sales_cube的演示 219

18.7.3  Saiku使用的一些问题 223

18.8  通过Apache Zepplin访问Kylin 229

18.9  通过Kylin的“Insight”查询 232

第19章  使用Streaming Table 构建准实时Cube 236

第20章  快速数据立方算法 251

20.1  快速数据立方算法概述 251

20.2  快速数据立方算法优点和缺点 253

20.3  获取Fast Cubing算法的优势 254

第四部分  Apache Kylin的扩展部分

第21章  大数据智能分析平台KAP 257

21.1  大数据智能分析平台KAP概述 257

21.2  KAP的安装部署 259

 

《基于Apache Kylin构建大数据分析平台》的更多相关文章

  1. 使用Kylin构建企业大数据分析平台的4种部署方式

    本篇博客重点介绍如何使用Kylin来构建大数据分析平台.根据官网介绍,其实部署Kylin非常简单,称为非侵入式安装,也就是不需要去修改已有的 Hadoop大数据平台.你只需要根据的环境下载适合的Kyl ...

  2. 【转】使用Apache Kylin搭建企业级开源大数据分析平台

    http://www.thebigdata.cn/JieJueFangAn/30143.html 本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭 ...

  3. 使用Apache Kylin搭建企业级开源大数据分析平台

    转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kylige ...

  4. 【转】Kylin系列-使用Saiku+Kylin构建多维分析OLAP平台

    关于Kylin的介绍和使用请参考之前的文章 <分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例> Kylin对外提供的是SQL查询接口,基于Kylin构建OL ...

  5. 大数据 -- Cloudera Manager&lpar;简称CM&rpar;&plus;CDH构建大数据平台

    一.Cloudera Manager介绍 Cloudera Manager(简称CM)是Cloudera公司开发的一款大数据集群安装部署利器,这款利器具有集群自动化安装.中心化管理.集群监控.报警等功 ...

  6. Polaristech 刘洋:基于 OpenResty&sol;Kong 构建边缘计算平台

    2019 年 3 月 23 日,OpenResty 社区联合又拍云,举办 OpenResty × Open Talk 全国巡回沙龙·北京站,Polaristech 技术专家刘洋在活动上做了<基于 ...

  7. 如何基于Go搭建一个大数据平台

    如何基于Go搭建一个大数据平台 - Go中国 - CSDN博客 https://blog.csdn.net/ra681t58cjxsgckj31/article/details/78333775 01 ...

  8. CDH构建大数据平台-使用自建的镜像地址安装Cloudera Manager

    CDH构建大数据平台-使用自建的镜像地址安装Cloudera Manager 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.   一.搭建CM私有仓库 详情请参考我的笔记: http ...

  9. CDH构建大数据平台-配置集群的Kerberos认证安全

     CDH构建大数据平台-配置集群的Kerberos认证安全 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 当平台用户使用量少的时候我们可能不会在一集群安全功能的缺失,因为用户少,团 ...

随机推荐

  1. ASP&period;NET 显示项目之外的图片

    1.<asp:Image>标签的使用Loginer.images是图片的路径 this.images.ImageUrl = "showImg.aspx?imgFile=&quot ...

  2. html5本地存储的解决

    1.解决了Cookie  4K存储大小的问题2.解决了请求头常带存储信息的问题3.解决了关系型存储的问题4.跨域问题,跨浏览器*在 HTML5 中,数据不是由每个服务器请求传递的,而是只有在请求时使用 ...

  3. Lucene 4&period;7 --创建索引

    Lucene的最新版本和以前的语法或者类名,类规定都相差甚远 0.准备工作: 1). Lucene官方API http://lucene.apache.org/core/4_7_0/index.htm ...

  4. 【转】用PowerDesigner对现有的数据库反向工程建立E-R图

    转自:http://www.cnblogs.com/oceanshare/archive/2010/02/10/1667071.html 由于早期的一个项目在数据库设计建立时没有输出为E-R图,偶在对 ...

  5. Spark&lpar;二&rpar;&colon; 内存管理

    Spark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块: Spark的内存可以大体归为两类:execution和storage,前者包括shuffles.joins.sor ...

  6. select unit&lowbar;timestamp&lpar;&rpar;&semi; 和select unit&lowbar;timestamp&lpar;&quot&semi;1970-1-1 08&colon;00&colon;00&quot&semi;&rpar;和 select from&lowbar;unixtime(1)

    偶然看到MySQL的一个函数 unix_timestamp(),不明就里,于是就试验了一番. unix_timestamp()函数的作用是返回一个确切的时间点的UNIX时间戳,这个Unix时间戳是一个 ...

  7. WebService:设置服务器提供SOAP1&period;2的服务

    1,访问通过cxf发布的服务 (1)与之前一样,同样可以通过在本地通过wsdl文件和命令行生成Java文件来访问服务. 但是我们既然使用了cxf发布,就要通过cxf的工具生成访问.可以通过cxf目录的 ...

  8. 百度全站变https

    今天打开百度首页,突然发现,百度的网址变为 https://www.baidu.com/,如下图: 好嘛,以后再也不怕别人使用抓包工具查看我在百度的搜索数据了.当年的Duck Duck Go就是因为是 ...

  9. javascript之DOM操作

    一.document.getElementById()    根据Id获取元素节点 <div id="div1"> <p id="p1"&gt ...

  10. &quot&semi;margin塌陷现象&quot&semi;div盒子嵌套盒子外边距合并现象

    问题描述:原型大概是“一个div嵌套了两个 div,给main设定了background="pink" ,header1设定background=“red” .header2 设定 ...