大数据之kylin(一)----kylin的搭建分类和多节点的搭建实战

时间:2024-05-21 18:20:52

本篇博客主要介绍kylin的搭建方式的分类和部署多节点的方式实战

kylin主要作为一种预计算的大数据工具来提高大数据下的查询速度工具,在实际的应用中入门较快,上手容易。具体的相关知识可以参考http://kylin.apache.org/cn/

1,一般在企业中有多种种部署方式,下面做一个简单的介绍:

第一种:单列部署(单点部署形式)

在已经部署了Hadoop、hive、hbase等的集群中选择hadoop的其中一个节点安装kylin,相关配置参考官方网站。配置后启动kylin,登陆kylin web界面根据业务需求建立效率较高的cube,最后在构建成功的cube下查询相关数据。

第二种:多节点部署

在多节点部署中,每个kylin共用相同的元数据信息,相对于单节点只是将kylin多部署几个节点,只是需要配置kylin下conf中kylin.properties的

kylin.server.mode=all只能有一个节点是all,其他节点为query
kylin.server.cluster-servers=localhost:7070 在这一行添加地址如下:
kylin.server.cluster-servers=kylin节点ip:7070,kylin节点ip:7070

注:多节点需要实现负载均衡,一般使用nginx、lvs、HAProxy等等,从而保证kylin节点的负载均衡。我在部署中部署了多台nginx,使用keepalived做了nginx的HA。

其他部署方式:

如:计算集群和存储集群分离模式,目的是充分展现集群的各个功能特点,但是不共用集群会带来大量的网络I/O计算结束将结果copy的过程存在大量的网路I/o。没有实践过也不知好和坏,这里不继续介绍。

2,多节点部署kylin的实战

  • 首先搭建自己的Hadoop集群,其中包括HBase、Hive等集群;
  • 安装kylin,我安装了两个节点的kylin在Hadoop集群中;
  • 配置kylin的多节点模式,在kylin.properties里;
  • 安装部署nginx,由于担心会有单点故障,我部署了两台nginx;
  • 为了更好的管理nginx,使用了keepalived作为nginx的HA。

注:在设置nginx反向代理监听端口的时候最好修改为其他端口,改掉默认的80端口,其中在监听中有ipv4和ipv6的设置,两种设为同一个端口就行。

大数据之kylin(一)----kylin的搭建分类和多节点的搭建实战

最后需要改掉jdbc的端口号,将端口号改为nginx监听的端口号。