一、Apache kylin的基础环境
由于Apache kylin上的OLAP(wiki:OLAP)是构建在hadoop生态环境上的,所以hadoop环境的稳定性和健壮性对kylin的稳定运行至关重要。一般而言,Apache kylin实例最好部署在hadoop集群的客户端机器上;而通过hadoop客户端机器,kylin最好能直接访问hadoop、hdfs、hive、hbase等命令行脚本;另外,kylin进程实例的所有者,需要具备以下权限:
- 读/写 hadoop分布式文件系统。
- 提交MR任务到hadoop集群。
- 创建/删除hive表。
- 创建hbase表。
如下图:
以下是Apache kylin依赖环境的组件及版本推荐:
- Hadoop: 2.6 - 2.7
- Hive: 0.13 - 1.2.1
- HBase: 0.98 - 0.99, 1.x
- JDK: 1.7+
二、Apache kylin的安装部署
安装:
- 下载最近版本的kylin:Apache Kylin,解压。
- 在 ~/.bash_profile 中添加指向解压后的kylin文件夹的KYLIN_HOME环境变量。
- 确保当前用户能在命令行接口中访问hadoop, hive , hbase 命令,如果你不确定,可利用$KYLIN_HOME/bin/check-env.sh 验证。
部署:
一般以集群模式部署kylin,kylin实例进程是无状态的,kylin实例运行的状态信息保存在hbase和hdfs中(后面有单独篇章讲元数据)kylin实例有三种运行模式,决定了该实例的职责,如下:
- job,该实例作为cube build engine运行。
- query, 该实例作为query engine运行。
- all,该实例既可作为query engine运行,也可以作为cube build engine 运行。
注意:kylin集群只能有一个实例以 job 或者 all 模式运行 ,其余所有实例只能作为 queryengine运行。一个典型的部署方式如下:
以集群模式部署kylin时,每个kylin服务器实例的${HOME_KYLIN}/conf/kylin.properties文件中的以下两个参数需注意:
- kylin.rest.servers,提供查询服务的kylin实例列表,如:kylin.rest.servers=hostname1:7070,hostname2:7070
- kylin.server.mode,kylin实例的运行模式,注意,只能有一个实例以 job或者 all 模式运行 ,其余所有实例只能以 query 模式运行。
三、Apache kylin的基础运维
- 启动实例
$KYLIN_HOME/bin/kylin.sh start
2.关闭实例
$KYLIN_HOME/bin/kylin.sh stop