企业级大数据平台构建

时间:2024-03-07 17:48:15

一、平台基本功能

1. 数据接入

2. 数据存储和查询,存储模型应包括关系型模型,非关系型模型,文档模型等。

3. 数据计算,包括离线批处理,实时计算,机器学习,多维分析和全文检索。

4. 平台安全与管理,解决用户管理,数据隔离,访问授权,访问控制和集群服务安全等问题。

5. 平台辅助工具,如程序开发套件,任务管理,与调度系统,自助式数据探索分析系统。

二、集群服务器的角色分类

1. 主控节点

定义:不承担具体的数据存储和计算工作,而是负责全局统筹的任务分配,资源调配或是平衡集群负载,角色包括NameNode,HMaster,ResourceManager等。

2. 存储和计算节点

如Datenode,RegionServer和NodeManger等

3. 安全认证和管理节点

定义:负责集群的安保和管理工作。如kerberos协议的认证中心服务,cloudera manager,Ambari等。

4. 协同管理与其他节点

负责服务进程之间的交互和协同,例如心跳检查,配置同步,主控服务选举等,如zookeeper等。

 三、构建企业级平台安全方案

1. 访问控制(Knox)

为保护平台中原生的web UI控制台和RESTful服务,我们引入一种使用HTTPS协议的代理网管系统。思路为:

1)通过防火墙将集群内hadoop系统相关的端口全部屏蔽,只保留代理网关访问端口。

2)用户对大数据平台内所有hadoop系统原生Web UI控制台和RESTful服务的访问都要经过网关进行代理访问,访问协议从HTTP升级到?HTTPS。

3)当用户通过代理网关访问服务的时候要求在网关处进行用户认证,只有认证通过的用户才能继续访问。

为此引入Knox技术,Apache Knox Gateway是一款用于保护Hadoop生态体系安全的代理网关系统,为hadoop集群提供唯一的代理入口。

2. 数据授权与管理(Ranger)

为保护大数据平台中的数据资源和系统资源,引入授权系统,集成所有子系统的权限管理功能,并提供统一的授权界面。Apache Ranger提供一个集中式安全管理框架,它可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制.通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限.这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接.同时提供审计日志的功能,包括访问日志,管理员日志,登录会话日志和插件日志等。

3.