hadoop完全分布式搭建HA（高可用）

2018年03月25日 16:25:26 D调的Stanley 阅读数：2725 标签： hadoop HA ssh免密登录 hdfs HA配置 hadoop完全分布式搭建 zookeeper 配置更多

个人分类： hadoop linux

首先创建5台虚拟机（最少三台），并且做好部署规划

ip地址	主机名	安装软件	进程
192.168.xx.120	master	jdk,hadoop,zookeeper	namenode,ZKFC,Resourcemanager
192.168.xx.121	master2	jdk,hadoop,zookeeper	namenode,ZKFC,Resourcemanager
192.168.xx.122	slave1	jdk,hadoop,zookeeper	natanode,nodemanager,zookeeper,Journalnode,
192.168.xx.123	slave2	jdk,hadoop,zookeeper	natanode,nodemanager,zookeeper,Journalnode,
192.168.xx.124	slave3	jdk,hadoop,zookeeper	natanode,nodemanager,zookeeper,Journalnode,

一、首先设置防火墙防火墙

立即关闭防火墙service iptables stop

hadoop完全分布式搭建HA（高可用）

设置防火墙开机不启动 chkconfig iptables off

hadoop完全分布式搭建HA（高可用）

设置 selinux 将SELINUX 改为disabled

hadoop完全分布式搭建HA（高可用）

二、编辑主机名映射

vi/etc/hosts

hadoop完全分布式搭建HA（高可用）

下载 ssh包获取scp命令

yuminstall openssh-clients

hadoop完全分布式搭建HA（高可用）

将hosts远程拷贝至后面四台机器

scp /etc/hostsmaster2:/etc/hosts

hadoop完全分布式搭建HA（高可用）

三、设置五台机器时间同步

最小化安装没有ntpdate这个软件，首先用yum命令下载

yum –y installntp

hadoop完全分布式搭建HA（高可用）

设置master 与指定时间服务器同步

ntpdate cn.pool.ntp.org
hadoop完全分布式搭建HA（高可用）

设置后面4台机器与master同步

修改master ntp配置文件

vi /etc/ntp.conf

讲restrict 上的网段改为自己的网段

注释server 服务器

在最下面添加两行server 和fudge内容

hadoop完全分布式搭建HA（高可用）

启动ntpd ，并设置为开机启动

hadoop完全分布式搭建HA（高可用）

关闭后面几台ntpd，并设置为开机不启动

hadoop完全分布式搭建HA（高可用）

同步master时间服务器

ntpdate master

hadoop完全分布式搭建HA（高可用）

四、创建普通用户

adduser hadoop

hadoop完全分布式搭建HA（高可用）

passwd hadoop 设置密码

hadoop完全分布式搭建HA（高可用）

五、SSH免密登录

切换到普通用户

hadoop完全分布式搭建HA（高可用）

在五台机器上都输入ssh-keygen –t rsa，然后一直按回车

hadoop完全分布式搭建HA（高可用）

将秘钥拷贝到五台机器上

ssh-copy-id master

hadoop完全分布式搭建HA（高可用）

ssh-copy-id master2

hadoop完全分布式搭建HA（高可用）

ssh-copy-id slave1

hadoop完全分布式搭建HA（高可用）

ssh-copy-id slave2

hadoop完全分布式搭建HA（高可用）

ssh-copy-id slave3

hadoop完全分布式搭建HA（高可用）

测试能否免密登录，设置成功！

hadoop完全分布式搭建HA（高可用）

在其他四台机器上重复以上操作

六、安装jdk

我这里是最小化安装不需要检查系统自己看装的jdk，如果不是需要卸载

通过下面两行命令查找卸载

rpm –qa |grep jdk

rpm –e –nodep

修改/opt/文件夹用户

chown –R hadoop:hadoop /opt/

hadoop完全分布式搭建HA（高可用）

创建 /opt/software文件夹，这个文件夹用来存放压缩包，创建/opt/modules这个文件用来存放解压的软件

hadoop完全分布式搭建HA（高可用）

上传jdk到software

hadoop完全分布式搭建HA（高可用）

解压jdk到modules

hadoop完全分布式搭建HA（高可用）

配置环境变变量，切换到root用户vi /etc/profile 也可以在普通用户下修改vi ~/.bash_profile，在最后添加

hadoop完全分布式搭建HA（高可用）

保存退出，输入 source /etc/profile ，然后输入java -version验证版本

hadoop完全分布式搭建HA（高可用）

将java scp至其他几台机器

hadoop完全分布式搭建HA（高可用）

将配置文件scp至其他几台机器

hadoop完全分布式搭建HA（高可用）

七、进入slave1主机，安装配置zookeeper

上传zookeeper到software文件夹，并解压到modules

hadoop完全分布式搭建HA（高可用）

修改zookeeper配置文件

hadoop完全分布式搭建HA（高可用）

修改dataDir 路径，增加server配置信息

hadoop完全分布式搭建HA（高可用）

创建zkData文件夹并创建myid文件，在slave1输入1

hadoop完全分布式搭建HA（高可用）

scp zookeeper文件夹到slave2和slave3下

hadoop完全分布式搭建HA（高可用）

修改slave2和slave3 的myid文件

hadoop完全分布式搭建HA（高可用）

启动zookeeper，并验证状态

hadoop完全分布式搭建HA（高可用）

启动 bin/zkCli.sh，配置完成！

hadoop完全分布式搭建HA（高可用）

八、安装配置hadoop

上传hadoop到software文件夹，并解压到modules

hadoop完全分布式搭建HA（高可用）

配置hadoop环境变量

root vi /etc/profile，记得source /etc/profile

hadoop完全分布式搭建HA（高可用）

修改hadoop 配置文件

修改 etc/hadoop 下的环境变量文件增加java环境变量

hadoop-env.sh mapred-env.sh yarn-env.sh

export JAVA_HOME=/opt/modules/jdk1.7.0_79

修改core-site.xml文件

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://ns1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/App/hadoop-2.5.0/data/tmp</value>
</property>
<property>
<name>hadoop.http.staticuser.user</name>
<value>hadoop</value>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>slave1:2181,slave2:2181,slave3:2181</value>
</property>
</configuration>

修改hdfs-site.xml文件

<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
<property>
<name>dfs.nameservices</name>
<value>ns1</value>
</property>
<property>
<name>dfs.blocksize</name>
<value>134217728</value>
</property>
<property>
<name>dfs.ha.namenodes.ns1</name>
<value>nn1,nn2</value>
</property>
<property>
<name>dfs.namenode.rpc-address.ns1.nn1</name>
<value>master:8020</value>
</property>
<property>
<name>dfs.namenode.http-address.ns1.nn1</name>
<value>master:50070</value>
</property>
<property>
<name>dfs.namenode.rpc-address.ns1.nn2</name>
<value>master2:8020</value>
</property>
<property>
<name>dfs.namenode.http-address.ns1.nn2</name>
<value>master2:50070</value>
</property>
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://slave1:8485;slave2:8485;slave3:8485/ns1</value>
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/opt/modules/hadoop-2.5.0-cdh5.3.6/data/journal</value>
</property>
<property>
<name>dfs.client.failover.proxy.provider.ns1</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/home/hadoop/.ssh/id_rsa</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.connect-timeout</name>
<value>30000</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
</configuration>

修改mapred-site.xml.template名称为mapred-site.xml并修改

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>

配置 yarn-site.xml

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>rmcluster</value>
</property>
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>master</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>master2</value>
</property>
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>slave1:2181,slave2:2181,slave3:2181</value>
</property>
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
</configuration>