(1)我的电脑环境
CentOS6.5,64位,在虚拟机下实现。
(2)jdk1.6的安装
jdk我用的是1.6.0_27,自己在网上下载jdk-6u27-linux-x64.zip
先在/usr/local/下新建名为java的文件夹
下载链接:http://download.csdn.net/detail/tiney/3678995
下载好了之后,将该文件先通过u盘拷贝到桌面,然后从桌面复制到java中
命令:cp /home/桌面/Jdk-6u27-linux-x64.bin /usr/local/java/
(复制不过去,就切换到root下进行)su root
然后就是进入该解压文件的路径下解压文件 tar zxvf jdk-6u27-linux-x64.zip
然后就是执行安装即可,Jdk-6u27-linux-x64.bin。
命令:./ Jdk-6u27-linux-x64.bin
自动完成
设置环境变量
vi /etc/profile
export JAVA_HOME=/usr/local/java/jdk1.6.0_27
export PATH=.:$JAVA_HOME/bin:$PATH
输入 source /etc/profile使配置文件生效。
检查jdk是否安装配置成功,java -version,若显示如下,表示安装成功。
[root@Hadoop0 ~]# java –version
Java version “1.6.0_27”
(以上内容表示JDK就安装好了)
安装jdk过程中出现的问题
系统自带了jdk,应该先将其删掉
比如,此图在网上截取得到(图片不影响我要表达的内容)
输入方框中的命令,发现系统自带有jdk,这个时候,应该讲横线箭头处的四个文件全部删掉
注意删除的命令:(很重要,花了我好久才搞懂)
rpm -e --nodeps java-1.6.0-openjdk
(不能写rpm -e –nodeps
java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.e16_3.x86_64 )反正不能写的这么全面,
否则删不掉了,然后删除后面三个,以此类推,千万不能写全
这样自带的jdk就删掉了,删掉之后,就很好做了,然后按照文章里面写的,然后终于把自己的jdk装上了
接下来就是安装hadoop了
切记一条:首先要创建一个hadoop用户,搭建集群的话,几台电脑,最好是在同一个用户进行
命令:useradd hadoop #表示创建一个名为hadoop的用户
命令:passwd hadoop #表示要给hadoop的用户创建密码
(这里我给的密码都是KATOA2015,因为实验室的名称是KATOA)
接下来的工作,都先切换到hadoop用户下进行
命令:su hadoop
如果切换不过来的话,先进入root,然后再进hadoop用户即可
命令:su root
先在/usr/local/下创建hadoop文件夹
命令:mkdir /usr/local/hadoop
然后将hadoop的压缩包复制到hadoop文件夹里面,命令同上
(如果复制不过来的话,就换到root下面,弄完之后记得切换到hadoop用户,或者给haodop用户root权限也可以,这里的授权的命令自己百度去)
接下来,配置SSH 免密码登陆
- 查看当前用户下(hadoop)是否有.ssh的隐藏文件
命令:cd ~/.ssh #查看有没有.ssh的文件
如果没有,就新建一个
命令:mkdir ~/.ssh
- 输入ssh-keygen -t rsa
这个命令会在.ssh文件夹下生成id_dsa和id_ds.pub两个文件,这私钥和公钥。
(这里,注意一点,输入完ssh-keygen –t rsa之后,接下来直接按enter,不管它要你输入什么,都直接输入enter就可以了,不然会出错,我的一点经验之谈,直到enter出一个黑框框里面乱七八糟的,卡不懂的,那个就是秘钥 ,就可以了,再进行3)
3.输入cp id_rsa.pub authorized_keys
这条命令是把公钥加到用于认证的公钥文件中
4.验证SSH是否安装成功,以及是否可以免密码登陆本机
ssh localhost
如果显示如下,表示安装成功
修改主机名
为了方便,这里我把主机名改为hadoop0;
(从机给的是hadoop2,,hadoop3)
输入:hostname可以显示当前主机名;
输入:vi /etc/sysconfig/network修改HOSTNAME,如下,保存并退出
(编辑模式下,按一下esc,然后输入:wq 再enter,就可以保存修改并退出了,:x!是强制保存修改并退出,有时会用到)
将hostname与ip地址绑定
这个时候,如果直接ping hadoop0,那么是不成功的,因为hadoop0没有和本机地址绑定;
输入:vi /etc/hosts,增加一行:
10.109.0.49 hadoop0
这里10.109.0.49是我本机的Ip地址,之后再ping hadoop0就成功了。
(我在服务器上装虚拟机弄的,这里学校给我们实验室弄了个专用ip) (ifconfig可以查看电脑ip)
安装并运行Hadoop
下载并将hadoop-1.1.2.tar.gz解压到当前用户目录下(/usr/local/hadoop)。
tar -zxvf hadoop-1.1.2.tar.gz。
采用伪分布式hadoop配置
进入hadoop文件夹下的conf夹,修改配置文件。
1.指定jdk安装位置:
Hadoop-env.sh:
export JAVA_HOME=/usr/local/java/jdk1.6.0_27
2.hadoop核心配置文件,配置HDFS地址和段口号。
core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://hadoop0:9000</value>
</property>
< /configuration>
注意:这里hadoop是你的电脑主机名,根据自己的主机名来修改。
3.hdfs-site.xml,默认的配置方式是3,在单机版的hadoop中,将其改为1
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
< /configuration>
4.配置MapReduce文件,配置JobTracker的地址和端口
mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>Hadoop0:9001</value>
</property>
< /configuration>
注意:这里hadoop是你的电脑主机名,根据自己的主机名来修改。
5.接下来,在启动hadoop前,需要格式化hadoop的HDFS。进入hadoop文件夹,
输入bin/hadoop namenode -format
格式化文件系统,接下来启动hadoop
输入命令,启动所有进程:
bin/start-all.sh
可以通过jps命令来查看运行的进程,如果成功运行,那么将会有5个进程运行,如下图:
分别是:JobTracker、secondaryNameNode、TaskTracker、NameNode和DataNode。
最后验证hadoop是否安装成功。
打开浏览器,分别输入网址:
localhost:50030(mapreduce的web页面)
localhost:50070(HDFS的web页面)
如果想在windows下访问这两个网址,那么就需要关闭CentOS的防火墙,否则访问不了。
命令:service iptables stop
使用:chkconfig iptables off,可以关闭防火墙的自动运行
这样,单机版的hadoop就可以搭建成功了
然后就是在单机版的基础上,搭建集群了
Hadoop集群环境的搭建和单机版的搭建差不多,就是多了一些文件的配置操作。
3台主机的hostname修改和IP地址绑定
接下来的操作还是在hadoop用户下进行,如果不行的话,就给hadoop用户root权限,或者转到root下,不过马上得转到hadoop下
我在虚拟机下安装了3个centos6.5系统,其IP地址和主机名分别如下:
10.109.0.49 Hadoop0
10.109.0.54 Hadoop2
10.109.0.55 Hadoop3
IP地址与hostname绑定
在Hadoop0主机下操作类似,将HOSTNAME修改为Hadoop0;在Hadoop2主机下操作类似,将HOSTNAME修改为hadoop2。在Hadoop3主机下操作类似,将HOSTNAME修改为hadoop3。
在Hadoop0主机下:
输入:vi /etc/hosts,在hosts下添加如下内容:
10.109.0.49 Hadoop0
10.109.0.54 Hadoop2
10.109.0.55 Hadoop3
然后通过scp命令,将修改好的hosts复制到Hadoop2和Hadoop3的/etc/hosts文件夹下覆盖:
scp /etc/hosts hadoop@Hadoop2:/etc/hosts
scp /etc/hosts hadoop@Hadoop3:/etc/hosts
(注意,这个地方,scp是复制文件的命令,我的理解是,超级复制的意思,至于能不能用来复试文件夹,还不清楚,hadoop是当前用户,@后面的是主机名)
测试3太主机之间是否能Ping通
在3台主机下分别输入:
ping Hadoop0
ping Hadoop2
ping Hadoop3
如果3太主机都能ping通,那说明前面的配置成功。
Ping三台主机对应的ip也是一样子的(centos下区分大小写)
ping 10.109.0.49
ping 10.109.0.55
ping 10.109.0.54
SSH免密码登陆(这是之前单机版的工作,单机版做了,就不用管了)
在hadoop主机下:
1.查看当前用户下(root)是否有.ssh的隐藏文件,如果没有就创建一个
mkdir .ssh
2.输入ssh-keygen -t rsa
这个命令会在.ssh文件夹下生成id_dsa和id_ds.pub两个文件,这私钥和公钥。
3.输入
cp id_rsa.pub authorized_keys
这条命令是把公钥加到用于认证的公钥文件中
4.验证SSH是否安装成功,以及是否可以免密码登陆本机
ssh localhost
如果显示如下,表示安装成功
(请参阅此步骤的上图)
5.将authorized_keys复制到hadoop2和hadoop3下的.ssh文件,这样就可以免密码登陆hadoop2和hadoop3了。
scp authorized_keys hadoop@Hadoop2:.ssh/
scp authorized_keys hadoop@Hadoop3:.ssh/
(这里,hadoop@Hadoop2,hadoop是当前用户,要在hadoop用户下搭建集群,网上也有说可以不在hadoop用户下,但是对于小白而言,还是乖乖乖滴都在hadoop用户搭建吧,Hadoop2是主机名)
6.测试
在hadoop主机下输入:
ssh Hadoop2
ssh Hadoop3
在第一次登陆是需要密码,以后则不要。到此,ssh的免密码登陆完成。
安装jdk1.6
集群jdk的配置同单机的,单机版的jdk配好了的话,这里就不用配置了
设置环境变量
环境变量的配置同单机的,单机版的环境变量配好了的话,这里就不用配置了
配置hadoop
在Hadoop0主机下:
进入hadoop文件夹下的conf夹,修改配置文件。
1.指定jdk安装位置:
Hadoop-env.sh:
export JAVA_HOME=/usr/local/java/jdk1.6.0_27
2.hadoop核心配置文件,配置HDFS地址和段口号。
core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://Hadoop0:9000</value>(hadoop依据主机名来写,我的主机名是Hadoop0)
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
3.hdfs-site.xml,默认的配置方式是3,这里因为我们搭建的是3个集群,所以给的是3
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
4.配置MapReduce文件,配置JobTracker的地址和端口
mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>Hadoop0:9001</value>(hadoop是依据主机名来写,我的主机名是Hadoop0)
</property>
</configuration>
5‘修改masters文件
hadoop
6.修改slaves文件
Hadoop2
hadoop3
然后将hadoop文件夹复制到另外2台主机。
scp /uer/local/hadoop hadoop@Hadoop2:/etc/local/
scp /uer/local/hadoop hadoop@Hadoop3:/etc/local/
(如果复制不过来,就一个一个地配置,做重复工作而已)
接下来要修改环境变量:
vi /etc/profile
export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/usr/local/hadoop
export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
同样,将profile复制到另外两台主机上,操作见三(2)。
(3)启动hadoop
在hadoop下:
输入:
hadoop namenode -format
然后通过start-all.sh启动所有进程:
start-all.sh
可以通过jps命令来查看运行的进程,如果成功运行,那么将会有5个进程运行,如下图:
在Hadoop0 下:
在Hadoop2下:
在Hadoop2下:
至此,hadoop集群启动成功,要想看集群状态,可以打开下面两个网址:
localhost:50030(mapreduce的web页面)
localhost:50070(HDFS的web页面)
如果想在windows下访问这两个网址,那么就需要关闭CentOS的防火墙,否则访问不了。(3台主机都要关闭防火墙)
命令:service iptables stop
使用:chkconfig iptables off,可以关闭防火墙的自动运行
有不清楚的地方,请联系笔者。Q:718364491