hadoop 之 某一个datanode启动失败(Initialization failed for Block pool (Datanode Uuid unassigned) service to)

时间:2024-04-28 21:34:01

环境

集群7台

master 3台

datanode 4台

每个datanode有12个硬盘

场景

启动集群之后,发现有一台datanode未启动,手动启动,还是未启动。查看日志,发现:

Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to

百度之后,说是磁盘有问题

核查

查看硬盘信息

[root@hdfsdata1 /]df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/VolGroup-lv_root 50G 3.2G 44G 7% /
tmpfs 63G 0 63G 0% /dev/shm
/dev/sdm2 485M 40M 421M 9% /boot
/dev/sdm1 200M 260K 200M 1% /boot/efi
/dev/mapper/VolGroup-lv_home 5.0G 161M 4.6G 4% /home
/dev/mapper/VolGroup-lv_zhjs 197G 3.2G 184G 2% /zhjs
/dev/sda 5.4T 17G 5.1T 1% /data01
/dev/sdb 5.4T 17G 5.1T 1% /data02
/dev/sdc 5.4T 18G 5.1T 1% /data03
/dev/sdd 5.4T 18G 5.1T 1% /data04
/dev/sde 5.4T 18G 5.1T 1% /data05
/dev/sdf 5.4T 18G 5.1T 1% /data06
/dev/sdg 5.4T 18G 5.1T 1% /data07
/dev/sdh 5.4T 18G 5.1T 1% /data08
/dev/sdi 5.4T 24G 5.1T 1% /data09
/dev/sdj 5.4T 18G 5.1T 1% /data10
/dev/sdk 5.4T 17G 5.1T 1% /data11
/dev/sdl 5.4T 1.7T 3.5T 32% /data12

查看磁盘状态
iostat -x -k

[root@hdfsdata1 /] iostat -x -k
Linux 2.6.32-431.el6.x86_64 (hdfsdata1) 2021年09月05日 _x86_64_ (32 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
0.20 0.00 0.06 0.02 0.00 99.73
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util
sda 0.00 3.67 0.04 0.14 2.98 15.24 204.79 0.01 70.48 0.76 0.01
sdc 0.00 3.86 0.06 0.14 4.09 16.03 201.01 0.01 65.44 0.76 0.02
sde 0.00 8.35 0.05 0.20 3.88 34.19 308.30 0.03 104.15 1.03 0.03
sdf 0.00 5.42 0.07 0.17 4.70 22.35 227.83 0.02 74.27 0.85 0.02
sdm 0.01 1.11 0.01 0.85 0.26 7.87 18.87 0.01 15.66 5.71 0.49
sdg 0.00 6.96 0.06 0.18 4.22 28.57 272.65 0.02 88.65 0.93 0.02
sdh 0.00 11.60 0.06 0.24 5.30 47.36 347.48 0.03 113.76 1.08 0.03
sdi 0.00 2.23 0.01 0.11 1.50 9.40 170.01 0.06 446.02 3.37 0.04
sdb 0.00 3.53 0.05 0.14 3.77 14.66 200.25 0.01 65.31 0.77 0.01
sdj 0.00 4.89 0.05 0.16 4.71 20.21 235.10 0.02 116.51 1.61 0.03
sdk 0.00 4.52 0.06 0.16 5.91 18.71 220.89 0.02 109.69 1.60 0.04
sdl 0.01 37.37 0.04 0.78 3.44 152.72 380.19 0.11 137.09 1.30 0.11
sdd 0.00 4.57 0.07 0.15 5.02 18.89 217.37 0.01 67.86 0.82 0.02
dm-0 0.00 0.00 0.01 1.22 0.18 4.86 8.26 0.08 65.84 3.06 0.37
dm-1 0.00 0.00 0.01 0.00 0.05 0.01 8.00 0.00 4.31 0.42 0.00
dm-2 0.00 0.00 0.00 0.07 0.00 0.27 8.00 0.00 9.46 4.88 0.03
dm-3 0.00 0.00 0.00 0.68 0.03 2.73 8.08 0.12 170.89 1.33 0.09

发现sdi这个硬盘的await:平均每次设备I/O操作的等待时间很高

查看硬盘状态
smartctl -H /dev/sdi

[root@hdfsdata1 /]smartctl -H /dev/sdi
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net Smartctl open device: /dev/sdi failed: No such device or address

查看其他盘状态(正常)

smartctl -H /dev/sda

[root@hdfsdata1 /]smartctl -H /dev/sda
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-431.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net SMART Health Status: OK

进入目录验证

[root@hdfsdata1 /]cd /data09
[root@hdfsdata1 data09]pwd
/data09
[root@hdfsdata1 data09]ll
ls: 正在读取目录.: 输入/输出错误
总用量 0

发现/dev/sdi这个磁盘确实存在问题!