【用户单位信息】
农业科学研究院某研究所
【磁盘阵列故障发生过程描述】
客户的DELL MD1000服务器内置15块1TB硬盘搭建为RAID5磁盘阵列阵列,服务器在正常工作中有一块硬盘离线,管理员对磁盘阵列进行同步,在硬盘进行同步的过程中第二块磁盘指示灯报警,磁盘阵列同步失败,服务器崩溃,无法正常工作。
【北亚数据恢复中心初检结果】
数据恢复工程师对服务器进行物理磁盘的状态进行检测,磁盘阵列中首先离线的硬盘访问速度极其缓慢,第二块离线的磁盘有少量坏扇区,其他磁盘无明显物理问题。
磁盘阵列的逻辑状况表现为:整个磁盘阵列只包含一个卷组,该卷组占用阵列全部空间;并且该卷组只有一个起始位置为0扇区的XFS裸分区。
【磁盘阵列数据恢复思路分析】
RAID5阵列架构在设计上只支持一块磁盘的错误冗余功能,当第二块磁盘离线后阵列便无法正常工作,所以整个服务器的崩溃主要由第二块磁盘的离线造成。所以第二块磁盘的处理是此次服务器数据恢复的关键。
【服务器磁盘阵列数据恢复过程】
1、对服务器中15块硬盘进行异或测试,全部通过,无明显错误。
2、备份所有硬盘的关键区域,单独备份第二块离线的硬盘,备份过程中略过坏扇区。
3、计算第二块硬盘损坏扇区位置的数据,并将其写入镜像文件。
4、在备份过程中同时分析原RAID组成结构,构建虚拟RAID环境。
5、验证RAID结构是否正确。
6、将第二块磁盘的镜像备份到新硬盘,并将其强制上线,更换第一块磁盘,并对其进行同步。(注意:此过程危险,操作需谨慎!)
7、拷贝数据。
【服务器数据恢复结论】
因为异或测试完全通过,所以表明该存储发生故障后没有新数据写入,或结构改动。所以可以根据其他几块好硬盘计算出坏硬盘对应位置的数据。恢复完成后,目录结构完整,重要文档全部完好。FSCK无任何错误提示,客户认可所恢复的数据,恢复成功。