关键词:  浪潮服务器,浪潮磁盘阵列柜,Seagate SerialAttachedSCSI硬盘 硬盘信息:型号ST2000NM0001,容量2000G,接口SAS,产地THAILAND,Date:13333,DOM:02/2013 数量16 ,总容量32T 阵列RAID5*15+Hospare1 故障描述:服务器死机重启动后,raid无法识别,客户发现后没有处理好,便打电话,本人简单说明情况后,约十天后才再来电话,要求恢复; 前后困难:直接用服务器无法raid5进行分析,因为在设备上去raid后,必须进行有损处理,才能分析,这是不可以的;数据量太大,不能做镜像,然后分析,只能全部挂载进行组合分析,扫描和分析以及恢复都将非常缓慢和复杂;硬盘太多,则需要最少两块raid卡才能挂载,另外对电脑、对电源等一些配件配置要求都很高,譬如电源并非功率高就可以解决,15块硬盘加上系统硬盘加上恢复用硬盘,仅这部分要求电机启动电流就达34A以上,实际上考虑还要大很多;还要加不少硬盘电源分接线;也并不是挂载多个电源就可解决,那需要满足其他启动技术要求;因为超过15块,有不少软件最多支持16块,像raid RE...只支持14块,因而无法进行相关分析,譬如异或测试等等,得自己想办法;另外,系统有特定要求,软件也有特定要求; 以上问题均顺利解决: 分析:1、磁盘对应,这是前提,因为磁盘标签编号,与挂载硬盘到电脑上电脑对硬盘的自动编号不一定一致;由于一些盘前面数据有一样的地方,因此随意取后面同一位置的物理数据进行记录后,作为比对数据,16块硬盘挂载后 确定磁盘对应,后者为电脑编号,其中12号因为检测物理数据全0,为没有使用,确定为热备盘; 因为一开始误认为15#盘为最后一块,没有挂载,后来挂后,顺序与13#14#有点乱。 0-4#, 1-2#, 2-6#, 3-8#, 4-7# 5-3# 6-1# 7-5# 8-12# 9-11# 10-10# 11-9# 12-16# 13-14# 14-13# 15-15# 16块SAS盘,合计32T,去掉热备和冗余,实际数据区达14*2=28T,
去掉热备盘,开始分析数据,首先做盘序分析,其次做校验块分析,根据各条带前后数据连续性,因为前面全为照片,根据照片特点组合数据分析,确定盘序,考虑到钱不数据破坏严重,取后面数据多检查几次,确定全部raid参数。LVM卷盘为首盘,此中设置的目的是对便于网络磁盘管理,而非MBR信息盘,14#盘为校验盘;GPT分区。
组合分析数据验证表明分析是正确的,进行却判分析,发现前面第一条带就不同步,稍微后面的同步了,但数据破坏了,分区引导记录破坏无余,MFT破坏严重,必须重建。MFT有1亿多,占用空间超过100G,但有许多破坏,且不连续,文件数量一亿多占用空间十几个T。
工作细致而漫长,需要耐心。
  最不可容忍的硬盘只有一个分区,因为管理上的极不科学,导致平常操作效率的低下,很简单的一个原理:让一个师长指挥每一个士兵,显然毫无效率可言;
  所以适当分区,便于管理,便于查询,也便于恢复;譬如若分两个区,各12.7T,则组合成功后,后面的分区数据,根本不需要扫描,而且还要累加上前面的庞大数据一起扫分析,造成系统资源的严重不足,因为这是一个整体分区;
十几块硬盘发热量不小,50W风扇24小时运转。
长时间操作,raid卡发热量也不小,由于主板上没有多余的风扇接口,所以只对其中一块卡另外加了风扇,另一块则没有加风扇,一般情况下应该是没有问题的,但是可能由于硬盘多的缘故,还是让一块硬盘掉线了,反复加耶没有加上,反而又掉了一块,追加使用USB风扇山热,这个问题不在出现. |