HP XP24000 存储设备是国网青海省电力公司信息系统使用的核心存储设备之一,于 2008 年投入运行。该设备主要承载着青海电力营销系统、ERP、财务管控、生产管理、数据中心、企业门户、硬件资源池等重要业务系统的应用,为灾备系统建设过程中的其它业务系统存储提供虚拟化数据管理。该存储与西安灾备中心进行灾备存储复制业务。
2 存储设备故障现象。
2016 年 6 月 15 日机房日常巡视中,运维人员发现 XP24000 存储设备告警灯亮起,系统日志告警信息显示为 1C -00 硬盘故障。待存储设备自动将故障硬盘的数据拷贝到热备盘 15 - 0F 中后,运维人员按照正常的流程进行硬盘更换操作,在数据回写过程中,系统产生 DYNAMIC SPAR-ING( DRIVE COPY) ABNORMAL END 告警日志,数据回写失败。检查系统无其它新增日志,判断原因可能为新更换的硬盘为故障硬盘,第二次硬盘更换操作后得到相同的结果。故分析第二次更换使用的新硬盘与第一次更换使用的硬盘为同批次硬盘,本批次硬盘可能存在缺陷问题。选择不同批次的硬盘进行再次更换,数据回写依旧失败。
6 月 16 日进行系统检查时发现新增 2 条日志信息: 硬盘 1D -00 故障告警,但数据未自动开始写入热备盘中; 新增 PINNED SLOT 告警日志,为 Se-rious 级的告警日志。
3 存储设备故障分析。
当前这台存储设备共存在 3 个问题: 1C - 00硬盘更换新硬盘后数据无法从热备盘中回写; 1D- 00 硬盘故障数据未自动开始写入热备盘中; 存在高预警等级的 PINNED SLOT 告警。硬盘 1C -00、1D - 00 都属于 RAID 组 9 - 1,本 RAID 组由 8块硬盘组成,构建为 7D +1P 的 RAID5,正常状态如图 1 所示; 共划分为 3 个 LDEV,具体划分见表1.当 6 月 15 日硬盘 1C - 00 故障后,RAID 组 9- 1 状态如图 2 所示; 当 6 月 16 日新增 2 个告警后,RAID 组 9 -1 状态。
通过对 1C -00 三次硬盘更换的尝试及其它告警日志的分析,判定本次故障不是日常处理的单纯的硬盘故障问题,可能是一个综合性问题。
因此展开对 6 月 15 日之后的所有日志信息进行逐条详细的、相互联系的分析解读。
1) 通过对图 4 至图 6 告警信息的综合分析,可以得出结论: 存储设备将故障硬盘 1C -00 的数据拷 贝 到 热 备 盘 15 - 0F 中 后,系 统 PIN SLOTCHECK 时检测到 LDEV 00: 31: 01 存在数据校验错误并标记,导致更换 1C -00 硬盘后数据回写非正常结束。因 PINNED SLOT 告警于 6 月 16 日报出,导致6 月15 日处理硬盘 1C -00 问题时判断错误而多次更换硬盘。此告警还会导致对存储设备的部分操作无法进行( 例如新划分存储空间) .
2) 根据图 7 的告警日志信息,1D - 00 硬盘数据完整,但因驱动介质错误导致数据无法读出。
正常状态下,1D - 00 硬盘的数据应由 RADI 组9 - 1中其它 7 块硬盘数据计算出并写入热备盘中,但由于组成 RAID 组的 15 -0F 硬盘数据校验错误而无法进行数据恢复计算,从而导致 1D -00硬盘数据无法自动写 1D -00 硬盘数据。
通过以上分析,PINNED SLOT 告警直接导致1C - 00 硬盘更换新硬盘后数据无法从热备盘中回写、1D -00 硬盘故障数据却未自动开始写入热备盘中。在 RAID 组 9 - 1 中实际同时存在 2 块故障硬盘 1D -00 和 15 -0F,只是存储设备暂时未造成数据丢失或系统崩溃,但是存在重大的隐患需要及时处理。
4 存储设备故障处理。
根据故障分析结果,需要解决的首要问题是PINNED SLOT 告警,具体位置在 LDEV00: 31: 01.
为保证数据安全性,将使用 LDEV 00: 31: 01 的资源池系统数据迁移到其它存储设备上。然后格式化该 LDEV 数据,PINNED SLOT 告警消除。1C -00、1D - 00 硬盘的问题也将随之解决。
4. 1 为数据迁移划分新存储空间。
与资源池管理员详细核查后发现,资源池系统使用此空间与其它 LUN 组成了 3. 6 T 的 VG 供 36台物理机使用,经查看 HP 9500 存储上还有7 T 空闲空间,划分4. 5 T RAID5 空间给资源池系统。
4. 2 数据迁移。
资源池系统中使用相关存储空间的共涉及 6个业务应用系统。经过对情况的详细排查与分析后确定了迁移顺序。在相关系统负责人的技术保障下,共计 12 h 完成数据迁移。数据迁移全过程实现无缝迁移,未发生数据丢失或系统无法访问的问题。完成数据迁移后,即可进行存储故障的修复工作。
4. 3 存储设备故障修复。
1) 先 将 LDEV 00: 31: 01 状 态 设 置 为BLOCKED,因被 BLOCKED 的 LDEV 数据不再参与数据校验,PINNED SLOT 告警消失。
2) 再次更换 1C - 00 硬盘,数据开始从 15 -0F 硬盘回写,状态如图 8 所示。回写过程中,存储软件再次检测到 1D - 00 硬盘驱动介质错误,将 1D -00 硬盘中数据计算并写入热备盘的工作排到 COPY 作业队列中,1C -00 硬盘数据回写完成后,1D -00 数据自动开始向热备盘 16 - 0F 计算写入,状态。
3) 待 16 - 0F 数据写入完成后,将 LDEV 00:31: 01 格式化,数据全部清除,15 - 0F 硬盘数据校验错误彻底解决。使用正常硬盘更换流程,依次更换 15 - 0F、1D - 00,数据由 16 - 0F 向 1D - 00回写,状态如图 10 所示。数据回写完毕后,本次存储故障处理完毕,隐患消除。
5 结束语。
通过本次存储设备的故障分析及处理过程,解决了信息系统运维过程中存在的重大隐患,提高了信息系统核心存储的运行安全性及可靠性,为信息系统的稳定运行提供了良好的支撑。
TAG标签: 代写工程论文