数据中心的维护工作正逐步走向基于状态的维护以及风险预防性的维护模式。然而,现今许多数据中心运营商仍在采用基于日历的维护模式。本白皮书讨论了在选择维护服务供应商时,需要着重关注哪些关键特性。此外,我们还详细描述了数据分析、数字化服务和互联互通的系统从日历维护模式向基于状态的维护模式演进。
数据中心关键IT负载运行需要高可靠性和高可用性物理基础设施系统的支持。物理基础设施包括UPS、配电设备(如开关柜和PDU)和冷却系统(如机房空调CRAC/水冷机房空调CRAH、直膨式精密空调、冷水机组等)。维护方案是确保此类系统安全运行的重要一环。维护方案除了能最大限度地减少停机时间外,还可以帮助系统有效运行,以及最大限度地延长其预期使用寿命,最终降低数据中心的长期运营成本。
基础设施维护方案有两大核心功能,如图1所示。预防性维护(PM)旨在清除那些将要发生的故障,同时优化系统升级、零部件采购和人力资源。维护方案越稳健,那么维护活动达成预期目标的可能性就越大。与之相对的是补救性维护(常常称为故障/维修或计划外维护),指的是在意外故障发生时采取的必要维护活动。有些方案在及时、有效地执行补救性维修方面具有突出成效。
在第124号白皮书《数据中心预防性维护策略》中,论述了UPS等数据中心系统预防性维护的过往,以及从组件维护计划向更全面维护方案的发展历程。
在本白皮书中,我们对预防性维护和补救性维护给出了更具体的叙述,以及论述了每种维护方案的方法,并举例说明。接着,我们介绍了在选择维护服务供应商时需要关注的五大关键特性。最后,我们描述了数据分析、数字化服务和互联互通系统如何推动维护方案从日历维护向基于状态维护的演进。
一旦预防性维护(又称预测性维护)被有效执行,可以减少停机时间及相关成本,降低运营成本,并推迟资本成本的投入。如今,数据中心的预防性维护方案通常被归入日历维护类别。日历维护,顾名思义,指按照事先确定的日历表(每季度、每半年或每年)定期执行的活动。在维护期间,将执行特定的一组任务。我们将在下文“维护的演进”章节中探讨随着数据分析和人工智能(Al)等技术日渐广泛的采用,以及数据中心系统不断向高度互联互通、智能以及远程管理系统演进,我们对包含状态维护在内的混合维护模式转型的看法。
作为预防性维护工作的一部分,应完成以下主要活动:
●执行全面的现场检查:包括对所有物理基础设施系统进行外观检查、环境(和发热)检查以及电气/机械检查。这些现场检查工作对于确定所需要执行的系统维护工作类型至关重要。在“有效维护方案的构成要素”章节中,我们将更详细地讨论这一点,并说明应着重关注服务供应商检查方法中的哪些特性。
更换耗材:大多数物理基础设施系统都存在易耗件,意味着它们的预期使用寿命较短。常见的易耗件包括电池、电容器1、滤网和加湿器滤芯。在这些部件对数据中心造成停机风险前进行更换非常重要。此外,及时的干预措施可以推迟更换零部件的时间(“准确时机”),最大限度地降低资本成本投入。关键组件的预期使用寿命是设计数据中心时应当考虑的一个变量要素,因为其会影响所需的维护频率。其中一种向基于状态的维护模式转型方法是使用配备可更换或可升级组件的模块化设备来翻新旧设备。
功能验证:在这一步中,技术人员确认系统是否正在(或将要)按需执行维护。如果是UPS的话,可能是系统自检测试、自动加载测试、运行时间测试或静态旁路的切换。对于机房精密空调/水冷精密空调,包括测试风扇、加热器、加湿器、压缩机、冷凝泵,以及检查制冷剂液位或冷冻水流量。其中有些与冷凝水管理和加湿相关的零部件只是季节性使用,如由于水中杂质可能导致逐渐累积的水垢,从而妨碍正常运行;进行测试可确保其能在需要时正常开启。功能验证可能涉及状态更改,但状态更改总是会带来潜在风险。采用冗余设计的数据中心在执行该类验证时可以降低风险。不过最终,还是必须由最终用户决定他们是否可容忍这些带入的风险。这是在计划维护期出现潜在事故与正常运行期发生意外事件之间的一种权衡。比如,知道UPS电池能否在发生电源事故时支持关键负载。
更新/修订:供应商定期更新固件或进行电路板修订。在预防性维护期间,技术人员应使用最新版的可用的更新程序对系统进行更新。
状态沟通:对维修技术人员重要的是其要能就其所发现的异常现象进行说明。通常向运营者/业主发送电子版报告,以便他们清楚完成了哪些任务、更换了哪些组件、更新了哪些软件以及其他任何进一步的建议。
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)