那么,您的数据中心正常运行时间面临的最大风险是什么?您的员工
据国际正常运行时间协会(Uptime Institute)称,人为错误是停机的主要原因.
国际正常运行时间协会 全年对数千名数据中心专业人员进行了停机调查,他们发现绝大多数数据中心故障(约70%)是由人为错误造成的。在1300名受访者中,近一半的人在过去三年里经历了一次重大或更大的停机。严重类停机的平均成本在每个事件100万美元以上。
例如,前段时间在定期维护期间意外释放了灭火剂,导致Microsoft Azure平台的多项服务自动关闭。这给北欧的客户试图连接到托管服务造成了困难。
维护保养困难
这印证了我们的经验,即在维护保养期间经常发生停机。维护保养是人工干预自动化系统的典型情况:需要更换HVAC中的过滤器,或者需要拆除UPS进行检查。在这时,“人为错误”可能会对通常完全自动化的系统产生重大影响。
在这种情况下,可能有人连接了错误的线路或按了错误的按钮,导致系统释放其灭火剂。这导致了一系列的事件,开始于自动关闭空气循环。这是合乎逻辑的,因为系统假定存在火灾导致灭火系统跳闸。冷风自动关闭后,空白区温度突然升高。这导致服务器和存储系统开始进入关闭程序,从而导致一些Azure的服务不可用。
多米诺效应
这是一种典型的多米诺效应,一个相对无害的行为,即释放灭火剂,伴随着一系列自动化响应,最终导致系统关闭。
这就引出了一个难以自动化的因素:人为因素。人为操作仍然是数据中心工作流程中不可或缺的一部分。设备需要安装在机架上,过滤器需要清洗或更换,UPS需要定期维护保养,就像HVAC、发电机等。
数据中心管理人员必须考虑到,人为操作比自动化系统更容易犯错(它们真的会犯错吗?)。存在可以显著降低故障率的程序,如适当的文档编制或详细的工作指令。在一些关键的任务中,至少需要两个人一起工作,互相监督。人们在创造力方面表现得很出色,但他们在重复性任务,比如大多数维护工作,方面却很差。犯错误是人之常情。
预测人为因素
关键是,管理层应该考虑到这一点,并预见到人类可能会犯错的事实。除了拥有正确和详细的工作指令之外,他们还应该使其自动化系统能够应对好人为错误。一个合适的DCIM系统可以应付各种维护情况。如果上述情况下的灭火器在DCIM中处于“维护模式”,则溶剂释放时不会关闭空气循环。多米诺链将会停止,Azure平台的客户也不会注意到这个事件的发生。
根据我们的经验,您的DCIM具有这种智能性是很重要的。维护保养是一项有计划性的事件,应该将其记录到DCIM中,以便在此期间对异常情况的处理与常规操作有所不同
我们来讨论一下您的数据中心需求