Gcore - 云 | 伦敦-2事件详情 – 故障详情

所有系统运行中

云 | 伦敦-2事件详情

已解决
严重故障
开始于 大约 1 个月前持续 大约 5 小时

受到影响

严重故障 从 9:12 AM 至 11:46 AM, 运行正常 从 11:46 AM 至 1:51 PM

计算

严重故障 从 9:12 AM 至 11:46 AM, 运行正常 从 11:46 AM 至 1:51 PM

伦敦-2

严重故障 从 9:12 AM 至 11:46 AM, 运行正常 从 11:46 AM 至 1:51 PM

裸机

严重故障 从 9:12 AM 至 11:46 AM, 运行正常 从 11:46 AM 至 1:51 PM

伦敦-2

严重故障 从 9:12 AM 至 11:46 AM, 运行正常 从 11:46 AM 至 1:51 PM

联网

严重故障 从 9:12 AM 至 11:46 AM, 运行正常 从 11:46 AM 至 1:51 PM

更新
  • 事后分析
    事后分析

    事件报告:电力事故——伦敦(NDLO)地区

    日期: 2026年3月28日受影响区域:伦敦-2 (NDLO)影响时间: UTC 08:51 – 11:41(2小时50分钟)状态:已解决

    问题

    2026年3月28日星期六,Gcore位于伦敦的数据中心发生电力故障,导致其伦敦-2 (NDLO) 区域服务中断。该数据中心上游电力故障造成我们基础设施所在区域完全断电,导致该区域的云计算、网络、存储和裸机服务中断约2小时50分钟。服务全面恢复后,电力冗余度有所降低,但当天晚些时候也完全恢复。

    我们理解此事对贵公司运营造成的影响,并对由此造成的不便深表歉意。

    发生了什么

    世界协调时07:29,数据中心上游电气元件发生故障,导致基础设施区域的主电源跳闸。该设施的不间断电源(UPS)依靠电池维持了约80分钟的负载,但切换到备用高压电源所需的时间超过了UPS电池的续航能力。世界协调时08:49,UPS电池耗尽,该区域完全断电。

    UTC时间10:32,该设施通过备用高压电源恢复供电,我们的基础设施开始逐步恢复运行。网络连接首先恢复,随后是云控制平面和客户工作负载。到UTC时间11:41,所有面向客户的服务均已确认恢复,并处于密切监控之下。

    主电源恢复后的几个小时内,由于配电路径中的一个组件出现故障,部分机柜仅依靠单一电源供电。所有机柜至少保留了一个正常工作的电源,因此服务仍然可用,但冗余度有所降低。UTC 19:08,该设施绕过了故障组件,恢复了全部冗余电源。UPS电池更换工作于UTC 19:20完成。

    时间线(所有时间均为UTC时间)

    时间

    事件

    07:29

    上游电路故障;主电源跳闸;UPS 启用电池供电。

    08:49

    UPS电池续航时间耗尽;受影响区域完全断电。

    08:51

    Gcore检测到事件;调查已展开。

    09:24

    已联系设施供应商;现场响应正在进行中。

    10:32

    通过备用高压电源恢复供电。

    10:43 – 11:41

    分阶段服务恢复:网络、云控制平面、计算、裸机。

    11:41

    所有面向客户的服务均已恢复,并处于监控之中。

    13:51

    状态页面:事件已关闭。

    19:08

    所有机柜的电源冗余已完全恢复。

    影响

    • 受影响的服务:伦敦-2 (NDLO) 区域内的云计算(虚拟机)、裸机、云网络、公共 IP 连接、云存储和云 API。

    • 客户可见停机时间:约 2 小时 50 分钟(UTC 时间 08:51 – 11:41)。

    • 从世界协调时08:51至19:08期间,部分机柜的电源冗余度有所降低。在此期间,服务仍然可用。

    • 其他Gcore区域未受影响。

    根本原因

    根本原因是数据中心上游的电气故障,加上该设施的UPS电池续航能力不足以支撑负载切换到备用高压电源所需的时间。配电路径中的次要组件故障延长了初始恢复后冗余度降低的时间。

    我们正在做什么

    我们与数据中心合作伙伴以及 Gcore 方面密切协调,已采取以下措施:

    与设施提供商

    • 要求进行全面、正式的根本原因分析,包括电气故障、UPS自主运行与设计目标的差异以及次要组件故障。

    • 跟踪设施的整改计划,包括 UPS 电池更换(已于 3 月 28 日完成)、弹性测试和预防性维护。

    • 审查合同服务水平承诺

    我们的承诺

    我们高度重视此次事件。数据中心层面的电力保障是我们服务的基石,而此次事件暴露出的漏洞——UPS的自主运行时间不足以完成备用电源切换——是我们无法接受的。我们正与设施合作伙伴紧密合作,确保此类故障模式不再发生,同时也在积极强化自身架构,以最大程度地减少未来类似事件对客户的影响。

    如果您对本次事件如何影响您的具体工作量有任何疑问,或者如果您想讨论根据服务协议获得的赔偿,请联系 Gcore 支持。

    感谢您的耐心和对Gcore的一如既往的信任。

  • 已解决
    已解决

    我们很高兴地通知您,数据中心的电力故障事件已彻底解决,所有服务均已成功恢复。我们将尽快提供详细的根本原因分析报告(RCA)。

    如果您仍然遇到任何问题,请随时联系我们的支持团队。我们的团队将竭诚为您提供帮助,并确保您的任何疑虑都能得到及时解决。

    感谢您在此次事件中的耐心和理解,也感谢您的合作。

    如需进一步帮助,请通过support@gcore.com联系我们的支持团队。

  • 持续监控中
    持续监控中

    所有服务现已恢复。少量裸机服务器仍在恢复中,我们的团队将继续密切监控情况。

    感谢您在此次事件中的耐心和理解。

  • 更新
    更新

    我们已收到数据中心的最新通知,确认电力恢复工作已经开始。部分服务,例如 API 和网络,已经恢复运行。各项服务正在逐步恢复,现场团队正在努力尽快、安全地全面恢复运营。

    我们理解此次事件的影响,并衷心感谢您的耐心等待。我们将持续更新信息,并在服务全面恢复后及时发布最新消息。

  • 更新
    更新

    我们已收到数据中心的最新消息,确认该站点发生停电。现场工程师正在积极抢修,力求尽快安全地恢复供电。我们将持续更新最新信息。

  • 已确认问题
    已确认问题

    现场工程师正在积极调查数据中心的电力问题。我们正在努力解决该问题,并将尽快提供最新进展。

  • 调查中
    调查中

    我们目前正经历网络重大故障,影响伦敦-2区域的云服务,导致服务完全无法使用。由此给您带来的不便,我们深表歉意,并衷心感谢您在此关键时刻的耐心和理解。

    我们的工程团队正在积极查找根本原因,并尽快实施解决方案。我们将根据解决方案的进展情况,定期发布最新信息。

    感谢您的理解与合作。