Gcore - 云 | 网络 事件详情 – 故障详情

所有系统运行中

云 | 网络 事件详情

已解决
严重故障
开始于 20 天前持续 40 分钟

受到影响

严重故障 从 8:29 AM 至 8:39 AM, 运行正常 从 8:29 AM 至 8:39 AM, 部分故障 从 8:39 AM 至 8:44 AM, 运行正常 从 8:44 AM 至 12:00 AM

联网

严重故障 从 8:29 AM 至 8:39 AM, 运行正常 从 8:29 AM 至 8:39 AM, 部分故障 从 8:39 AM 至 8:44 AM, 运行正常 从 8:44 AM 至 12:00 AM

阿拉木图

运行正常 从 8:29 AM 至 8:39 AM, 部分故障 从 8:39 AM 至 8:44 AM, 运行正常 从 8:44 AM 至 12:00 AM

阿姆斯特丹

严重故障 从 8:29 AM 至 8:39 AM, 部分故障 从 8:39 AM 至 8:44 AM, 运行正常 从 8:44 AM 至 12:00 AM

巴库

运行正常 从 8:29 AM 至 8:39 AM, 部分故障 从 8:39 AM 至 8:44 AM, 运行正常 从 8:44 AM 至 12:00 AM

芝加哥

运行正常 从 8:29 AM 至 8:39 AM, 部分故障 从 8:39 AM 至 8:44 AM, 运行正常 从 8:44 AM 至 12:00 AM

更新
  • 事后分析
    事后分析

    对于近期服务中断造成的不便,我们深表歉意。我们始终将可靠性和客户服务放在首位,对于客户遇到的任何困难,我们深表歉意。以下是此次事件的详细根本原因分析 (RCA):

    问题:

    Gcore 清洁中心的 BGP 路由泄漏导致云、裸机、WAAP 服务不可用。

    时间线:

    2025年11月4日 07:32 (UTC) - 聚合地址功能已开始为某客户端推出。Hiera-yaml 变更已提交。

    2025.04.11 07:51 (UTC) - Puppet 已更改,合并至主分支

    2025 年 11 月 4 日 08:11 (UTC) - 影响开始;客户开始报告问题。

    2025.04.11 08:18 (UTC) - 调查开始

    2025.04.11 08:25 (UTC) - 启动紧急电话会议;工程师和关键团队成员召集进行调查

    2025 年 4 月 11 日 08:28 (UTC) - 已确定根本原因并开始准备回滚。

    2025.04.11 08:32 (UTC) - 缓解措施已启动

    2025.04.11 08.38 (UTC) - 撞击结束

    根本原因:

    • 云、裸机和 WAAP 部分不可用,因为流向它们的流量被威胁缓解系统 (TMS) 阻止

    • TMS 服务器开始公布 Gcore 的网络前缀

    • TMS 代理向节点 frr 配置发送了错误的前缀

    • TMS 查看了客户。<customer_id>.prefixes 字段,并为每个定义的前缀 xxxxx/32 创建了一个聚合 prefix_agg = xxxx0/24 并呈现了模板

    ◦ Liquid 错误:未知操作员

    ◦ 此逻辑从共享云网络中提取客户 IP (/32),并从未配置 DDoS 的 TMS 中公布更宽的前缀 (/24)。因此流量被丢弃(默认策略)

    • 错误行为在全球范围内推广

    • 预生产网络上未检测到错误行为

    • 我们没有收到来自 TMS 节点关于丢包的警报

    ◦ 缺少“Mellanox XDP 计数器:错误”计数器的警报(将于 2025.04.17 添加)

    影响:

    部分客户和服务云账户受到影响。停机时间约 30 分钟。

    行动项目:

    • 实施测试流程的变更

    ◦ [即将更新的通知] 在生产环境和预生产环境中更新 TMS 代理,以便每个人都能看到更新

    ◦ [查看完整测试流程] 构建用于 BGP 测试的沙盒

    • 金丝雀部署

    ◦ [暂时启用功能] 使用 sifter-agent 的功能标志启用功能 5-10 分钟,然后查看仪表板(比通过 puppet 更快)

    ◦ [减少影响] 以更有限的方式推出金丝雀更新,不仅通过 client_id,而且在更安全的区域(例如 WA2 位置)

    ◦ [提高可观察性] 向带有流量的仪表板添加提交注释,以便您可以看到某件事发生的时间

    • 改进程序和政策

    ◦ [减少影响] 更新筛选剂的测试程序。

    ◦ [减少影响] 创建一个出站前缀列表,该列表将过滤掉 sifter 配置中未包含的所有网络。

    ◦ [提高可观察性]“Mellanox XDP 计数器:错误”计数器缺少警报

    再次感谢您对此次事件造成的不便,我们深表歉意。感谢您的耐心和理解,也感谢您的合作。

    如果您需要进一步的帮助或有任何疑问,请随时通过support@gcore.com联系我们的支持团队。

  • 已解决
    已解决

    我们很高兴地通知您,我们云服务的网络问题已得到解决。我们将在未来几天内提供一份根本原因分析 (RCA) 报告,帮助您了解事件原因以及我们为防止此类事件再次发生而采取的措施。如果您仍然遇到任何问题,请随时联系我们的支持团队。我们的团队将竭诚为您提供帮助,并确保及时解决任何后续问题。

    我们感谢您在整个事件中的耐心和理解,并感谢您的合作。

    如需进一步帮助,请通过support@gcore.com联系我们的支持团队

  • 持续监控中
    持续监控中

    我们很高兴地通知您,我们的工程团队已修复了云服务中的网络问题。但我们仍在密切关注事态发展,以确保服务稳定运行。

    一旦我们确认问题已完全解决,我们将立即向您提供最新消息。

  • 已确认问题
    已确认问题

    我们已经找到了根本原因并继续努力解决该问题。

  • 调查中
    调查中

    目前,我们在许多地区遭遇了严重的网络性能下降,这可能会导致网络完全不可用。对于由此造成的不便,我们深表歉意,并非常感谢您在这段关键时期的耐心和理解。

    我们的工程团队正在积极查找根本原因并尽快实施解决方案。随着解决方案进展的不断推进,我们将定期更新。

    感谢您的理解与合作。