对于近期服务中断造成的不便,我们深表歉意。我们始终将可靠性和客户服务放在首位,对于客户遇到的任何困难,我们深表歉意。以下是此次事件的详细根本原因分析 (RCA):
问题:
Gcore 清洁中心的 BGP 路由泄漏导致云、裸机、WAAP 服务不可用。
时间线:
2025年11月4日 07:32 (UTC) - 聚合地址功能已开始为某客户端推出。Hiera-yaml 变更已提交。
2025.04.11 07:51 (UTC) - Puppet 已更改,合并至主分支
2025 年 11 月 4 日 08:11 (UTC) - 影响开始;客户开始报告问题。
2025.04.11 08:18 (UTC) - 调查开始
2025.04.11 08:25 (UTC) - 启动紧急电话会议;工程师和关键团队成员召集进行调查
2025 年 4 月 11 日 08:28 (UTC) - 已确定根本原因并开始准备回滚。
2025.04.11 08:32 (UTC) - 缓解措施已启动
2025.04.11 08.38 (UTC) - 撞击结束
根本原因:
• 云、裸机和 WAAP 部分不可用,因为流向它们的流量被威胁缓解系统 (TMS) 阻止
• TMS 服务器开始公布 Gcore 的网络前缀
• TMS 代理向节点 frr 配置发送了错误的前缀
• TMS 查看了客户。<customer_id>.prefixes 字段,并为每个定义的前缀 xxxxx/32 创建了一个聚合 prefix_agg = xxxx0/24 并呈现了模板
◦ Liquid 错误:未知操作员
◦ 此逻辑从共享云网络中提取客户 IP (/32),并从未配置 DDoS 的 TMS 中公布更宽的前缀 (/24)。因此流量被丢弃(默认策略)
• 错误行为在全球范围内推广
• 预生产网络上未检测到错误行为
• 我们没有收到来自 TMS 节点关于丢包的警报
◦ 缺少“Mellanox XDP 计数器:错误”计数器的警报(将于 2025.04.17 添加)
影响:
部分客户和服务云账户受到影响。停机时间约 30 分钟。
行动项目:
• 实施测试流程的变更
◦ [即将更新的通知] 在生产环境和预生产环境中更新 TMS 代理,以便每个人都能看到更新
◦ [查看完整测试流程] 构建用于 BGP 测试的沙盒
• 金丝雀部署
◦ [暂时启用功能] 使用 sifter-agent 的功能标志启用功能 5-10 分钟,然后查看仪表板(比通过 puppet 更快)
◦ [减少影响] 以更有限的方式推出金丝雀更新,不仅通过 client_id,而且在更安全的区域(例如 WA2 位置)
◦ [提高可观察性] 向带有流量的仪表板添加提交注释,以便您可以看到某件事发生的时间
• 改进程序和政策
◦ [减少影响] 更新筛选剂的测试程序。
◦ [减少影响] 创建一个出站前缀列表,该列表将过滤掉 sifter 配置中未包含的所有网络。
◦ [提高可观察性]“Mellanox XDP 计数器:错误”计数器缺少警报
再次感谢您对此次事件造成的不便,我们深表歉意。感谢您的耐心和理解,也感谢您的合作。
如果您需要进一步的帮助或有任何疑问,请随时通过support@gcore.com联系我们的支持团队。