流媒体 | API 事件详情 - 故障详情

事后分析

30 四月 2026 在 10:32 GMT+0

事后分析

30 四月 2026 在 10:32 GMT+0

4月21日，我们的流媒体服务在例行维护更新期间出现意外中断，持续时间约1小时9分钟。此次中断导致我们的公共API返回错误，并使用户暂时无法使用该服务。该问题已于UTC时间10:36完全解决，我们的团队已采取措施防止类似问题再次发生。
作为计划维护的一部分，我们部署了一次例行数据库更新。在更新的最后阶段，两个数据库操作同时发生冲突，导致数据库集群所有节点失去同步。数据库变得不可用，并引发了一系列客户可见的 API 错误。

时间线

09:22 计划内的数据库维护按计划开始。
09:27 数据库集群在更新的最后步骤中由于冲突而变得不可用。
09:29 自动监控警报触发。DevOps团队已收到通知。
09:32 工程团队确认数据库故障。
09:33 公共 API 开始返回错误。立即展开调查。
09:47 正式宣布发生事故。状态页面已更新为维护中。
09:54 从生产日志中确认了根本原因。
10:19 数据库恢复正在进行中。
10:30 数据库已确认在单节点模式下运行正常。
10:36 流媒体 API 已完全恢复。面向客户的服务已恢复运行。
10:45 事件已结束。状态页面已更新为已解决。

减轻

数据库已隔离。为了安全地恢复服务，数据库集群已重新配置为单节点模式运行，移除了失败的多节点同步。
稳定性已验证。在重新路由任何流量之前，数据库已重新加载并确认其运行状态，从而确保了平稳恢复。
客户流量已恢复。数据库稳定后，流媒体 API 已恢复上线，并受到密切监控，以确认所有面向客户的服务均已完全恢复。

行动要点：

增加了部署前安全措施，可以在高风险操作序列进入生产环境之前检测并阻止它们。
改进自动化恢复程序，以缩短检测和数据库恢复之间的时间。
审查并更新了数据库迁移流程，以防止在更新过程中同时运行冲突的操作。

已解决

21 四月 2026 在 11:11 GMT+0

已解决

21 四月 2026 在 11:11 GMT+0

我们很高兴地通知您，流媒体 API 服务的部分中断问题已解决。如果您仍然遇到任何问题，请随时联系我们的支持团队。我们的团队将竭诚为您提供帮助，并确保及时解决您提出的任何其他问题。我们还将在问题根源分析 (RCA) 完成后立即提供给您。

感谢您在此次事件中的耐心和理解，也感谢您的合作。

如需进一步帮助，请通过support@gcore.com联系我们的支持团队。

持续监控中

21 四月 2026 在 10:49 GMT+0

持续监控中

21 四月 2026 在 10:49 GMT+0

我们很高兴地通知您，我们的工程团队已修复了流媒体 API 服务的部分中断问题。但是，我们仍在密切监控情况，以确保服务稳定运行。

一旦确认问题已彻底解决，我们将立即向您提供最新进展。

调查中

21 四月 2026 在 09:52 GMT+0

调查中

21 四月 2026 在 09:52 GMT+0

我们的流媒体API服务目前出现部分故障，可能会导致部分用户无法使用。由此造成的不便，我们深表歉意，并感谢您在此期间的耐心和理解。

一旦决议进展有更多信息，我们将立即更新。感谢您的理解与合作。

Gcore - 流媒体 | API 事件详情 – 故障详情

系统维护中

流媒体 | API 事件详情