Afectado
Interrupción parcial de 9:52 AM a 10:49 AM, En funcionamiento de 10:49 AM a 11:11 AM
Interrupción parcial de 9:52 AM a 10:49 AM, En funcionamiento de 10:49 AM a 11:11 AM
- Después de la muerteDespués de la muerte
Durante una actualización de mantenimiento programada el 21 de abril, nuestro servicio de streaming sufrió una interrupción imprevista de aproximadamente 1 hora y 9 minutos . Esta interrupción provocó errores en nuestra API pública y dejó el servicio temporalmente inaccesible para los clientes. El problema se resolvió por completo a las 10:36 UTC y nuestro equipo ha tomado medidas para evitar que vuelva a ocurrir.
Se implementó una actualización rutinaria de la base de datos como parte de una ventana de mantenimiento planificada. Durante el paso final de dicha actualización, dos operaciones de la base de datos entraron en conflicto simultáneamente, lo que provocó que el clúster de la base de datos perdiera la sincronización en todos sus nodos. La base de datos dejó de estar disponible, lo que derivó en errores de API visibles para los clientes.Cronología
09:22 El mantenimiento programado de la base de datos comenzó según lo previsto.
09:27 El clúster de la base de datos dejó de estar disponible debido a un conflicto durante el paso final de la actualización.
09:29 Se activaron las alertas de monitorización automatizadas. Se notificó al equipo de DevOps.
09:32 El equipo de ingeniería confirmó el fallo de la base de datos.
09:33 La API pública comenzó a devolver errores. La investigación se inició de inmediato.
09:47 Se ha declarado un incidente formal. La página de estado se ha actualizado a mantenimiento.
09:54 Se confirmó la causa raíz a partir de los registros de producción.
10:19 La recuperación de la base de datos está en marcha.
10:30 Se confirma que la base de datos está operativa en modo de nodo único.
10:36 La API de streaming se ha restablecido por completo. El servicio de atención al cliente está operativo.
10:45 Incidente cerrado. La página de estado se actualizó a resuelto.Mitigación
Se aisló la base de datos. Para restaurar el servicio de forma segura, el clúster de la base de datos se reconfiguró para que funcionara en modo de nodo único, eliminando la sincronización multinodo que había fallado.
Estabilidad verificada. La base de datos se recargó y se confirmó su estado operativo antes de redirigir el tráfico, lo que garantizó una recuperación limpia y estable.
Se restableció el tráfico de clientes. Una vez estabilizada la base de datos, se volvió a poner en línea la API de streaming y se supervisó de cerca para confirmar que todos los servicios orientados al cliente se habían recuperado por completo.
Puntos de acción:
Se han añadido medidas de seguridad previas al despliegue que detectan y bloquean las secuencias operativas de alto riesgo antes de que lleguen a producción.
Se han mejorado los procedimientos de recuperación automatizada para reducir el tiempo entre la detección y la restauración de la base de datos.
Hemos revisado y actualizado nuestro proceso de migración de bases de datos para evitar que se ejecuten operaciones conflictivas simultáneamente durante las actualizaciones.
- ResueltoResuelto
Nos complace informarles que la interrupción parcial de nuestro servicio de API de streaming se ha solucionado. Sin embargo, si continúan experimentando algún problema, no duden en contactar con nuestro equipo de soporte. Estaremos encantados de ayudarles y garantizar que cualquier otra duda se resuelva con prontitud. Asimismo, les proporcionaremos un análisis detallado de la causa raíz (ACR) en cuanto esté disponible.
Agradecemos su paciencia y comprensión durante este incidente, y le damos las gracias por su cooperación.
Para obtener más ayuda, póngase en contacto con nuestro equipo de soporte a través de support@gcore.com.
- SupervisandoSupervisando
Nos complace informarles que nuestro equipo de ingeniería ha implementado una solución para resolver la interrupción parcial de nuestro servicio de API de streaming. No obstante, seguimos supervisando la situación de cerca para garantizar un rendimiento estable.
Les informaremos tan pronto como confirmemos que el problema se ha resuelto por completo.
- InvestigandoInvestigando
Actualmente estamos experimentando una interrupción parcial en nuestro servicio de API de streaming, lo que podría ocasionar una indisponibilidad parcial para algunos usuarios. Pedimos disculpas por cualquier inconveniente que esto pueda causar y agradecemos su paciencia y comprensión durante este tiempo.
Les informaremos tan pronto como tengamos más información sobre el progreso de la resolución. Gracias por su comprensión y cooperación.

