Nube | Detalles del incidente en Ámsterdam - Detalles del incidente

Después de la muerte

11 marzo 2026 a 14:23 GMT+0UTC

Después de la muerte

11 marzo 2026 a 14:23 GMT+0UTC

Análisis de causa raíz

Asunto
El 4 de marzo de 2026, una condición de capacidad de almacenamiento en uno de los clústeres de la región de Ámsterdam provocó el bloqueo de operaciones de escritura temporales. Esto provocó que las máquinas virtuales que dependían del sistema de almacenamiento afectado experimentaran fallos de E/S de disco e interrupciones del servicio.

El problema se produjo durante una actividad de mantenimiento relacionada con la actualización de la plataforma de almacenamiento. Si bien la actualización se completó correctamente, una combinación de redistribución de datos en segundo plano y una actividad de escritura inusualmente alta provocó que la utilización del almacenamiento superara un umbral crítico, lo que activó un mecanismo de protección que bloqueó temporalmente las nuevas operaciones de escritura.
La funcionalidad del servicio se restableció después de que se tomaron medidas de emergencia para recuperar la capacidad de almacenamiento.

Cronología (UTC)

4 de marzo de 2026 – 15:50: Se completa la actualización de la plataforma de almacenamiento y comienza la redistribución de datos en segundo plano
4 de marzo de 2026 – 16:20: La utilización del almacenamiento alcanza un umbral crítico; el clúster pasa al estado de bloqueo de escritura.
4 de marzo de 2026 – 16:21: El sistema de monitoreo deja de estar disponible debido a que las máquinas virtuales dependientes experimentan errores de almacenamiento
4 de marzo de 2026 – 16:23: Varios informes de clientes indican problemas generalizados de disponibilidad de máquinas virtuales.
4 de marzo de 2026 – 17:25: La investigación identifica el agotamiento de la capacidad de almacenamiento como la causa subyacente
4 de marzo de 2026 – 17:28: El equipo de ingeniería de almacenamiento inicia un procedimiento de recuperación de capacidad de emergencia
4 de marzo de 2026 – 17:40: Se restauraron las operaciones de escritura y las máquinas virtuales afectadas comenzaron a recuperarse.
4 de marzo de 2026 – 18:00: Funcionalidad de la plataforma verificada mediante pruebas del sistema
4 de marzo de 2026 – 18:59: Se recuperaron las máquinas virtuales restantes y se cerró el incidente.

Causa principal
El incidente se produjo debido a un aumento temporal en la utilización del almacenamiento causado por dos condiciones simultáneas. Tras reiniciar el sistema de almacenamiento durante el mantenimiento, se inició un proceso automatizado de redistribución de datos, lo que aumentó temporalmente el uso del almacenamiento mientras se reequilibraban los datos entre los nodos.

Al mismo tiempo, una actividad de escritura inusualmente alta de una carga de trabajo consumió capacidad de almacenamiento adicional. Dado que el clúster ya operaba con una utilización relativamente alta, el efecto combinado elevó el uso del almacenamiento más allá del umbral de seguridad del sistema. Como resultado, la plataforma de almacenamiento bloqueó automáticamente las operaciones de escritura para proteger la integridad de los datos, lo que provocó que las máquinas virtuales que usaban el almacenamiento afectado experimentaran fallos de E/S de disco.

Elementos de acción

Implementar un paso de validación previa al mantenimiento obligatorio para garantizar que los mecanismos de redistribución automática de datos estén deshabilitados o controlados durante los reinicios o actualizaciones del servicio de almacenamiento.
Introducir medidas de seguridad de capacidad en los procedimientos de mantenimiento para evitar que se ejecuten actualizaciones cuando la utilización del almacenamiento exceda los umbrales operativos seguros.
Aumente la capacidad de almacenamiento disponible dentro de la región afectada para mantener suficiente espacio para las operaciones de datos en segundo plano y los picos de carga de trabajo.
Revisar los procedimientos operativos para programar actividades de mantenimiento para garantizar la capacidad y visibilidad adecuadas del sistema durante las actualizaciones.

Resuelto

4 marzo 2026 a 19:28 GMT+0UTC

Resuelto

4 marzo 2026 a 19:28 GMT+0UTC

Nos complace informarle que la importante interrupción del servicio en Ámsterdam que afectaba a nuestros servicios en la nube se ha solucionado. Sin embargo, si continúa experimentando problemas, no dude en contactar con nuestro equipo de soporte. Nuestro equipo estará encantado de ayudarle y garantizar que cualquier otra inquietud se resuelva con prontitud.

Agradecemos su paciencia y comprensión durante este incidente y le agradecemos su cooperación.
Actualmente se está preparando un Análisis de Causa Raíz (RCA) formal y se publicará una vez que esté disponible.

Para obtener más ayuda, comuníquese con nuestro equipo de soporte a través de support@gcore.com

Supervisando

4 marzo 2026 a 18:00 GMT+0UTC

Supervisando

4 marzo 2026 a 18:00 GMT+0UTC

Nos complace informarles que nuestro equipo de ingeniería ha implementado una solución para resolver la importante interrupción del servicio en la nube. Sin embargo, seguimos monitoreando de cerca la situación para garantizar un rendimiento estable.

Le proporcionaremos una actualización tan pronto como confirmemos que el problema se ha resuelto por completo.

Identificado

4 marzo 2026 a 17:32 GMT+0UTC

Identificado

4 marzo 2026 a 17:32 GMT+0UTC

Seguimos trabajando para solucionar este incidente.

Actualizar

4 marzo 2026 a 17:10 GMT+0UTC

Actualizar

4 marzo 2026 a 17:10 GMT+0UTC

Actualmente estamos investigando este incidente.

Investigando

4 marzo 2026 a 16:47 GMT+0UTC

Investigando

4 marzo 2026 a 16:47 GMT+0UTC

Actualmente estamos experimentando una interrupción importante en nuestro servicio en la nube, lo que ha provocado la indisponibilidad total del servicio. Nos disculpamos sinceramente por cualquier inconveniente que esto pueda causar y agradecemos enormemente su paciencia y comprensión durante este momento crítico.

Nuestro equipo de ingeniería está trabajando activamente para identificar la causa raíz e implementar una solución lo antes posible. Proporcionaremos actualizaciones periódicas a medida que recibamos más información sobre el progreso de la solución.

Gracias por su comprensión y cooperación.

Gcore - Nube | Detalles del incidente en Ámsterdam – Detalles del incidente

Sistemas funcionando con normalidad

Nube | Detalles del incidente en Ámsterdam