Gcore - Cloud | Détails de l'incident d'Amsterdam – Détails de l'incident

Tous les systèmes sont opérationnels

Cloud | Détails de l'incident d'Amsterdam

Résolu
Panne majeure
Signalé le il y a 2 moisA duré environ 3 heures

Concernés

Cloud

Panne majeure depuis 4:47 PM à 5:10 PM, Opérationnel depuis 5:10 PM à 7:28 PM

Baremetal

Panne majeure depuis 4:47 PM à 5:10 PM, Opérationnel depuis 5:10 PM à 7:28 PM

Amsterdam

Panne majeure depuis 4:47 PM à 5:10 PM, Opérationnel depuis 5:10 PM à 7:28 PM

Networking

Panne majeure depuis 4:47 PM à 5:10 PM, Opérationnel depuis 5:10 PM à 7:28 PM

Amsterdam

Panne majeure depuis 4:47 PM à 5:10 PM, Opérationnel depuis 5:10 PM à 7:28 PM

Basic VM

Panne majeure depuis 4:47 PM à 5:10 PM, Opérationnel depuis 5:10 PM à 7:28 PM

Mises à jour
  • Postmortem
    Postmortem

    Analyse des causes profondes

    Problème
    Le 4 mars 2026, un problème de capacité de stockage dans l'un des clusters de stockage de la région d'Amsterdam a entraîné le blocage temporaire des opérations d'écriture. De ce fait, les machines virtuelles utilisant ce système de stockage ont subi des défaillances d'E/S disque et une interruption de service.

    Le problème est survenu lors d'une opération de maintenance liée à la mise à niveau d'une plateforme de stockage. Bien que la mise à niveau se soit déroulée avec succès, une combinaison de redistribution de données en arrière-plan et d'une activité d'écriture anormalement élevée a entraîné un dépassement du seuil critique d'utilisation du stockage, déclenchant un mécanisme de protection qui a temporairement bloqué les nouvelles opérations d'écriture.
    Le service a été rétabli après les mesures d'urgence prises pour récupérer la capacité de stockage.

    Chronologie (UTC)

    • 4 mars 2026 – 15 h 50 : La mise à niveau de la plateforme de stockage est terminée et la redistribution des données en arrière-plan commence.

    • 4 mars 2026 – 16h20 : L'utilisation du stockage atteint un seuil critique ; le cluster passe en mode blocage en écriture.

    • 4 mars 2026 – 16h21 : Le système de surveillance devient indisponible suite à des erreurs de stockage affectant les machines virtuelles dépendantes.

    • 4 mars 2026 – 16h23 : Plusieurs rapports clients font état de problèmes généralisés de disponibilité des machines virtuelles.

    • 4 mars 2026 – 17 h 25 : L’enquête révèle que la saturation des capacités de stockage est la cause sous-jacente.

    • 4 mars 2026 – 17h28 : L'équipe d'ingénierie du stockage lance la procédure de récupération de capacité d'urgence

    • 4 mars 2026 – 17h40 : Les opérations d'écriture sont rétablies et les machines virtuelles concernées commencent leur récupération.

    • 4 mars 2026 – 18h00 : Fonctionnalités de la plateforme vérifiées par des tests système

    • 4 mars 2026 – 18h59 : Les machines virtuelles restantes ont été récupérées et l'incident est clos.


    Cause première
    L'incident est survenu suite à un pic temporaire d'utilisation du stockage, provoqué par deux conditions simultanées. Après un redémarrage du système de stockage lors d'une opération de maintenance, un processus automatisé de redistribution des données s'est déclenché, augmentant temporairement l'utilisation du stockage pendant le rééquilibrage des données entre les nœuds.

    Dans le même temps, une activité d'écriture anormalement élevée, due à une charge de travail, a consommé davantage de capacité de stockage. Le cluster fonctionnant déjà à un taux d'utilisation relativement élevé, l'effet combiné a poussé l'utilisation du stockage au-delà du seuil de sécurité du système. Par conséquent, la plateforme de stockage a automatiquement bloqué les opérations d'écriture afin de protéger l'intégrité des données, ce qui a entraîné des défaillances d'E/S disque pour les machines virtuelles utilisant le stockage concerné.

    Éléments d'action

    • Mettre en œuvre une étape de validation préalable obligatoire pour garantir que les mécanismes de redistribution automatisée des données sont désactivés ou contrôlés lors des redémarrages ou des mises à niveau du service de stockage.

    • Introduire des mécanismes de protection de capacité dans les procédures de maintenance afin d'empêcher l'exécution des mises à niveau lorsque l'utilisation du stockage dépasse les seuils opérationnels sûrs.

    • Augmenter la capacité de stockage disponible dans la région concernée afin de maintenir une marge suffisante pour les opérations de données en arrière-plan et les pics de charge de travail.

    • Examiner les procédures opérationnelles de planification des activités de maintenance afin de garantir une capacité et une visibilité adéquates du système pendant les mises à niveau.

  • Résolu
    Résolu

    Nous avons le plaisir de vous informer que la panne majeure survenue à Amsterdam et affectant nos services Cloud est désormais résolue. Toutefois, si vous rencontrez toujours des difficultés, n'hésitez pas à contacter notre équipe d'assistance. Elle se fera un plaisir de vous aider et de répondre rapidement à toutes vos questions.

    Nous vous remercions de votre patience et de votre compréhension tout au long de cet incident, et nous vous remercions de votre coopération.
    Une analyse formelle des causes profondes (ACR) est actuellement en cours de préparation et sera publiée dès qu'elle sera disponible.

    Pour obtenir de l'aide supplémentaire, veuillez contacter notre équipe d'assistance à l'adresse support@gcore.com

  • Surveillé
    Surveillé

    Nous avons le plaisir de vous informer que notre équipe d'ingénieurs a déployé un correctif pour résoudre la panne majeure du service Cloud. Nous continuons toutefois de surveiller de près la situation afin de garantir un fonctionnement stable.

    Nous vous tiendrons informés dès que nous aurons confirmé que le problème est entièrement résolu.

  • Identifié
    Identifié
    Nous continuons à travailler à la résolution de cet incident.
  • Mettre à jour
    Mettre à jour
    Nous enquêtons actuellement sur cet incident.
  • Détecté
    Détecté

    Notre service Cloud rencontre actuellement une panne majeure, le rendant totalement indisponible. Nous vous prions de nous excuser pour la gêne occasionnée et vous remercions de votre patience et de votre compréhension durant cette période critique.

    Notre équipe d'ingénieurs travaille activement à identifier la cause du problème et à mettre en œuvre une solution au plus vite. Nous vous tiendrons régulièrement informés de l'avancement de la résolution.

    Merci de votre compréhension et de votre coopération.