Gcore - Streaming | Détails de l'incident API – Détails de l'incident

Système en maintenance

Streaming | Détails de l'incident API

Résolu
Panne partielle 0 %
Signalé le il y a 2 moisA duré environ 1 heure

Concernés

Streaming

Panne partielle depuis 9:52 AM à 10:49 AM, Opérationnel depuis 10:49 AM à 11:11 AM

API

Panne partielle depuis 9:52 AM à 10:49 AM, Opérationnel depuis 10:49 AM à 11:11 AM

Mises à jour
  • Postmortem
    Postmortem

    Lors d'une maintenance planifiée le 21 avril, notre service de streaming a subi une interruption imprévue d'environ 1 heure et 9 minutes . Cette perturbation a entraîné des erreurs de notre API publique et a rendu le service temporairement indisponible pour nos clients. Le problème a été entièrement résolu à 10h36 UTC et notre équipe a pris des mesures pour éviter qu'il ne se reproduise.
    Une mise à jour de base de données de routine a été déployée dans le cadre d'une opération de maintenance planifiée. Lors de la dernière étape de cette mise à jour, deux opérations de base de données sont entrées en conflit simultanément, provoquant une désynchronisation du cluster sur l'ensemble de ses nœuds. La base de données est devenue inaccessible, ce qui a entraîné des erreurs d'API visibles pour les clients.

    Chronologie

    09:22 La maintenance planifiée de la base de données a commencé comme prévu.
    09:27 Le cluster de base de données est devenu indisponible en raison d'un conflit survenu lors de la dernière étape de la mise à jour.
    09:29 Alertes de surveillance automatisées déclenchées. L'équipe DevOps a été notifiée.
    09:32 L'équipe d'ingénierie a confirmé la panne de la base de données.
    09:33 L'API publique a commencé à renvoyer des erreurs. Une enquête a été immédiatement ouverte.
    09:47 Incident officiel déclaré. Page d'état mise à jour : maintenance.
    09:54 Cause première confirmée à partir des journaux de production.
    10:19 La récupération de la base de données est en cours.
    10:30 Base de données confirmée opérationnelle en mode mono-nœud.
    10:36 L'API de streaming est entièrement rétablie. Le service client est opérationnel.
    10:45 Incident clos. Page d'état mise à jour : résolu.

    Atténuation

    • La base de données a été isolée. Pour rétablir le service en toute sécurité, le cluster de bases de données a été reconfiguré pour fonctionner en mode mono-nœud, supprimant ainsi la synchronisation multi-nœuds qui avait échoué.

    • Stabilité vérifiée. La base de données a été rechargée et son état opérationnel confirmé avant toute redirection du trafic, garantissant ainsi une reprise propre et stable.

    • Le trafic client a été rétabli. La base de données étant stable, l'API de streaming a été remise en ligne et surveillée de près afin de confirmer le rétablissement complet de tous les services destinés aux clients.

    Points d'action :

    • Ajout de mesures de protection avant déploiement permettant de détecter et de bloquer les séquences d'opérations à haut risque avant leur mise en production.

    • Amélioration des procédures de récupération automatisées afin de réduire le délai entre la détection et la restauration de la base de données.

    • Nous avons revu et mis à jour notre processus de migration de base de données afin d'éviter l'exécution simultanée d'opérations conflictuelles lors des mises à jour.

  • Résolu
    Résolu

    Nous sommes heureux de vous informer que la panne partielle de notre service API de streaming est résolue. Si toutefois vous rencontrez toujours des difficultés, n'hésitez pas à contacter notre équipe d'assistance. Elle se fera un plaisir de vous aider et de répondre rapidement à toutes vos questions. Nous vous fournirons également une analyse détaillée des causes profondes (ACR) dès qu'elle sera disponible.

    Nous vous remercions de votre patience et de votre compréhension tout au long de cet incident, et nous vous remercions de votre coopération.

    Pour obtenir de l'aide supplémentaire, veuillez contacter notre équipe d'assistance à l'adresse support@gcore.com

  • Surveillé
    Surveillé

    Nous avons le plaisir de vous informer que notre équipe d'ingénieurs a déployé un correctif pour résoudre l'indisponibilité partielle de notre service d'API de streaming. Nous continuons toutefois de surveiller de près la situation afin de garantir un fonctionnement stable.

    Nous vous tiendrons informés dès que nous aurons confirmé que le problème est entièrement résolu.

  • Détecté
    Détecté

    Notre service d'API de streaming rencontre actuellement une panne partielle, ce qui peut entraîner une indisponibilité temporaire pour certains utilisateurs. Nous vous prions de nous excuser pour la gêne occasionnée et vous remercions de votre patience et de votre compréhension.

    Nous vous tiendrons informés dès que nous aurons plus d'informations sur l'avancement du dossier. Merci de votre compréhension et de votre coopération.