Gcore - Streaming | Details zum API-Vorfall – Details zu Vorfällen

System wird gewartet

Streaming | Details zum API-Vorfall

Gelöst
Teilausfall 0 %
Aufgetreten am vor 2 MonatenDauerte etwa 1 Stunde

Betroffen

Streaming

Teilausfall aus 9:52 AM zu 10:49 AM, Funktionsfähig aus 10:49 AM zu 11:11 AM

API

Teilausfall aus 9:52 AM zu 10:49 AM, Funktionsfähig aus 10:49 AM zu 11:11 AM

Aktualisierung
  • Nach dem Tod
    Nach dem Tod

    Während eines planmäßigen Wartungsupdates am 21. April kam es bei unserem Streaming-Dienst zu einem ungeplanten Ausfall von etwa 1 Stunde und 9 Minuten . Die Störung führte dazu, dass unsere öffentliche API Fehler zurückgab und der Dienst für Kunden vorübergehend nicht verfügbar war. Das Problem wurde bis 10:36 Uhr UTC vollständig behoben, und unser Team hat Maßnahmen ergriffen, um ein erneutes Auftreten zu verhindern.
    Im Rahmen eines geplanten Wartungsfensters wurde ein routinemäßiges Datenbank-Update durchgeführt. Beim letzten Schritt dieses Updates kam es zu einem gleichzeitigen Konflikt zweier Datenbankoperationen, wodurch der Datenbankcluster die Synchronisierung über alle Knoten hinweg verlor. Die Datenbank war nicht mehr verfügbar, was zu API-Fehlern führte, die für Kunden sichtbar waren.

    Zeitleiste

    09:22 Die planmäßige Datenbankwartung wurde wie geplant gestartet.
    09:27 Der Datenbankcluster ist aufgrund eines Konflikts während des letzten Aktualisierungsschritts nicht mehr verfügbar.
    09:29 Automatisierte Überwachungsalarme ausgelöst. DevOps-Team benachrichtigt.
    09:32 Das Entwicklungsteam bestätigte den Datenbankausfall.
    09:33 Uhr: Die öffentliche API lieferte erste Fehler. Die Untersuchung wurde umgehend eingeleitet.
    09:47 Offizielle Störung gemeldet. Statusseite auf Wartungsarbeiten aktualisiert.
    09:54 Die Ursache wurde anhand der Produktionsprotokolle bestätigt.
    10:19 Die Datenbankwiederherstellung ist im Gange.
    10:30 Uhr: Datenbankbetrieb im Einzelknotenmodus bestätigt.
    10:36 Uhr: Streaming-API vollständig wiederhergestellt. Kundendienst ist wieder betriebsbereit.
    10:45 Uhr: Vorfall geschlossen. Statusseite auf „Gelöst“ aktualisiert.

    Minderung

    • Die Datenbank wurde isoliert. Um den Dienst sicher wiederherzustellen, wurde der Datenbankcluster so umkonfiguriert, dass er im Einzelknotenmodus läuft, wodurch die fehlgeschlagene Mehrknotensynchronisierung entfernt wurde.

    • Die Stabilität wurde bestätigt. Die Datenbank wurde neu geladen und ihr Betriebszustand überprüft, bevor der Datenverkehr umgeleitet wurde, um eine reibungslose und stabile Wiederherstellung zu gewährleisten.

    • Der Kundenverkehr wurde wiederhergestellt. Nachdem die Datenbank stabil war, wurde die Streaming-API wieder online geschaltet und engmaschig überwacht, um sicherzustellen, dass alle kundenorientierten Dienste vollständig wiederhergestellt waren.

    Maßnahmen:

    • Es wurden zusätzliche Sicherheitsvorkehrungen vor der Bereitstellung getroffen, die risikoreiche Betriebsabläufe erkennen und blockieren, bevor sie in die Produktion gelangen.

    • Verbesserte automatisierte Wiederherstellungsverfahren zur Verkürzung der Zeit zwischen Erkennung und Wiederherstellung der Datenbank.

    • Wir haben unseren Datenbankmigrationsprozess überprüft und aktualisiert, um zu verhindern, dass während Aktualisierungen gleichzeitig widersprüchliche Operationen ausgeführt werden.

  • Gelöst
    Gelöst

    Wir freuen uns, Ihnen mitteilen zu können, dass die Teilstörung unseres Streaming-API-Dienstes behoben wurde. Sollten Sie dennoch weiterhin Probleme haben, zögern Sie bitte nicht, unser Support-Team zu kontaktieren. Wir helfen Ihnen gerne weiter und kümmern uns umgehend um Ihre Anliegen. Sobald eine detaillierte Ursachenanalyse (RCA) vorliegt, stellen wir Ihnen diese ebenfalls zur Verfügung.

    Wir wissen Ihre Geduld und Ihr Verständnis während dieses Vorfalls zu schätzen und danken Ihnen für Ihre Kooperation.

    Für weitere Unterstützung kontaktieren Sie bitte unser Support-Team unter support@gcore.com.

  • Überprüfung
    Überprüfung

    Wir freuen uns, Ihnen mitteilen zu können, dass unser Entwicklungsteam eine Lösung für den teilweisen Ausfall unseres Streaming-API-Dienstes implementiert hat. Wir beobachten die Situation jedoch weiterhin genau, um eine stabile Leistung zu gewährleisten.

    Wir werden Sie informieren, sobald wir bestätigt haben, dass das Problem vollständig behoben ist.

  • Analyse
    Analyse

    Aktuell kommt es bei unserem Streaming-API-Dienst zu einer Teilstörung, die zu vorübergehenden Ausfällen führen kann. Wir entschuldigen uns für die Unannehmlichkeiten und danken Ihnen für Ihr Verständnis und Ihre Geduld.

    Wir werden Sie informieren, sobald weitere Informationen zum Stand der Bearbeitung vorliegen. Vielen Dank für Ihr Verständnis und Ihre Mitarbeit.