Betroffen
Teilausfall aus 9:52 AM zu 10:49 AM, Funktionsfähig aus 10:49 AM zu 11:11 AM
Teilausfall aus 9:52 AM zu 10:49 AM, Funktionsfähig aus 10:49 AM zu 11:11 AM
- Nach dem TodNach dem Tod
Während eines planmäßigen Wartungsupdates am 21. April kam es bei unserem Streaming-Dienst zu einem ungeplanten Ausfall von etwa 1 Stunde und 9 Minuten . Die Störung führte dazu, dass unsere öffentliche API Fehler zurückgab und der Dienst für Kunden vorübergehend nicht verfügbar war. Das Problem wurde bis 10:36 Uhr UTC vollständig behoben, und unser Team hat Maßnahmen ergriffen, um ein erneutes Auftreten zu verhindern.
Im Rahmen eines geplanten Wartungsfensters wurde ein routinemäßiges Datenbank-Update durchgeführt. Beim letzten Schritt dieses Updates kam es zu einem gleichzeitigen Konflikt zweier Datenbankoperationen, wodurch der Datenbankcluster die Synchronisierung über alle Knoten hinweg verlor. Die Datenbank war nicht mehr verfügbar, was zu API-Fehlern führte, die für Kunden sichtbar waren.Zeitleiste
09:22 Die planmäßige Datenbankwartung wurde wie geplant gestartet.
09:27 Der Datenbankcluster ist aufgrund eines Konflikts während des letzten Aktualisierungsschritts nicht mehr verfügbar.
09:29 Automatisierte Überwachungsalarme ausgelöst. DevOps-Team benachrichtigt.
09:32 Das Entwicklungsteam bestätigte den Datenbankausfall.
09:33 Uhr: Die öffentliche API lieferte erste Fehler. Die Untersuchung wurde umgehend eingeleitet.
09:47 Offizielle Störung gemeldet. Statusseite auf Wartungsarbeiten aktualisiert.
09:54 Die Ursache wurde anhand der Produktionsprotokolle bestätigt.
10:19 Die Datenbankwiederherstellung ist im Gange.
10:30 Uhr: Datenbankbetrieb im Einzelknotenmodus bestätigt.
10:36 Uhr: Streaming-API vollständig wiederhergestellt. Kundendienst ist wieder betriebsbereit.
10:45 Uhr: Vorfall geschlossen. Statusseite auf „Gelöst“ aktualisiert.Minderung
Die Datenbank wurde isoliert. Um den Dienst sicher wiederherzustellen, wurde der Datenbankcluster so umkonfiguriert, dass er im Einzelknotenmodus läuft, wodurch die fehlgeschlagene Mehrknotensynchronisierung entfernt wurde.
Die Stabilität wurde bestätigt. Die Datenbank wurde neu geladen und ihr Betriebszustand überprüft, bevor der Datenverkehr umgeleitet wurde, um eine reibungslose und stabile Wiederherstellung zu gewährleisten.
Der Kundenverkehr wurde wiederhergestellt. Nachdem die Datenbank stabil war, wurde die Streaming-API wieder online geschaltet und engmaschig überwacht, um sicherzustellen, dass alle kundenorientierten Dienste vollständig wiederhergestellt waren.
Maßnahmen:
Es wurden zusätzliche Sicherheitsvorkehrungen vor der Bereitstellung getroffen, die risikoreiche Betriebsabläufe erkennen und blockieren, bevor sie in die Produktion gelangen.
Verbesserte automatisierte Wiederherstellungsverfahren zur Verkürzung der Zeit zwischen Erkennung und Wiederherstellung der Datenbank.
Wir haben unseren Datenbankmigrationsprozess überprüft und aktualisiert, um zu verhindern, dass während Aktualisierungen gleichzeitig widersprüchliche Operationen ausgeführt werden.
- GelöstGelöst
Wir freuen uns, Ihnen mitteilen zu können, dass die Teilstörung unseres Streaming-API-Dienstes behoben wurde. Sollten Sie dennoch weiterhin Probleme haben, zögern Sie bitte nicht, unser Support-Team zu kontaktieren. Wir helfen Ihnen gerne weiter und kümmern uns umgehend um Ihre Anliegen. Sobald eine detaillierte Ursachenanalyse (RCA) vorliegt, stellen wir Ihnen diese ebenfalls zur Verfügung.
Wir wissen Ihre Geduld und Ihr Verständnis während dieses Vorfalls zu schätzen und danken Ihnen für Ihre Kooperation.
Für weitere Unterstützung kontaktieren Sie bitte unser Support-Team unter support@gcore.com.
- ÜberprüfungÜberprüfung
Wir freuen uns, Ihnen mitteilen zu können, dass unser Entwicklungsteam eine Lösung für den teilweisen Ausfall unseres Streaming-API-Dienstes implementiert hat. Wir beobachten die Situation jedoch weiterhin genau, um eine stabile Leistung zu gewährleisten.
Wir werden Sie informieren, sobald wir bestätigt haben, dass das Problem vollständig behoben ist.
- AnalyseAnalyse
Aktuell kommt es bei unserem Streaming-API-Dienst zu einer Teilstörung, die zu vorübergehenden Ausfällen führen kann. Wir entschuldigen uns für die Unannehmlichkeiten und danken Ihnen für Ihr Verständnis und Ihre Geduld.
Wir werden Sie informieren, sobald weitere Informationen zum Stand der Bearbeitung vorliegen. Vielen Dank für Ihr Verständnis und Ihre Mitarbeit.

