Gcore - Cloud | Details zum Vorfall in Amsterdam – Details zu Vorfällen

Alle Systeme funktionieren

Cloud | Details zum Vorfall in Amsterdam

Gelöst
Großer Ausfall
Aufgetreten am vor 2 MonatenDauerte etwa 3 Stunden

Betroffen

Cloud

Großer Ausfall aus 4:47 PM zu 5:10 PM, Funktionsfähig aus 5:10 PM zu 7:28 PM

Baremetal

Großer Ausfall aus 4:47 PM zu 5:10 PM, Funktionsfähig aus 5:10 PM zu 7:28 PM

Amsterdam

Großer Ausfall aus 4:47 PM zu 5:10 PM, Funktionsfähig aus 5:10 PM zu 7:28 PM

Vernetzung

Großer Ausfall aus 4:47 PM zu 5:10 PM, Funktionsfähig aus 5:10 PM zu 7:28 PM

Amsterdam

Großer Ausfall aus 4:47 PM zu 5:10 PM, Funktionsfähig aus 5:10 PM zu 7:28 PM

Basic VM

Großer Ausfall aus 4:47 PM zu 5:10 PM, Funktionsfähig aus 5:10 PM zu 7:28 PM

Aktualisierung
  • Nach dem Tod
    Nach dem Tod

    Ursachenanalyse

    Ausgabe
    Am 4. März 2026 führte eine Speicherkapazitätsstörung in einem der Speichercluster in der Region Amsterdam dazu, dass Schreibvorgänge vorübergehend blockiert wurden. Dies verursachte bei virtuellen Maschinen, die auf das betroffene Speichersystem angewiesen waren, Festplatten-E/A-Fehler und Dienstausfälle.

    Das Problem trat während einer Wartungsmaßnahme im Rahmen eines Speicherplattform-Upgrades auf. Obwohl das Upgrade erfolgreich abgeschlossen wurde, führte eine Kombination aus Hintergrunddatenverteilung und ungewöhnlich hoher Schreibaktivität dazu, dass die Speicherauslastung einen kritischen Schwellenwert überschritt. Dies löste einen Schutzmechanismus aus, der neue Schreibvorgänge vorübergehend blockierte.
    Die Funktionsfähigkeit des Dienstes wurde wiederhergestellt, nachdem Notfallmaßnahmen zur Rückgewinnung von Speicherkapazität ergriffen wurden.

    Zeitleiste (UTC)

    • 4. März 2026 – 15:50 Uhr: Aktualisierung der Speicherplattform abgeschlossen und Hintergrunddatenverteilung beginnt

    • 4. März 2026 – 16:20 Uhr: Speicherauslastung erreicht kritischen Schwellenwert; Cluster wechselt in den Schreibblockierungszustand

    • 4. März 2026 – 16:21 Uhr: Das Überwachungssystem ist aufgrund von Speicherfehlern auf abhängigen virtuellen Maschinen nicht verfügbar.

    • 4. März 2026 – 16:23 Uhr: Mehrere Kundenberichte deuten auf weit verbreitete Verfügbarkeitsprobleme virtueller Maschinen hin.

    • 4. März 2026 – 17:25 Uhr: Untersuchung identifiziert Erschöpfung der Speicherkapazität als Ursache

    • 4. März 2026 – 17:28 Uhr: Das Speichertechnikteam leitet das Notfallverfahren zur Wiederherstellung der Speicherkapazität ein.

    • 4. März 2026 – 17:40 Uhr: Schreibvorgänge wiederhergestellt und betroffene virtuelle Maschinen beginnen mit der Wiederherstellung.

    • 4. März 2026 – 18:00 Uhr: Plattformfunktionalität durch Systemtests verifiziert

    • 4. März 2026 – 18:59 Uhr: Die verbleibenden virtuellen Maschinen wurden wiederhergestellt und der Vorfall wurde abgeschlossen.


    Grundursache
    Der Vorfall ereignete sich aufgrund einer vorübergehenden Erhöhung der Speicherauslastung, die durch zwei gleichzeitig auftretende Faktoren verursacht wurde. Nach einem Neustart des Speichersystems während Wartungsarbeiten startete ein automatisierter Datenverteilungsprozess, der die Speichernutzung vorübergehend erhöhte, während die Daten auf die Knoten neu verteilt wurden.

    Gleichzeitig beanspruchte eine ungewöhnlich hohe Schreibaktivität einer Arbeitslast zusätzliche Speicherkapazität. Da der Cluster bereits relativ stark ausgelastet war, führte der kombinierte Effekt dazu, dass die Speichernutzung den Sicherheitsgrenzwert des Systems überschritt. Infolgedessen blockierte die Speicherplattform automatisch Schreibvorgänge, um die Datenintegrität zu schützen, was bei virtuellen Maschinen, die den betroffenen Speicher nutzten, zu Festplatten-E/A-Fehlern führte.

    Maßnahmen

    • Implementieren Sie einen obligatorischen Validierungsschritt vor der Wartung, um sicherzustellen, dass automatisierte Datenumverteilungsmechanismen während Neustarts oder Upgrades von Speicherdiensten deaktiviert oder kontrolliert werden.

    • Um zu verhindern, dass Upgrades durchgeführt werden, wenn die Speicherauslastung sichere Betriebsschwellen überschreitet, sollten Kapazitätssicherungen in die Wartungsverfahren integriert werden.

    • Erhöhen Sie die verfügbare Speicherkapazität innerhalb der betroffenen Region, um ausreichend Spielraum für Hintergrunddatenverarbeitung und Lastspitzen zu gewährleisten.

    • Überprüfen Sie die betrieblichen Abläufe zur Planung von Wartungsarbeiten, um eine ausreichende Systemkapazität und Transparenz während Upgrades sicherzustellen.

  • Gelöst
    Gelöst

    Wir freuen uns, Ihnen mitteilen zu können, dass die größere Störung in Amsterdam, die unsere Cloud-Dienste beeinträchtigte, behoben wurde. Sollten Sie dennoch weiterhin Probleme haben, zögern Sie bitte nicht, unser Support-Team zu kontaktieren. Wir helfen Ihnen gerne weiter und kümmern uns umgehend um Ihre Anliegen.

    Wir wissen Ihre Geduld und Ihr Verständnis während dieses Vorfalls zu schätzen und danken Ihnen für Ihre Kooperation.
    Eine formale Ursachenanalyse (Root Cause Analysis, RCA) wird derzeit erstellt und wird nach ihrer Fertigstellung veröffentlicht.

    Für weitere Unterstützung kontaktieren Sie bitte unser Support-Team unter support@gcore.com.

  • Überprüfung
    Überprüfung

    Wir freuen uns, Ihnen mitteilen zu können, dass unser Entwicklungsteam eine Lösung für den größeren Ausfall des Cloud-Dienstes implementiert hat. Wir überwachen die Situation jedoch weiterhin genau, um einen stabilen Betrieb zu gewährleisten.

    Wir werden Sie informieren, sobald wir bestätigt haben, dass das Problem vollständig behoben ist.

  • Identifizierung
    Identifizierung
    Wir arbeiten weiterhin an einer Lösung für diesen Vorfall.
  • Update
    Update
    Wir untersuchen diesen Vorfall derzeit.
  • Analyse
    Analyse

    Aktuell kommt es zu einer größeren Störung unseres Cloud-Dienstes, wodurch dieser vorübergehend nicht verfügbar ist. Wir entschuldigen uns aufrichtig für die dadurch entstehenden Unannehmlichkeiten und danken Ihnen herzlich für Ihre Geduld und Ihr Verständnis in dieser schwierigen Zeit.

    Unser Entwicklungsteam arbeitet mit Hochdruck daran, die Ursache zu ermitteln und schnellstmöglich eine Lösung zu implementieren. Wir werden Sie regelmäßig über den Fortschritt der Problemlösung informieren.

    Vielen Dank für Ihr Verständnis und Ihre Kooperation.