Cloud | Details zum Vorfall in Amsterdam - Details zu Vorfällen

Nach dem Tod

11 März 2026 um 14:23 GMT+0UTC

Nach dem Tod

11 März 2026 um 14:23 GMT+0UTC

Ursachenanalyse

Ausgabe
Am 4. März 2026 führte eine Speicherkapazitätsstörung in einem der Speichercluster in der Region Amsterdam dazu, dass Schreibvorgänge vorübergehend blockiert wurden. Dies verursachte bei virtuellen Maschinen, die auf das betroffene Speichersystem angewiesen waren, Festplatten-E/A-Fehler und Dienstausfälle.

Das Problem trat während einer Wartungsmaßnahme im Rahmen eines Speicherplattform-Upgrades auf. Obwohl das Upgrade erfolgreich abgeschlossen wurde, führte eine Kombination aus Hintergrunddatenverteilung und ungewöhnlich hoher Schreibaktivität dazu, dass die Speicherauslastung einen kritischen Schwellenwert überschritt. Dies löste einen Schutzmechanismus aus, der neue Schreibvorgänge vorübergehend blockierte.
Die Funktionsfähigkeit des Dienstes wurde wiederhergestellt, nachdem Notfallmaßnahmen zur Rückgewinnung von Speicherkapazität ergriffen wurden.

Zeitleiste (UTC)

4. März 2026 – 15:50 Uhr: Aktualisierung der Speicherplattform abgeschlossen und Hintergrunddatenverteilung beginnt
4. März 2026 – 16:20 Uhr: Speicherauslastung erreicht kritischen Schwellenwert; Cluster wechselt in den Schreibblockierungszustand
4. März 2026 – 16:21 Uhr: Das Überwachungssystem ist aufgrund von Speicherfehlern auf abhängigen virtuellen Maschinen nicht verfügbar.
4. März 2026 – 16:23 Uhr: Mehrere Kundenberichte deuten auf weit verbreitete Verfügbarkeitsprobleme virtueller Maschinen hin.
4. März 2026 – 17:25 Uhr: Untersuchung identifiziert Erschöpfung der Speicherkapazität als Ursache
4. März 2026 – 17:28 Uhr: Das Speichertechnikteam leitet das Notfallverfahren zur Wiederherstellung der Speicherkapazität ein.
4. März 2026 – 17:40 Uhr: Schreibvorgänge wiederhergestellt und betroffene virtuelle Maschinen beginnen mit der Wiederherstellung.
4. März 2026 – 18:00 Uhr: Plattformfunktionalität durch Systemtests verifiziert
4. März 2026 – 18:59 Uhr: Die verbleibenden virtuellen Maschinen wurden wiederhergestellt und der Vorfall wurde abgeschlossen.

Grundursache
Der Vorfall ereignete sich aufgrund einer vorübergehenden Erhöhung der Speicherauslastung, die durch zwei gleichzeitig auftretende Faktoren verursacht wurde. Nach einem Neustart des Speichersystems während Wartungsarbeiten startete ein automatisierter Datenverteilungsprozess, der die Speichernutzung vorübergehend erhöhte, während die Daten auf die Knoten neu verteilt wurden.

Gleichzeitig beanspruchte eine ungewöhnlich hohe Schreibaktivität einer Arbeitslast zusätzliche Speicherkapazität. Da der Cluster bereits relativ stark ausgelastet war, führte der kombinierte Effekt dazu, dass die Speichernutzung den Sicherheitsgrenzwert des Systems überschritt. Infolgedessen blockierte die Speicherplattform automatisch Schreibvorgänge, um die Datenintegrität zu schützen, was bei virtuellen Maschinen, die den betroffenen Speicher nutzten, zu Festplatten-E/A-Fehlern führte.

Maßnahmen

Implementieren Sie einen obligatorischen Validierungsschritt vor der Wartung, um sicherzustellen, dass automatisierte Datenumverteilungsmechanismen während Neustarts oder Upgrades von Speicherdiensten deaktiviert oder kontrolliert werden.
Um zu verhindern, dass Upgrades durchgeführt werden, wenn die Speicherauslastung sichere Betriebsschwellen überschreitet, sollten Kapazitätssicherungen in die Wartungsverfahren integriert werden.
Erhöhen Sie die verfügbare Speicherkapazität innerhalb der betroffenen Region, um ausreichend Spielraum für Hintergrunddatenverarbeitung und Lastspitzen zu gewährleisten.
Überprüfen Sie die betrieblichen Abläufe zur Planung von Wartungsarbeiten, um eine ausreichende Systemkapazität und Transparenz während Upgrades sicherzustellen.

Gelöst

4 März 2026 um 19:28 GMT+0UTC

Gelöst

4 März 2026 um 19:28 GMT+0UTC

Wir freuen uns, Ihnen mitteilen zu können, dass die größere Störung in Amsterdam, die unsere Cloud-Dienste beeinträchtigte, behoben wurde. Sollten Sie dennoch weiterhin Probleme haben, zögern Sie bitte nicht, unser Support-Team zu kontaktieren. Wir helfen Ihnen gerne weiter und kümmern uns umgehend um Ihre Anliegen.

Wir wissen Ihre Geduld und Ihr Verständnis während dieses Vorfalls zu schätzen und danken Ihnen für Ihre Kooperation.
Eine formale Ursachenanalyse (Root Cause Analysis, RCA) wird derzeit erstellt und wird nach ihrer Fertigstellung veröffentlicht.

Für weitere Unterstützung kontaktieren Sie bitte unser Support-Team unter support@gcore.com.

Überprüfung

4 März 2026 um 18:00 GMT+0UTC

Überprüfung

4 März 2026 um 18:00 GMT+0UTC

Wir freuen uns, Ihnen mitteilen zu können, dass unser Entwicklungsteam eine Lösung für den größeren Ausfall des Cloud-Dienstes implementiert hat. Wir überwachen die Situation jedoch weiterhin genau, um einen stabilen Betrieb zu gewährleisten.

Wir werden Sie informieren, sobald wir bestätigt haben, dass das Problem vollständig behoben ist.

Identifizierung

4 März 2026 um 17:32 GMT+0UTC

Identifizierung

4 März 2026 um 17:32 GMT+0UTC

Wir arbeiten weiterhin an einer Lösung für diesen Vorfall.

Update

4 März 2026 um 17:10 GMT+0UTC

Update

4 März 2026 um 17:10 GMT+0UTC

Wir untersuchen diesen Vorfall derzeit.

Analyse

4 März 2026 um 16:47 GMT+0UTC

Analyse

4 März 2026 um 16:47 GMT+0UTC

Aktuell kommt es zu einer größeren Störung unseres Cloud-Dienstes, wodurch dieser vorübergehend nicht verfügbar ist. Wir entschuldigen uns aufrichtig für die dadurch entstehenden Unannehmlichkeiten und danken Ihnen herzlich für Ihre Geduld und Ihr Verständnis in dieser schwierigen Zeit.

Unser Entwicklungsteam arbeitet mit Hochdruck daran, die Ursache zu ermitteln und schnellstmöglich eine Lösung zu implementieren. Wir werden Sie regelmäßig über den Fortschritt der Problemlösung informieren.

Vielen Dank für Ihr Verständnis und Ihre Kooperation.

Gcore - Cloud | Details zum Vorfall in Amsterdam – Details zu Vorfällen

Alle Systeme funktionieren

Cloud | Details zum Vorfall in Amsterdam