Gcore - Cloud | Details zum London-2-Vorfall – Details zu Vorfällen

Alle Systeme funktionieren

Cloud | Details zum London-2-Vorfall

Gelöst
Großer Ausfall
Aufgetreten am vor etwa 1 MonatDauerte etwa 5 Stunden

Betroffen

Cloud

Großer Ausfall aus 9:12 AM zu 11:46 AM, Funktionsfähig aus 11:46 AM zu 1:51 PM

Berechnen

Großer Ausfall aus 9:12 AM zu 11:46 AM, Funktionsfähig aus 11:46 AM zu 1:51 PM

London-2

Großer Ausfall aus 9:12 AM zu 11:46 AM, Funktionsfähig aus 11:46 AM zu 1:51 PM

Baremetal

Großer Ausfall aus 9:12 AM zu 11:46 AM, Funktionsfähig aus 11:46 AM zu 1:51 PM

London-2

Großer Ausfall aus 9:12 AM zu 11:46 AM, Funktionsfähig aus 11:46 AM zu 1:51 PM

Vernetzung

Großer Ausfall aus 9:12 AM zu 11:46 AM, Funktionsfähig aus 11:46 AM zu 1:51 PM

Aktualisierung
  • Nach dem Tod
    Nach dem Tod

    Störungsbericht: Stromausfall – Region London (NDLO)

    Datum: 28. März 2026 Betroffene Region: London-2 (NDLO) Zeitraum: 08:51 – 11:41 UTC (2 Std. 50 Min.) Status: Behoben

    Ausgabe

    Am Samstag, dem 28. März 2026, kam es in der Londoner Region London-2 (NDLO) von Gcore aufgrund eines Stromausfalls in unserem Rechenzentrum in London zu einer Dienstunterbrechung. Ein vorgelagerter elektrischer Fehler im Rechenzentrum führte zu einem vollständigen Stromausfall in dem Bereich, in dem unsere Infrastruktur untergebracht ist. Dadurch waren Cloud-Computing-, Netzwerk-, Speicher- und Bare-Metal-Dienste in der Region für etwa 2 Stunden und 50 Minuten nicht verfügbar. Der volle Betrieb wurde wiederhergestellt, gefolgt von einer längeren Phase mit reduzierter Stromausfallsicherheit, die im Laufe desselben Tages vollständig behoben wurde.

    Wir verstehen die Auswirkungen auf Ihren Geschäftsbetrieb und entschuldigen uns aufrichtig für die entstandenen Beeinträchtigungen.

    Was ist passiert

    Um 07:29 UTC trat in einer vorgelagerten elektrischen Komponente des Rechenzentrums ein Fehler auf, der zum Ausfall der Hauptstromversorgung unseres Infrastrukturbereichs führte. Die unterbrechungsfreie Stromversorgung (USV) des Rechenzentrums hielt die Last für etwa 80 Minuten über Batteriebetrieb aufrecht, die Umschaltung auf die alternative Hochspannungsversorgung dauerte jedoch länger, als die verfügbare Batteriekapazität der USV ausreichte. Um 08:49 UTC waren die USV-Batterien leer, und der Bereich war vollständig stromlos.

    Um 10:32 UTC wurde die Stromversorgung über die alternative Hochspannungsversorgung wiederhergestellt, und unsere Infrastruktur wurde nach und nach wieder in Betrieb genommen. Zuerst wurde die Netzwerkverbindung wiederhergestellt, gefolgt von der Cloud-Steuerungsebene und den Kunden-Workloads. Um 11:41 UTC wurde die Wiederherstellung aller kundenseitigen Dienste bestätigt und diese wurden unter strenge Überwachung gestellt.

    Nach der Wiederherstellung der Hauptstromversorgung lief ein Teil der Serverschränke aufgrund eines defekten Bauteils im Stromverteilungsnetz mehrere Stunden lang nur mit einer einzigen Stromversorgung. Alle Schränke verfügten weiterhin über mindestens eine funktionierende Stromquelle, sodass die Dienste verfügbar blieben, die Redundanz jedoch reduziert war. Um 19:08 UTC wurde das defekte Bauteil umgangen und die vollständige redundante Stromversorgung wiederhergestellt. Der Austausch der USV-Batterie war um 19:20 UTC abgeschlossen.

    Zeitleiste (alle Zeiten UTC)

    Zeit

    Ereignis

    07:29

    Elektrischer Fehler im vorgelagerten Stromnetz; primäre Stromversorgung unterbrochen; USV übernimmt den Batteriebetrieb.

    08:49

    Die Autonomie der USV-Batterie ist erschöpft; vollständiger Stromausfall im betroffenen Gebiet.

    08:51

    Gcore hat einen Vorfall festgestellt; die Untersuchung wird eingeleitet.

    09:24

    Der Anlagenbetreiber wurde eingeschaltet; Maßnahmen vor Ort laufen.

    10:32

    Stromversorgung über alternative Hochspannungsversorgung wiederhergestellt.

    10:43 – 11:41

    Stufenweise Wiederherstellung von Diensten: Netzwerk, Cloud-Steuerungsebene, Rechenleistung, Bare Metal.

    11:41

    Alle kundenorientierten Dienste wurden wiederhergestellt und werden überwacht.

    13:51

    Statusseite: Vorfall geschlossen.

    19:08

    Die vollständige Stromredundanz wurde in allen Schränken wiederhergestellt.

    Auswirkungen

    • Betroffene Dienste: Cloud-Computing (VMs), Bare-Metal-Server, Cloud-Netzwerke, öffentliche IP-Konnektivität, Cloud-Speicher und die Cloud-API innerhalb der Region London-2 (NDLO).

    • Für den Kunden sichtbare Ausfallzeit: ca. 2 Stunden 50 Minuten (08:51 – 11:41 UTC).

    • Die Stromversorgungsredundanz wurde in einem Teil der Serverschränke von etwa 08:51 UTC bis 19:08 UTC reduziert. Die Dienste blieben während dieses Zeitraums verfügbar.

    • Andere Gcore-Regionen waren nicht betroffen.

    Grundursache

    Die Hauptursache war ein vorgelagerter elektrischer Fehler im Rechenzentrum, verbunden mit einer unzureichenden Autonomie der USV-Batterie, um die Zeit für die Umschaltung der Last auf die alternative Hochspannungsversorgung zu überbrücken. Ein weiterer Fehler in der Stromverteilung verlängerte die Phase reduzierter Redundanz nach der ersten Wiederherstellung.

    Was wir tun

    In enger Abstimmung mit unserem Rechenzentrumspartner und auf Seiten von Gcore haben wir folgende Maßnahmen eingeleitet:

    Mit dem Anlagenanbieter

    • Ich habe eine vollständige, formale Ursachenanalyse angefordert, die den elektrischen Fehler, die Autonomie der USV im Vergleich zum Auslegungsziel und den Ausfall der Sekundärkomponente umfasst.

    • Verfolgung des Sanierungsplans der Anlage, einschließlich des Austauschs der USV-Batterie (abgeschlossen am 28. März), der Belastungstests und der vorbeugenden Wartung.

    • Überprüfung der vertraglichen Service-Level-Vereinbarungen

    Unser Engagement

    Wir behandeln diesen Vorfall mit höchster Priorität. Die Ausfallsicherheit der Stromversorgung im Rechenzentrum ist grundlegend für unseren Service, und die durch dieses Ereignis aufgedeckte Sicherheitslücke – die USV-Autonomie reichte nicht aus, um die für die Umschaltung auf eine alternative Stromversorgung benötigte Zeit abzudecken – ist für uns inakzeptabel. Wir arbeiten mit unserem Rechenzentrumspartner zusammen, um sicherzustellen, dass dieser Fehler nicht erneut auftritt, und verstärken unabhängig davon unsere eigene Architektur, damit zukünftige Ereignisse dieser Art unsere Kunden weniger beeinträchtigen.

    Wenn Sie Fragen dazu haben, wie sich dieser Vorfall auf Ihre konkreten Arbeitslasten ausgewirkt hat, oder wenn Sie über eine Entschädigung im Rahmen Ihres Servicevertrags sprechen möchten, wenden Sie sich bitte an den Gcore-Support.

    Vielen Dank für Ihre Geduld und Ihr anhaltendes Vertrauen in Gcore.

  • Gelöst
    Gelöst

    Wir freuen uns, Ihnen mitteilen zu können, dass der Stromausfall im Rechenzentrum vollständig behoben wurde und alle Dienste wiederhergestellt sind. Eine detaillierte Ursachenanalyse (RCA) wird Ihnen nach Fertigstellung zur Verfügung gestellt.

    Sollten weiterhin Probleme auftreten, zögern Sie bitte nicht, unser Support-Team zu kontaktieren. Wir helfen Ihnen gerne weiter und kümmern uns umgehend um Ihre Anliegen.

    Wir wissen Ihre Geduld und Ihr Verständnis während dieses Vorfalls zu schätzen und danken Ihnen für Ihre Kooperation.

    Für weitere Unterstützung kontaktieren Sie bitte unser Support-Team unter support@gcore.com.

  • Überprüfung
    Überprüfung

    Alle Dienste sind nun wiederhergestellt. Eine kleine Anzahl von Bare-Metal-Servern befindet sich noch im Wiederherstellungsprozess, und unsere Teams überwachen die Situation weiterhin genau.

    Vielen Dank für Ihre Geduld und Ihr Verständnis während dieses Vorfalls.

  • Update
    Update

    Wir haben vom Rechenzentrum eine weitere Bestätigung erhalten, dass die Wiederherstellung der Stromversorgung begonnen hat. Einige Dienste, wie API und Netzwerk, sind bereits wieder verfügbar. Die Wiederherstellung der Dienste erfolgt schrittweise, und die Teams vor Ort arbeiten daran, den Betrieb so schnell und sicher wie möglich vollständig wiederherzustellen.

    Wir verstehen die Auswirkungen dieses Vorfalls und danken Ihnen herzlich für Ihre Geduld. Wir werden Sie weiterhin informieren, sobald weitere Informationen vorliegen und der volle Service wiederhergestellt ist.

  • Update
    Update

    Wir haben vom Rechenzentrum die Bestätigung erhalten, dass es dort zu einem Stromausfall gekommen ist. Unsere Techniker vor Ort arbeiten mit Hochdruck daran, die Stromversorgung so schnell und sicher wie möglich wiederherzustellen. Wir werden Sie informieren, sobald weitere Informationen vorliegen.

  • Identifizierung
    Identifizierung

    Unsere Techniker vor Ort untersuchen derzeit ein Stromversorgungsproblem im Rechenzentrum. Wir arbeiten an der Behebung und werden Sie in Kürze informieren.

  • Analyse
    Analyse

    Aktuell kommt es in unserem Netzwerk zu einer größeren Störung, die unsere Cloud-Dienste in der Region London-2 betrifft und zu einem vollständigen Ausfall des Dienstes führt. Wir entschuldigen uns aufrichtig für die dadurch entstehenden Unannehmlichkeiten und danken Ihnen herzlich für Ihre Geduld und Ihr Verständnis in dieser kritischen Situation.

    Unser Entwicklungsteam arbeitet mit Hochdruck daran, die Ursache zu ermitteln und schnellstmöglich eine Lösung zu implementieren. Wir werden Sie regelmäßig über den Fortschritt der Problemlösung informieren.

    Vielen Dank für Ihr Verständnis und Ihre Kooperation.