Gcore - Przesyłanie strumieniowe | Szczegóły incydentu API – Szczegóły incydentu

System w trakcie konserwacji

Przesyłanie strumieniowe | Szczegóły incydentu API

Rozwiązany
Częściowa awaria 0 %
Wystąpił w dniu 2 miesiące temuTrwało około godziny

Dotknięty

Streaming

Częściowa awaria z 9:52 AM do 10:49 AM, Poprawne działanie z 10:49 AM do 11:11 AM

API

Częściowa awaria z 9:52 AM do 10:49 AM, Poprawne działanie z 10:49 AM do 11:11 AM

Aktualizacje
  • Po śmierci
    Po śmierci

    Podczas planowej aktualizacji konserwacyjnej 21 kwietnia nasza usługa streamingowa doświadczyła nieplanowanej przerwy w działaniu, trwającej około 1 godziny i 9 minut . Przerwa spowodowała zwrócenie błędów przez nasze publiczne API i tymczasową niedostępność usługi dla klientów. Problem został w pełni rozwiązany o godzinie 10:36 UTC , a nasz zespół podjął kroki, aby zapobiec jego ponownemu wystąpieniu.
    Rutynowa aktualizacja bazy danych została wdrożona w ramach zaplanowanego okna konserwacji. Podczas ostatniego etapu tej aktualizacji, dwie operacje na bazie danych kolidowały ze sobą w tym samym momencie, powodując utratę synchronizacji klastra baz danych na wszystkich węzłach. Baza danych stała się niedostępna, co spowodowało kaskadowe pojawienie się błędów API widocznych dla klientów.

    Oś czasu

    09:22 Zgodnie z planem rozpoczęto konserwację bazy danych.
    09:27 Klaster bazy danych stał się niedostępny z powodu konfliktu, który wystąpił na ostatnim etapie aktualizacji.
    09:29 Uruchomiono automatyczne alerty monitorujące. Powiadomiono zespół DevOps.
    09:32 Zespół inżynierów potwierdził awarię bazy danych.
    09:33 Publiczne API zaczęło zwracać błędy. Natychmiast rozpoczęto dochodzenie.
    09:47 Oficjalne zgłoszenie incydentu. Strona ze statusem zaktualizowana do stanu konserwacji.
    09:54 Potwierdzono przyczynę główną na podstawie dzienników produkcyjnych.
    10:19 Trwa odzyskiwanie DB.
    10:30 Potwierdzenie działania bazy danych w trybie pojedynczego węzła.
    10:36 API strumieniowe w pełni przywrócone. Usługa dla klientów działa.
    10:45 Incydent zamknięty. Strona ze statusem zaktualizowana do „rozwiązany”.

    Łagodzenie

    • Odizolowano bazę danych. Aby bezpiecznie przywrócić usługę, klaster bazy danych został skonfigurowany ponownie do pracy w trybie pojedynczego węzła, usuwając nieudaną synchronizację wielowęzłową.

    • Potwierdzono stabilność. Baza danych została ponownie załadowana, a jej status operacyjny potwierdzono przed przekierowaniem jakiegokolwiek ruchu, co zapewniło czyste i stabilne odzyskiwanie.

    • Przywrócono ruch klientów. Po ustabilizowaniu bazy danych, API Streamingu zostało przywrócone i monitorowane w celu potwierdzenia, że wszystkie usługi dla klientów w pełni powróciły do działania.

    Punkty działania:

    • Dodano zabezpieczenia przed wdrożeniem, które wykrywają i blokują sekwencje operacji wysokiego ryzyka zanim dotrą one do produkcji.

    • Udoskonalono procedury automatycznego odzyskiwania, aby skrócić czas między wykryciem problemu a przywróceniem bazy danych.

    • Przejrzeliśmy i zaktualizowaliśmy nasz proces migracji bazy danych, aby zapobiec jednoczesnemu wykonywaniu operacji kolidujących ze sobą podczas aktualizacji.

  • Rozwiązany
    Rozwiązany

    Z przyjemnością informujemy, że częściowa awaria naszej usługi Streaming API została rozwiązana. Jeśli jednak nadal będą występować jakiekolwiek problemy, prosimy o kontakt z naszym zespołem wsparcia. Z przyjemnością udzielimy Państwu pomocy i dopilnujemy, aby wszelkie dalsze kwestie zostały niezwłocznie rozwiązane. Prześlemy również szczegółową analizę przyczyn źródłowych (RCA), gdy tylko będzie dostępna.

    Doceniamy Państwa cierpliwość i zrozumienie w związku z tym incydentem i dziękujemy za współpracę.

    Aby uzyskać dalszą pomoc, skontaktuj się z naszym zespołem wsparcia pod adresem support@gcore.com

  • Monitorowanie
    Monitorowanie

    Z przyjemnością informujemy, że nasz zespół inżynierów wdrożył poprawkę, która rozwiązuje problem częściowej awarii naszej usługi API Streaming. Nadal jednak uważnie monitorujemy sytuację, aby zapewnić stabilną wydajność.

    Poinformujemy Cię o rozwiązaniu problemu, gdy tylko potwierdzimy, że został on całkowicie rozwiązany.

  • Analiza
    Analiza

    Obecnie występuje częściowa awaria naszej usługi API Streaming, która może skutkować częściową niedostępnością dla użytkowników. Przepraszamy za wszelkie niedogodności i dziękujemy za cierpliwość oraz zrozumienie w tym czasie.

    Będziemy Państwa informować na bieżąco, gdy tylko pojawią się nowe informacje na temat postępów w rozwiązywaniu problemu. Dziękujemy za zrozumienie i współpracę.