Dotknięty
Częściowa awaria z 9:52 AM do 10:49 AM, Poprawne działanie z 10:49 AM do 11:11 AM
Częściowa awaria z 9:52 AM do 10:49 AM, Poprawne działanie z 10:49 AM do 11:11 AM
- Po śmierciPo śmierci
Podczas planowej aktualizacji konserwacyjnej 21 kwietnia nasza usługa streamingowa doświadczyła nieplanowanej przerwy w działaniu, trwającej około 1 godziny i 9 minut . Przerwa spowodowała zwrócenie błędów przez nasze publiczne API i tymczasową niedostępność usługi dla klientów. Problem został w pełni rozwiązany o godzinie 10:36 UTC , a nasz zespół podjął kroki, aby zapobiec jego ponownemu wystąpieniu.
Rutynowa aktualizacja bazy danych została wdrożona w ramach zaplanowanego okna konserwacji. Podczas ostatniego etapu tej aktualizacji, dwie operacje na bazie danych kolidowały ze sobą w tym samym momencie, powodując utratę synchronizacji klastra baz danych na wszystkich węzłach. Baza danych stała się niedostępna, co spowodowało kaskadowe pojawienie się błędów API widocznych dla klientów.Oś czasu
09:22 Zgodnie z planem rozpoczęto konserwację bazy danych.
09:27 Klaster bazy danych stał się niedostępny z powodu konfliktu, który wystąpił na ostatnim etapie aktualizacji.
09:29 Uruchomiono automatyczne alerty monitorujące. Powiadomiono zespół DevOps.
09:32 Zespół inżynierów potwierdził awarię bazy danych.
09:33 Publiczne API zaczęło zwracać błędy. Natychmiast rozpoczęto dochodzenie.
09:47 Oficjalne zgłoszenie incydentu. Strona ze statusem zaktualizowana do stanu konserwacji.
09:54 Potwierdzono przyczynę główną na podstawie dzienników produkcyjnych.
10:19 Trwa odzyskiwanie DB.
10:30 Potwierdzenie działania bazy danych w trybie pojedynczego węzła.
10:36 API strumieniowe w pełni przywrócone. Usługa dla klientów działa.
10:45 Incydent zamknięty. Strona ze statusem zaktualizowana do „rozwiązany”.Łagodzenie
Odizolowano bazę danych. Aby bezpiecznie przywrócić usługę, klaster bazy danych został skonfigurowany ponownie do pracy w trybie pojedynczego węzła, usuwając nieudaną synchronizację wielowęzłową.
Potwierdzono stabilność. Baza danych została ponownie załadowana, a jej status operacyjny potwierdzono przed przekierowaniem jakiegokolwiek ruchu, co zapewniło czyste i stabilne odzyskiwanie.
Przywrócono ruch klientów. Po ustabilizowaniu bazy danych, API Streamingu zostało przywrócone i monitorowane w celu potwierdzenia, że wszystkie usługi dla klientów w pełni powróciły do działania.
Punkty działania:
Dodano zabezpieczenia przed wdrożeniem, które wykrywają i blokują sekwencje operacji wysokiego ryzyka zanim dotrą one do produkcji.
Udoskonalono procedury automatycznego odzyskiwania, aby skrócić czas między wykryciem problemu a przywróceniem bazy danych.
Przejrzeliśmy i zaktualizowaliśmy nasz proces migracji bazy danych, aby zapobiec jednoczesnemu wykonywaniu operacji kolidujących ze sobą podczas aktualizacji.
- RozwiązanyRozwiązany
Z przyjemnością informujemy, że częściowa awaria naszej usługi Streaming API została rozwiązana. Jeśli jednak nadal będą występować jakiekolwiek problemy, prosimy o kontakt z naszym zespołem wsparcia. Z przyjemnością udzielimy Państwu pomocy i dopilnujemy, aby wszelkie dalsze kwestie zostały niezwłocznie rozwiązane. Prześlemy również szczegółową analizę przyczyn źródłowych (RCA), gdy tylko będzie dostępna.
Doceniamy Państwa cierpliwość i zrozumienie w związku z tym incydentem i dziękujemy za współpracę.
Aby uzyskać dalszą pomoc, skontaktuj się z naszym zespołem wsparcia pod adresem support@gcore.com
- MonitorowanieMonitorowanie
Z przyjemnością informujemy, że nasz zespół inżynierów wdrożył poprawkę, która rozwiązuje problem częściowej awarii naszej usługi API Streaming. Nadal jednak uważnie monitorujemy sytuację, aby zapewnić stabilną wydajność.
Poinformujemy Cię o rozwiązaniu problemu, gdy tylko potwierdzimy, że został on całkowicie rozwiązany.
- AnalizaAnaliza
Obecnie występuje częściowa awaria naszej usługi API Streaming, która może skutkować częściową niedostępnością dla użytkowników. Przepraszamy za wszelkie niedogodności i dziękujemy za cierpliwość oraz zrozumienie w tym czasie.
Będziemy Państwa informować na bieżąco, gdy tylko pojawią się nowe informacje na temat postępów w rozwiązywaniu problemu. Dziękujemy za zrozumienie i współpracę.

