Затронутые
Частичная недоступность от 9:52 AM до 10:49 AM, Работает от 10:49 AM до 11:11 AM
Частичная недоступность от 9:52 AM до 10:49 AM, Работает от 10:49 AM до 11:11 AM
- После смертиПосле смерти
В ходе планового технического обслуживания 21 апреля в работе нашего потокового сервиса произошел незапланированный сбой, длившийся приблизительно 1 час 9 минут . Из-за сбоя наш публичный API стал возвращать ошибки, что временно сделало сервис недоступным для клиентов. Проблема была полностью решена к 10:36 UTC , и наша команда приняла меры для предотвращения повторения подобных инцидентов.
В рамках планового технического обслуживания было выполнено плановое обновление базы данных. На заключительном этапе обновления две операции с базой данных одновременно конфликтовали, что привело к потере синхронизации кластера баз данных на всех его узлах. База данных стала недоступна, что вызвало ошибки API, видимые клиентам.Хронология
09:22 Плановое техническое обслуживание базы данных началось в соответствии с планом.
09:27 Кластер баз данных стал недоступен из-за конфликта на заключительном этапе обновления.
09:29 Сработали автоматические оповещения системы мониторинга. Команда DevOps уведомлена.
09:32 Инженерная группа подтвердила сбой в работе базы данных.
09:33 Публичный API начал выдавать ошибки. Расследование началось немедленно.
09:47 Официально объявлен инцидент. Страница состояния обновлена до «техническое обслуживание».
09:54 Первопричина подтверждена по производственным журналам.
10:19 Идет восстановление базы данных.
10:30 База данных подтверждена как работоспособная в одноузловом режиме.
10:36 API потоковой передачи полностью восстановлен. Сервис для клиентов работает.
10:45 Инцидент закрыт. Страница состояния обновлена до «Решено».Смягчение последствий
База данных была изолирована. Для безопасного восстановления работы кластер базы данных был переконфигурирован для работы в одноузловом режиме, что позволило удалить многоузловую синхронизацию, которая ранее завершилась с ошибкой.
Проверена стабильность. База данных была перезагружена, и ее рабочее состояние подтверждено до перенаправления трафика, что обеспечило чистое и стабильное восстановление.
Возврат клиентского трафика восстановлен. После стабилизации базы данных потоковый API был вновь запущен и тщательно отслеживался для подтверждения полного восстановления всех сервисов, доступных клиентам.
Пункты плана действий:
Добавлены меры защиты перед развертыванием, которые обнаруживают и блокируют последовательности операций с высоким риском до того, как они достигнут производственной среды.
Усовершенствованные автоматизированные процедуры восстановления позволяют сократить время между обнаружением проблемы и восстановлением базы данных.
Мы пересмотрели и обновили процесс миграции базы данных, чтобы предотвратить одновременное выполнение конфликтующих операций во время обновлений.
- РешеноРешено
Мы рады сообщить вам, что частичный сбой в работе нашего сервиса Streaming API устранен. Однако, если у вас возникнут какие-либо проблемы, пожалуйста, не стесняйтесь обращаться в нашу службу поддержки. Наша команда с удовольствием поможет вам и обеспечит оперативное решение любых дальнейших проблем. Мы также предоставим подробный анализ первопричин (RCA), как только он станет доступен.
Мы ценим ваше терпение и понимание на протяжении всего инцидента и благодарим вас за сотрудничество.
Для получения дополнительной помощи, пожалуйста, свяжитесь с нашей службой поддержки по адресу support@gcore.com.
- МониторингМониторинг
Мы рады сообщить вам, что наша инженерная команда внедрила исправление для устранения частичного сбоя в работе нашего сервиса Streaming API. Однако мы продолжаем внимательно следить за ситуацией, чтобы обеспечить стабильную работу.
Мы сообщим вам о результатах, как только подтвердим полное устранение проблемы.
- ИзучаетсяИзучается
В настоящее время в работе нашего сервиса Streaming API наблюдается частичный сбой, который может привести к частичной недоступности сервиса для пользователей. Приносим извинения за возможные неудобства и благодарим вас за терпение и понимание в это непростое время.
Мы будем сообщать обновления по мере поступления дополнительной информации о ходе решения вопроса. Благодарим вас за понимание и сотрудничество.

