Gcore - Потоковая передача данных | Подробности инцидента с API – Детали инцидента

Система на обслуживании

Потоковая передача данных | Подробности инцидента с API

Решено
Частичная недоступность 0 %
Началось 2 месяца назаддлился около 1 часа

Затронутые

Streaming

Частичная недоступность от 9:52 AM до 10:49 AM, Работает от 10:49 AM до 11:11 AM

API

Частичная недоступность от 9:52 AM до 10:49 AM, Работает от 10:49 AM до 11:11 AM

Обновления
  • После смерти
    После смерти

    В ходе планового технического обслуживания 21 апреля в работе нашего потокового сервиса произошел незапланированный сбой, длившийся приблизительно 1 час 9 минут . Из-за сбоя наш публичный API стал возвращать ошибки, что временно сделало сервис недоступным для клиентов. Проблема была полностью решена к 10:36 UTC , и наша команда приняла меры для предотвращения повторения подобных инцидентов.
    В рамках планового технического обслуживания было выполнено плановое обновление базы данных. На заключительном этапе обновления две операции с базой данных одновременно конфликтовали, что привело к потере синхронизации кластера баз данных на всех его узлах. База данных стала недоступна, что вызвало ошибки API, видимые клиентам.

    Хронология

    09:22 Плановое техническое обслуживание базы данных началось в соответствии с планом.
    09:27 Кластер баз данных стал недоступен из-за конфликта на заключительном этапе обновления.
    09:29 Сработали автоматические оповещения системы мониторинга. Команда DevOps уведомлена.
    09:32 Инженерная группа подтвердила сбой в работе базы данных.
    09:33 Публичный API начал выдавать ошибки. Расследование началось немедленно.
    09:47 Официально объявлен инцидент. Страница состояния обновлена до «техническое обслуживание».
    09:54 Первопричина подтверждена по производственным журналам.
    10:19 Идет восстановление базы данных.
    10:30 База данных подтверждена как работоспособная в одноузловом режиме.
    10:36 API потоковой передачи полностью восстановлен. Сервис для клиентов работает.
    10:45 Инцидент закрыт. Страница состояния обновлена до «Решено».

    Смягчение последствий

    • База данных была изолирована. Для безопасного восстановления работы кластер базы данных был переконфигурирован для работы в одноузловом режиме, что позволило удалить многоузловую синхронизацию, которая ранее завершилась с ошибкой.

    • Проверена стабильность. База данных была перезагружена, и ее рабочее состояние подтверждено до перенаправления трафика, что обеспечило чистое и стабильное восстановление.

    • Возврат клиентского трафика восстановлен. После стабилизации базы данных потоковый API был вновь запущен и тщательно отслеживался для подтверждения полного восстановления всех сервисов, доступных клиентам.

    Пункты плана действий:

    • Добавлены меры защиты перед развертыванием, которые обнаруживают и блокируют последовательности операций с высоким риском до того, как они достигнут производственной среды.

    • Усовершенствованные автоматизированные процедуры восстановления позволяют сократить время между обнаружением проблемы и восстановлением базы данных.

    • Мы пересмотрели и обновили процесс миграции базы данных, чтобы предотвратить одновременное выполнение конфликтующих операций во время обновлений.

  • Решено
    Решено

    Мы рады сообщить вам, что частичный сбой в работе нашего сервиса Streaming API устранен. Однако, если у вас возникнут какие-либо проблемы, пожалуйста, не стесняйтесь обращаться в нашу службу поддержки. Наша команда с удовольствием поможет вам и обеспечит оперативное решение любых дальнейших проблем. Мы также предоставим подробный анализ первопричин (RCA), как только он станет доступен.

    Мы ценим ваше терпение и понимание на протяжении всего инцидента и благодарим вас за сотрудничество.

    Для получения дополнительной помощи, пожалуйста, свяжитесь с нашей службой поддержки по адресу support@gcore.com.

  • Мониторинг
    Мониторинг

    Мы рады сообщить вам, что наша инженерная команда внедрила исправление для устранения частичного сбоя в работе нашего сервиса Streaming API. Однако мы продолжаем внимательно следить за ситуацией, чтобы обеспечить стабильную работу.

    Мы сообщим вам о результатах, как только подтвердим полное устранение проблемы.

  • Изучается
    Изучается

    В настоящее время в работе нашего сервиса Streaming API наблюдается частичный сбой, который может привести к частичной недоступности сервиса для пользователей. Приносим извинения за возможные неудобства и благодарим вас за терпение и понимание в это непростое время.

    Мы будем сообщать обновления по мере поступления дополнительной информации о ходе решения вопроса. Благодарим вас за понимание и сотрудничество.