Gcore - Облако | Подробности сетевого инцидента – Детали инцидента

Все системы работают

Облако | Подробности сетевого инцидента

Решено
Полная недоступность
Началось 20 дней назаддлился 40 минут

Затронутые

Cloud

Полная недоступность от 8:29 AM до 8:39 AM, Работает от 8:29 AM до 8:39 AM, Частичная недоступность от 8:39 AM до 8:44 AM, Работает от 8:44 AM до 12:00 AM

Networking

Полная недоступность от 8:29 AM до 8:39 AM, Работает от 8:29 AM до 8:39 AM, Частичная недоступность от 8:39 AM до 8:44 AM, Работает от 8:44 AM до 12:00 AM

Алматы

Работает от 8:29 AM до 8:39 AM, Частичная недоступность от 8:39 AM до 8:44 AM, Работает от 8:44 AM до 12:00 AM

Амстердам

Полная недоступность от 8:29 AM до 8:39 AM, Частичная недоступность от 8:39 AM до 8:44 AM, Работает от 8:44 AM до 12:00 AM

Баку

Работает от 8:29 AM до 8:39 AM, Частичная недоступность от 8:39 AM до 8:44 AM, Работает от 8:44 AM до 12:00 AM

Чикаго

Работает от 8:29 AM до 8:39 AM, Частичная недоступность от 8:39 AM до 8:44 AM, Работает от 8:44 AM до 12:00 AM

Обновления
  • После смерти
    После смерти

    Мы хотели бы принести наши самые искренние извинения за неудобства, вызванные недавними перебоями в обслуживании. Наша преданность надежности и обслуживанию клиентов остается главным приоритетом, и мы сожалеем о любых трудностях, с которыми столкнулись наши клиенты. Ниже приведен подробный анализ первопричин (RCA) инцидента:

    Проблема:

    Утечка маршрута BGP из центров очистки Gcore привела к недоступности сервисов Cloud, Baremetal и WAAP.

    Хронология:

    11.04.2025 07:32 (UTC) - Начато развертывание функции агрегированных адресов для одного клиента. Изменения Hiera-yaml зафиксированы.

    11.04.2025 07:51 (UTC) - Puppet изменен, объединен с главной веткой

    11.04.2025 08:11 (UTC) — Влияние началось; клиенты начали сообщать о проблемах.

    11.04.2025 08:18 (UTC) - Начато расследование

    11.04.2025 08:25 (UTC) - Начало экстренной телефонной конференции; инженеры и члены критически важной команды собрались для расследования

    11.04.2025 08:28 (UTC) - Первопричина выявлена и начата подготовка к откату.

    11.04.2025 08:32 (UTC) - Начато смягчение

    11.04.2025 08.38 (UTC) - Окончание воздействия

    Первопричина:

    • Cloud, Baremetal и WAAP были частично недоступны, поскольку трафик к ним был заблокирован системой смягчения угроз (TMS)

    • Серверы TMS начали объявлять сетевые префиксы Gcore

    • Агент TMS доставил неверные префиксы узлам конфигурации frr

    • TMS просматривала поле customers.<customer_id>.prefixes и для каждого определенного префикса xxxxx/32 создавала совокупный prefix_agg = xxxx0/24 и визуализировала шаблон

    ◦ Ошибка жидкости: Неизвестный оператор

    ◦ эта логика выбирала IP-адреса клиентов (/32) из общих облачных сетей и объявляла более широкие префиксы (/24) из TMS, у которых не было конфигурации DDoS для них. Поэтому трафик был сброшен (политика по умолчанию)

    • ошибочное поведение было распространено по всему миру

    • в сети preprod не было обнаружено ошибочного поведения

    • мы не получили никаких оповещений от узлов TMS о потерянных пакетах

    ◦ отсутствует оповещение для счетчика «Mellanox XDP Counters: Errors» (будет добавлено только 17.04.2025)

    Влияние:

    Были затронуты некоторые учетные записи клиентов и сервисного облака. Продолжительность простоя ~30 минут.

    Действия:

    • Внедрить изменения в процесс тестирования

    ◦ [уведомление о предстоящем обновлении] Обновите агента TMS на prod и preprod, чтобы все могли увидеть обновление

    ◦ [проверить полный поток тестирования] Создать песочницу для тестов BGP

    • Развертывание Канарских островов

    ◦ [временное включение функциональности] Используйте флаги функций для sifter-agent, чтобы включить функциональность на 5–10 минут, а затем посмотрите на панели мониторинга (быстрее, чем через puppet)

    ◦ [снижение воздействия] Развертывание канареечных обновлений более ограниченным образом, не только по client_id, но и в большем количестве регионов безопасности (например, местоположение WA2)

    ◦ [повышение наблюдаемости] Добавляйте аннотации коммитов на панели мониторинга с трафиком, чтобы вы могли видеть, когда что-то произошло

    • Улучшить процедуры и политику

    ◦ [снижение воздействия] Обновить процедуры испытаний для просеивающего агента.

    ◦ [снижение воздействия] Создайте список исходящих префиксов, который будет фильтровать все сети, не включенные в конфигурацию фильтра.

    ◦ [улучшение наблюдаемости] Отсутствует оповещение для счетчика «Mellanox XDP Counters: Errors»

    Еще раз приносим извинения за любые неудобства, которые это могло вызвать. Мы очень ценим ваше терпение и понимание во время этого инцидента, и мы благодарим вас за ваше сотрудничество.

    Если вам потребуется дополнительная помощь или у вас возникнут какие-либо вопросы, свяжитесь с нашей службой поддержки по адресу support@gcore.com .

  • Решено
    Решено

    Мы рады сообщить вам, что проблема с сетью в нашем облачном сервисе была решена. В ближайшие дни мы предоставим отчет об анализе первопричин (RCA), чтобы помочь вам понять, что вызвало инцидент, и какие шаги мы предприняли, чтобы предотвратить его повторение в будущем. Однако, если у вас по-прежнему возникают какие-либо проблемы, не стесняйтесь обращаться в нашу службу поддержки. Наша команда будет рада помочь вам и гарантировать, что любые дальнейшие проблемы будут решены незамедлительно.

    Мы ценим ваше терпение и понимание во время этого инцидента и благодарим вас за сотрудничество.

    Для получения дополнительной помощи свяжитесь с нашей службой поддержки по адресу support@gcore.com.

  • Мониторинг
    Мониторинг

    Мы рады сообщить вам, что наша инженерная команда внедрила исправление для устранения сетевой проблемы в нашем облачном сервисе. Тем не менее, мы по-прежнему внимательно следим за ситуацией, чтобы обеспечить стабильную работу.

    Мы сообщим вам обновленную информацию, как только подтвердим, что проблема полностью решена.

  • Определено
    Определено

    Мы выявили основную причину и продолжаем работать над решением проблемы.

  • Изучается
    Изучается

    В настоящее время мы наблюдаем значительное снижение производительности сети во многих местах, что может привести к полной недоступности сети. Мы искренне приносим извинения за любые неудобства, которые это может вызвать, и высоко ценим ваше терпение и понимание в это критическое время.

    Наша инженерная команда активно работает над выявлением первопричины и скорейшей реализацией решения. Мы будем регулярно предоставлять обновления по мере поступления дополнительной информации о ходе решения.

    Благодарим Вас за понимание и сотрудничество.