Мы хотели бы принести наши самые искренние извинения за неудобства, вызванные недавними перебоями в обслуживании. Наша преданность надежности и обслуживанию клиентов остается главным приоритетом, и мы сожалеем о любых трудностях, с которыми столкнулись наши клиенты. Ниже приведен подробный анализ первопричин (RCA) инцидента:
Проблема:
Утечка маршрута BGP из центров очистки Gcore привела к недоступности сервисов Cloud, Baremetal и WAAP.
Хронология:
11.04.2025 07:32 (UTC) - Начато развертывание функции агрегированных адресов для одного клиента. Изменения Hiera-yaml зафиксированы.
11.04.2025 07:51 (UTC) - Puppet изменен, объединен с главной веткой
11.04.2025 08:11 (UTC) — Влияние началось; клиенты начали сообщать о проблемах.
11.04.2025 08:18 (UTC) - Начато расследование
11.04.2025 08:25 (UTC) - Начало экстренной телефонной конференции; инженеры и члены критически важной команды собрались для расследования
11.04.2025 08:28 (UTC) - Первопричина выявлена и начата подготовка к откату.
11.04.2025 08:32 (UTC) - Начато смягчение
11.04.2025 08.38 (UTC) - Окончание воздействия
Первопричина:
• Cloud, Baremetal и WAAP были частично недоступны, поскольку трафик к ним был заблокирован системой смягчения угроз (TMS)
• Серверы TMS начали объявлять сетевые префиксы Gcore
• Агент TMS доставил неверные префиксы узлам конфигурации frr
• TMS просматривала поле customers.<customer_id>.prefixes и для каждого определенного префикса xxxxx/32 создавала совокупный prefix_agg = xxxx0/24 и визуализировала шаблон
◦ Ошибка жидкости: Неизвестный оператор
◦ эта логика выбирала IP-адреса клиентов (/32) из общих облачных сетей и объявляла более широкие префиксы (/24) из TMS, у которых не было конфигурации DDoS для них. Поэтому трафик был сброшен (политика по умолчанию)
• ошибочное поведение было распространено по всему миру
• в сети preprod не было обнаружено ошибочного поведения
• мы не получили никаких оповещений от узлов TMS о потерянных пакетах
◦ отсутствует оповещение для счетчика «Mellanox XDP Counters: Errors» (будет добавлено только 17.04.2025)
Влияние:
Были затронуты некоторые учетные записи клиентов и сервисного облака. Продолжительность простоя ~30 минут.
Действия:
• Внедрить изменения в процесс тестирования
◦ [уведомление о предстоящем обновлении] Обновите агента TMS на prod и preprod, чтобы все могли увидеть обновление
◦ [проверить полный поток тестирования] Создать песочницу для тестов BGP
• Развертывание Канарских островов
◦ [временное включение функциональности] Используйте флаги функций для sifter-agent, чтобы включить функциональность на 5–10 минут, а затем посмотрите на панели мониторинга (быстрее, чем через puppet)
◦ [снижение воздействия] Развертывание канареечных обновлений более ограниченным образом, не только по client_id, но и в большем количестве регионов безопасности (например, местоположение WA2)
◦ [повышение наблюдаемости] Добавляйте аннотации коммитов на панели мониторинга с трафиком, чтобы вы могли видеть, когда что-то произошло
• Улучшить процедуры и политику
◦ [снижение воздействия] Обновить процедуры испытаний для просеивающего агента.
◦ [снижение воздействия] Создайте список исходящих префиксов, который будет фильтровать все сети, не включенные в конфигурацию фильтра.
◦ [улучшение наблюдаемости] Отсутствует оповещение для счетчика «Mellanox XDP Counters: Errors»
Еще раз приносим извинения за любые неудобства, которые это могло вызвать. Мы очень ценим ваше терпение и понимание во время этого инцидента, и мы благодарим вас за ваше сотрудничество.
Если вам потребуется дополнительная помощь или у вас возникнут какие-либо вопросы, свяжитесь с нашей службой поддержки по адресу support@gcore.com .