Gcore - Облачные технологии | Подробности инцидента в Амстердаме – Детали инцидента

Все системы работают

Облачные технологии | Подробности инцидента в Амстердаме

Решено
Полная недоступность
Началось 2 месяца назаддлился около 3 часов

Затронутые

Cloud

Полная недоступность от 4:47 PM до 5:10 PM, Работает от 5:10 PM до 7:28 PM

Baremetal

Полная недоступность от 4:47 PM до 5:10 PM, Работает от 5:10 PM до 7:28 PM

Амстердам

Полная недоступность от 4:47 PM до 5:10 PM, Работает от 5:10 PM до 7:28 PM

Networking

Полная недоступность от 4:47 PM до 5:10 PM, Работает от 5:10 PM до 7:28 PM

Амстердам

Полная недоступность от 4:47 PM до 5:10 PM, Работает от 5:10 PM до 7:28 PM

Basic VM

Полная недоступность от 4:47 PM до 5:10 PM, Работает от 5:10 PM до 7:28 PM

Обновления
  • После смерти
    После смерти

    Анализ первопричин

    Проблема
    4 марта 2026 года в одном из кластеров хранения данных в Амстердамском регионе возникла проблема с нехваткой места, что привело к временной блокировке операций записи. Это вызвало сбои дискового ввода-вывода и перебои в работе виртуальных машин, использующих данную систему хранения данных.

    Проблема возникла во время технического обслуживания, связанного с обновлением платформы хранения данных. Хотя обновление завершилось успешно, сочетание фонового перераспределения данных и необычно высокой активности записи привело к тому, что использование хранилища превысило критический порог, что активировало защитный механизм, временно заблокировавший новые операции записи.
    Функциональность сервиса была восстановлена после принятия экстренных мер по освобождению емкости хранилища.

    Хронология (UTC)

    • 4 марта 2026 г. – 15:50: Завершено обновление платформы хранения данных и началось фоновое перераспределение данных.

    • 4 марта 2026 г. – 16:20: Использование хранилища достигает критического порога; кластер переходит в состояние блокировки записи.

    • 4 марта 2026 г. – 16:21: Система мониторинга становится недоступна из-за ошибок хранения данных в зависимых виртуальных машинах.

    • 4 марта 2026 г. – 16:23: Многочисленные сообщения от клиентов указывают на широко распространенные проблемы с доступностью виртуальных машин.

    • 4 марта 2026 г. – 17:25: Расследование выявило, что основной причиной стало исчерпание емкости хранилища.

    • 4 марта 2026 г. – 17:28: Команда инженеров по системам хранения данных начинает процедуру аварийного восстановления емкости.

    • 4 марта 2026 г. – 17:40: Операции записи восстановлены, и затронутые виртуальные машины начинают восстанавливаться.

    • 4 марта 2026 г. – 18:00: Функциональность платформы проверена с помощью системных тестов.

    • 4 марта 2026 г. – 18:59: Оставшиеся виртуальные машины восстановлены, инцидент завершен.


    Первопричина
    Инцидент произошел из-за временного скачка использования хранилища, вызванного одновременно двумя событиями. После перезапуска системы хранения во время технического обслуживания запустился автоматизированный процесс перераспределения данных, временно увеличивший использование хранилища, пока данные перебалансировались между узлами.

    В то же время, необычно высокая активность записи со стороны рабочей нагрузки привела к дополнительному расходованию емкости хранилища. Поскольку кластер уже работал с относительно высокой загрузкой, совокупный эффект вывел использование хранилища за пределы безопасного порога системы. В результате платформа хранения автоматически заблокировала операции записи для защиты целостности данных, что привело к сбоям дискового ввода-вывода в виртуальных машинах, использующих затронутое хранилище.

    Пункты плана действий

    • Внедрите обязательный этап проверки перед техническим обслуживанием, чтобы гарантировать отключение или контроль механизмов автоматического перераспределения данных во время перезапуска или обновления служб хранения данных.

    • В процедуры технического обслуживания следует включить механизмы защиты от превышения допустимых значений емкости хранилища, чтобы предотвратить выполнение модернизации в случае, если использование хранилища превышает безопасные эксплуатационные пороги.

    • Увеличьте доступную емкость хранилища в затронутом регионе, чтобы обеспечить достаточный запас для фоновых операций с данными и пиковых нагрузок.

    • Проанализируйте оперативные процедуры планирования работ по техническому обслуживанию, чтобы обеспечить достаточную пропускную способность системы и прозрачность процесса модернизации.

  • Решено
    Решено

    Мы рады сообщить вам, что крупный сбой в работе наших облачных сервисов в Амстердаме устранен. Однако, если у вас сохранятся какие-либо проблемы, пожалуйста, не стесняйтесь обращаться в нашу службу поддержки. Наша команда с удовольствием поможет вам и обеспечит оперативное решение любых дальнейших вопросов.

    Мы ценим ваше терпение и понимание на протяжении всего инцидента и благодарим вас за сотрудничество.
    В настоящее время проводится подготовка официального анализа первопричин (RCA), который будет опубликован после его завершения.

    Для получения дополнительной помощи, пожалуйста, свяжитесь с нашей службой поддержки по адресу support@gcore.com.

  • Мониторинг
    Мониторинг

    Мы рады сообщить вам, что наша инженерная команда внедрила исправление для устранения масштабного сбоя в работе облачного сервиса. Однако мы продолжаем внимательно следить за ситуацией, чтобы обеспечить стабильную работу.

    Мы сообщим вам о результатах, как только подтвердим полное устранение проблемы.

  • Определено
    Определено
    Мы продолжаем работать над устранением этой проблемы.
  • Обновление
    Обновление
    В настоящее время мы проводим расследование этого инцидента.
  • Изучается
    Изучается

    В настоящее время в нашей облачной службе произошел масштабный сбой, в результате которого сервис полностью недоступен. Мы приносим искренние извинения за любые неудобства, которые это может вызвать, и высоко ценим ваше терпение и понимание в это критическое время.

    Наша инженерная команда активно работает над выявлением первопричины и скорейшим внедрением решения. Мы будем регулярно предоставлять обновления по мере получения дополнительной информации о ходе решения проблемы.

    Благодарим вас за понимание и сотрудничество.