Облачные технологии | Подробности инцидента в Амстердаме - Детали инцидента

Облачные технологии | Подробности инцидента в Амстердаме

Решено

Полная недоступность

Началось 5 месяцев назад4 марта 2026длился около 3 часов4 марта 202616:47 GMT+019:28 GMT+0UTC

Затронутые

Cloud

Baremetal

Амстердам

Networking

Амстердам

Basic VM

Обновления

После смерти
11 марта 2026 в 14:23 GMT+0UTC
После смерти
11 марта 2026 в 14:23 GMT+0UTC
Анализ первопричин

Проблема
4 марта 2026 года в одном из кластеров хранения данных в Амстердамском регионе возникла проблема с нехваткой места, что привело к временной блокировке операций записи. Это вызвало сбои дискового ввода-вывода и перебои в работе виртуальных машин, использующих данную систему хранения данных.

Проблема возникла во время технического обслуживания, связанного с обновлением платформы хранения данных. Хотя обновление завершилось успешно, сочетание фонового перераспределения данных и необычно высокой активности записи привело к тому, что использование хранилища превысило критический порог, что активировало защитный механизм, временно заблокировавший новые операции записи.
Функциональность сервиса была восстановлена после принятия экстренных мер по освобождению емкости хранилища.

Хронология (UTC)
- 4 марта 2026 г. – 15:50: Завершено обновление платформы хранения данных и началось фоновое перераспределение данных.
- 4 марта 2026 г. – 16:20: Использование хранилища достигает критического порога; кластер переходит в состояние блокировки записи.
- 4 марта 2026 г. – 16:21: Система мониторинга становится недоступна из-за ошибок хранения данных в зависимых виртуальных машинах.
- 4 марта 2026 г. – 16:23: Многочисленные сообщения от клиентов указывают на широко распространенные проблемы с доступностью виртуальных машин.
- 4 марта 2026 г. – 17:25: Расследование выявило, что основной причиной стало исчерпание емкости хранилища.
- 4 марта 2026 г. – 17:28: Команда инженеров по системам хранения данных начинает процедуру аварийного восстановления емкости.
- 4 марта 2026 г. – 17:40: Операции записи восстановлены, и затронутые виртуальные машины начинают восстанавливаться.
- 4 марта 2026 г. – 18:00: Функциональность платформы проверена с помощью системных тестов.
- 4 марта 2026 г. – 18:59: Оставшиеся виртуальные машины восстановлены, инцидент завершен.
Первопричина
Инцидент произошел из-за временного скачка использования хранилища, вызванного одновременно двумя событиями. После перезапуска системы хранения во время технического обслуживания запустился автоматизированный процесс перераспределения данных, временно увеличивший использование хранилища, пока данные перебалансировались между узлами.

В то же время, необычно высокая активность записи со стороны рабочей нагрузки привела к дополнительному расходованию емкости хранилища. Поскольку кластер уже работал с относительно высокой загрузкой, совокупный эффект вывел использование хранилища за пределы безопасного порога системы. В результате платформа хранения автоматически заблокировала операции записи для защиты целостности данных, что привело к сбоям дискового ввода-вывода в виртуальных машинах, использующих затронутое хранилище.

Пункты плана действий
- Внедрите обязательный этап проверки перед техническим обслуживанием, чтобы гарантировать отключение или контроль механизмов автоматического перераспределения данных во время перезапуска или обновления служб хранения данных.
- В процедуры технического обслуживания следует включить механизмы защиты от превышения допустимых значений емкости хранилища, чтобы предотвратить выполнение модернизации в случае, если использование хранилища превышает безопасные эксплуатационные пороги.
- Увеличьте доступную емкость хранилища в затронутом регионе, чтобы обеспечить достаточный запас для фоновых операций с данными и пиковых нагрузок.
- Проанализируйте оперативные процедуры планирования работ по техническому обслуживанию, чтобы обеспечить достаточную пропускную способность системы и прозрачность процесса модернизации.
Решено
4 марта 2026 в 19:28 GMT+0UTC
Решено
4 марта 2026 в 19:28 GMT+0UTC
Мы рады сообщить вам, что крупный сбой в работе наших облачных сервисов в Амстердаме устранен. Однако, если у вас сохранятся какие-либо проблемы, пожалуйста, не стесняйтесь обращаться в нашу службу поддержки. Наша команда с удовольствием поможет вам и обеспечит оперативное решение любых дальнейших вопросов.
Мы ценим ваше терпение и понимание на протяжении всего инцидента и благодарим вас за сотрудничество.
В настоящее время проводится подготовка официального анализа первопричин (RCA), который будет опубликован после его завершения.
Для получения дополнительной помощи, пожалуйста, свяжитесь с нашей службой поддержки по адресу support@gcore.com.
Мониторинг
4 марта 2026 в 18:00 GMT+0UTC
Мониторинг
4 марта 2026 в 18:00 GMT+0UTC
Мы рады сообщить вам, что наша инженерная команда внедрила исправление для устранения масштабного сбоя в работе облачного сервиса. Однако мы продолжаем внимательно следить за ситуацией, чтобы обеспечить стабильную работу.
Мы сообщим вам о результатах, как только подтвердим полное устранение проблемы.
Определено
4 марта 2026 в 17:32 GMT+0UTC
Определено
4 марта 2026 в 17:32 GMT+0UTC
Мы продолжаем работать над устранением этой проблемы.
Обновление
4 марта 2026 в 17:10 GMT+0UTC
Обновление
4 марта 2026 в 17:10 GMT+0UTC
В настоящее время мы проводим расследование этого инцидента.
Изучается
4 марта 2026 в 16:47 GMT+0UTC
Изучается
4 марта 2026 в 16:47 GMT+0UTC
В настоящее время в нашей облачной службе произошел масштабный сбой, в результате которого сервис полностью недоступен. Мы приносим искренние извинения за любые неудобства, которые это может вызвать, и высоко ценим ваше терпение и понимание в это критическое время.
Наша инженерная команда активно работает над выявлением первопричины и скорейшим внедрением решения. Мы будем регулярно предоставлять обновления по мере получения дополнительной информации о ходе решения проблемы.
Благодарим вас за понимание и сотрудничество.

Gcore - Облачные технологии | Подробности инцидента в Амстердаме – Детали инцидента

Все системы работают

Облачные технологии | Подробности инцидента в Амстердаме