Gcore - 클라우드 | 네트워크 사고 세부 정보 – 사건 세부 정보

모든 시스템이 정상입니다

클라우드 | 네트워크 사고 세부 정보

해결됨
심각한 장애
시작 20일 전지속됨 40분

영향받음

구름

심각한 장애 ~에서 8:29 AM ~ 8:39 AM, 정상 ~에서 8:29 AM ~ 8:39 AM, 부분 장애 ~에서 8:39 AM ~ 8:44 AM, 정상 ~에서 8:44 AM ~ 12:00 AM

네트워킹

심각한 장애 ~에서 8:29 AM ~ 8:39 AM, 정상 ~에서 8:29 AM ~ 8:39 AM, 부분 장애 ~에서 8:39 AM ~ 8:44 AM, 정상 ~에서 8:44 AM ~ 12:00 AM

알마티

정상 ~에서 8:29 AM ~ 8:39 AM, 부분 장애 ~에서 8:39 AM ~ 8:44 AM, 정상 ~에서 8:44 AM ~ 12:00 AM

암스테르담

심각한 장애 ~에서 8:29 AM ~ 8:39 AM, 부분 장애 ~에서 8:39 AM ~ 8:44 AM, 정상 ~에서 8:44 AM ~ 12:00 AM

바쿠

정상 ~에서 8:29 AM ~ 8:39 AM, 부분 장애 ~에서 8:39 AM ~ 8:44 AM, 정상 ~에서 8:44 AM ~ 12:00 AM

시카고

정상 ~에서 8:29 AM ~ 8:39 AM, 부분 장애 ~에서 8:39 AM ~ 8:44 AM, 정상 ~에서 8:44 AM ~ 12:00 AM

업데이트
  • 사후 분석
    사후 분석

    최근 서비스 중단으로 인해 불편을 드려 진심으로 사과드립니다. 저희는 신뢰성과 고객 서비스에 대한 헌신을 최우선으로 생각하며, 고객 여러분께서 겪으신 어려움에 대해 진심으로 사과드립니다. 아래는 사고에 대한 자세한 근본 원인 분석(RCA)입니다.

    문제:

    Gcore 클리닝 센터의 BGP 경로 누출로 인해 클라우드, 베어메탈, WAAP 서비스를 이용할 수 없게 되었습니다.

    타임라인:

    2025년 4월 11일 07:32 (UTC) - 한 클라이언트에 대한 집계 주소 기능 출시가 시작되었습니다. Hiera-yaml 변경 사항이 커밋되었습니다.

    2025년 4월 11일 07:51(UTC) - Puppet이 변경되어 마스터 브랜치에 병합되었습니다.

    2025년 4월 11일 08:11(UTC) - 영향이 시작되었으며, 고객들이 문제를 보고하기 시작했습니다.

    2025.04.11 08:18 (UTC) - 조사 시작

    2025년 4월 11일 08:25(UTC) - 긴급 컨퍼런스 콜 시작, 엔지니어 및 핵심 팀원 조사 위해 소집

    2025년 4월 11일 08:28 (UTC) - 근본 원인이 확인되었고 롤백을 위한 준비가 시작되었습니다.

    2025년 4월 11일 08:32(UTC) - 완화 조치 시작

    11.04.2025 08.38 (UTC) - 충격 종료

    근본 원인:

    • 클라우드, 베어메탈 및 WAAP는 위협 완화 시스템(TMS)에 의해 해당 트래픽이 차단되어 일부 사용할 수 없었습니다.

    • TMS 서버에서 Gcore의 네트워크 접두사를 발표하기 시작했습니다.

    • TMS 에이전트가 노드 frr 구성에 잘못된 접두사를 전달했습니다.

    • TMS는 customer.<customer_id>.prefixes 필드를 살펴보고 정의된 각 접두사 xxxxx/32에 대해 집계 prefix_agg = xxxx0/24를 생성하고 템플릿을 렌더링했습니다.

    ◦ 액체 오류: 알 수 없는 운영자입니다.

    ◦ 이 로직은 공유 클라우드 네트워크에서 고객 IP(/32)를 선택하고, DDoS 구성이 없는 TMS에서 더 넓은 접두사(/24)를 할당했습니다. 따라서 트래픽이 차단되었습니다(기본 정책).

    • 잘못된 동작이 전 세계적으로 확산되었습니다.

    • 사전 프로덕션 네트워크에서 잘못된 동작이 감지되지 않았습니다.

    • TMS 노드에서 패킷 손실에 대한 경고를 받지 못했습니다.

    ◦ "Mellanox XDP 카운터: 오류" 카운터에 대한 알림이 누락되었습니다(2025.04.17에 추가될 예정입니다)

    영향:

    일부 고객과 서비스 클라우드 계정이 영향을 받았습니다. 다운타임은 약 30분 정도 소요되었습니다.

    작업 항목:

    • 테스트 프로세스의 변경 사항 구현

    ◦ [향후 업데이트 알림] prod 및 preprod에서 TMS 에이전트를 업데이트하여 모든 사람이 업데이트를 볼 수 있도록 합니다.

    ◦ [전체 테스트 흐름 확인] BGP 테스트를 위한 샌드박스 구축

    • 카나리아 배포

    ◦ [기능을 일시적으로 활성화] sifter-agent에 대한 기능 플래그를 사용하여 5~10분 동안 기능을 활성화한 다음 대시보드를 확인합니다(puppet을 사용하는 것보다 빠름).

    ◦ [영향 감소] client_id뿐만 아니라 보다 안전한 지역(예: WA2 위치)에서 더 제한적인 방식으로 카나리아 업데이트를 롤아웃합니다.

    ◦ [관찰성 증가] 트래픽이 있는 대시보드에 커밋 주석을 추가하여 무언가가 발생했을 때 확인할 수 있습니다.

    • 절차 및 정책 개선

    ◦ [영향 감소] 체질제에 대한 시험 절차를 업데이트합니다.

    ◦ [영향 감소] 시프터 구성에 포함되지 않은 모든 네트워크를 필터링하는 아웃바운드 접두사 목록을 만듭니다.

    ◦ [관찰성 개선] "Mellanox XDP 카운터: 오류" 카운터에 대한 알림이 누락되었습니다.

    다시 한번 불편을 끼쳐드려 죄송합니다. 이 사건에 대해 양해해 주시고, 협조해 주셔서 진심으로 감사드립니다.

    추가 지원이 필요하거나 우려 사항이 있으시면 support@gcore.com 으로 지원팀에 문의해 주시기 바랍니다.

  • 해결됨
    해결됨

    클라우드 서비스의 네트워크 문제가 해결되었음을 알려드립니다. 향후 며칠 내에 근본 원인 분석(RCA) 보고서를 통해 사고 원인과 향후 재발 방지를 위해 취한 조치를 이해하실 수 있도록 도와드리겠습니다. 문제가 지속될 경우 언제든지 지원팀에 문의해 주세요. 저희 지원팀에서 최선을 다해 도와드리고, 추가 문의 사항이 있으시면 신속하게 처리해 드리겠습니다.

    이 사건 내내 귀하의 인내와 이해에 감사드리며, 협조에 감사드립니다.

    추가 지원이 필요하면 support@gcore.com 으로 지원팀에 문의하세요.

  • 모니터링 중
    모니터링 중

    엔지니어링 팀에서 클라우드 서비스의 네트워크 문제를 해결하기 위한 수정 작업을 완료했다는 소식을 전해드리게 되어 기쁩니다. 하지만 안정적인 성능을 보장하기 위해 상황을 계속 예의주시하고 있습니다.

    문제가 완전히 해결되었다는 것이 확인되면 즉시 업데이트를 제공해 드리겠습니다.

  • 확인됨
    확인됨

    우리는 근본 원인을 파악했으며 문제 해결을 위해 계속 노력하고 있습니다.

  • 조사 중
    조사 중

    현재 여러 지역에서 네트워크 성능이 크게 저하되어 네트워크 이용이 전면 중단될 수 있습니다. 불편을 드려 진심으로 사과드리며, 이 중요한 시기에 양해와 양해를 부탁드립니다.

    저희 엔지니어링 팀은 근본 원인을 파악하고 최대한 빨리 해결책을 마련하기 위해 적극적으로 노력하고 있습니다. 해결 진행 상황에 대한 추가 정보가 입수되는 대로 정기적으로 업데이트를 제공해 드리겠습니다.

    귀하의 이해와 협조에 감사드립니다.