최근 서비스 중단으로 인해 불편을 드려 진심으로 사과드립니다. 저희는 신뢰성과 고객 서비스에 대한 헌신을 최우선으로 생각하며, 고객 여러분께서 겪으신 어려움에 대해 진심으로 사과드립니다. 아래는 사고에 대한 자세한 근본 원인 분석(RCA)입니다.
문제:
Gcore 클리닝 센터의 BGP 경로 누출로 인해 클라우드, 베어메탈, WAAP 서비스를 이용할 수 없게 되었습니다.
타임라인:
2025년 4월 11일 07:32 (UTC) - 한 클라이언트에 대한 집계 주소 기능 출시가 시작되었습니다. Hiera-yaml 변경 사항이 커밋되었습니다.
2025년 4월 11일 07:51(UTC) - Puppet이 변경되어 마스터 브랜치에 병합되었습니다.
2025년 4월 11일 08:11(UTC) - 영향이 시작되었으며, 고객들이 문제를 보고하기 시작했습니다.
2025.04.11 08:18 (UTC) - 조사 시작
2025년 4월 11일 08:25(UTC) - 긴급 컨퍼런스 콜 시작, 엔지니어 및 핵심 팀원 조사 위해 소집
2025년 4월 11일 08:28 (UTC) - 근본 원인이 확인되었고 롤백을 위한 준비가 시작되었습니다.
2025년 4월 11일 08:32(UTC) - 완화 조치 시작
11.04.2025 08.38 (UTC) - 충격 종료
근본 원인:
• 클라우드, 베어메탈 및 WAAP는 위협 완화 시스템(TMS)에 의해 해당 트래픽이 차단되어 일부 사용할 수 없었습니다.
• TMS 서버에서 Gcore의 네트워크 접두사를 발표하기 시작했습니다.
• TMS 에이전트가 노드 frr 구성에 잘못된 접두사를 전달했습니다.
• TMS는 customer.<customer_id>.prefixes 필드를 살펴보고 정의된 각 접두사 xxxxx/32에 대해 집계 prefix_agg = xxxx0/24를 생성하고 템플릿을 렌더링했습니다.
◦ 액체 오류: 알 수 없는 운영자입니다.
◦ 이 로직은 공유 클라우드 네트워크에서 고객 IP(/32)를 선택하고, DDoS 구성이 없는 TMS에서 더 넓은 접두사(/24)를 할당했습니다. 따라서 트래픽이 차단되었습니다(기본 정책).
• 잘못된 동작이 전 세계적으로 확산되었습니다.
• 사전 프로덕션 네트워크에서 잘못된 동작이 감지되지 않았습니다.
• TMS 노드에서 패킷 손실에 대한 경고를 받지 못했습니다.
◦ "Mellanox XDP 카운터: 오류" 카운터에 대한 알림이 누락되었습니다(2025.04.17에 추가될 예정입니다)
영향:
일부 고객과 서비스 클라우드 계정이 영향을 받았습니다. 다운타임은 약 30분 정도 소요되었습니다.
작업 항목:
• 테스트 프로세스의 변경 사항 구현
◦ [향후 업데이트 알림] prod 및 preprod에서 TMS 에이전트를 업데이트하여 모든 사람이 업데이트를 볼 수 있도록 합니다.
◦ [전체 테스트 흐름 확인] BGP 테스트를 위한 샌드박스 구축
• 카나리아 배포
◦ [기능을 일시적으로 활성화] sifter-agent에 대한 기능 플래그를 사용하여 5~10분 동안 기능을 활성화한 다음 대시보드를 확인합니다(puppet을 사용하는 것보다 빠름).
◦ [영향 감소] client_id뿐만 아니라 보다 안전한 지역(예: WA2 위치)에서 더 제한적인 방식으로 카나리아 업데이트를 롤아웃합니다.
◦ [관찰성 증가] 트래픽이 있는 대시보드에 커밋 주석을 추가하여 무언가가 발생했을 때 확인할 수 있습니다.
• 절차 및 정책 개선
◦ [영향 감소] 체질제에 대한 시험 절차를 업데이트합니다.
◦ [영향 감소] 시프터 구성에 포함되지 않은 모든 네트워크를 필터링하는 아웃바운드 접두사 목록을 만듭니다.
◦ [관찰성 개선] "Mellanox XDP 카운터: 오류" 카운터에 대한 알림이 누락되었습니다.
다시 한번 불편을 끼쳐드려 죄송합니다. 이 사건에 대해 양해해 주시고, 협조해 주셔서 진심으로 감사드립니다.
추가 지원이 필요하거나 우려 사항이 있으시면 support@gcore.com 으로 지원팀에 문의해 주시기 바랍니다.