로블록스 장애 디브리핑(Roblox Return to Service 10/28-10/31 2021)

로블록스는 2021년 10월 28일부터 10월 31일까지 73시간의 장애 대한 디브리핑을 하고 자사 블로그에 공개했습니다.


최근의 개선사항과 계획된 작업들 중 인상적인 내용 몇가지를 기록합니다.

모니터링 시스템 개선

모니터링 시스템이 메인 시스템 간 순환 종속성 제거했습니다. 메인 시스템 장애가 모니터링 시스템 장애로 이어졌고, 그로 인해 장애 원인를 찾을 데이터를 빠르게 확보할 수 없었음

장애의 주 원인(Consul and BoltDB) 모니터링 시스템을 확장했습니다.

서비스 시작과 설정 관리방식 개선

서비스 재시작 시 서비스에 필요한 캐시 배치, 웜업을 위해 서비스 복구가 느려졌습니다. 이 프로세스를 자동화하고 오류가 덜 발생하게 하기 위해 도구와 프로세스를 개발하고 있습니다. 특히 캐시 배포 매커니즘을 재설계했습니다.


관련 링크