tag: outage

2020년 3월 6일 쿠키런: 킹덤 긴급점검

created: 2021-03-07 | updated: 2022-02-06
쿠키런: 킹덤 긴급점검이 있었습니다. 접속자 수 증대와 함께 증가하는 부하를 개선했는데, 어떤 작업이 있었는지 궁금합니다. 개요 업데이트를 위한 점검(06:00~11:00) 점검 내용: 길드 시스템, 신규 쿠키 추가 및 오류사항 수정 등 15:00시 서버 안정화를 위한 긴급 점검 시작 갑작스러운 이용자 수 증가가 원인이라고 공지 22:00시 긴급 점검 완료 채용공고에서 흥미로운 부분 우대조건에 아래와 같은 내용이 있는데 어떤 마음인지 알 것 같습니다. try-catch 와 null 에 현실자각타임이 오신 분

2020년 2월 19일 쿠키런: 킹덤 장기 점검(AWS)

created: 2021-02-21 | updated: 2022-02-06
개요 2월 19일(금) 23:22 ~ 2월 20(토) 19:00 까지 쿠키런: 킹덤 긴급 점검이 있었습니다. 원인 아마존웹서비스 장애로 인한 긴급 점검이라고 안내하고 있습니다. 특이사항 동일한 원인(AWS 도쿄 리전 장애)으로 의심되는 리그 오브 레전드의 경우 2월 20일 00:45 에 정상화되었는데, 왜 19:00 까지 점검이 지속되었는지 궁금합니다. 아마 서버 아키텍처의 유연성 차이 또는 데이터베이스의 HA 구성 차이일 것으로 짐작됩니다. 참고자료 쿠키런: 킹덤 [안내] 아마존 웹서비스 데이터센터의 장애 발생 안내(정상화): https://cafe.naver.com/crkingdom/343860 쿠키런: 킹덤 [안내] 아마존 웹서비스 장애 정상화 및 서버 오픈 안내(2/20, 19:00): https://cafe.

로블록스 장애 디브리핑(Roblox Return to Service 10/28-10/31 2021)

created: 2021-02-06 | updated: 2022-02-06
로블록스는 2021년 10월 28일부터 10월 31일까지 73시간의 장애 대한 디브리핑을 하고 자사 블로그에 공개했습니다. 최근의 개선사항과 계획된 작업들 중 인상적인 내용 몇가지를 기록합니다. 모니터링 시스템 개선 모니터링 시스템이 메인 시스템 간 순환 종속성 제거했습니다. 메인 시스템 장애가 모니터링 시스템 장애로 이어졌고, 그로 인해 장애 원인를 찾을 데이터를 빠르게 확보할 수 없었음 장애의 주 원인(Consul and BoltDB) 모니터링 시스템을 확장했습니다. 서비스 시작과 설정 관리방식 개선 서비스 재시작 시 서비스에 필요한 캐시 배치, 웜업을 위해 서비스 복구가 느려졌습니다.

2020년 1월 25일 쿠키런: 킹덤 장기 점검

created: 2021-01-28 | updated: 2022-02-06
개요 쿠키런: 킹덤이 오픈 후 알 수 없는 이유로 오랜 시간 점검하였음 총 점검 시간: 39시간 40분(2021-01-25 16:50:00 ~ 2021-01-25 03:30:00) 원인 기술적인 원인은 공개하지 않았음 나중에라도 데브시스터즈에서 공유해주시면 흥미로울 것 같음 여러분께 <쿠키런: 킹덤>을 선보이며 여러 가지 상황에 대비할 준비를 해왔지만 이번에 발생한 오류는 예상치 못한 치명적인 문제였고, 킹덤팀에서도 오랜 시간을 들여 수정하게 되었습니다. 점검 보상 크리스탈 12,000개 스태미너 젤리 50개 킹덤 아레나 티켓 30개 코인 50,000개 가속원 30분 5개 경험의 별사탕 레벨 4 100개 긴급 점검 보상은 2021년 1월 25일(월) 점검 전까지 생성된 계정에 한하여 지급됩니다.