본문 바로가기

새로운 소식

블로거분들께 사과드리며, 앞으로 더 노력하겠습니다!

안녕하세요. TISTORY 입니다.

지난 10일 DB점검 작업 이후 주말부터 갑작스럽게 1주일동안 서비스가 불안정한 모습을 자주 보였습니다. 이에 따라 티스토리에 방문하셨던 분들이 블로그에 접속이 제한되거나 불안정하여 많은 불편을 경험하시고 실망을 하셨으리라 생각되어 마음이 너무 아픕니다. 서비스 이용 중 불편함과 심려를 끼쳐드려 회원 여러분들께 진심으로 고개숙여 사과의 말씀 드립니다.

티스토리의 불안정한 모습과 관련하여 팀 전체가 원인 분석과 또한 더 나은 서비스를 제공해드리기 위한 고민을 함께 나누었습니다. 앞으로 어떠한 노력을 통하여 이러한 문제를 해결해 나갈 지에 대하여 회원 여러분들께 솔직하게 내용을 공유드리려고 합니다. 작업 진행을 통하여 조금씩 나아지는 모습을 지켜봐주시길 바라오며, 따뜻한 격려 한마디도 부탁드리겠습니다.



   티스토리 이용 불안    

  • 4월 11일 토요일 새벽 장애 발생 (41분간) : 갑작스러운 'Forbidden' 이라는 페이지가 발생한 것은 블로거 분께서도 지적해 주신바 있지만 새벽 DB 점검 작업을 마치고 서비스를 정상화하기 위한 최종 작업을 하는 과정에서 실수가 발생하였기 때문입니다. 서비스 장애가 발생하고 난 후, 마지막 작업 과정에서 실수가 있었다는 것을 확인하였으며 장애 발생 후 42분 후 정상화되었습니다. 다시 한번 실수로 인하여 피해를 드리게 된 점 진심으로 사과의 말씀드립니다. 개발팀에서 최종 배포 작업 시에 더 꼼꼼하게 확인 목록을 작성하여 실수가 일어나지 않도록 프로세스 및 모니터링 시스템을 강화해 나갈 예정입니다.
  • 4월 12일 일요일 오후 및 자정 장애 발생 (10분간) : 갑작스럽게 DB 부하가 발생하면서 일시적으로 페이지 로딩을 하는 과정에서 실패가 발생한 것으로 파악되었습니다. 다만 11일 정상화 작업을 진행하는 도중 안내 페이지를 기존 버전으로 돌려놓지 않아 10일 점검 작업 메시지가 노출되었는데, 잘못된 안내 메시지로 인하여 혼란을 겪으셨을 여러분들께 사과의 말씀드립니다.
  • 4월 13일 월요일 오전 장애 발생 (10분간) : 일요일에 발생하였던 유형과 유사한 패턴의 DB 부하로 인하여 일시적으로 페이지 로딩 실패하는 건 수가 갑자기 증가하여 공지 블로그를 비롯하여 많은 개별 블로그 접속이 원활하지 않은 문제가 발생하였습니다. 이에 따라 DB 부하를 초래하는 모든 요소들을 모두 모니터링하였으며, 일부 직접적인 문제가 될 수 있는 부분들을 제거함에 따라 정상화 되었습니다.
  • 4월 16일 오후 DNS 서버 장애 (약 50분간): 일부 블로그 이용자의 지역 환경에 따른 접속 문제로 인하여 DNS 서버를 확장하는 과정에서 일부 블로거분들께서 DNS 서버에 접근이 어려워 블로그에 따라 접속이 되었다가 되지 않았다가 하는 모습을 보였습니다. DNS 서버 복구를 통하여 해결하였습니다.
  • 4월 17일 새벽 권한 설정 장애 (약 1시간) : 팀블로그 및 몇 가지 권한설정과 관련하여 정책을 정리하고 배포하는 과정에서 일부 오류가 발생함에 따라 공지블로그 및 일부 블로그의 비밀댓글이 로그인을 한 상태인 다른 티스토리 이용자들에게 보였습니다. 고객센터 및 공지의 신고에 따라 오류 처리가 되었사오나, 이 오류로 인하여 피해를 입으신 분들이 없도록 더욱 주의를 기울이도록 하겠습니다.


   이렇게 해결하겠습니다!    

이번 장애들을 보면서 티스토리 서비스 시스템이 안고 있었던 불안전 요소들을 확인함과 동시에, 일부 배포 과정에서 실수가 있었던 것 같습니다. 아래와 같이 프로세스와 모니터링을 강화함으로써 불편을 최소화하고, 문제가 발생할 수 있는 요인들을 근절할 수 있도록 노력하겠습니다.

  • 배포 프로세스 및 모니터링 강화 : 티스토리 서비스와 관련하여 배포가 이루어질 때에 더 많은 테스트를 진행하는 것은 물론 배포 진행 및 완료 과정에서 일어날 수 있는 모든 경우의 수를 파악하여 '체크리스트'를 더욱 세분화하여 작업하여 가이드를 정리를 진행하여 실수를 최소화하도록 노력함은 물론, 배포 이후의 실서비스에서 문제가 발생할 경우 즉각 처리할 수 있도록 모니터링을 강화할 예정입니다. 또한 긴급 상황을 제외한 모든 경우에 대하여 배포는 문제 발생 최소화를 위하여 가장 트래픽이 적은 새벽에 진행될 예정입니다.
  • 자동 모니터링 시스템 강화 : 현재 티스토리에는 네트워크나 DB 현황을 알 수 있도록 모니터링 시스템이 있으나, 이번처럼 일부 블로그에 잠시동안 발생하는 경우 장애 현황 등을 놓치기 쉬운 부분이 있는 것 같아, 분단위 이하로 모니터링을 하여 장애 발생 여부를 알아낼 수 있도록 모니터링 툴을 업그레이드 할 예정입니다. 
  • DB 부하 요소 제거 : 이번 서비스 장애를 통하여 티스토리가 처음 만들어졌을 당시부터 아주 미세하게 발생하였던 DB 부하를 초래하는 요소가 있었으나, 그 범위와 장애 시간이 원인을 규명하기에는 매우 짧거나 어려운 점이 많았습니다. 다만, 이번 장애를 통하여 다량의 실패 요인들을 종합적으로 분석하여 원인 파악에 많은 도움이 되었습니다.


이 밖에 DB 부하 뿐만 아니라, 서비스 이용 상에 불편함을 초래할 수 있는 요인들을 지속적으로 해결하기 위하여 원인과 해결책을 강구하고 있습니다. 늘 변함없이 여러분들에게 최상의 조건에서 블로그 서비스를 이용할 수 있도록 노력하고 있으나, 아직 모자란 모습이 많은 것 같습니다. 늘 좋은 서비스로 보답하기 위하여 늘 최선을 다하는 티스토리가 되기 위하여 최선을 다하겠습니다. 

불편과 심려를 끼쳐드려 다시 한번 티스토리를 이용해주시는 모든 분들께 사과의 말씀과 함께, 늘 포기하지 않으시고 격려와 배려를 해주시는 티스토리 블로거 여러분들께도 진심으로 감사의 말씀 전합니다.

더 많이 노력하겠습니다!