Xplenty의 장애전달에 대하여

서문

Xplenty는 클라우드 상에서 운영되는 서비스이며, 다른 SaaS와 마찬가지로 매일 다양한 인프라와 운영 시스템을 수정하고 개선하고 있습니다.
하지만 시스템 운영에서 피할 수 없는 사항이 있는면 바로 장애입니다.

클라우드 상에서 운영되는 시스템에서도 장애는 반드시 발생한다고 해도 과언이 아닐 정도로 피할 수 없는 일이며, 아무리 장애 대응력이 높아졌다고 해도 다양한 곳에서 장애는 여전히 발생하고 있습니다.
많은 시스템들은 장애 발생을 알려주는 시스템을 구축하여 고객이 사용하는 시스템에 이상 움직임이 있을 때 고객이 사용하는 시스템에 비정상적인 움직임이 있음을 알리도록 하고 있습니다.

사실 Xplenty에서도 이러한 Xplenty의 장애를 알려주는 페이지가 있습니다.
소개가 많이 늦어졌지만, 이번 글에서는 장애 알림 페이지에 대해 이야기해보려고 합니다.

Xplenty Platform Status의 소개

먼저 Xplenty의 장애 알림 페이지를 Xplenty Platform Status(줄여서 스테이터스 페이지)라고 부릅니다.

위의 URL을 웹브라우저로 접속하면 이미지와 같은 화면이 나타난다.
Xplenty Platform Status를 통해 현재 Xplenty의 가동 상황을 한눈에 파악할 수 있으며, 장애 발생 시 장애 대상 시스템과 장애 정도를 알 수 있습니다.

Xpelnty Platform Status의 상세 기능 알아보기

Xpelnty Platform Status는 크게 5가지 기능으로 나뉘어져 있습니다.
소개에서 보신 이미지에는 각 기능에 번호를 부여해 놓았으니, 그에 따라 설명드리겠습니다.

1. 장애 알림 알림 수신자 등록(Subscribe To Updates)

이 기능은 Xpelnty Platform Status에 장애 알림을 받을 대상을 등록하는 기능입니다. Xplenty의 운영팀에서 Xplenty 관련 장애 알림 등록이 이루어지면, 해당 알림은 이 등록 채널에서 해당 알림을 받게 됩니다. 지금까지 Xpelnty 장애를 확인한 후 각각의 클라이언트에게 연락 채널을 운영하던 고객분들께는 매우 편리한 기능이라고 생각합니다.
채널 종류는 보시는 바와 같이 왼쪽부터 전자메일(권장), 전화, Web Hook, X(구 트위터), Rss Feed의 순서로 이용할 수 있습니다.

저희 쪽에서 추천하는 방법은 역시 전자메일입니다.
고객사의 메일링 리스트 주소를 등록해 두면 메일링 리스트 관리만으로 관계자에게 장애 알림 알림이 완료됩니다.
thumbnail image

이 기능을 잘 활용하셔서 Xplenty의 장애 알림 알림에 도움이 되셨으면 좋겠습니다.

2. 장애 상황 알림 배너

Xplenty의 전체 시스템에 이상이 없으면 녹색의 All Systems Operational이 표시됩니다. 장애가 등록되면 해당 장애의 내용이 배너로 이 부분에 표시됩니다.

  • 정상 시의 배너 표시
    thumbnail image
  • 장애 발생 시의 배너 표시
    thumbnail image

3. 각 서브시스템에 대한 90일간의 가동 현황 그래프

API, Web Application, Infrastructure, Support, Service Hooks, Integrations의 서브시스템별 가동 상황과 장애 상황을 한눈에 파악할 수 있습니다.
각 서브시스템을 열면 아래와 같이 보다 자세한 시스템 가동 현황을 확인할 수 있으니, 꼭 활용해 보시기 바랍니다.
thumbnail image
녹색 이외의 색으로 표시된 부분에 커서를 올리면 아래 그림과 같이 장애 발생일, 장애 발생부터 복구까지의 시간, 장애 정도, 관련 장애의 제목을 알 수 있습니다.
thumbnail image
가동 상태에 따른 색상 구분은 아래를 참고하시기 바랍니다.

색    상 설    명
thumbnail image 정상 가동, 오류 없음
thumbnail image 20분 이하 이상, 서비스 수준 하락
thumbnail image 20~40분 이상, 소규모 시스템 장애
thumbnail image 40분 이상 이상, 대규모 시스템 장애

4. 장애 대응 현황(Past Incidents)

이 부분은 발생한 장애에 대한 과거와 현재의 장애 대응이 표시되는 부분이다.
장애가 없는 날에는 'No incidents reported.'로 표기되지만, 장애 등록 후 상황 업데이트가 이루어진 경우 아래 그림과 같이 해당 상황별(Investigation -> [Monitoring <-> Updated] -> Resolved) 보고서 내용이 표시됩니다. 내용이 표시됩니다.
thumbnail image

5. 장애 대응 이력(Incident History)

Incident History 링크를 클릭하면 Incidents와 Uptime 두 개의 탭이 나타납니다.

  • Incidents 탭
    이번 달부터 3개월마다 발생한 장애(Incidents)를 정리하여 보여줍니다. 오른쪽 상단의 좌우 화살표를 클릭하면 3개월간의 장애를 확인할 수 있습니다.
    thumbnail image
  • Uptime 탭
    이번 달부터 3개월마다 시스템의 정상 가동 상황을 한눈에 볼 수 있는 탭입니다. 이 탭 역시 우측 상단의 좌우 화살표를 클릭하여 3개월간의 가동 현황을 확인할 수 있습니다.
    thumbnail image

또한, 아래 그림과 같이 좌측의 드롭다운을 통해 서브시스템별 가동 현황도 구분하여 확인할 수 있습니다.

thumbnail imagethumbnail image

맺음말

소개가 조금 길어진 것 같지만, 이것으로 Xplenty 플랫폼 현황에 대해 전반적으로 살펴보았다.
특히 장애 알림 알림 수신자 등록(Subscribe To Updates)은 고객에 따라서 다양한 활용이 가능하리라 생각되니, 꼭 활용해 보시기 바랍니다.

꼭 고객님께서 직접 Xplenty 플랫폼 상태를 조작해 보시길 권해드립니다.