2018년 10월 30일 사용자 스토리

Elastic Stack을 사용한 CitiGroup 중앙집중식 데이터베이스 모니터링

By Daniel Cecil

이 포스팅은 Elastic{ON} 2018에서 이루어진 커뮤니티 대담을 요약한 것입니다. 이런 대담을 좀더 보고 싶으세요? 컨퍼런스 아카이브를 확인하시거나 Elastic{ON} 투어가 가까운 도시에서 개최되는지 알아보세요.

100여 개국에 진출해 있고 160여 개국에서 클라이언트를 보유하고 있는 CitiGroup은 여러 비즈니스 애플리케이션 팀으로 이루어진 대규모 글로벌 운영 인프라를 갖추고 있습니다. 이들은 비즈니스 규모와 복잡한 인프라 때문에 IT 측면에서 여러 가지 어려움에 직면하고 있습니다. 비즈니스 확장, 비즈니스 복원력, IT 유연성, 자산 활용성, IT 도구화, 새로운 기술과 같은 모든 것들이 CitiGroup IT팀에게 (더 적은 비용으로) 더 효율적인 업무 처리를 하라고 강요하고 있습니다.

여러 팀들이 어떤 IT 도구를 사용할 지는 CitiGroup이 직면한 가장 큰 어려움 중 하나라는 것이 드러났습니다. 모든 팀은 소프트웨어 배포 자동화, 새로운 배포 환경, 단일 목적 도구 대신 다목적 도구를 사용하는 것과 같은 새로운 비즈니스 추세에 적응해야 합니다. CitiGroup IT 팀들은 방대한 기술적 문제 뿐 아니라, IT 인프라 내에서 사용하는 여러 도구의 활용성과 이 도구들로 얻은 비즈니스 혜택에 대해 점점 더 많은 것을 알고 싶어하는 CitiGroup 최고 경영진의 질문에도 답변해야 합니다.

전체 프로세스를 관리하기 위해 CitiGroup은 많은 데이터가 필요했습니다. 서로 다른 나라에 흩어져 있는 여러 팀에서 발생하는 데이터로 전체 인프라 모니터링 현황을 표현할 방법이  없었습니다. 이 정보는 Citi Management가 도구, 인프라 및 운영 환경을 개선하기 위해 필요한 정보인데도 말이죠.  그래서 이들은 스택 전체에 걸쳐 현재 도구 성능과 새로운 도구 성능을 추적 및 모니터링하고, 이해하기 쉬운 보고서를 경영진에게 제공할 수 있는 통합 모니터링 시스템 구축에 착수했습니다.

CitiGroup은 다음 사항이 모두 가능한 통합 모니터링 시스템이 필요했습니다.

  • 중앙집중식 데이터 저장소 활용
  • 에이전트 설정
  • 도구 라이선스 지원 비용 절감
  • 데이터 거버넌스 통합 및 집중화

Elastic Stack을 이용한 개발

CitiGroup은 Elastic Stack을 사용하기로 결정합니다. IT 팀들은 고급 검색 분석이 이들에게 필요한 종류의 아키텍처를 설정하는데 큰 역할을 하게 되리라는 것을 알았기 때문입니다. 예를 들어, 도구 성능 모니터링만 해도 인프라는 메트릭, 이벤트, 로그(은행 전체에 걸쳐 하루에 약 9천만 건의 문서)를 수집해야 했습니다. Elasticsearch는 이 모든 데이터를 한 장소로 모아 저장하고 검색 가능하도록 만드는 쉬운 방법을 제공했습니다. Elasticsearch를 사용해 CitiGroup은 검색과 시각화 목적으로 30일 동안 정보를 저장하게 될 효과적인 기본 데이터 저장 공간 클러스터를 개발했습니다. 데이터가 저장된 상태로 30일이 넘으면 Elasticsearch는 자동화된 스냅샷을 이용해 데이터를 저렴한 비용의 온프레미스 객체 저장소로 내보냈습니다.

citigroup-datastorage.png

또한, CitiGroup은 SOC와 감사 적발사항에 대응하기 위해 필요한 다양한 유스케이스와 접근 제한 수준을 반영하는 인덱스를 설계할 필요가 있었습니다. Elasticsearch는 데이터 거버넌스를 위해 IT 팀이 데이터를 그룹화하고 표준화된 네이밍 체계를 제공하여 역할 기반 접근 제어와 인증을 정의할 수 있도록 했습니다. Elasticsearch는 또한 API를 호출하여 데이터를 검색하고, 다른 부서들이 추가 분석할 수 있도록 로컬 시스템으로 보내는 권한을 비즈니스 팀들에게 제공하였습니다. 사내 API의 도움으로 CitiGroup의 IT 팀들과 경영진은 데이터에 쉽게 접근하고 표준 대시보드를 활하는 수준을 넘는 다양한 분석을 시도할 수 있었습니다.

citigroup-users.png

Alerting(알림)(이전의 Watcher)을 사용해 컨테이너 인프라 모니터링을 설정함으로써, CitiGroup은 오직 한 팀의 활동만 모니터링하는 것으로 제한하는 대신, 모든 부서를 대상으로 컨테이너 메트릭, 이벤트, 로그를 수집하는 시스템을 개발할 수 있었습니다. 이 정보는 감사 발견사항, 알림 관리, 티켓 발행 등 포함하는 다양한 사용 사례에 대해 사용됩니다.

citigroup-container.png

모니터링 필요와 더불어, CitiGroup의 IT 팀들은 다른 사용자 그룹(경영진 포함)과 발견사항을 공유하기 위한 확장 가능하고 안전한 방법이 필요했습니다. Kibana를 사용해, 이들은 실시간으로 애플리케이션 상태의 집계 보기, 메트릭과 로그의 개별 보기, 컨테이너 리소스 사용 및 토폴로지 정보를 제공하는 대시보드를 생성할 수 있었습니다. 사용자는 또한 애플리케이션이나 컨테이너로 세부적으로 들어가 그 소스에서 문제를 발견할 수도 있습니다. 운영팀과 애플리케이션팀은 데이터를 보는 방법을 뒤집어, 도구 성능을 모니터링하고 실제 도구의 효과성 개요를 보여주는 보고서를 실행하는 데 필요한 하향식 보기와 상향식 보기를 할 수 있습니다.

CitiGroup이 어떻게 고급 검색 분석을 활용하여 CitiGroup에서 인프라 모니터링을 지원하는지 보고 싶으세요? Elastic{ON} 대담, CitiGroup의 애플리케이션과 인프라 모니터링을 시청하세요.

Screen Shot 2018-10-29 at 1.37.52 PM.png